LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호
시소러스의 필요성 자동 문서 처리 시스템의 문제점 기존 시소러스의 문제점 컴퓨터는 기본적으로 구문론적 방식으로 작동 자연어는 기표와 기의의 쌍으로 이루어짐 컴퓨터는 기호의 의미를 이해하지 못함 주어진 단어가 아니면 분석을 못함 의미 정보가 들어 있는 시소러스를 이용 기존 시소러스의 문제점 구축에 많은 비용이 든다. 자연언어의 다변성에 잘 대처하지 못한다. 새로운 환경에 잘 적용되지 못한다.
LSA(Latent Semantic Analysis) 특성 통계적 방법론 완전 자동적 충분한 문맥 자료만 주어지면 단어들간의 연관성을 찾아냄. local co-occurrence 를 통하여 global 지식을 도출 구문론적 정보는 고려치 않음 언어적 지각적 유사성 사용 않음.
SVD 문맥 [DJ 내각제 발언] 자민련 반응 `백인백색' 김대중 대통령이 지난 18일 충남에서 가진 기자회견에서 "내각제 개헌문제를 8월에 해결하겠다"고 밝힌 데 대해 자민련 관계자들의 반 응은 여러 갈래로 나뉘고 있다. 이양희 대변인은 "매우 긍정적이고 고무적인 상황전개로 본다"며 그 근거로 두 가지를 들었다. 우선 발언장소가 자민련의 텃밭인 충남 이었다는 점, 또 "국민회의와 자민련이 협의해서 여러분들(충남 보도 진)이 납득할 수 있는 방안을 마련하겠다"고 언급한 대목이다. 이 대 변인은 "자민련이희망하는 방향으로 약속을 이행하겠다는 의미가 아 니겠느냐"고 분석했다.
문맥
SVD
학습 학습 데이터 학습 국내 90년도 신문 (164Mb) 문서 수 : 23598 색인어 수 : 9999 (40<term frequency<3202) 학습 SVD를 이용하여 변형된 메트릭스 X를 구함 사용된 singular value : 100개
테스트 테스트 데이터 금일 인터넷 신문 정치 2 경제 2 단어 중심 색인과 LSI의 결과를 비교
결과
결론 LSA를 이용한 색인 방법의 장점 연구할 사항 문서에 나와 있지 않은 정보도 이용한다. 통계적인 방법론적 근거 자동화 변화하는 환경에서도 사용 가능 연구할 사항 LSA를 사람의 유비추리에 적용