김민호 (karma@pusan.ac.kr) 부산대학교 전자전기컴퓨터공학과 자연언어처리 김민호 (karma@pusan.ac.kr) 부산대학교 전자전기컴퓨터공학과
자연언어처리 자연언어(natural language) 자연언어처리(natural language processing) 인간이 일상적으로 사용하는 언어 한국어, 영어, 일본어, 중국어, 프랑스어 등 인공언어(artificial language)와 대비됨 자연언어처리(natural language processing) 인간이 보통 쓰는 언어를 컴퓨터에 인식시켜서 처리하는 일 정보검색, 질의응답 시스템, 기계번역, 음성인식, 음성합성 등
자연언어처리 단계 자연언어처리 단계 형태소 분석 통사 분석 의미 분석 화용 분석 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 받았다(받다/VV+았/EP+다/EF) 통사 분석 나는(S) 사과를(O) 받았다(V) 의미 분석 사과 = apple 사과 = apology 화용 분석 나는 사과를 받았다. 그것은 맛있었다.
자연언어처리의 어려움 중의성(ambiguity) 화용 분석 형태소 중의성 통사 중의성 의미 중의성 실세계와의 연결 나는: 나+는, 날다+는, 나다+는 통사 중의성 아름다운 영희의 엄마 의미 중의성 눈이 맑다, 눈이 좋다, 눈이 정확하다, 눈을 의식하다 화용 분석 실세계와의 연결 고양이가 쥐를 쫓는다. 그게 열심히 도망간다. 고양이가 쥐를 쫓는다. 그게 열심히 쫓아간다.
나는 진정한 사과를 받았다. vs 나는 맛있는 사과를 받았다. 의미 분석 어의 중의성 해소(Word Sense Disambiguation) 중의성 어휘가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업 나는 사과를 받았다. 나는 진정한 사과를 받았다. vs 나는 맛있는 사과를 받았다.
어의 중의성 해소의 필요성 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추 출하여 이용하려면 어의 중의성 해소가 필요함 표준국어대사전에 실린 표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어 원, 2002) 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨 기계번역의 예는 ‘구글번역기’를 사용한 것입니다. 구글번역에서 ‘진정한 사과’를 ‘a sincere apoloby’로 번역하기에 그대로 두었습니다. 그리고 ‘나는 맛있는 사과를 받았다’를 ‘I was delicious apples.’로 번역하였는데, 사용자가 대역어 후보 중에서 선택을 할 수 있기 때문에 ‘was -> recived a’로 수정하였습니다. 이 때문에 그림에서 파란색으로 표시됩니다.
어의 중의성 해소 대상
지식기반 WSD: 사전 뜻풀이 지식의 유형 중의성 어휘의 의미 결정 방식 기계 가독형 사전의 뜻풀이 (a)와 (b) 사이에 중복되는 어휘가 가장 많은 의미 (a) 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들 (b) 문장에서 중의성 어휘의 공기 어휘의 사전 뜻풀이에 쓰인 어휘들 그 사람은 수술을 통해 불편한 다리를 고쳤다. **표에서 맨 아래의 파란색 선 없애줄 것**** 어휘 사전 뜻풀이에 쓰인 어휘 (a) 중의성 다리 01 사람, 동물, 몸통, 신체, …. 다리 02 물, 건너다, 시설물, …. (b) 공기 사람 생각, 언어, 만들다, 쓰다, 사회, 살다, 동물, …. 수술 피부, 점막, 조직, 기계, 병, 고치다, …. …
지식기반 WSD: 의미 범주 지식의 유형 중의성 어휘의 의미 결정 방식 시소러스 등의 의미 범주(semantic category) 중의성 어휘의 의미 결정 방식 중의성 어휘와 공기하는 어휘들이 가장 많이 속한 의미 범주를 가진 의미 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인 문맥의 의미 범주를 결정 한다는 가정에 기반을 둔 방법 w1 w2 … bass …wn-1 wn Word Sense Roget’s Thesaurus bass musical senses MUSIC fish ANIMAL
지식기반 WSD: 대응 어휘 쌍 지식의 유형 중의성 어휘의 의미 결정 방식 2개 국어로 된 사전(bilingual dictionary)에서 대응되는 어휘쌍 중의성 어휘의 의미 결정 방식 중의성 어휘가 포함된 구절을 이중어 사전을 이용해 각각의 의미에 따 라 다른 언어로 번역한 후, 말뭉치에서의 출현 빈도가 가장 높은 번역 구절의 의미를 선택함 사과를 먹다 어휘 의미 영어 번역 사과 apple eat an apple apology eat an apology
말뭉치 기반 WSD: 의미 부착 말뭉치 감독(Supervised) WSD 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법 WSD 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습 기법을 적용하여 해결 Naïve Bayes Decsion Tree Supprot Vector Machine
Naïve Bayes for WSD
정보검색(Information retrieval) Goal = find documents relevant to an information need from a large document set Info. need Query IR system Document collection Retrieval Answer list
Possible approaches - Fast - Flexible to further improvement 1. String matching (linear search in documents) - Slow - Difficult to improve 2. Indexing (*) - Fast - Flexible to further improvement
Indexing-based IR Document Query indexing indexing (Query analysis) Representation Representation (keywords) Query (keywords) evaluation
Indexing Indexing 단위 음절, 형태소, 단어 등 N-gram
질의어 확장 동의어/유의어 확장 맞춤법/문법 오류 교정 로마자 표기 변환