한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 부산대학교 컴퓨터공학과 김민호 2012년 5월 22일
목차 1. 들어가는 말 2. 관련 연구 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 4. 실험 2.1 어의 중의성 해소 방법 2.2 지식 기반 어의 중의성 해소 2.3 말뭉치 기반 어의 중의성 해소 2.4 한국어 어의 중의성 해소 연구 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 3.1 KorLex를 이용한 어휘 간 연관성 분석 3.2 KorLex를 이용한 어의 중의성 해소 4. 실험 5. 결론과 향후 연구
1. 들어가는 말 자연언어처리 단계 어의 중의성 해소(Word Sense Disambiguation) 형태소 분석 통사 분석 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 먹었다(먹다/VV+었/EP+다/EF) 통사 분석 나는(S) 사과를(O) 먹었다(V) 의미 분석 사과 = apple 화용 분석 어의 중의성 해소(Word Sense Disambiguation) 둘 이상의 의미로 사용되는 어휘(이하 중의성 어휘)가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업 그 사람은 수술을 통해 불편한 다리를 고쳤다.
1. 들어가는 말 어의 중의성 해소의 필요성 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추출하여 이용하려면 어의 중의성 해소가 필요함 표준국어대사전에 실린 표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어원, 2002) 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨
1. 들어가는 말 어의 중의성 해소 대상 동철이의어(homonym) – cf. 다의어(polysemy), 동의어(synonym)
2.1 어의 중의성 해소 방법 지식 기반 중의성 해소 말뭉치 기반 중의성 해소 2. 1 관련 연구 2.1 어의 중의성 해소 방법 지식 기반 중의성 해소 기계 가독형 사전(machine readable dictionary)과 같은 지식에 기반을 둔 방법 어의 중의성 해소에 이용하는 언어 자원에 따라 구분 기계 가독형 사전의 사전 뜻풀이를 이용하는 방법 시소러스(thesaurus)나 기계 가독형 사전에 의하여 제공되는 의미 범주를 이용하는 방법 2개 국어로 된 사전(bilingual dictionary)의 어휘 대응을 이용하는 방법 말뭉치 기반 중의성 해소 대규모의 말뭉치에서 추출한 통계 정보에 기반을 둔 방법 어의 중의성 해소에 이용하는 말뭉치에 따라 구분 의미 부착 말뭉치를 이용하는 감독(supervised) 중의성 해소 의미 미부착 말뭉치를 이용하는 비감독(unsupervised) 중의성 해소 .
사전 뜻풀이를 이용하는 방법 기계 가독형 사전의 사전 뜻풀이를 이용 2. 관련 연구 - 2.2 지식 기반 어의 중의성 해소 사전 뜻풀이를 이용하는 방법 기계 가독형 사전의 사전 뜻풀이를 이용 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들과 중의성 어휘와 함께 나타난 어휘의 사전 뜻풀이에 쓰인 어휘들 사이에 중복되는 어휘가 가장 많은 의미를 중의성 어휘의 의미로 선택 어휘 간의 정확한 일치가 있어야 하기 때문에 사전으로부터 얻는 정보만으로는 높은 성능의 어의 중의성 해소를 기대하기 힘듦 Lesk(1986)는 이 방법을 이용하여 평균 50~70%의 정확도를 보임 그 사람은 수술을 통해 불편한 다리를 고쳤다. 어휘 사전 뜻풀이에 쓰인 어휘 함께 나타난 사람 생각, 언어, 만들다, 쓰다, 사회, 살다, 동물, …. 수술 피부, 점막, 조직, 기계, 병, 고치다, …. … 중의성 다리 01 사람, 동물, 몸통, 신체, …. 다리 02 물, 건너다, 시설물, ….
의미 범주를 이용하는 방법 시소러스의 의미 범주(semantic categorization)를 이용 2. 관련 연구 - 2.2 지식 기반 어의 중의성 해소 의미 범주를 이용하는 방법 시소러스의 의미 범주(semantic categorization)를 이용 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인 문맥의 의미 범주를 결정한다는 생각에 기반을 둔 방법 중의성 어휘와 함께 나타난 어휘들이 가장 많이 속한 의미 범주를 가진 의미를 중의성 어휘의 의미로 선택 Yarowsky(1992)는 Roget 시소러스(1,042개의 의미 범주를 가짐)를 이용하여 12개의 중의성 어휘에 대하여 평균 90%의 정확도를 보임 중의성 어휘의 의미가 ‘property’, ‘injustice’ 등 일반적인 범주에 속하는 경우 정확도가 높지 않음 w1 w2 … bass …wn-1 wn Word Sense Roget category bass musical senses MUSIC fish ANIMAL
어휘 대응을 이용하는 방법 2개 국어로 된 사전(bilingual dictionary)에서의 어휘 대응을 이용 2. 관련 연구 - 2.2 지식 기반 어의 중의성 해소 어휘 대응을 이용하는 방법 2개 국어로 된 사전(bilingual dictionary)에서의 어휘 대응을 이용 중의성 어휘가 포함된 구절을 각각의 의미에 맞게 다른 언어로 번역한 후, 말뭉치에서의 출현 빈도가 가장 높은 번역 구절의 의미를 선택 Dagan(1994)은 70개의 히브리어 중의성 어휘에 대하여 영어사전을 이용해 63%의 정확도를 보임 사과를 먹다 어휘 의미 영어 번역 사과 apple eat an apple apology eat an apology
의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 2.관련 연구 - 2.3 말뭉치 기반 어의 중의성 해소 의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 대규모의 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법
의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 2.관련 연구 - 2.3 말뭉치 기반 어의 중의성 해소 의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 대규모의 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법 어의 중의성 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습 기법을 적용하여 해결 Gale(1993) – Naïve Bayes를 이용하여 5개의 명사에 대해 90%의 정확도를 보임 Leacok(1993) – Naïve Bayes, neural network, content vector를 이용하여 ‘line’에 대해 각각 72%, 76%, 72%의 정확도를 보임 Perdersen(2000) – Naïve Bayes로 구성된 ensemble machine을 이용하여 ‘line’에 대하여 80%의 정확도를 보임 Florian(2002) – 6개의 서로 다른 classifier의 조합을 이용하여 10개의 명사에 대하여 66.5%의 정확도를 보임 가장 성능이 좋은 방법이지만 의미 부착 말뭉치를 구축하는데 많은 비용이 소요되어 대부분의 연구에서 적은 양의 어휘만을 대상으로 이 방법들을 실험하였음
의미 미부착 말뭉치를 이용하는 방법 비감독 어의 중의성 해소(Unsupervised Disambiguation) 2. 관련 연구 - 2.3 말뭉치 기반 어의 중의성 해소 의미 미부착 말뭉치를 이용하는 방법 비감독 어의 중의성 해소(Unsupervised Disambiguation) 말뭉치의 데이터를 유사도 측정에 의하여 몇 개의 클러스터로 집단화한 후에 수작업으로 클러스터의 의미를 구분한 후, 가장 가까운 클러스터의 의미를 중의성 어휘의 의미로 선택 Schutze(1998) - EM 알고리즘을 사용하여 2개의 의미를 가진 20개의 중의성 어휘에 대하여 약 70~80%의 정확도를 보임 클러스터의 수는 중의성 어휘의 의미 수와 항상 일치하지 않음 지식 기반 어의 중의성 해소와 감독 어의 중의성 해소에 비해 결과가 좋지 않음
기존의 지식 기반 어의 중의성 해소와 비교하여 더 좋은 성능을 보이는 2 . 관련연구 2.4 한국어 어의 중의성 해소 연구 구분 기관 내용 성능 지식 기반 연세대 (2007) Lesk의 사전 기반 알고리즘에 기반을 두고 사전에서 추출한 연어, 한자, 동의어, 반의어, 관련어, 용례 등을 이용 평균 70.06% ETRI (2006) Lesk의 사전 기반 알고리즘에 기반을 두고 말뭉치에서 추출한 어휘 간 상호정보량을 이용 평균 65.06% 의미 부착 말뭉치 울산대 (2003) 기존의 통계기반 감독 중의성 해소 모델에 새로운 가중치(의미 중의성 수, 인접 어절에 대한 거리)를 적용한 모델을 이용 평균 84.63% 고려대 규칙으로 이루어진 다중 자질 결정 목록(decision list)에 기반을 둔 모델을 이용 평균 91.87% 서울대 (2000) 말뭉치에서 추출한 부사격 조사를 24개의 클래스로 분류한 후 학습한 decision tree에 기반을 둔 모델을 이용 평균 76.20% 연구 초기 - 소규모의 의미 부착 말뭉치에 기반을 둔 감독 어의 중의성 해소 학습한 특정 어휘에 대한 어의 중의성 해소만 가능함 최근 - 기존의 문제점을 보완한 지식 기반 어의 중의성 해소 응용 분야에서 이용하기에는 정확도가 낮음 기존의 지식 기반 어의 중의성 해소와 비교하여 더 좋은 성능을 보이는 비감독 어의 중의성 해소 방법이 필요함
어휘의 의미와 주변 문맥에 나타나는 어휘 간 연관성 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 어휘의 의미와 주변 문맥에 나타나는 어휘 간 연관성 어휘의 의미는 주변 문맥에 나타나는 어휘와 강한 연관성을 가짐 중의성 어휘의 의미는 주변 문맥을 통해 알 수 있음 사과(apple)와 함께 나타나는 어휘 사과(apology)와 함께 나타나는 어휘 순위 어휘 출현 빈도 1 먹다 36 2 배 31 3 개(단위) 20 4 떨어지다 18 5 것 16 6 감 15 7 사다 14 8 귤 13 9 같다 12 10 하다 순위 어휘 출현 빈도 1 하다 91 2 대하다 66 3 것 37 4 요구 30 5 재발 6 말 24 7 방지 23 8 국민 22 9 북한 19 10 있다 17
어휘 간 연관성을 어의 중의성 해소에 이용하기 위한 조건 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 어휘 간 연관성을 어의 중의성 해소에 이용하기 위한 조건 첫째 특정 의미와 함께 나타난 어휘를 알려면 의미 부착 말뭉치가 필요함 둘째 어휘 간 연관성을 분석하기 위한 신뢰성 있는 방법이 필요함 한국어 어휘의미망 KorLex를 이용하여 중의성 어휘와 주변에 함께 나타난 어휘 간 연관성을 분석
한국어 어휘의미망 KorLex 한국어 어휘의미망 KorLex의 특징 부산대학교 인공지능연구실과 한국어정보처리연구실에서 제작 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 한국어 어휘의미망 KorLex 한국어 어휘의미망 KorLex의 특징 부산대학교 인공지능연구실과 한국어정보처리연구실에서 제작 2007년 11월에 KorLex 1.5가 공개됨 같은 어의를 가지는 동의어 집합(synonym set, 이하 신셋) 간의 관계들로 이루어짐 명사, 동사, 형용사, 부사, 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있음 한국어 어휘의미망 KorLex
KorLex에 있는 중의성 어휘의 관계어 이용 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 KorLex에 있는 중의성 어휘의 관계어 이용 KorLex에서 가지는 관계를 이용함 부모, 자식, 형제 관계에 있는 신셋에 포함된 어휘(이하 관계어)들은 의미상으로 유사하기 때문에 같은 어휘와 연관성을 가짐 KorLex에서 중의성 어휘의 관계어를 찾은 후, 관계어와 주변 문맥에 함께 나타난 어휘 간 연관성을 분석하면 중의성 어휘의 의미를 알 수 있음 실과 1 과일 1 과실 2 사과 2 귤 1 … 복숭아 1 과일을 먹다 복숭아를 먹다 귤을 먹다 인지 3 사죄 2 사과 1 거절 1 사의 1 감사 1 인지를 먹다 사의를 먹다 감사를 먹다 사죄를 먹다 거절을 먹다 사과를 먹다
가설 검정을 이용한 어휘 간 연관성 분석 Likelihood ratio를 이용한 가설 검정 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 가설 검정을 이용한 어휘 간 연관성 분석 Likelihood ratio를 이용한 가설 검정 귀무가설(두 어휘의 출현은 독립)과 대립가설을 세운 후 연관성을 분석 통계 정보를 이용하여 우도비 λ를 계산 -2logλ 는 자유도가 1인 x2-분포를 따르고, 유의수준이 0.005일 때의 임계치는 7.88임 -2log λ > 7.88이면 귀무가설 기각 두 어휘의 출현은 상호 의존적이다
3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 가설검정을 이용한 어의 중의성 해소 과정 1. 중의성 어휘 wamb의 각 의미 sk와 주변 문맥에 함께 나타난 어휘 간의 연관성 분석 중의성 어휘의 의미 sk와 주변 문맥에 함께 나타난 어휘 vj의 연관성을 sk의 관계어 ri를 이용하여 계산함 2. 중의성 어휘의 의미 결정 주변 문맥에 연관성이 있는 어휘( LR > 7.88 )가 가장 많이 나타난 의미가 중의성 어휘의 의미이다 사과 한 개를 먹었다 주변 문맥에 함께 나타난 어휘 사과(apple)와의 -2logλ 사과(apology)와의 한 20.43 50.89 개 20.24 0.69 먹다 145.25 0.07 연관성 있는 어휘의 수 3개 1개
가설검정을 이용한 어의 중의성 해소의 문제점 새로운 의미 결정 방법의 필요 유의미한 통계 정보의 부족 나는 사과를 먹었다 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 가설검정을 이용한 어의 중의성 해소의 문제점 새로운 의미 결정 방법의 필요 연관성 있는 어휘의 수로 정하는 것은 바르지 못함 주변문맥에 나타난 어휘가 의미 결정에 미치는 영향력을 다름 유의미한 통계 정보의 부족 통계 정보를 구하지 못한 데이터가 나타날 수 있음 통계 정보에 왜곡이 있을 수 있음 나는 사과를 먹었다 주변 문맥에 함께 나타난 어휘 사과(apple)와의 -2logλ 사과(apology)와의 나 5.47 8.95 먹다 145.25 0.07 연관성 있는 어휘의 수 1개
주변 문맥에 나타난 어휘의 영향력 적용 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 공기 어휘 사과 1(apology)과의 값 사과 2(apple)와의 값 먹다(동사) 1.25 86.94 주스(명사) 0.01 17958.63 정부(명사) 3.88 국민(명사) 9.23 공식(명사) 70.05 표명(명사) 25392.88 108.05
3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 자료부족 문제 해결을 위한 어휘 확장
관계어 빈도를 이용한 가중치 관계어 빈도 가중치 적용 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 관계어 빈도를 이용한 가중치 관계어 빈도 가중치 적용 가정: 중의성 어휘(wamb)의 관계어(rw) 빈도의 합에 대한 해당 의미별 관계어 빈도의 합의 비율은 의미별 사용 비율에 비례한다 관계어 가중치를 -2log λ 에 곱함 어휘 의미번호 사전 뜻풀이 형제어 빈도 자식어 빈도 형제어 가중치 자식어 밤 밤01 밤나무의 열매 3,974 0.10 0.00 밤02 저녁 어두운 뒤부터 새벽 밝기까지의 동안 37,473 148 0.90 1.00
KorLex를 이용한 사전 기반 어의 중의성 해소 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 KorLex를 이용한 사전 기반 어의 중의성 해소 가설 검정을 이용하여 어의 중의성을 해결할 수 없는 경우 주변 문맥에 특정 의미와 강한 연관성을 지닌 어휘가 나타나지 않은 경우 자료 부족 문제로 인해 통계 정보가 부족하여 연관성을 지닌 어휘를 찾을 수 없는 경우 기계 가독형 사전의 사전 뜻풀이를 이용 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들과 중의성 어휘와 함께 나타난 어휘의 관계어들 사이에 중복되는 어휘가 가장 많은 의미를 중의성 어휘의 의미로 선택 나는 사과를 먹었다 주변 문맥에 함께 나타난 어휘 사과(apple)와의 -2logλ 사과(apology)와의 나 5.47 8.95 먹다 145.25 0.07 연관성 있는 어휘의 수 1개 해결 방안
사전정보(prior knowledge)를 이용한 의미 결정 수식 보완 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 사전정보(prior knowledge)를 이용한 의미 결정 수식 보완 Bayes’ Rule 사전정보 P(sk) 의 추론
시스템의 구조와 처리 흐름 KorLex 1.5 문장 형태소 분석 한국어 품사 태거 품사 중의성 해소 통계 사전 의미 결정 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 시스템의 구조와 처리 흐름 문장 형태소 분석 품사 중의성 해소 Likelihood Ratio 계산 의미 결정 중의성을 해소한 문장 관계어 가중치 적용 한국어 품사 태거 KorLex 1.5 통계 사전 중의성 어휘 선별 사전 뜻풀이 이용
실험 환경 통계 사전 평가 데이터: 10개의 중의성 어휘를 포함하는 4,492 문장 정확도 4. 실험 실험 환경 통계 사전 21세기 세종 계획의 성과물인 ‘세종 형태 의미 분석 말뭉치(약 1,200만 어절)’에서 평가를 위한 데이터를 뺀 나머지 데이터에서 통계 정보 추출. 부착된 의미 태그는 무시함 ‘사과01’, ‘사과02’를 모두 ‘사과’의 빈도로 계산함 명사, 형용사, 동사, 부사 만을 대상으로 함 평가 데이터: 10개의 중의성 어휘를 포함하는 4,492 문장 세종 형태 의미 분석 말뭉치에서 10개의 중의성 어휘를 포함하는 모든 문장을 추출한 후, 이 중에서 10%만을 무작위로 따로 떼어 수작업으로 정제함 대상 어휘 눈, 다리, 밤, 배, 사과, 신장, 연기, 인도, 인사, 장기 정확도
어의 중의성 해소에 이용하는 중의성 어휘 앞/뒤 어휘의 수 4. 실험 어의 중의성 해소에 이용하는 중의성 어휘 앞/뒤 어휘의 수 어의 중의성 해소에 이용하는 앞/뒤 어절의 수에 따른 정확도 변화 가설 검정을 이용한 어휘 간 연관성과 형제어 가중치만 이용하였을 때의 정확도 어의 중의성 해소에 이용하는 앞/뒤 어휘의 수는 5개가 적당함 Window Size(±N words) Accuracy(%) 어의 중의성 해소를 위해 주변에 함께 나타난 어휘를 이용할 때, 중의성 해소에 이용되는 앞/뒤 어절의 수를 고려하여야 합니다
성능 평가 4. 실험 중의성 어휘 정확도(%) MFC 기본 알고리즘 개선 방안 ① ① +② ① +② +③ 눈 93.98 94.74 손 97.73 93.18 98.48 말 34.65 46.53 54.46 65.35 바람 98.98 96.94 94.90 거리 53.44 47.33 68.70 74.05 자리 89.11 95.05 96.04 의사 62.42 56.36 87.27 89.70 88.48 목 99.00 97.00 94.00 96.00 점 89.90 90.91 88.89 94.95 밤 71.29 77.23 평균 78.29 78.21 83.29 86.22 88.11
전통적인 지식 기반 중의성 해소 방법과 비교(2/2) 4. 실험 전통적인 지식 기반 중의성 해소 방법과 비교(2/2) 결과 분석 전통적인 사전 기반 중의성 해소는 어휘 간의 정확한 일치를 전제로 하기 때문에 높은 정확도를 기대하기 어려움 본 논문에서 제안하는 방법은 KorLex의 관계어를 이용하여 통계적으로 연관성을 분석하기 때문에 비교적 자료 부족 문제에 강건함 본 논문에서 제안하는 통계 정보를 이용한 방법은 unknown data에 대하여 오분석을 일으킴 예를 들어, 평가 데이터에 나타난 ‘태풍의 눈’은 unknown data이기 때문에 통계적인 방법으로 해결할 수 없었으나, 사전 뜻풀이를 추가로 이용함으로써 해결할 수 있었음 ‘눈’과 ‘밤’은 통계 정보가 풍부하지만, 의미가 너무 편향되어 있어 통계 정보가 부족한 의미에 대해 오분석을 일으켜 약 90%의 정확도만 보임 ‘세종 형태 의미 분석 말뭉치’에 나타나는 모든 ‘눈’의 의미를 수작업으로 정제하여 의미 사용 비율을 조사함 어휘 사전 뜻풀이 출현빈도 눈01 감각 기관 12,210 눈02 눈금 눈04 얼음의 결정체 1,418 눈05 초목의 싹 3
타 시스템과의 성능 비교(1/2) 비교 대상: WAMID(ETRI, 20006) 4. 실험 타 시스템과의 성능 비교(1/2) 비교 대상: WAMID(ETRI, 20006) WAMID는 Lesk의 사전 기반 어의 중의성 해소 기술에 기반을 둔 시스템으로 어휘 간의 상호정보량(mutual information), 의미별 비율 가중치, 복합명사 의미 사전을 이용함 자체적으로 구축한 평가 데이터를 대상으로 실험한 결과 상호정보량만을 이용하였을 때 65.06%, 가중치를 활용하였을 때 85.35.%, 복합명사 의미분석 사전을 활용하였을 때 88.82%의 정확도를 보임 비교를 위한 평가 데이터: SENSEVAL-2 한국어 데이터 SENSEVAL-2: 어의 중의성 해소 기술 평가 대회 평가 데이터는 10개의 중의성 어휘(눈, 손, 말, 바람, 거리, 자리, 의사, 목, 점, 밤)으로 구성되어 있음 시스템 정확도 WAMID(2006) 68.04% 연관어휘 이용 75.64% 최종 시스템 88.11%
4. 실험 타 시스템과의 성능 비교(2/2) 실험 결과 분석 WAMID는 단순히 상호정보량이 가장 높은 어휘를 연관성이 있는 어휘로 판단하였기 때문에 오분석의 여지가 있음 상호정보량은 독립성을 측정하기에는 좋은 측도이지만, 의존성을 측정하기에는 좋지 않은 것으로 알려져 있음 ‘WAMID’는 ‘SENSEVAL-2 한국어 데이터’를 자신들의 의미 체계로 대치하는 과정에서 특정 어휘가 하나의 의미로만 대치가 된 예도 있기 때문에 실제 성능 차이는 더 클 것으로 예상됨 ‘SENSEVAL-2 한국어 데이터’는 데이터를 구성하는 의미가 편향되거나 실제로 많이 쓰이지는 않은 의미가 많아 정확도가 높지 않았음 향후 규칙을 통해 개선할 수 있음 어휘 의미번호 의미 데이터 수 바람 바람_1 어떤 일이 이루어지기를 기다리는 마음 바람_2 어떤 일에 더불어 일어나는 기세 97 바람_3 기압 변화로 일어나는 공기의 흐름 1 말 말_1 집짐승 11 말_2 고누, 윷 따위의 판의 군사 33 말_3 사람의 생각과 느낌을 표현하는 수단 말_6 끝 말_9 곡식, 액체의 분량 57
5. 결론 및 향후 연구 한국어 어휘의미망 KorLex 1.5에 기반을 둔 어의 중의성 해소 기술 향후 연구 중의성 어휘의 관계어들의 통계 정보를 이용하기 때문에 풍부한 통계 정보를 얻을 수 있어 기존의 통계 정보 기반 방법들에 비해 자료 부족 문제에 좀 더 강함 기존의 지식 기반 어의 중의성 해소보다 나은 비감독 중의성 해소 기술 향후 연구 더 많은 평가 데이타를 이용하여 제안한 기술의 신뢰성을 더 높여야 함 통계적으로 해결할 수 없는 오류 유형에 대한 분석 및 해결 방안 연구 규칙을 이용한 어의 중의성 해소 특정 어휘와 강한 연관성을 지니는 어휘로 이루어진 사전을 미리 구축함으로써 처리 속도 향상 33/33
감사합니다 Q & A END