한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소

Slides:



Advertisements
Similar presentations
프로그램이란 프로그램 생성 과정 프로젝트 생성 프로그램 실행 컴퓨터를 사용하는 이유는 무엇인가 ? – 주어진 문제를 쉽고, 빠르게 해결하기 위해서 사용한다. 컴퓨터를 사용한다는 것은 ? – 컴퓨터에 설치 혹은 저장된 프로그램을 사용하는 것이다. 문제를 해결하기 위한.
Advertisements

Cinema Manager System 최종 발표 조 team05 발표자 : 임 창목 1.
영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
컴퓨터와 인터넷.
Deep Learning.
방중 학습소모임 PRESENTATION 팀장: 안지현.
제 7 장 함수 사용을 통해 엑셀 정복하기.
의사 결정 트리(decision tree)
사회자와 참여자의 역할과 책임 토론 사회자의 주된 역할 객관적인 입장에서 토론이 원만히 이루어지도록 공정하게 토론을 진행
3일차 - 가설검정.
Entity Relationship Diagram
Hybrid INDIGO project 중간보고
WJ543 인공지능 2003년도 제 2학기.
Learning Classifier using DNA Bagging
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
잠재력의 발견
분석적 사고 (Analytical Thinking)
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
컴퓨터과학 전공탐색 배상원.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
자바 5.0 프로그래밍.
암 전이 억제 유전자 발굴 및 작동 기전 연구 (Nature지 4월 14일자 발표)
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
군집 분석.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
제 10 장 의사결정이란 의사결정은 선택이다.
식물은 어떻게 자손을 남길까(1) <생각 열기> 사과, 배, 복숭아 등의 과수나무를 재배하거나
소규모 IPTV 사업자용 실시간 미디어 플랫폼 기술
뇌를 자극하는 Windows Server 장. 원격 접속 서버.
두 모집단에 대한 검정.
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
Decision Tree & Ensemble methods
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
데이터 베이스 DB2 관계형 데이터 모델 권준영.
텍스트 분석 기초.
인생과 신앙을 푸는 열쇠 “EQ” - Emotional Intelligence
알고리즘 알고리즘이란 무엇인가?.
김민호 부산대학교 전자전기컴퓨터공학과 자연언어처리 김민호 부산대학교 전자전기컴퓨터공학과.
수율관리를 위한 POP시스템 목적과 용도 시스템과 구성 POP의 효과
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
시각절벽실험 김현우.
문서 클러스터링 일본언어문화학과 서동진.
PCA 개선 서울대학교 박노열.
Word2Vec.
Word Embedding.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
유체 속에서 움직이는 것들의 발전 진행하는 추진력에 따라 압력 차이에 의한 저항력을 가지게 된다. 그런데, 앞에서 받는 저항보다 뒤에서 받는 저항(흡인력)이 훨씬 더 크다. 유체 속에서 움직이는 것들은 흡인에 의한 저항력의 최소화를 위한 발전을 거듭한다. 그것들은, 유선형(Streamlined.
비교분석 보고서 Template 2015.
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
.Net FrameWork for Web2.0 한석수
3장 (2) 구문과 의미론 순천향대학교 컴퓨터공학과 하상호.
실험의 목적 저울 사용법의 익힘 무게법 분석의 기초 일정무게로 건조하기. BaCl2 • 2H2O 의 수분함량 측정Determination of water in Barium Chloride Dihydrate.
수치해석 ch3 환경공학과 김지숙.
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
Ch 07. 조사 도구 개발 조사 도구 개발 과정 조사주제 •가설 정의 개념화•조작화 척도 질문지 구성-원칙과 양식
레크리에이션과 여가 배장섭.
                              데이터베이스 설계 및 실습 #6 - SQL 실습 한국외국어대학교 DaPS 연구실                              
Ch12. Deep Learning (Backpropagation)
중국 중산층 장기 해외여행자 증가 이유 언어정보학과 김예원.
문제의 답안 잘 생각해 보시기 바랍니다..
나의 꿈 발표 6학년3반 이서은.
LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호.
Presentation transcript:

한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 부산대학교 컴퓨터공학과 김민호 2012년 5월 22일

목차 1. 들어가는 말 2. 관련 연구 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 4. 실험 2.1 어의 중의성 해소 방법 2.2 지식 기반 어의 중의성 해소 2.3 말뭉치 기반 어의 중의성 해소 2.4 한국어 어의 중의성 해소 연구 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 3.1 KorLex를 이용한 어휘 간 연관성 분석 3.2 KorLex를 이용한 어의 중의성 해소 4. 실험 5. 결론과 향후 연구

1. 들어가는 말 자연언어처리 단계 어의 중의성 해소(Word Sense Disambiguation) 형태소 분석 통사 분석 나는(나/NN+는/JX) 사과를(사과/NN+를/JX) 먹었다(먹다/VV+었/EP+다/EF) 통사 분석 나는(S) 사과를(O) 먹었다(V) 의미 분석 사과 = apple 화용 분석 어의 중의성 해소(Word Sense Disambiguation) 둘 이상의 의미로 사용되는 어휘(이하 중의성 어휘)가 문맥에서 어떤 의미로 사용되었는지를 구분하는 작업 그 사람은 수술을 통해 불편한 다리를 고쳤다.

1. 들어가는 말 어의 중의성 해소의 필요성 자연언어는 본질적으로 많은 의미 중의성을 지니고 있기 때문에 정확한 언어 정보를 추출하여 이용하려면 어의 중의성 해소가 필요함 표준국어대사전에 실린 표제어 509,076개 중 24.37%(124,254개)가 중의성 어휘임(국립국어원, 2002) 기계번역이나 정보검색과 같은 응용 분야에서 중요한 역할을 함 기계번역 - 주어진 어휘의 올바른 대역어를 선택하는 데 사용됨 정보검색 - 질의어가 포함된 문서를 의미별로 분류하는 데 사용됨

1. 들어가는 말 어의 중의성 해소 대상 동철이의어(homonym) – cf. 다의어(polysemy), 동의어(synonym)

2.1 어의 중의성 해소 방법 지식 기반 중의성 해소 말뭉치 기반 중의성 해소 2. 1 관련 연구 2.1 어의 중의성 해소 방법 지식 기반 중의성 해소 기계 가독형 사전(machine readable dictionary)과 같은 지식에 기반을 둔 방법 어의 중의성 해소에 이용하는 언어 자원에 따라 구분 기계 가독형 사전의 사전 뜻풀이를 이용하는 방법 시소러스(thesaurus)나 기계 가독형 사전에 의하여 제공되는 의미 범주를 이용하는 방법 2개 국어로 된 사전(bilingual dictionary)의 어휘 대응을 이용하는 방법 말뭉치 기반 중의성 해소 대규모의 말뭉치에서 추출한 통계 정보에 기반을 둔 방법 어의 중의성 해소에 이용하는 말뭉치에 따라 구분 의미 부착 말뭉치를 이용하는 감독(supervised) 중의성 해소 의미 미부착 말뭉치를 이용하는 비감독(unsupervised) 중의성 해소 .

사전 뜻풀이를 이용하는 방법 기계 가독형 사전의 사전 뜻풀이를 이용 2. 관련 연구 - 2.2 지식 기반 어의 중의성 해소 사전 뜻풀이를 이용하는 방법 기계 가독형 사전의 사전 뜻풀이를 이용 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들과 중의성 어휘와 함께 나타난 어휘의 사전 뜻풀이에 쓰인 어휘들 사이에 중복되는 어휘가 가장 많은 의미를 중의성 어휘의 의미로 선택 어휘 간의 정확한 일치가 있어야 하기 때문에 사전으로부터 얻는 정보만으로는 높은 성능의 어의 중의성 해소를 기대하기 힘듦 Lesk(1986)는 이 방법을 이용하여 평균 50~70%의 정확도를 보임 그 사람은 수술을 통해 불편한 다리를 고쳤다. 어휘 사전 뜻풀이에 쓰인 어휘 함께 나타난 사람 생각, 언어, 만들다, 쓰다, 사회, 살다, 동물, …. 수술 피부, 점막, 조직, 기계, 병, 고치다, …. … 중의성 다리 01 사람, 동물, 몸통, 신체, …. 다리 02 물, 건너다, 시설물, ….

의미 범주를 이용하는 방법 시소러스의 의미 범주(semantic categorization)를 이용 2. 관련 연구 - 2.2 지식 기반 어의 중의성 해소 의미 범주를 이용하는 방법 시소러스의 의미 범주(semantic categorization)를 이용 같은 문맥에 있는 어휘들의 의미 범주가 결국은 전체적인 문맥의 의미 범주를 결정한다는 생각에 기반을 둔 방법 중의성 어휘와 함께 나타난 어휘들이 가장 많이 속한 의미 범주를 가진 의미를 중의성 어휘의 의미로 선택 Yarowsky(1992)는 Roget 시소러스(1,042개의 의미 범주를 가짐)를 이용하여 12개의 중의성 어휘에 대하여 평균 90%의 정확도를 보임 중의성 어휘의 의미가 ‘property’, ‘injustice’ 등 일반적인 범주에 속하는 경우 정확도가 높지 않음 w1 w2 … bass …wn-1 wn Word Sense Roget category bass musical senses MUSIC fish ANIMAL

어휘 대응을 이용하는 방법 2개 국어로 된 사전(bilingual dictionary)에서의 어휘 대응을 이용 2. 관련 연구 - 2.2 지식 기반 어의 중의성 해소 어휘 대응을 이용하는 방법 2개 국어로 된 사전(bilingual dictionary)에서의 어휘 대응을 이용 중의성 어휘가 포함된 구절을 각각의 의미에 맞게 다른 언어로 번역한 후, 말뭉치에서의 출현 빈도가 가장 높은 번역 구절의 의미를 선택 Dagan(1994)은 70개의 히브리어 중의성 어휘에 대하여 영어사전을 이용해 63%의 정확도를 보임 사과를 먹다 어휘 의미 영어 번역 사과 apple eat an apple apology eat an apology

의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 2.관련 연구 - 2.3 말뭉치 기반 어의 중의성 해소 의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 대규모의 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법

의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 2.관련 연구 - 2.3 말뭉치 기반 어의 중의성 해소 의미 부착 말뭉치를 이용하는 방법 감독 어의 중의성 해소(Supervised Disambiguation) 대규모의 의미 부착 말뭉치에서 추출한 통계 정보를 이용하는 방법 어의 중의성 문제를 기계학습에서의 통계적 분류 문제로 단순화하여 여러 기계학습 기법을 적용하여 해결 Gale(1993) – Naïve Bayes를 이용하여 5개의 명사에 대해 90%의 정확도를 보임 Leacok(1993) – Naïve Bayes, neural network, content vector를 이용하여 ‘line’에 대해 각각 72%, 76%, 72%의 정확도를 보임 Perdersen(2000) – Naïve Bayes로 구성된 ensemble machine을 이용하여 ‘line’에 대하여 80%의 정확도를 보임 Florian(2002) – 6개의 서로 다른 classifier의 조합을 이용하여 10개의 명사에 대하여 66.5%의 정확도를 보임 가장 성능이 좋은 방법이지만 의미 부착 말뭉치를 구축하는데 많은 비용이 소요되어 대부분의 연구에서 적은 양의 어휘만을 대상으로 이 방법들을 실험하였음

의미 미부착 말뭉치를 이용하는 방법 비감독 어의 중의성 해소(Unsupervised Disambiguation) 2. 관련 연구 - 2.3 말뭉치 기반 어의 중의성 해소 의미 미부착 말뭉치를 이용하는 방법 비감독 어의 중의성 해소(Unsupervised Disambiguation) 말뭉치의 데이터를 유사도 측정에 의하여 몇 개의 클러스터로 집단화한 후에 수작업으로 클러스터의 의미를 구분한 후, 가장 가까운 클러스터의 의미를 중의성 어휘의 의미로 선택 Schutze(1998) - EM 알고리즘을 사용하여 2개의 의미를 가진 20개의 중의성 어휘에 대하여 약 70~80%의 정확도를 보임 클러스터의 수는 중의성 어휘의 의미 수와 항상 일치하지 않음 지식 기반 어의 중의성 해소와 감독 어의 중의성 해소에 비해 결과가 좋지 않음

기존의 지식 기반 어의 중의성 해소와 비교하여 더 좋은 성능을 보이는 2 . 관련연구 2.4 한국어 어의 중의성 해소 연구 구분 기관 내용 성능 지식 기반 연세대 (2007) Lesk의 사전 기반 알고리즘에 기반을 두고 사전에서 추출한 연어, 한자, 동의어, 반의어, 관련어, 용례 등을 이용 평균 70.06% ETRI (2006) Lesk의 사전 기반 알고리즘에 기반을 두고 말뭉치에서 추출한 어휘 간 상호정보량을 이용 평균 65.06% 의미 부착 말뭉치 울산대 (2003) 기존의 통계기반 감독 중의성 해소 모델에 새로운 가중치(의미 중의성 수, 인접 어절에 대한 거리)를 적용한 모델을 이용 평균 84.63% 고려대 규칙으로 이루어진 다중 자질 결정 목록(decision list)에 기반을 둔 모델을 이용 평균 91.87% 서울대 (2000) 말뭉치에서 추출한 부사격 조사를 24개의 클래스로 분류한 후 학습한 decision tree에 기반을 둔 모델을 이용 평균 76.20% 연구 초기 - 소규모의 의미 부착 말뭉치에 기반을 둔 감독 어의 중의성 해소 학습한 특정 어휘에 대한 어의 중의성 해소만 가능함 최근 - 기존의 문제점을 보완한 지식 기반 어의 중의성 해소 응용 분야에서 이용하기에는 정확도가 낮음 기존의 지식 기반 어의 중의성 해소와 비교하여 더 좋은 성능을 보이는 비감독 어의 중의성 해소 방법이 필요함

어휘의 의미와 주변 문맥에 나타나는 어휘 간 연관성 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 어휘의 의미와 주변 문맥에 나타나는 어휘 간 연관성 어휘의 의미는 주변 문맥에 나타나는 어휘와 강한 연관성을 가짐 중의성 어휘의 의미는 주변 문맥을 통해 알 수 있음 사과(apple)와 함께 나타나는 어휘 사과(apology)와 함께 나타나는 어휘 순위 어휘 출현 빈도 1 먹다 36 2 배 31 3 개(단위) 20 4 떨어지다 18 5 것 16 6 감 15 7 사다 14 8 귤 13 9 같다 12 10 하다 순위 어휘 출현 빈도 1 하다 91 2 대하다 66 3 것 37 4 요구 30 5 재발 6 말 24 7 방지 23 8 국민 22 9 북한 19 10 있다 17

어휘 간 연관성을 어의 중의성 해소에 이용하기 위한 조건 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 어휘 간 연관성을 어의 중의성 해소에 이용하기 위한 조건 첫째 특정 의미와 함께 나타난 어휘를 알려면 의미 부착 말뭉치가 필요함 둘째 어휘 간 연관성을 분석하기 위한 신뢰성 있는 방법이 필요함 한국어 어휘의미망 KorLex를 이용하여 중의성 어휘와 주변에 함께 나타난 어휘 간 연관성을 분석

한국어 어휘의미망 KorLex 한국어 어휘의미망 KorLex의 특징 부산대학교 인공지능연구실과 한국어정보처리연구실에서 제작 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 한국어 어휘의미망 KorLex 한국어 어휘의미망 KorLex의 특징 부산대학교 인공지능연구실과 한국어정보처리연구실에서 제작 2007년 11월에 KorLex 1.5가 공개됨 같은 어의를 가지는 동의어 집합(synonym set, 이하 신셋) 간의 관계들로 이루어짐 명사, 동사, 형용사, 부사, 분류사로 구성되며, 약 13만 개의 신셋과 약 15만 개의 어의를 포함하고 있음 한국어 어휘의미망 KorLex

KorLex에 있는 중의성 어휘의 관계어 이용 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 KorLex에 있는 중의성 어휘의 관계어 이용 KorLex에서 가지는 관계를 이용함 부모, 자식, 형제 관계에 있는 신셋에 포함된 어휘(이하 관계어)들은 의미상으로 유사하기 때문에 같은 어휘와 연관성을 가짐 KorLex에서 중의성 어휘의 관계어를 찾은 후, 관계어와 주변 문맥에 함께 나타난 어휘 간 연관성을 분석하면 중의성 어휘의 의미를 알 수 있음 실과 1 과일 1 과실 2 사과 2 귤 1 … 복숭아 1 과일을 먹다 복숭아를 먹다 귤을 먹다 인지 3 사죄 2 사과 1 거절 1 사의 1 감사 1 인지를 먹다 사의를 먹다 감사를 먹다 사죄를 먹다 거절을 먹다 사과를 먹다

가설 검정을 이용한 어휘 간 연관성 분석 Likelihood ratio를 이용한 가설 검정 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 가설 검정을 이용한 어휘 간 연관성 분석 Likelihood ratio를 이용한 가설 검정 귀무가설(두 어휘의 출현은 독립)과 대립가설을 세운 후 연관성을 분석 통계 정보를 이용하여 우도비 λ를 계산 -2logλ 는 자유도가 1인 x2-분포를 따르고, 유의수준이 0.005일 때의 임계치는 7.88임 -2log λ > 7.88이면 귀무가설 기각 두 어휘의 출현은 상호 의존적이다

3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 가설검정을 이용한 어의 중의성 해소 과정 1. 중의성 어휘 wamb의 각 의미 sk와 주변 문맥에 함께 나타난 어휘 간의 연관성 분석 중의성 어휘의 의미 sk와 주변 문맥에 함께 나타난 어휘 vj의 연관성을 sk의 관계어 ri를 이용하여 계산함 2. 중의성 어휘의 의미 결정 주변 문맥에 연관성이 있는 어휘( LR > 7.88 )가 가장 많이 나타난 의미가 중의성 어휘의 의미이다 사과 한 개를 먹었다 주변 문맥에 함께 나타난 어휘 사과(apple)와의 -2logλ 사과(apology)와의 한 20.43 50.89 개 20.24 0.69 먹다 145.25 0.07 연관성 있는 어휘의 수 3개 1개

가설검정을 이용한 어의 중의성 해소의 문제점 새로운 의미 결정 방법의 필요 유의미한 통계 정보의 부족 나는 사과를 먹었다 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 가설검정을 이용한 어의 중의성 해소의 문제점 새로운 의미 결정 방법의 필요 연관성 있는 어휘의 수로 정하는 것은 바르지 못함 주변문맥에 나타난 어휘가 의미 결정에 미치는 영향력을 다름 유의미한 통계 정보의 부족 통계 정보를 구하지 못한 데이터가 나타날 수 있음 통계 정보에 왜곡이 있을 수 있음 나는 사과를 먹었다 주변 문맥에 함께 나타난 어휘 사과(apple)와의 -2logλ 사과(apology)와의 나 5.47 8.95 먹다 145.25 0.07 연관성 있는 어휘의 수 1개

주변 문맥에 나타난 어휘의 영향력 적용 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 공기 어휘 사과 1(apology)과의 값 사과 2(apple)와의 값 먹다(동사) 1.25 86.94 주스(명사) 0.01 17958.63 정부(명사) 3.88 국민(명사) 9.23 공식(명사) 70.05 표명(명사) 25392.88 108.05

3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 자료부족 문제 해결을 위한 어휘 확장

관계어 빈도를 이용한 가중치 관계어 빈도 가중치 적용 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 관계어 빈도를 이용한 가중치 관계어 빈도 가중치 적용 가정: 중의성 어휘(wamb)의 관계어(rw) 빈도의 합에 대한 해당 의미별 관계어 빈도의 합의 비율은 의미별 사용 비율에 비례한다 관계어 가중치를 -2log λ 에 곱함 어휘 의미번호 사전 뜻풀이 형제어 빈도 자식어 빈도 형제어 가중치 자식어 밤 밤01 밤나무의 열매 3,974 0.10 0.00 밤02 저녁 어두운 뒤부터 새벽 밝기까지의 동안 37,473 148 0.90 1.00

KorLex를 이용한 사전 기반 어의 중의성 해소 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 KorLex를 이용한 사전 기반 어의 중의성 해소 가설 검정을 이용하여 어의 중의성을 해결할 수 없는 경우 주변 문맥에 특정 의미와 강한 연관성을 지닌 어휘가 나타나지 않은 경우 자료 부족 문제로 인해 통계 정보가 부족하여 연관성을 지닌 어휘를 찾을 수 없는 경우 기계 가독형 사전의 사전 뜻풀이를 이용 중의성 어휘의 사전 뜻풀이에 쓰인 어휘들과 중의성 어휘와 함께 나타난 어휘의 관계어들 사이에 중복되는 어휘가 가장 많은 의미를 중의성 어휘의 의미로 선택 나는 사과를 먹었다 주변 문맥에 함께 나타난 어휘 사과(apple)와의 -2logλ 사과(apology)와의 나 5.47 8.95 먹다 145.25 0.07 연관성 있는 어휘의 수 1개 해결 방안

사전정보(prior knowledge)를 이용한 의미 결정 수식 보완 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 사전정보(prior knowledge)를 이용한 의미 결정 수식 보완 Bayes’ Rule 사전정보 P(sk) 의 추론

시스템의 구조와 처리 흐름 KorLex 1.5 문장 형태소 분석 한국어 품사 태거 품사 중의성 해소 통계 사전 의미 결정 3. 한국어 어휘의미망에 기반을 둔 비감독 어의 중의성 해소 시스템의 구조와 처리 흐름 문장 형태소 분석 품사 중의성 해소 Likelihood Ratio 계산 의미 결정 중의성을 해소한 문장 관계어 가중치 적용 한국어 품사 태거 KorLex 1.5 통계 사전 중의성 어휘 선별 사전 뜻풀이 이용

실험 환경 통계 사전 평가 데이터: 10개의 중의성 어휘를 포함하는 4,492 문장 정확도 4. 실험 실험 환경 통계 사전 21세기 세종 계획의 성과물인 ‘세종 형태 의미 분석 말뭉치(약 1,200만 어절)’에서 평가를 위한 데이터를 뺀 나머지 데이터에서 통계 정보 추출. 부착된 의미 태그는 무시함 ‘사과01’, ‘사과02’를 모두 ‘사과’의 빈도로 계산함 명사, 형용사, 동사, 부사 만을 대상으로 함 평가 데이터: 10개의 중의성 어휘를 포함하는 4,492 문장 세종 형태 의미 분석 말뭉치에서 10개의 중의성 어휘를 포함하는 모든 문장을 추출한 후, 이 중에서 10%만을 무작위로 따로 떼어 수작업으로 정제함 대상 어휘 눈, 다리, 밤, 배, 사과, 신장, 연기, 인도, 인사, 장기 정확도

어의 중의성 해소에 이용하는 중의성 어휘 앞/뒤 어휘의 수 4. 실험 어의 중의성 해소에 이용하는 중의성 어휘 앞/뒤 어휘의 수 어의 중의성 해소에 이용하는 앞/뒤 어절의 수에 따른 정확도 변화 가설 검정을 이용한 어휘 간 연관성과 형제어 가중치만 이용하였을 때의 정확도 어의 중의성 해소에 이용하는 앞/뒤 어휘의 수는 5개가 적당함 Window Size(±N words) Accuracy(%) 어의 중의성 해소를 위해 주변에 함께 나타난 어휘를 이용할 때, 중의성 해소에 이용되는 앞/뒤 어절의 수를 고려하여야 합니다

성능 평가 4. 실험 중의성 어휘 정확도(%) MFC 기본 알고리즘 개선 방안 ① ① +② ① +② +③ 눈 93.98 94.74 손 97.73 93.18 98.48 말 34.65 46.53 54.46 65.35 바람 98.98 96.94 94.90 거리 53.44 47.33 68.70 74.05 자리 89.11 95.05 96.04 의사 62.42 56.36 87.27 89.70 88.48 목 99.00 97.00 94.00 96.00 점 89.90 90.91 88.89 94.95 밤 71.29 77.23 평균 78.29 78.21 83.29 86.22 88.11

전통적인 지식 기반 중의성 해소 방법과 비교(2/2) 4. 실험 전통적인 지식 기반 중의성 해소 방법과 비교(2/2) 결과 분석 전통적인 사전 기반 중의성 해소는 어휘 간의 정확한 일치를 전제로 하기 때문에 높은 정확도를 기대하기 어려움 본 논문에서 제안하는 방법은 KorLex의 관계어를 이용하여 통계적으로 연관성을 분석하기 때문에 비교적 자료 부족 문제에 강건함 본 논문에서 제안하는 통계 정보를 이용한 방법은 unknown data에 대하여 오분석을 일으킴 예를 들어, 평가 데이터에 나타난 ‘태풍의 눈’은 unknown data이기 때문에 통계적인 방법으로 해결할 수 없었으나, 사전 뜻풀이를 추가로 이용함으로써 해결할 수 있었음 ‘눈’과 ‘밤’은 통계 정보가 풍부하지만, 의미가 너무 편향되어 있어 통계 정보가 부족한 의미에 대해 오분석을 일으켜 약 90%의 정확도만 보임 ‘세종 형태 의미 분석 말뭉치’에 나타나는 모든 ‘눈’의 의미를 수작업으로 정제하여 의미 사용 비율을 조사함 어휘 사전 뜻풀이 출현빈도 눈01 감각 기관 12,210 눈02 눈금 눈04 얼음의 결정체 1,418 눈05 초목의 싹 3

타 시스템과의 성능 비교(1/2) 비교 대상: WAMID(ETRI, 20006) 4. 실험 타 시스템과의 성능 비교(1/2) 비교 대상: WAMID(ETRI, 20006) WAMID는 Lesk의 사전 기반 어의 중의성 해소 기술에 기반을 둔 시스템으로 어휘 간의 상호정보량(mutual information), 의미별 비율 가중치, 복합명사 의미 사전을 이용함 자체적으로 구축한 평가 데이터를 대상으로 실험한 결과 상호정보량만을 이용하였을 때 65.06%, 가중치를 활용하였을 때 85.35.%, 복합명사 의미분석 사전을 활용하였을 때 88.82%의 정확도를 보임 비교를 위한 평가 데이터: SENSEVAL-2 한국어 데이터 SENSEVAL-2: 어의 중의성 해소 기술 평가 대회 평가 데이터는 10개의 중의성 어휘(눈, 손, 말, 바람, 거리, 자리, 의사, 목, 점, 밤)으로 구성되어 있음 시스템 정확도 WAMID(2006) 68.04% 연관어휘 이용 75.64% 최종 시스템 88.11%

4. 실험 타 시스템과의 성능 비교(2/2) 실험 결과 분석 WAMID는 단순히 상호정보량이 가장 높은 어휘를 연관성이 있는 어휘로 판단하였기 때문에 오분석의 여지가 있음 상호정보량은 독립성을 측정하기에는 좋은 측도이지만, 의존성을 측정하기에는 좋지 않은 것으로 알려져 있음 ‘WAMID’는 ‘SENSEVAL-2 한국어 데이터’를 자신들의 의미 체계로 대치하는 과정에서 특정 어휘가 하나의 의미로만 대치가 된 예도 있기 때문에 실제 성능 차이는 더 클 것으로 예상됨 ‘SENSEVAL-2 한국어 데이터’는 데이터를 구성하는 의미가 편향되거나 실제로 많이 쓰이지는 않은 의미가 많아 정확도가 높지 않았음 향후 규칙을 통해 개선할 수 있음 어휘 의미번호 의미 데이터 수 바람 바람_1 어떤 일이 이루어지기를 기다리는 마음 바람_2 어떤 일에 더불어 일어나는 기세 97 바람_3 기압 변화로 일어나는 공기의 흐름 1 말 말_1 집짐승 11 말_2 고누, 윷 따위의 판의 군사 33 말_3 사람의 생각과 느낌을 표현하는 수단 말_6 끝 말_9 곡식, 액체의 분량 57

5. 결론 및 향후 연구 한국어 어휘의미망 KorLex 1.5에 기반을 둔 어의 중의성 해소 기술 향후 연구 중의성 어휘의 관계어들의 통계 정보를 이용하기 때문에 풍부한 통계 정보를 얻을 수 있어 기존의 통계 정보 기반 방법들에 비해 자료 부족 문제에 좀 더 강함 기존의 지식 기반 어의 중의성 해소보다 나은 비감독 중의성 해소 기술 향후 연구 더 많은 평가 데이타를 이용하여 제안한 기술의 신뢰성을 더 높여야 함 통계적으로 해결할 수 없는 오류 유형에 대한 분석 및 해결 방안 연구 규칙을 이용한 어의 중의성 해소 특정 어휘와 강한 연관성을 지니는 어휘로 이루어진 사전을 미리 구축함으로써 처리 속도 향상 33/33

감사합니다 Q & A END