최종보고회 2009. 11. 16 옥 철 영 (울산대학교 컴퓨터정보통신공학부) 어휘의미 체계 기반 입체적 국어사전 확장 (Expanding Multi-dimensional Korean Dictionary based on Word Network) 최종보고회 2009. 11. 16 옥 철 영 (울산대학교 컴퓨터정보통신공학부)
목 차 용역과제 목표 및 내용 (2008, 2009) 기본어휘 및 추가어휘 선정 뜻풀이 및 용례 의미 태깅 목 차 용역과제 목표 및 내용 (2008, 2009) 기본어휘 및 추가어휘 선정 뜻풀이 및 용례 의미 태깅 용언 하위범주화 정보 구축 용언 의미 군집화 시연(어휘망 편집도구,입체사전 Browser, 태깅시스템)
용역과제 목표 및 내용 (2009) 과제명 : “어휘의미 체계 기반 입체적 국어사전 확장” 연구 목표 과제기간 과제개요 용역과제 목표 및 내용 (2009) 3 과제명 : “어휘의미 체계 기반 입체적 국어사전 확장” 연구 목표 국어정보화 산업의 활성화를 위하여 표준국어대사전의 기계가독성 확보 필요 한국어 어휘의미 정보를 다각적이고 종합적으로 파악할 수 있도록 제시하기 위한 어휘의미 체계 기반 국어사전 구축 과제기간 2009. 04. 01 ~ 2009. 11. 30 ( 8개월 ) 과제개요 추가 어휘선정 (다의어 수준 명사 10,000 용언 7,000) 명사 어휘망 추가/정비 용언 논항정보 구축 (지침 마련) 용언 군집화 및 Browser 뜻풀이/용례 의미태깅 2008년 용언하위범주화, 부사_용언 호응관계 검증
2008년 용역과제 과제명 “한국어 어휘의미 체계 기반 입체적 기본어휘 사전 구축” 과제기간 과제개요 2008년 용역과제 4 과제명 “한국어 어휘의미 체계 기반 입체적 기본어휘 사전 구축” 과제기간 2008. 05. 20 ~ 2008. 12. 19 ( 7개월 ) 과제개요 다의의 수준에서 고빈도 기본어휘(최소 50,000 어휘) 선정(지침 마련) 세종 형태의미 말뭉치 (약 11,000,000 어절) 표준국어대사전 형태의미 주석된 뜻풀이 (약 3,600,000 어절) 선정된 어휘의 어휘망 구축 명사 어휘망(상의어, 하의어, 반의어, 동의어) 구축 용언 어휘망 : 용언의 논항정보를 명사 어휘망 체계를 바탕으로 제시 부사 어휘망 : 부사와 호응하는 용언 관계 설정 어휘망 Browser 선정된 기본어휘에 대한 뜻풀이 의미태깅(다의어 수준)
연구방법론 (1) 어휘망 구축 시의 고려사항 어휘망 구축을 위한 기본 활용 자료 기본어휘 추출을 위한 전처리 5 어휘망 구축 시의 고려사항 형식적ㆍ내용적 일관성을 위한 기초 작업 기초적인 내부 구성 체계 설계 확장성과 활용성을 고려한 어휘망 구축 어휘망 구축을 위한 기본 활용 자료 21세기 세종계획 형태소분석 말뭉치 (15,000,000 어절) 21세기 세종계획 형태의미분석 말뭉치 (11,000,000 어절) 표준국어대사전 다의어 수준 의미 주석 부착된 뜻풀이말 기본어휘 추출을 위한 전처리 명사(부사/어근)+하(되/스럽/답 등) ⇒ 용언으로 통합 본용언+보조용언/본용언 ⇒ 복합용언으로 통합 접두사+명사, 명사+접미사 ⇒ 명사로 통합 관형사+명사, 명사+명사 ⇒ 명사로 통합 표준국어대사전(2008년 WEB용)에 등재된 어휘 기준
연구방법론 (2) 다의어 수준의 기본어휘 추출 품사(명사/용언/부사)별 어휘 비율 결정 고려 사항 6 다의어 수준의 기본어휘 추출 형태·의미 세종말뭉치에서 동형이의어 수준의 고빈도 기본어휘 선정 형태·의미 표준국어대사전의 뜻풀이말에서 다의어 수준의 사용빈도 추출 보완 국립국어원 한국어교육용기초어휘(2002년) 빈도 목록 한국어교육용 사전 및 교재 등의 분석을 통한 의미부류별 어휘류 수집 연세사전, 김광해 어휘 등급 세종전자사전 (상세사전) 품사(명사/용언/부사)별 어휘 비율 결정 고려 사항 표준국어대사전 품사별 등재 비율 현대 한국어 어휘사용빈도에 나타난 품사별 사용 비율(서상규 1998) 품사별 어휘 유형수의 분포(명사59.9%, 동사15.9%, 형용사5%, 부사4.7%) 품사별 빈도수의 분포(명사22.8%, 동사 12%, 형용사3.4%, 부사4.12%) 고빈도어 포함 비율을 각 품사에 따라 달리 한정하는 방법
기본 활용 자료 분석 데이터 7 형태소분석 말뭉치 형태의미분석 통합전 말뭉치 통합후 말뭉치* 표준국어대사전 파일수 447 형태소분석 말뭉치 형태의미분석 통합전 말뭉치 통합후 말뭉치* 표준국어대사전 파일수 447 339 (뜻풀이수) 587,833 총 어절 수 15,126,172 11,119,814 3,610,106 어절_태크 수 2,098,643 1,705,155 1,703,561 636,742 NNG 103,458 101,705 101,562 122,281 NNP 80,833 69,522 69,524 18,084 NNB 414 535 271 NP 246 226 228 74 NR 508 440 201 VV 6,831 6,878 15,800 7,659 VA 1,522 1,392 4,395 7,440 VX 87 82 42 VCP 4 3 5 VCN 6 1 MAG 6,764 6,057 5,843 8,226 MAJ 84 71 41 MM 199 190 189 140 XPN 35 34 68 XSN 73 69 131 XR 2,107 1,862 901 IC 1,166 964 210
기본 어휘 선정기준 (2008) 기본 어휘 선정 기준 (경북대 남길임교수, 울산대 신중진교수) 1단계 형태의미주석말뭉치 1,100만 어절의 어휘 빈도 목록 추출 말뭉치 정제 및 전처리: ‘XSA, XSV, XSN'등이 결합한 파생어 등을 복합어 단위로 결합 2단계 형태의미주석말뭉치의 빈도 검증을 위한 기존 어휘 목록 비교 품사별 어휘 수 조정 동형어 수준 어휘 목록 확정 3단계 2단계 결과물을 <표준>의 표제어 및 <표준> 다의어 말뭉치와 비교함으로써 다의어 수준의 5만 어휘 목록 확정 <표준> 표제어와 비교 분석: 구 단위 표제어 제외, 비표준어/방언/북한어/옛말 제외 <표준> 뜻풀이 다의어 분석 말뭉치 4단계 어휘망 구축 단계에서 기본어휘 및 기초어휘 목록 보완
선정 어휘(전체) 9 고려 대상 어휘 수 (세종말뭉치) 기본 어휘 (2008) 추가 어휘 (2009) 선정 어휘 합계 명사 101,562 34,387 10,089 44,476 동사 15,800 9,986 5,592 15,578 형용사 4,395 3,315 1,415 4,730 부사 5,907 2,640 합계 127,659 50,327 17,096 67,424
추가 어휘 선정 세부지침 추가 어휘 선정 기준 명사 동사/형용사 2008년 선정기준 준수 10 추가 어휘 선정 기준 2008년 선정기준 준수 품사정보에 ‘비표준어, 방언, 북한어, 옛말’이 포함되어 있는 어휘는 제외 세종사전에 등재되어 있는 어휘는 추가어휘에 포함 명사 : 8,884 동사 : 5,930 형용사 : 1,029 부족한 부분은 세종에서의 어휘빈도를 중심으로 추가 명사 빈도 10이상 : 11,583 동사 빈도 3이상 : 5,930 형용사 빈도 2이상 : 1,431 명사 고유명사(인명)는 제외 간호원, 국민학교 등 이전 말이나 비속어 등도 ‘비표준어, 방언, 북한어, 옛말’이 아닌 한 포함 뜻풀이를 살핀 후 ‘옛말’인 경우 ‘세종빈도, 2002빈도, 김광해, 연세’에 모두 등재되어 있는 경우에만 추가어휘로 선정 품사정보에 ‘어근’만 있는 경우는 제외 B의 뜻풀이 : ‘A의 순화’의 경우 B는 제외, A는 포함 동사/형용사 ‘A의 준말, A의 원말’의 경우, A 검토 후 추가 ‘A의 사동사, A의 피동사의 경우, A 검토 후 추가 ‘옛말’인 경우 ‘세종빈도, 2002빈도, 김광해, 연세’에 모두 등재된 경우 추가
뜻풀이 및 용례 의미 태깅 (1) 11
뜻풀이 및 용례 의미 태깅 (2) 용례태깅 대상 어휘 수 12 41,244 어휘 (1,108,727개) 보조용언, 의존명사 모두 태깅 “사모한” : 사모하다__001002/VV+ㄴ/ETM
<그림 4)> U-WIN의 내부 구조 <그림 4)> U-WIN의 내부 구조 한국어 어휘지도 (U-WIN) 13
용언 하위범주화 정보 구축 (2008) 세종전자사전 용언 논항 선택제약 정보 세종전자사전의 문제점 뜻풀이 없음 14 세종전자사전 용언 논항 선택제약 정보 세종전자사전의 문제점 뜻풀이 없음 표준국어대사전과의 다의 불일치 세부 항목 어휘 : 동형이의어/다의 구분 없음 => 사람에 의해 해독 form=[가다듬다] 1) 격틀: X=N0-이 Y=N1-을 V 선택제약: X_AGT_인간;Y_THM_(정신|마음|생각) Y_THM_(목청|목소리|호흡);X_AGT_인간 Y_THM_(표정|자세|옷매무새);X_AGT_인간 Y_THM_(전열|대열);X_AGT_인간|인간집단
세종 의미부류 와 U-WIN mapping (2008) 15 ① ⑥ ⑤ ② ③ ④
용언 하위범주화 정보 구축 (2008) 16
용언 하위범주화 정보 구축 (2009) 뜻풀이 용례 (“먹다__02”) 17 밥을 {먹다}/술을 {먹다}/약을 {먹다}/물을 {먹다}/음식을 배불리 {먹다}/닭이 모이를 {먹다}/몸이 약해진 누나는 보약을 몇 차례나 {먹어도} 늘 골골거렸다. 담배를 {먹다}/아편을 {먹다}/정선이 야단 통에 두어 시간이나 담배를 끊었다가 {먹는} 담배라 머리가 아뜩한 것 같았다. 연탄가스를 {먹다}/탄내를 {먹다}. 앙심을 {먹고} 투서를 하다/세상일이란 마음 {먹기에} 달려 있다./한번 {먹은} 마음이 변하지 않도록 하자./나는 마음을 독하게 {먹고} 그녀를 외면하였다. 네 살 {먹은} 아이/나이를 {먹다}/내년이면 삼십을 {먹는구나}. 하루 종일 욕만 되게 {먹었네}./그래도 그는 속없는 소리를 하다가 가끔 핀잔을 {먹는} 것이었다. 뇌물을 {먹다}/뇌물을 {먹고} 탈세를 눈감아 주다. 남은 이익은 모두 네가 {먹어라}./시세가 마침 좋은 것 같아서 쌀을 붙였던 것인데 천 원을 {먹기는} 고사하고 본전 육백 원이 다 달아난 판이니…. 기름 {먹은} 종이/김이 습기를 {먹어} 눅눅해졌다./솜이 물을 {먹어} 무겁다. 1등을 {먹다}/우승을 {먹다}/100점을 {먹다}/체육 대회에서 우리 반이 일 등을 {먹었다}. 상대편에게 먼저 한 골을 {먹었다}. 그는 벌써 여러 여자를 {먹었다}. 상대의 센 주먹을 한 방 {먹고} 나가떨어졌다. 경리 직원이 회사의 공금을 {먹었다}. 이 고기에는 칼이 잘 {먹지} 않는다./대패가 잘 {먹는다}. 옷감에 풀이 잘 {먹어야} 다림질하기가 좋다./얼굴에 화장이 잘 {먹지} 않고 들뜬다. 사과에 벌레가 많이 {먹었다}./옷에 좀이 {먹어} 못 입게 되었다./얼굴에 버짐이 {먹다}. 공사에 철근이 생각보다 많이 {먹어} 걱정이다./낡은 집 수리에는 자칫 새로 짓는 것보다 비용이 더 {먹을} 수 있다. 약속을 잊어 {먹다}/노예처럼 부려 {먹다}/종으로 부려 {먹다}/그는 아이들의 순진함을 이용해 {먹는} 장사치였다./야구공으로 유리를 깨 {먹었다}./그 노릇도 이젠 해 {먹기} 힘들다.
용언 하위범주화 정보 구축 : 명사어휘망과 연결 18 (4) (1) (6) (5) (7) (2) (3)
용언 하위범주화 정보 구축 지침 (김혜영교수) 19 용언의 논항정보 구축 지침은 2008년 지침을 기본으로 삼는다. 용언 어휘망의 문형정보는 표준국어대사전의 뜻풀이에 따른다. 문형정보에 해당하는 명사는 명사 어휘망의 최소상계노드와 연결한다. 용언의 논항정보는 각 용언의 용례와 의미를 참조하여 구축한다. 용언의 논항정보는 용례에 있는 논항을 기본정보로 삼는다. 각 논항의 정보는 명사 어휘망에서 상위노드 명사로 연결한다. 의미정보상 최소상계노드 연결이 부적합하면 노드를 조정한다. 상위노드가 논항의 동위노드를 아우르지 못하면 자기노드로 연결한다. 한 용언의 두 논항이 상하관계에 있으면 상계 상위노드로 연결한다. 논항들이 유사 의미장에 같은 줄기이면 공통 상위노드로 연결한다. 두 논항의 형태가 같고 상하관계이면 의미가 넓은 상위노드로 연결한다. 논항이 여러 노드에 걸쳐 나타나면 의미정보로 노드를 설정한다. 논항의 두 동형이 의미정보에 포함되면 복수 상위노드로 설정한다. 논항이 동형이라도 의미정보가 다르면 단수 상위노드로 설정한다. 논항이 상위노드를 설정하지 못하는 상태이면 제자리를 유지한다. 논항의 상위노드를 설정하면 그 의미가 부적합할 때 자기노드에 둔다. 논항이 최상위노드일 때 그 의미가 포괄적이더라도 자기노드에 둔다.
용언 하위범주화 정보 추출 표준 문형에 해당되는 어휘 추출 표준국어사전 ⇒ 세종사전 mapping 20 표준 문형에 해당되는 어휘 추출 뜻풀이 (다의어 수준 의미 태깅) 용례 (다의어 수준 의미 태깅) ………… [용언_1] ………. 용언_2 문장시작 ~ [용언_1] [용언_1]+1 ~ [용언_2] 표준국어사전 ⇒ 세종사전 mapping 선정어휘 대상 (2008,2009) 명사 동사 형용사 부사 세종용례 및 표준사전의 용례/뜻풀이 비교 용언의 세종의미부류(사태) 추출 가다듬다__000001 결심__001000/NNG 1 을/JKO 가다듬다__000001 따위__000001/NNB 3 을/JKO 가다듬다__000001 마음__001001/NNG 1 을/JKO 가다듬다__000001 마음__001002/NNG 15 을/JKO 가다듬다__000001 심신__001000/NNG 1 을/JKO 가다듬다__000001 의지__006001/NNG 1 을/JKO 가다듬다__000001 장소__005000/NNG 1 던/ETM 가다듬다__000001 정신__012001/NNG 4 을/JKO 가다듬다__000001 정신__012005/NNG 4 을/JKO 가다듬다__000001 제정신/NNG 1 을/JKO 가다듬다__000001 힘__001003/NNG 1 을/JKO 가다듬다__000002 따위__000001/NNB 1 을/JKO 가다듬다__000002 몸가짐/NNG 1 을/JKO 가다듬다__000002 물건__000002/NNG 1 을/JKO 가다듬다__000002 사람__000005/NNG 1 는/ETM 가다듬다__000002 일__001010/NNG 1 는/ETM 가다듬다__000002 자세__002001/NNG 1 을/JKO 가다듬다__000003 때__001008/NNG 1 을/ETM 가다듬다__000003 목소리__000001/NNG 1 을/JKO 가다듬다__000003 목청__001000/NNG 2 을/JKO 가다듬다__000004 호흡__000001/NNG 1 을/JKO 가다듬다__000004 훈련__000001/NNG 1 는/ETM 가다듬다__000005 것__001001/NNB 1 을/JKO 가다듬다__000005 사람__000005/NNG 1 는/ETM 가다듬다__000005 일__001001/NNG 1 을/JKO 가다듬다__000005 태세__003000/NNG 1 을/JKO 가다듬다__000005 字句/SH 1 을/JKO
용언 하위범주화 정보 구축 도구 (WEB용, 2009) 21 뜻풀이/용례에서 추출한 하위범주 정보
부사-부사, 부사-용언 호응정보 추출 부사-용언, 부사-부사 정보 추출 22 부사-용언, 부사-부사 정보 추출 ….. [부사_1] [부사_2] …… [용언_1] [용언_2] [부사_1]의 호응 부사/용언 [부사_2], [용언_1], [용언_2] [부사_2]의 호응 부사/용언 [용언_1], [용언_2] 가급적 40802 많이 12743400 MAG 1 1 가급적 40802 안 25001300 MAG 1 0 가급적 40802 노력하다 7590002 VV 2 0 가급적 40802 도와주다 9845200 VV 1 1 가급적 40802 되다 10449612 VV 1 0 가급적 40802 먹다 13180005 VV 1 0 가급적 40802 바라다 15123901 VV 1 1 가급적 40802 복원하다 17212404 VV 2 0 가급적 40802 빠르다 18762403 VA 1 1 가급적 40802 상대되다 20166607 VV 1 0 가급적 40802 않다 25168402 VX 1 0 가급적 40802 적다 32732400 VA 2 0 가급적 40802 크다 38859502 VA 1 0 가급적 40802 해치다 41962301 VV 1 0 가급적 40802 획득하다 43477804 VV 1 0 가까스로 42701 꿀꺽꿀꺽 6439802 MAG 1 1 가까스로 42701 가다 68941 VX 1 0 가까스로 42701 가혹하다 473402 VA 1 0 가까스로 42701 건지다 1645403 VV 1 0 가까스로 42701 걷다 1665902 VV 1 0 가까스로 42701 걸치다 1702006 VV 1 0 가까스로 42701 계속하다 2437313 VV 1 0 가까스로 42701 구하다 4053503 VV 1 1 가까스로 42701 내다 7130823 VV 1 0 가까스로 42701 내다 7130833 VX 1 0 가까스로 42701 내톺다 7278800 VV 1 0 가까스로 42701 넓히다 7405601 VV 1 0 가까스로 42701 넘기다 7408003 VV 2 0 가까스로 42701 넘다 7409803 VV 1 0 가까스로 42701 놓다 7903233 VX 1 0
부사-부사, 부사-용언 정보 구축 (WEB용, 2009) 23 뜻풀이/용례에서 추출한 부사-부사, 부사-용언
입체적 국어사전 Browser (WEB용, 2009) 24
용언 의미 군집화 (1) 용언 의미 군집화/계층화의 필요성 연구 방법 정교한 의미처리에 필수 사전의 다의 분류 기준 필요 용언 의미 군집화 (1) 25 용언 의미 군집화/계층화의 필요성 정교한 의미처리에 필수 사전의 다의 분류 기준 필요 용언의 의미 cluster ⇒ Primitive Concept 한국어 용언망 vs. WordNet의 용언 연구 방법 용언의 뜻풀이말에서 synset 추출, synset link 구성, clustering 표준사전과 세종사전의 용언을 의미적 mapping, 의미정보 추출 세종의미부류 “사태” 의 계층 이용
용언 의미 군집화 (2) 세종전자사전 술어명사의 의미부류 <사태> <정적사태> <행위> 용언 의미 군집화 (2) 26 세종전자사전 술어명사의 의미부류 <사태> <정적사태> <행위> <사건> <현상> <상태변화> 212개 세부 의미 부류
용언 의미 군집화 (3) U-WIN에서의 ‘먹다’ 의미계층 간식하다__01 : 간식__02 (끼니와 끼니 사이에 음식을 먹음) 용언 의미 군집화 (3) 27 U-WIN에서의 ‘먹다’ 의미계층 간식하다__01 : 간식__02 (끼니와 끼니 사이에 음식을 먹음) 갈겨먹다② : 남의 음식을 빼앗아 먹다 거머먹다 : 이것저것 욕심스럽게 급히 걷어 먹다 걸치다__03 : 음식을 아무렇게나 대충 먹다 걸터먹다 : 이것저것 닥치는 대로 휘몰아 먹다 곱먹다① : 곱절로 먹다 그러먹다 : 한곳에 모아서 먹다 나누다__03① : 음식 따위를 함께 먹거나 갈라 먹다 ….
용언 의미 군집화 (4) Synset : 용언 뜻풀이에서 핵심어(용언) 용언 의미 군집화 (4) 28 다의어 수준의 의미 태깅된 뜻풀이 (예, “먹다__02”) Synset : 용언 뜻풀이에서 핵심어(용언) 먹다__002001 : 품다__001004 (생각이나 느낌 따위를 마음속에 가지다) 먹다__002002 : 더하다__000002 (더 보태어 늘리거나 많게 하다) 먹다__002003 : 당하다__001001 (해를 입거나 놀림을 받다) 먹다__002004/5 : 가지다__000002 (자기 것으로 하다) 먹다__002006 : 빨아들이다__000001 (수분, 양분, 기체 따위를 끌어들이거나 흡수하다) 먹다__002007 : 따다__001004 (점수나 자격 따위를 얻다) … 어떤__000003/MM 마음__001002/NNG+이나/JX 감정__006000/NNG+을/JKO 품다__001004/VV+다/EF+./SF 일정하다__000004/VA+ㄴ/ETM 나이__001000/NNG+에/JKB 이르다__001001/VV+거나/EC 나이__001000/NNG+를/JKO 더하다__000002/VV+다/EF+./SF 욕__002001/NNG+,/SP 핀잔__001000/NNG 따위__000001/NNB+를/JKO 듣다__001002/VV+거나/EC 당하다__001001/VV+다/EF+./SF 뇌물/NNG+을/JKO 받다__001001/VV+아/EC 가지다__000002/VV+다/EF+./SF 수익__001002/NNG+이나/JX 이문__006001/NNG+을/JKO 차지하다__001001/VV+아/EC 가지다__000002/VV+다/EF+./SF 물__001001/NNG+이나/JX 습기__002000/NNG 따위__000001/NNB+를/JKO 빨아들이다__000001/VV+다/EF+./SF 어떤__000003/MM 등급__000001/NNG+을/JKO 차지하다__001001/VV+거나/EC 점수__006001/NNG+를/JKO 따다__001004/VV+다/EF+./SF ---
용언 의미 군집화 (5) Synset_뜻풀이_단어 (예, “먹다”) Synset link 29 용언 의미 군집화 (5) 29 Synset_뜻풀이_단어 (예, “먹다”) Synset link 먹다__001000 [ 1 ] 가는귀먹다 먹다__002001 [ 16 ] 각자위심하다 결의하다__001000 끽겁하다 뜻하다__000001 먹이다__000001 먹이다__000005 먹이다__000006 먹히다__000001 샘내다 생각하다__000004 식겁하다 용의하다__000001 입심하다 작심하다 함독하다__000002 회심하다__001002 먹다__002002 [ 4 ] 가령하다 먹이다__000007 증년하다 헛먹다 먹다__002003 [ 2 ] 무사득방하다 언걸먹다__000001 먹다__002004 [ 2 ] 먹이다__000002 먹히다__000002 먹다__002006 [ 3 ] 먹이다__000003 서상하다__002000 음서하다__001000 먹다__002007 [ 1 ] 먹이다__000004 먹다__002012 [ 1 ] 엇먹다__001002 먹다__002017 [ 231 ] 가무리다__000001 감식되다__001000 감식하다__001000 감어하다 강다짐하다__000001 강반하다 개걸하다 개소하다__002002 건담하다 건식하다__001001 건식하다__001002 건식하다__003000 걸치다__000006 고프다 곡식질하다 곱먹다__000001 …. 먹다__001000 → 하다__001005 → 책임지다 → 안다__001001 → 하다__001035 → 나타내다__000003 →드러내다__000002 → mk_드러나다__000002 먹다__002001 → *품다__001004 → 가지다__000009 먹다__002002 → 더하다__000002 → 하다__001035 → 나타내다__000003 → … → mk_드러나다__000002 먹다__002003 → 당하다__001001 → 받다__001003 → *입다__001002 → 당하다__001005 먹다__002004 → 가지다__000002 → 하다__001014 → *정하다__003002 → 결정하다__001000 먹다__002006 → 빨아들이다__000001 → 흡수하다__002005 → 거두어들이다__000011 → 모으다__000001 → 합치다 먹다__002007 → 따다__001004 → 얻다__001006 → 획득하다 → 가지다__000002 → 하다__001014 → *정하다__003002 → 결정하다__001000 먹다__002012 → 하다__001022 → 이루다__001001 → 만들다__000013 → *되다__001010 → 이루어지다__000003 먹다__002017 → 들여보내다__000003 → 들어가다__001009 → *향하다__000001 → 대하다__002001
용언 의미 군집화 (6) 용언 의미 cluster (Top Synset ) 개수 일반 용언 : 133개 용언 의미 군집화 (6) 30 용언 의미 cluster (Top Synset ) 개수 일반 용언 : 133개 사동사 (mk_A) : 202개 피동사 (psv_A) : 228개 mk_나다__001021 (내다) 3 기풍, 멋 따위가 더 나아지다. mk_나다__001022 (내다) 336 어떤 작용에 따른 효과, 결과 따위의 현상이 이루어져 나타나다. mk_날다__001001 (날리다) 1 공중에 떠서 어떤 위치에서 다른 위치로 움직이다. mk_남다__001001 (남기다) 2 다 쓰지 않거나 정해진 수준에 이르지 않아 나머지가 있게 되다. psv_꺾다__000007 (꺾이다) 3 경기나 싸움 따위에서 상대를 이기다. psv_꺾다__000008 (꺾이다) 1 방향을 바꾸어 돌리다. psv_꼬다__001001 (꼬이다) 1 가는 줄 따위의 여러 가닥을 비비면서 엇감아 한 줄로 만들다. psv_꽂다__000001 (꽂히다) 17 쓰러지거나 빠지지 아니하게 박아 세우거나 끼우다. psv_꾸다__001000 (꾸이다) 1 꿈을 보다. 내뻗치다__000001 1 세차게 뻗치다. 다르다__001001 97 비교가 되는 두 대상이 서로 같지 아니하다. 다투다__000002 4 승부나 우열을 겨루다. 돌려주다__000001 3 빌리거나 뺏거나 받거나 한 것을 주인에게 도로 주거나 갚다. 돌아다니다__000001 32 여기저기 여러 곳으로 다니다.
용언 의미 군집화 (7) 31 표준국어대사전과 세종사전 mapping (용례 비교)
용언 의미 군집화 (8) 32 mapping 정보를 이용하여 세종의미부류 정보 추출
용언 의미 군집화 (9) 직접 mapping되지 않은 용언의 의미부류 정보 결정 용언 의미 군집화 (9) 33 선정 용언(20,307개)의 의미 mapping 결과 직접 mapping 되는 용언 : 14,285개 (70%) 직접 mapping되지 않은 용언 : 6,022개 (30%) 직접 mapping되지 않은 용언의 의미부류 정보 결정 해당 용언의 뜻풀이의 synset이 mapping되는 경우 : 2,791개 Synset link 상의 가까운 synset의 의미범주로 mapping : 2,956개 뜻풀이 삼중 정의 : 275개 (수작업으로 결정) 가공하다__030000 : 두려워하다__000001/VV+거나/EC 놀라다__000001/VV+ㄹ/ETM 만하다__000001/VX+다/EF+./SF {외향적심리행위} 힘쓰다__000200 → 공헌하다__000001 → 이바지하다__010001 → 되다__010602 → 놓이다__000201 → psv_놓다__010201 {긍정적결과행위} 가무스름하다 → 감다__040000 → 짙다__020101 강하다__020102 → 높다__000003 → *있다__010301 → 존재하다__000001 {색속성값} 고전하다 : 고전09 (股戰) 고전09 : 고율02 (股慄) 고율02 : 무섭다__000100/VA+어서/EC 다리__010001/NNG+가/JKS 떨리다__010001/VV+ㅁ/ETN+./SF {피동적행위}
용언 의미 군집화 (10) 34 세종사태의미부류로 계층화
용역진행 일정 35 기 간 세부연구내용 연구추진일정(개월) 가중치(%) 4월 5월 6월 7월 8월 9월 10월 11월 기 간 세부연구내용 연구추진일정(개월) 가중치(%) 4월 5월 6월 7월 8월 9월 10월 11월 추가 어휘 선정 10% 명사 어휘망 추가/정비 20% 표준국어대사전과 세종전자사전 mapping 5% 용언 군집화 15% 1차 자문회의(08.07) 08.07 용언 논항정보 구축 세종전자사전 활용 뜻풀이/용례 의미태깅(WEB사전) 태깅 결과 검증(WEB용 사전) 결과 수정/보완, 최종결과보고서 용역성과물발표(11.27-28) (언어중립적 온톨로지 워크숍) 연 구 진 도 10/ 100 20/ 30/ 50/ 60/ 85/ 95/ /100 100% 최 종 보 고 서 2009. 11. 30
제출 결과물 다의어 의미태깅된 뜻풀이/용례 (전체 선정어휘 대상) 36 다의어 의미태깅된 뜻풀이/용례 (전체 선정어휘 대상) 명사 어휘망 (상위어,하위어,동의어/유의어,반의어 관계) DB 용언 하위범주화 정보 DB 용언 의미 군집/계층 DB 부사-부사, 부사-용언 의미 관계 DB WEB용 구축도구 (용언 의미군집/계층 browser 포함) 입체적 국어사전 Browser 세종말뭉치 검증 및 원시말뭉치 품사ㆍ동형이의어 동시 태깅시스템 모든 품사의 동형이의어 태깅 가능 동형이의어 : 상위어/세종의미부류로 매핑 (직관적인 판단) 형태소분석 : 두 가지 형태 분석 가능 (증자/NNG+하/XSV, 증자하/VV)
품사 ㆍ동형이의어 동시 태깅시스템 (1) 37
품사 ㆍ동형이의어 동시 태깅시스템 (2) 38 동형이의어 상위어로 mapping (명사,용언,부사 등)
시연 어휘망 편집도구(WEB용) 입체적 국어사전 Browser(WEB용) 표준국어대사전 뜻풀이/용례 의미태깅시스템(WEB용) 39 어휘망 편집도구(WEB용) http://klplab.ulsan.ac.kr:8080/uwin_korean/login.do?action=login 입체적 국어사전 Browser(WEB용) http://klplab.ulsan.ac.kr:8080/kooklip_new.jnlp 표준국어대사전 뜻풀이/용례 의미태깅시스템(WEB용) http://nlplab.ulsan.ac.kr:5900/tagging_def/login.aspx 품사ㆍ동형이의어 동시 태깅시스템