최종보고회 옥 철 영 (울산대학교 컴퓨터정보통신공학부)

Slides:



Advertisements
Similar presentations
신선초등학교 2 학년 4 반 김 우혁. 을왕리해수욕장은 인천광역시 중구 을왕동에 위치하였고, 늘 목 또는 얼항으로도 불리며 1986 년 국민 관광지로 지정되 었다. 백사장 길이는 약 700m, 평균 수심은 1.5m 로 비교적 규 모가 큰 편이다. 울창한 송림과 해수욕장.
Advertisements

적화, 적과를 할 때 액화, 액과 따기의 중요성 前 이바라기현 과수협회장 구로다 야스마사.
개인의견 차가있을수있음 훈훈한남자 배우 TOP 5. 5 위는 박보검 웃을때보이는 치명적인 미소 꺄 ~~~ 5위5위.
기업 인사담당자가 밝힌 면접 합격 비법 취업포털 사람인 ( 기업 인사담당자 397 명 조사 )
한국기계공업협동조합 연합회 산업단지 [ 산업형 제 2 종지구단위계획 사업추진방안 ( 제안 )]
사랑과 기쁨으로 연합하는 제 2 회 전교인 한마음 운동회 제 2 회 전교인 한마음 운동회 설명회 대한예수교장로회 자 양 교 회 1.
발 표 과 제 3 ( 일시 ) :05 경, 흐림 (6.3 ℃ ) 1. 사고개요 ( 장소 ) 경부고속선 광명역 구내 서울역 기점 22.79km ( 열차 ) KTX- 산천 -11 호 (10 량 편성 ), 승객 149.
서울지하철노조 설립. 1. 전형적 공기업 군사 문화 가 일 개통 1 호선 서울시 공무원으로 운영 일 3.4 호선 건설한 공사와 합병 공무원신분에서 신분변경 나. 공사 내부의 군사 조직과 군사문화 - 공사 사장 감사 이사 ( 별.
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
의료자원 규제현황과 개선방향 자원평가실. 의료자원 관리 개요 규제개혁 토론과제.
2011 년도 하계휴양소 운영 한전산업개발노동조합 태안 발전지회 기간 : 7 월 15 일 ~ 8 월 19 일.
필란드에 대해서. 필란드는 북유럽에 위치해 있으며 수도는 헬싱키 입니다. 인구는 약 515 만 명 정도 되며 면적은 338,148km 입니다.
‘ 텃밭상자 ’ 로 초록마을 만들기 텃밭상자를 이용하여 옥상, 베란다, 자투리 화단을 초록 밭 ( 정원 ) 으로 가꾸자. 제안자 : 화수고 1 학년 이혜인.
뿌리깊은 자판 지도교수 : 황기태 팀 명 : 녀와 야수 ‘ 둘 ’ 팀 원 : 이신영, 남민우, 윤경수 미.
구월 아시아드 선수촌 상업지구 인천의 중심 상권을 노려라 !! 행정의 중심 구월 선수촌 상권은 인근의 인천시청, 남인천세무서, 남동경찰서, 남동소방서, 인천지방노동, 인천 교육청 각종 관공서 밀집지역 교통의 중심 인천터미널, 인천터미널역, 예술회관역 등 인천지하철 1.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
국가문화유산 종합정보시스템 구축사업 ( 2003년 11월 문 화 관 광 부.
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
신림역, 서울대입구역, 낙성대역 ↔ 연구원 4번 출구에서 주유소 옆 2번 마을버스 타고
말뭉치 기반 형태소 및 의미 태깅 시스템 발표자 : 신준철
연 합 남 전 도 회 월 례 회 1부 예배- 찬 송 장 다같이 2011년 1월 2일 1부 예배- 찬 송 장 다같이 기 도
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
사 업 계 획 2011년 제1호 - 2월 1일 2011 주 안에서 소통하며 화합하고 참여하며 헌신하는 남신도회
“자연어처리” 소개 (Natural Language Processing)
감 전 재 해 예 방.
Price golf 프 랜 차 이 즈 사 업 프라이스골프 에스브릿지 대표 : 신 택승
㈜ 코디라인 사업설명서 2000년 2월 ㈜ 코 디 라 인
빛과소금의교회 바이블스쿨 교재 8시간 만에 끝내는 성경의 맥(脈) 잡기 장창영 목사.
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
새터민.
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
서버의 종류와 기능 환경공학과 권진희.
순환&면역 6조 박아름 이명동 최제춘.
고성능 컴퓨터 관리를 위한 클러스터 플랫폼 개발
독도 바로알기 2. 사료와 지도로 보는 독도.
개요 신경회로망(Neural Networks)
e-CASE (electronic-CRF system with Accuracy, Safety and Efficacy)
인사만 잘해도 성공할 수 있다!.
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
1. 세포의 구조와 기능 (1) 식물 세포 와 동물 세포 조영희
한글 이야기 3.
사흘만 세상을 볼 수 있다면 본다는 것은 가장 큰 축복입니다. 단언컨대 , 메탈은 가장 완벽한 물질입니다.
나의 삶과 금융경제 설계전략 당신의 인생은 안녕하십니까 Team . 승승장구.
IS lab. 김건영 정보검색기 구현 프로젝트 안내사항 IS lab. 김건영
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
환경관리 규정 - 목 차 – 1.적 용 범 위 9.환경관리 교육 2.목 적 10.환경 점검
지역 통계의 발전 (강화) 방향 충남대학교 이석훈.
우리나라의 수자원 물 보기를 금같이 우리나라의 수자원 현황 우리나라의 수자원 이용 현황.
태영아♥유치부 2월 암송말씀 태영아.유치부 기도제목 Remnant 광고 추천도서 & 영화 임마누엘 안산교회 ▼ 비젼
제안 목적 고객성향 분석으로 매출 증대 유사업체 분석으로 신상품 홍보 원가요소 분석 및 피드백으로 원가율 관리
청각기관의 구조와 기능2 옥정달.
지역의 자연 환경과 인문환경 조사 사회 1학년 1학기 Ⅰ.지역과 사회 탐구>1.지역사회의 지리적 환경(3/6
3D 프린팅 프로그래밍 04 – 도형 회전 (하트 열쇠고리 만들기) 강사: 김영준 목원대학교 겸임교수.
1. 복리후생비 복리후생비란? ✔ 법인이 임원 또는 사용인(파견근로자 포함)을 위하여 지출한 비용
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
중고자동차 시장의 현황 및 앞으로의 선진 문화 조성 방안
수 업 계 획 1. 단원지도계획 2. 수업설계서 3. 학습지 4. 형성평가지 5. 참고자료 6. 참고사이트 7. 제작자
가을에 만날 수 있는 곤충.
자전거발전기 만들기 자전거 발전기 부품 조립에서 완제품까지.
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
운전자보험의.. 새로운 패러다임~!! 50만원 100만원 150만원 65세까지 300만원 깁스치료비 5대골절진단비 자동차사고
6 정보 설계 웹 기획 : 성공적인 웹사이트의 첫 번째 조건.
Ⅲ. 선로전환기 청소 근거규정 및 점검요령.
2010년 업무지원 시스템 사 업 설 명 회
유체역학 마이크로마노미터의 이론과 공식을 설명하라. 환경공학과 김기복.
세포는 어떻게 분열할까? 학습 주제 <들어가기> 양파를 물이 담긴 유리컵에 기르면 뿌리가
직장인의 비즈니스 매너 및 에티켓.
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
13. 词的来源 1. 基本词 2. 来源分类 2.1. 传承词 2.2. 古语词 2.3. 方言词 2.4. 外来词 2.5. 新词.
입점 제안서 (대학병원 건물).
Presentation transcript:

최종보고회 2009. 11. 16 옥 철 영 (울산대학교 컴퓨터정보통신공학부) 어휘의미 체계 기반 입체적 국어사전 확장 (Expanding Multi-dimensional Korean Dictionary based on Word Network) 최종보고회 2009. 11. 16 옥 철 영 (울산대학교 컴퓨터정보통신공학부)

목 차 용역과제 목표 및 내용 (2008, 2009) 기본어휘 및 추가어휘 선정 뜻풀이 및 용례 의미 태깅 목 차 용역과제 목표 및 내용 (2008, 2009) 기본어휘 및 추가어휘 선정 뜻풀이 및 용례 의미 태깅 용언 하위범주화 정보 구축 용언 의미 군집화 시연(어휘망 편집도구,입체사전 Browser, 태깅시스템)

용역과제 목표 및 내용 (2009) 과제명 : “어휘의미 체계 기반 입체적 국어사전 확장” 연구 목표 과제기간 과제개요 용역과제 목표 및 내용 (2009) 3 과제명 : “어휘의미 체계 기반 입체적 국어사전 확장” 연구 목표 국어정보화 산업의 활성화를 위하여 표준국어대사전의 기계가독성 확보 필요 한국어 어휘의미 정보를 다각적이고 종합적으로 파악할 수 있도록 제시하기 위한 어휘의미 체계 기반 국어사전 구축 과제기간 2009. 04. 01 ~ 2009. 11. 30 ( 8개월 ) 과제개요 추가 어휘선정 (다의어 수준 명사 10,000 용언 7,000) 명사 어휘망 추가/정비 용언 논항정보 구축 (지침 마련) 용언 군집화 및 Browser 뜻풀이/용례 의미태깅 2008년 용언하위범주화, 부사_용언 호응관계 검증

2008년 용역과제 과제명 “한국어 어휘의미 체계 기반 입체적 기본어휘 사전 구축” 과제기간 과제개요 2008년 용역과제 4 과제명 “한국어 어휘의미 체계 기반 입체적 기본어휘 사전 구축” 과제기간 2008. 05. 20 ~ 2008. 12. 19 ( 7개월 ) 과제개요 다의의 수준에서 고빈도 기본어휘(최소 50,000 어휘) 선정(지침 마련) 세종 형태의미 말뭉치 (약 11,000,000 어절) 표준국어대사전 형태의미 주석된 뜻풀이 (약 3,600,000 어절) 선정된 어휘의 어휘망 구축 명사 어휘망(상의어, 하의어, 반의어, 동의어) 구축 용언 어휘망 : 용언의 논항정보를 명사 어휘망 체계를 바탕으로 제시 부사 어휘망 : 부사와 호응하는 용언 관계 설정 어휘망 Browser 선정된 기본어휘에 대한 뜻풀이 의미태깅(다의어 수준)

연구방법론 (1) 어휘망 구축 시의 고려사항 어휘망 구축을 위한 기본 활용 자료 기본어휘 추출을 위한 전처리 5 어휘망 구축 시의 고려사항 형식적ㆍ내용적 일관성을 위한 기초 작업 기초적인 내부 구성 체계 설계 확장성과 활용성을 고려한 어휘망 구축 어휘망 구축을 위한 기본 활용 자료 21세기 세종계획 형태소분석 말뭉치 (15,000,000 어절) 21세기 세종계획 형태의미분석 말뭉치 (11,000,000 어절) 표준국어대사전 다의어 수준 의미 주석 부착된 뜻풀이말 기본어휘 추출을 위한 전처리 명사(부사/어근)+하(되/스럽/답 등)  ⇒ 용언으로 통합 본용언+보조용언/본용언            ⇒ 복합용언으로 통합 접두사+명사, 명사+접미사   ⇒ 명사로 통합 관형사+명사, 명사+명사 ⇒ 명사로 통합 표준국어대사전(2008년 WEB용)에 등재된 어휘 기준

연구방법론 (2) 다의어 수준의 기본어휘 추출 품사(명사/용언/부사)별 어휘 비율 결정 고려 사항 6 다의어 수준의 기본어휘 추출 형태·의미 세종말뭉치에서 동형이의어 수준의 고빈도 기본어휘 선정 형태·의미 표준국어대사전의 뜻풀이말에서 다의어 수준의 사용빈도 추출 보완 국립국어원 한국어교육용기초어휘(2002년) 빈도 목록 한국어교육용 사전 및 교재 등의 분석을 통한 의미부류별 어휘류 수집 연세사전, 김광해 어휘 등급 세종전자사전 (상세사전) 품사(명사/용언/부사)별 어휘 비율 결정 고려 사항 표준국어대사전 품사별 등재 비율 현대 한국어 어휘사용빈도에 나타난 품사별 사용 비율(서상규 1998) 품사별 어휘 유형수의 분포(명사59.9%, 동사15.9%, 형용사5%, 부사4.7%) 품사별 빈도수의 분포(명사22.8%, 동사 12%, 형용사3.4%, 부사4.12%) 고빈도어 포함 비율을 각 품사에 따라 달리 한정하는 방법

기본 활용 자료 분석 데이터 7 형태소분석 말뭉치 형태의미분석 통합전 말뭉치 통합후 말뭉치* 표준국어대사전 파일수 447   형태소분석 말뭉치 형태의미분석 통합전 말뭉치 통합후 말뭉치* 표준국어대사전 파일수 447 339 (뜻풀이수) 587,833 총 어절 수 15,126,172 11,119,814 3,610,106 어절_태크 수 2,098,643 1,705,155 1,703,561 636,742 NNG 103,458 101,705 101,562 122,281 NNP 80,833 69,522 69,524 18,084 NNB 414 535 271 NP 246 226 228 74 NR 508 440 201 VV 6,831 6,878 15,800 7,659 VA 1,522 1,392 4,395 7,440 VX 87 82 42 VCP 4 3 5 VCN 6 1 MAG 6,764 6,057 5,843 8,226 MAJ 84 71 41 MM 199 190 189 140 XPN 35 34 68 XSN 73 69 131 XR 2,107 1,862 901 IC 1,166 964 210

기본 어휘 선정기준 (2008) 기본 어휘 선정 기준 (경북대 남길임교수, 울산대 신중진교수) 1단계 형태의미주석말뭉치 1,100만 어절의 어휘 빈도 목록 추출 말뭉치 정제 및 전처리: ‘XSA, XSV, XSN'등이 결합한 파생어 등을 복합어 단위로 결합   2단계 형태의미주석말뭉치의 빈도 검증을 위한 기존 어휘 목록 비교 품사별 어휘 수 조정 동형어 수준 어휘 목록 확정 3단계 2단계 결과물을 <표준>의 표제어 및 <표준> 다의어 말뭉치와 비교함으로써 다의어 수준의 5만 어휘 목록 확정 <표준> 표제어와 비교 분석: 구 단위 표제어 제외, 비표준어/방언/북한어/옛말 제외 <표준> 뜻풀이 다의어 분석 말뭉치 4단계 어휘망 구축 단계에서 기본어휘 및 기초어휘 목록 보완

선정 어휘(전체) 9 고려 대상 어휘 수 (세종말뭉치) 기본 어휘 (2008) 추가 어휘 (2009) 선정 어휘 합계 명사 101,562 34,387 10,089 44,476 동사 15,800 9,986 5,592 15,578 형용사 4,395 3,315 1,415 4,730 부사 5,907 2,640 합계 127,659 50,327 17,096 67,424

추가 어휘 선정 세부지침 추가 어휘 선정 기준 명사 동사/형용사 2008년 선정기준 준수 10 추가 어휘 선정 기준 2008년 선정기준 준수 품사정보에 ‘비표준어, 방언, 북한어, 옛말’이 포함되어 있는 어휘는 제외 세종사전에 등재되어 있는 어휘는 추가어휘에 포함 명사 : 8,884 동사 : 5,930 형용사 : 1,029 부족한 부분은 세종에서의 어휘빈도를 중심으로 추가 명사 빈도 10이상 : 11,583 동사 빈도 3이상 : 5,930 형용사 빈도 2이상 : 1,431 명사 고유명사(인명)는 제외 간호원, 국민학교 등 이전 말이나 비속어 등도 ‘비표준어, 방언, 북한어, 옛말’이 아닌 한 포함 뜻풀이를 살핀 후 ‘옛말’인 경우 ‘세종빈도, 2002빈도, 김광해, 연세’에 모두 등재되어 있는 경우에만 추가어휘로 선정 품사정보에 ‘어근’만 있는 경우는 제외 B의 뜻풀이 : ‘A의 순화’의 경우 B는 제외, A는 포함 동사/형용사 ‘A의 준말, A의 원말’의 경우, A 검토 후 추가 ‘A의 사동사, A의 피동사의 경우, A 검토 후 추가 ‘옛말’인 경우 ‘세종빈도, 2002빈도, 김광해, 연세’에 모두 등재된 경우 추가

뜻풀이 및 용례 의미 태깅 (1) 11

뜻풀이 및 용례 의미 태깅 (2) 용례태깅 대상 어휘 수 12 41,244 어휘 (1,108,727개) 보조용언, 의존명사 모두 태깅 “사모한” : 사모하다__001002/VV+ㄴ/ETM

<그림 4)> U-WIN의 내부 구조                                                                                    <그림 4)> U-WIN의 내부 구조 한국어 어휘지도 (U-WIN) 13

용언 하위범주화 정보 구축 (2008) 세종전자사전 용언 논항 선택제약 정보 세종전자사전의 문제점 뜻풀이 없음 14 세종전자사전 용언 논항 선택제약 정보 세종전자사전의 문제점 뜻풀이 없음 표준국어대사전과의 다의 불일치 세부 항목 어휘 : 동형이의어/다의 구분 없음 => 사람에 의해 해독 form=[가다듬다] 1) 격틀: X=N0-이 Y=N1-을 V 선택제약: X_AGT_인간;Y_THM_(정신|마음|생각) Y_THM_(목청|목소리|호흡);X_AGT_인간 Y_THM_(표정|자세|옷매무새);X_AGT_인간 Y_THM_(전열|대열);X_AGT_인간|인간집단

세종 의미부류 와 U-WIN mapping (2008) 15 ① ⑥ ⑤ ② ③ ④

용언 하위범주화 정보 구축 (2008) 16

용언 하위범주화 정보 구축 (2009) 뜻풀이 용례 (“먹다__02”) 17 밥을 {먹다}/술을 {먹다}/약을 {먹다}/물을 {먹다}/음식을 배불리 {먹다}/닭이 모이를 {먹다}/몸이 약해진 누나는 보약을 몇 차례나 {먹어도} 늘 골골거렸다. 담배를 {먹다}/아편을 {먹다}/정선이 야단 통에 두어 시간이나 담배를 끊었다가 {먹는} 담배라 머리가 아뜩한 것 같았다. 연탄가스를 {먹다}/탄내를 {먹다}. 앙심을 {먹고} 투서를 하다/세상일이란 마음 {먹기에} 달려 있다./한번 {먹은} 마음이 변하지 않도록 하자./나는 마음을 독하게 {먹고} 그녀를 외면하였다. 네 살 {먹은} 아이/나이를 {먹다}/내년이면 삼십을 {먹는구나}. 하루 종일 욕만 되게 {먹었네}./그래도 그는 속없는 소리를 하다가 가끔 핀잔을 {먹는} 것이었다. 뇌물을 {먹다}/뇌물을 {먹고} 탈세를 눈감아 주다. 남은 이익은 모두 네가 {먹어라}./시세가 마침 좋은 것 같아서 쌀을 붙였던 것인데 천 원을 {먹기는} 고사하고 본전 육백 원이 다 달아난 판이니…. 기름 {먹은} 종이/김이 습기를 {먹어} 눅눅해졌다./솜이 물을 {먹어} 무겁다. 1등을 {먹다}/우승을 {먹다}/100점을 {먹다}/체육 대회에서 우리 반이 일 등을 {먹었다}. 상대편에게 먼저 한 골을 {먹었다}. 그는 벌써 여러 여자를 {먹었다}. 상대의 센 주먹을 한 방 {먹고} 나가떨어졌다. 경리 직원이 회사의 공금을 {먹었다}. 이 고기에는 칼이 잘 {먹지} 않는다./대패가 잘 {먹는다}. 옷감에 풀이 잘 {먹어야} 다림질하기가 좋다./얼굴에 화장이 잘 {먹지} 않고 들뜬다. 사과에 벌레가 많이 {먹었다}./옷에 좀이 {먹어} 못 입게 되었다./얼굴에 버짐이 {먹다}. 공사에 철근이 생각보다 많이 {먹어} 걱정이다./낡은 집 수리에는 자칫 새로 짓는 것보다 비용이 더 {먹을} 수 있다. 약속을 잊어 {먹다}/노예처럼 부려 {먹다}/종으로 부려 {먹다}/그는 아이들의 순진함을 이용해 {먹는} 장사치였다./야구공으로 유리를 깨 {먹었다}./그 노릇도 이젠 해 {먹기} 힘들다.

용언 하위범주화 정보 구축 : 명사어휘망과 연결 18 (4) (1) (6) (5) (7) (2) (3)

용언 하위범주화 정보 구축 지침 (김혜영교수) 19 용언의 논항정보 구축 지침은 2008년 지침을 기본으로 삼는다. 용언 어휘망의 문형정보는 표준국어대사전의 뜻풀이에 따른다. 문형정보에 해당하는 명사는 명사 어휘망의 최소상계노드와 연결한다. 용언의 논항정보는 각 용언의 용례와 의미를 참조하여 구축한다. 용언의 논항정보는 용례에 있는 논항을 기본정보로 삼는다. 각 논항의 정보는 명사 어휘망에서 상위노드 명사로 연결한다. 의미정보상 최소상계노드 연결이 부적합하면 노드를 조정한다. 상위노드가 논항의 동위노드를 아우르지 못하면 자기노드로 연결한다. 한 용언의 두 논항이 상하관계에 있으면 상계 상위노드로 연결한다. 논항들이 유사 의미장에 같은 줄기이면 공통 상위노드로 연결한다. 두 논항의 형태가 같고 상하관계이면 의미가 넓은 상위노드로 연결한다. 논항이 여러 노드에 걸쳐 나타나면 의미정보로 노드를 설정한다. 논항의 두 동형이 의미정보에 포함되면 복수 상위노드로 설정한다. 논항이 동형이라도 의미정보가 다르면 단수 상위노드로 설정한다. 논항이 상위노드를 설정하지 못하는 상태이면 제자리를 유지한다. 논항의 상위노드를 설정하면 그 의미가 부적합할 때 자기노드에 둔다. 논항이 최상위노드일 때 그 의미가 포괄적이더라도 자기노드에 둔다.

용언 하위범주화 정보 추출 표준 문형에 해당되는 어휘 추출 표준국어사전 ⇒ 세종사전 mapping 20 표준 문형에 해당되는 어휘 추출 뜻풀이 (다의어 수준 의미 태깅) 용례 (다의어 수준 의미 태깅) ………… [용언_1] ………. 용언_2 문장시작 ~ [용언_1] [용언_1]+1 ~ [용언_2] 표준국어사전 ⇒ 세종사전 mapping 선정어휘 대상 (2008,2009) 명사 동사 형용사 부사 세종용례 및 표준사전의 용례/뜻풀이 비교 용언의 세종의미부류(사태) 추출 가다듬다__000001 결심__001000/NNG 1 을/JKO 가다듬다__000001 따위__000001/NNB 3 을/JKO 가다듬다__000001 마음__001001/NNG 1 을/JKO 가다듬다__000001 마음__001002/NNG 15 을/JKO 가다듬다__000001 심신__001000/NNG 1 을/JKO 가다듬다__000001 의지__006001/NNG 1 을/JKO 가다듬다__000001 장소__005000/NNG 1 던/ETM 가다듬다__000001 정신__012001/NNG 4 을/JKO 가다듬다__000001 정신__012005/NNG 4 을/JKO 가다듬다__000001 제정신/NNG 1 을/JKO 가다듬다__000001 힘__001003/NNG 1 을/JKO 가다듬다__000002 따위__000001/NNB 1 을/JKO 가다듬다__000002 몸가짐/NNG 1 을/JKO 가다듬다__000002 물건__000002/NNG 1 을/JKO 가다듬다__000002 사람__000005/NNG 1 는/ETM 가다듬다__000002 일__001010/NNG 1 는/ETM 가다듬다__000002 자세__002001/NNG 1 을/JKO 가다듬다__000003 때__001008/NNG 1 을/ETM 가다듬다__000003 목소리__000001/NNG 1 을/JKO 가다듬다__000003 목청__001000/NNG 2 을/JKO 가다듬다__000004 호흡__000001/NNG 1 을/JKO 가다듬다__000004 훈련__000001/NNG 1 는/ETM 가다듬다__000005 것__001001/NNB 1 을/JKO 가다듬다__000005 사람__000005/NNG 1 는/ETM 가다듬다__000005 일__001001/NNG 1 을/JKO 가다듬다__000005 태세__003000/NNG 1 을/JKO 가다듬다__000005 字句/SH 1 을/JKO

용언 하위범주화 정보 구축 도구 (WEB용, 2009) 21 뜻풀이/용례에서 추출한 하위범주 정보

부사-부사, 부사-용언 호응정보 추출 부사-용언, 부사-부사 정보 추출 22 부사-용언, 부사-부사 정보 추출 ….. [부사_1] [부사_2] …… [용언_1] [용언_2] [부사_1]의 호응 부사/용언 [부사_2], [용언_1], [용언_2] [부사_2]의 호응 부사/용언 [용언_1], [용언_2] 가급적 40802 많이 12743400 MAG 1 1 가급적 40802 안 25001300 MAG 1 0 가급적 40802 노력하다 7590002 VV 2 0 가급적 40802 도와주다 9845200 VV 1 1 가급적 40802 되다 10449612 VV 1 0 가급적 40802 먹다 13180005 VV 1 0 가급적 40802 바라다 15123901 VV 1 1 가급적 40802 복원하다 17212404 VV 2 0 가급적 40802 빠르다 18762403 VA 1 1 가급적 40802 상대되다 20166607 VV 1 0 가급적 40802 않다 25168402 VX 1 0 가급적 40802 적다 32732400 VA 2 0 가급적 40802 크다 38859502 VA 1 0 가급적 40802 해치다 41962301 VV 1 0 가급적 40802 획득하다 43477804 VV 1 0 가까스로 42701 꿀꺽꿀꺽 6439802 MAG 1 1 가까스로 42701 가다 68941 VX 1 0 가까스로 42701 가혹하다 473402 VA 1 0 가까스로 42701 건지다 1645403 VV 1 0 가까스로 42701 걷다 1665902 VV 1 0 가까스로 42701 걸치다 1702006 VV 1 0 가까스로 42701 계속하다 2437313 VV 1 0 가까스로 42701 구하다 4053503 VV 1 1 가까스로 42701 내다 7130823 VV 1 0 가까스로 42701 내다 7130833 VX 1 0 가까스로 42701 내톺다 7278800 VV 1 0 가까스로 42701 넓히다 7405601 VV 1 0 가까스로 42701 넘기다 7408003 VV 2 0 가까스로 42701 넘다 7409803 VV 1 0 가까스로 42701 놓다 7903233 VX 1 0

부사-부사, 부사-용언 정보 구축 (WEB용, 2009) 23 뜻풀이/용례에서 추출한 부사-부사, 부사-용언

입체적 국어사전 Browser (WEB용, 2009) 24

용언 의미 군집화 (1) 용언 의미 군집화/계층화의 필요성 연구 방법 정교한 의미처리에 필수 사전의 다의 분류 기준 필요 용언 의미 군집화 (1) 25 용언 의미 군집화/계층화의 필요성 정교한 의미처리에 필수 사전의 다의 분류 기준 필요 용언의 의미 cluster ⇒ Primitive Concept 한국어 용언망 vs. WordNet의 용언 연구 방법 용언의 뜻풀이말에서 synset 추출, synset link 구성, clustering 표준사전과 세종사전의 용언을 의미적 mapping, 의미정보 추출 세종의미부류 “사태” 의 계층 이용

용언 의미 군집화 (2) 세종전자사전 술어명사의 의미부류 <사태> <정적사태> <행위> 용언 의미 군집화 (2) 26 세종전자사전 술어명사의 의미부류 <사태> <정적사태> <행위> <사건> <현상> <상태변화> 212개 세부 의미 부류

용언 의미 군집화 (3) U-WIN에서의 ‘먹다’ 의미계층 간식하다__01 : 간식__02 (끼니와 끼니 사이에 음식을 먹음) 용언 의미 군집화 (3) 27 U-WIN에서의 ‘먹다’ 의미계층 간식하다__01 : 간식__02 (끼니와 끼니 사이에 음식을 먹음) 갈겨먹다② : 남의 음식을 빼앗아 먹다 거머먹다 : 이것저것 욕심스럽게 급히 걷어 먹다 걸치다__03 : 음식을 아무렇게나 대충 먹다 걸터먹다 : 이것저것 닥치는 대로 휘몰아 먹다 곱먹다① : 곱절로 먹다 그러먹다 : 한곳에 모아서 먹다 나누다__03① : 음식 따위를 함께 먹거나 갈라 먹다 ….

용언 의미 군집화 (4) Synset : 용언 뜻풀이에서 핵심어(용언) 용언 의미 군집화 (4) 28 다의어 수준의 의미 태깅된 뜻풀이 (예, “먹다__02”) Synset : 용언 뜻풀이에서 핵심어(용언) 먹다__002001 : 품다__001004 (생각이나 느낌 따위를 마음속에 가지다) 먹다__002002 : 더하다__000002 (더 보태어 늘리거나 많게 하다) 먹다__002003 : 당하다__001001 (해를 입거나 놀림을 받다) 먹다__002004/5 : 가지다__000002 (자기 것으로 하다) 먹다__002006 : 빨아들이다__000001 (수분, 양분, 기체 따위를 끌어들이거나 흡수하다) 먹다__002007 : 따다__001004 (점수나 자격 따위를 얻다) … 어떤__000003/MM 마음__001002/NNG+이나/JX 감정__006000/NNG+을/JKO 품다__001004/VV+다/EF+./SF 일정하다__000004/VA+ㄴ/ETM 나이__001000/NNG+에/JKB 이르다__001001/VV+거나/EC 나이__001000/NNG+를/JKO 더하다__000002/VV+다/EF+./SF 욕__002001/NNG+,/SP 핀잔__001000/NNG 따위__000001/NNB+를/JKO 듣다__001002/VV+거나/EC 당하다__001001/VV+다/EF+./SF 뇌물/NNG+을/JKO 받다__001001/VV+아/EC 가지다__000002/VV+다/EF+./SF 수익__001002/NNG+이나/JX 이문__006001/NNG+을/JKO 차지하다__001001/VV+아/EC 가지다__000002/VV+다/EF+./SF 물__001001/NNG+이나/JX 습기__002000/NNG 따위__000001/NNB+를/JKO 빨아들이다__000001/VV+다/EF+./SF 어떤__000003/MM 등급__000001/NNG+을/JKO 차지하다__001001/VV+거나/EC 점수__006001/NNG+를/JKO 따다__001004/VV+다/EF+./SF ---

용언 의미 군집화 (5) Synset_뜻풀이_단어 (예, “먹다”) Synset link 29 용언 의미 군집화 (5) 29 Synset_뜻풀이_단어 (예, “먹다”) Synset link 먹다__001000 [ 1 ] 가는귀먹다 먹다__002001 [ 16 ] 각자위심하다 결의하다__001000 끽겁하다 뜻하다__000001 먹이다__000001 먹이다__000005 먹이다__000006 먹히다__000001 샘내다 생각하다__000004 식겁하다 용의하다__000001 입심하다 작심하다 함독하다__000002 회심하다__001002 먹다__002002 [ 4 ] 가령하다 먹이다__000007 증년하다 헛먹다 먹다__002003 [ 2 ] 무사득방하다 언걸먹다__000001 먹다__002004 [ 2 ] 먹이다__000002 먹히다__000002 먹다__002006 [ 3 ] 먹이다__000003 서상하다__002000 음서하다__001000 먹다__002007 [ 1 ] 먹이다__000004 먹다__002012 [ 1 ] 엇먹다__001002 먹다__002017 [ 231 ] 가무리다__000001 감식되다__001000 감식하다__001000 감어하다 강다짐하다__000001 강반하다 개걸하다 개소하다__002002 건담하다 건식하다__001001 건식하다__001002 건식하다__003000 걸치다__000006 고프다 곡식질하다 곱먹다__000001 …. 먹다__001000 → 하다__001005 → 책임지다 → 안다__001001 → 하다__001035 → 나타내다__000003 →드러내다__000002 → mk_드러나다__000002 먹다__002001 → *품다__001004 → 가지다__000009 먹다__002002 → 더하다__000002 → 하다__001035 → 나타내다__000003 → … → mk_드러나다__000002 먹다__002003 → 당하다__001001 → 받다__001003 → *입다__001002 → 당하다__001005 먹다__002004 → 가지다__000002 → 하다__001014 → *정하다__003002 → 결정하다__001000 먹다__002006 → 빨아들이다__000001 → 흡수하다__002005 → 거두어들이다__000011 → 모으다__000001 → 합치다 먹다__002007 → 따다__001004 → 얻다__001006 → 획득하다 → 가지다__000002 → 하다__001014 → *정하다__003002 → 결정하다__001000 먹다__002012 → 하다__001022 → 이루다__001001 → 만들다__000013 → *되다__001010 → 이루어지다__000003 먹다__002017 → 들여보내다__000003 → 들어가다__001009 → *향하다__000001 → 대하다__002001

용언 의미 군집화 (6) 용언 의미 cluster (Top Synset ) 개수 일반 용언 : 133개 용언 의미 군집화 (6) 30 용언 의미 cluster (Top Synset ) 개수 일반 용언 : 133개 사동사 (mk_A) : 202개 피동사 (psv_A) : 228개 mk_나다__001021 (내다) 3 기풍, 멋 따위가 더 나아지다. mk_나다__001022 (내다) 336 어떤 작용에 따른 효과, 결과 따위의 현상이 이루어져 나타나다. mk_날다__001001 (날리다) 1 공중에 떠서 어떤 위치에서 다른 위치로 움직이다. mk_남다__001001 (남기다) 2 다 쓰지 않거나 정해진 수준에 이르지 않아 나머지가 있게 되다. psv_꺾다__000007 (꺾이다) 3 경기나 싸움 따위에서 상대를 이기다. psv_꺾다__000008 (꺾이다) 1 방향을 바꾸어 돌리다. psv_꼬다__001001 (꼬이다) 1 가는 줄 따위의 여러 가닥을 비비면서 엇감아 한 줄로 만들다. psv_꽂다__000001 (꽂히다) 17 쓰러지거나 빠지지 아니하게 박아 세우거나 끼우다. psv_꾸다__001000 (꾸이다) 1 꿈을 보다. 내뻗치다__000001 1 세차게 뻗치다. 다르다__001001 97 비교가 되는 두 대상이 서로 같지 아니하다. 다투다__000002 4 승부나 우열을 겨루다. 돌려주다__000001 3 빌리거나 뺏거나 받거나 한 것을 주인에게 도로 주거나 갚다. 돌아다니다__000001 32 여기저기 여러 곳으로 다니다.

용언 의미 군집화 (7) 31 표준국어대사전과 세종사전 mapping (용례 비교)

용언 의미 군집화 (8) 32 mapping 정보를 이용하여 세종의미부류 정보 추출

용언 의미 군집화 (9) 직접 mapping되지 않은 용언의 의미부류 정보 결정 용언 의미 군집화 (9) 33 선정 용언(20,307개)의 의미 mapping 결과 직접 mapping 되는 용언 : 14,285개 (70%) 직접 mapping되지 않은 용언 : 6,022개 (30%) 직접 mapping되지 않은 용언의 의미부류 정보 결정 해당 용언의 뜻풀이의 synset이 mapping되는 경우 : 2,791개 Synset link 상의 가까운 synset의 의미범주로 mapping : 2,956개 뜻풀이 삼중 정의 : 275개 (수작업으로 결정) 가공하다__030000 : 두려워하다__000001/VV+거나/EC 놀라다__000001/VV+ㄹ/ETM 만하다__000001/VX+다/EF+./SF {외향적심리행위} 힘쓰다__000200 → 공헌하다__000001 → 이바지하다__010001 → 되다__010602 → 놓이다__000201 → psv_놓다__010201 {긍정적결과행위} 가무스름하다 → 감다__040000 → 짙다__020101 강하다__020102 → 높다__000003 → *있다__010301 → 존재하다__000001 {색속성값} 고전하다 : 고전09 (股戰) 고전09 : 고율02 (股慄) 고율02 : 무섭다__000100/VA+어서/EC 다리__010001/NNG+가/JKS 떨리다__010001/VV+ㅁ/ETN+./SF {피동적행위}

용언 의미 군집화 (10) 34 세종사태의미부류로 계층화

용역진행 일정 35 기 간 세부연구내용 연구추진일정(개월) 가중치(%) 4월 5월 6월 7월 8월 9월 10월 11월              기 간 세부연구내용 연구추진일정(개월) 가중치(%) 4월 5월 6월 7월 8월 9월 10월 11월 추가 어휘 선정   10% 명사 어휘망 추가/정비 20% 표준국어대사전과 세종전자사전 mapping 5% 용언 군집화 15% 1차 자문회의(08.07)  08.07 용언 논항정보 구축 세종전자사전 활용 뜻풀이/용례 의미태깅(WEB사전) 태깅 결과 검증(WEB용 사전) 결과 수정/보완, 최종결과보고서 용역성과물발표(11.27-28) (언어중립적 온톨로지 워크숍) 연  구  진  도 10/ 100 20/ 30/ 50/ 60/ 85/ 95/ /100 100% 최 종 보 고 서 2009. 11. 30

제출 결과물 다의어 의미태깅된 뜻풀이/용례 (전체 선정어휘 대상) 36 다의어 의미태깅된 뜻풀이/용례 (전체 선정어휘 대상) 명사 어휘망 (상위어,하위어,동의어/유의어,반의어 관계) DB 용언 하위범주화 정보 DB 용언 의미 군집/계층 DB 부사-부사, 부사-용언 의미 관계 DB WEB용 구축도구 (용언 의미군집/계층 browser 포함) 입체적 국어사전 Browser 세종말뭉치 검증 및 원시말뭉치 품사ㆍ동형이의어 동시 태깅시스템 모든 품사의 동형이의어 태깅 가능 동형이의어 : 상위어/세종의미부류로 매핑 (직관적인 판단) 형태소분석 : 두 가지 형태 분석 가능 (증자/NNG+하/XSV, 증자하/VV)

품사 ㆍ동형이의어 동시 태깅시스템 (1) 37

품사 ㆍ동형이의어 동시 태깅시스템 (2) 38 동형이의어 상위어로 mapping (명사,용언,부사 등)

시연 어휘망 편집도구(WEB용) 입체적 국어사전 Browser(WEB용) 표준국어대사전 뜻풀이/용례 의미태깅시스템(WEB용) 39 어휘망 편집도구(WEB용) http://klplab.ulsan.ac.kr:8080/uwin_korean/login.do?action=login 입체적 국어사전 Browser(WEB용) http://klplab.ulsan.ac.kr:8080/kooklip_new.jnlp 표준국어대사전 뜻풀이/용례 의미태깅시스템(WEB용) http://nlplab.ulsan.ac.kr:5900/tagging_def/login.aspx 품사ㆍ동형이의어 동시 태깅시스템