한국어 어휘 사전 DB 지식마이닝연구팀 기술설명자료
2 ::: ETRI, The Future Wave ::: 기술이전 개요 필요성 –Big Data 처리에 대한 요구가 급증 – 웹 정보검색의 트렌드 변화 ( 문서검색 질의응답 ) Watson (IBM) SIRI (APPLE) –Big Data 처리와 질의응답의 핵심 원천 기술은 자연어 처리 – 고정밀 자연어 처리의 핵심 자원 : 어휘 사전 활용 방안 및 기대 성과 – 음성인식 등 언어분석 기반 응용 시스템에 활용 – 한국어 정보 추출에 활용 (Big Data 처리 ) – 한국어 정보검색 / 질의응답 기술에 활용
3 ::: ETRI, The Future Wave ::: 기술이전 내용 및 범위 (1/2) 한국어 형태소 기분석 사전 – 형태소 분석 기술 한국어 문장을 형태소 단위로 분리하고 태깅하는 기술 – 형태소 태그 셋 : 26 개 – 한국어 형태소 기분석 사전 : 141 만 엔트리 분류태그설명코드 명사 NN NP NX NU 명사 대명사 의존명사 수사 동사 VV VX 동사 보조 동사 4545 형용사 AJ AX 형용사 보조 형용사 6767 부사 AD 부사 8 관형사 DT DN 일반 관형사 수 관형사 9 10 감탄사 IJ 감탄사 11 조사 JO 조사 12 서술격조사 CP 지정사 13 어미 EM EP 어미 선어말 어미 분류태그설명코드 접두사 PF 접두사 16 접미사 SF SV SJ SN 접미사 동사파생접미사 형용사파생접미사 명사파생접미사 기호 SY 기호 21 기타 ZZ 기타 22 미등록어 UK 미등록어 31 명사 NK 사용자사전등록명사 32 고유명사 NR 고유명사 33
4 ::: ETRI, The Future Wave ::: 기술이전 내용 및 범위 (2/2) 한국어 세부분류 개체명 사전 – 개체명 분석 기술 한국어 문장에 표현된 주요 개체 ( 사람, 기관, 지역 등 ) 를 인식하고 개체범주를 태깅하는 기술 – 개체범주 : 대분류 15 개, 세분류 180 개의 계층구조로 구성 참고 : 개체명 태그 페이지 – 한국어 세부분류 개체명 사전 : 360 만 엔트리 한국어 이형태 정규화 사전 – 이형태 정규화 기술 동일한 개체를 의미하는 개체군의 대표 어휘로 변환하는 기술 – 이형태 정규화 사전 수작업으로 구축한 이형태 어휘 사전 : 약 5.7 만 엔트리 웹에서 자동 추출한 이형태 어휘 사전 : 약 9 만 엔트리 – 구축 대상 도메인 : 공공, 기업, 스마트폰, 자동차, 제품명 등
5 ::: ETRI, The Future Wave ::: 개체명 태그 대분류 15 개 –PERSON, STUDY_FIELD, THEORY, ARTIFACTS, ORGANIZATION, LOCATION, CIVILIZATION, DATE, TIME, QUANTITY, EVENT, ANIMAL, PLANT, MATERIAL, TERM 소분류 180 개 –ARTIFACTS 소분류 예 AF_CULTURAL_ASSET, AF_BUILDING, AF_MUSICAL_INSTRUMENT, AF_ROAD, AF_WEAPON, AF_TRANSPORT, AF_WORKS, AFW_GEOGRAPHY, AFW_MEDICAL_SCIENCE, AFW_RELIGION, AFW_PHILOSOPHY, AFW_ART, AFWA_DANCE, AFWA_MOVIE, AFWA_LITERATURE, AFWA_ART_CRAFT, AFWA_THEATRICALS, AFWA_MUSIC
6 ::: ETRI, The Future Wave ::: 한국어 어휘 사전 DB 특징 (1/2) 한국어 형태소 기분석 사전 – 복합명사만을 대상으로 함 – 구성 형태 : 엔트리 – 형태소분석된 엔트리 – 대상 도메인 및 엔트리 수 도메인엔트리 수 일반 복합명사 1,134,178 주소 ( 수작업 ) 9,412 주소 ( 자동 ) 93,222 맛집 7,935 게임 10,784 POI( 휴양지, 산, 기관, 건물 등 ) 16,560 상호명 115,334 위키사전 20,828 전체 1,408,253
7 ::: ETRI, The Future Wave ::: 한국어 어휘 사전 DB 특징 (2/2) 한국어 세부분류 개체명 사전 – 계층구조의 개체범주를 사용 ( 대분류 15, 세부분류 180) – 구성형태 : 개체명 - 개체범주 – 다양한 도메인에의 튜닝 IT, 맛집, 스포츠, 여행, TV, 인물, 기업, 공공분야 등 한국어 이형태 정규화 사전 – 개체명으로 인식되는 어휘만 대상으로 함 – 구성형태 : 이형태어휘 – 정규화어휘 – 이형태 유형을 8 가지로 정의하여 사전을 구축 유형예제 축약형건국대학교, 건국대, 건대 한 / 영 혼용인터넷, Internet 영어의 한국식 표현여관, 모텔 영어 발음 혼용바테리, 빠테리 생략형한국전자통신연구원, 전자통신연구원 약칭형지식경제부, 지경부 별칭형한국통신, KT 이동형힐튼호텔, 호텔힐튼
8 ::: ETRI, The Future Wave ::: 기술료 제안 ( 예상기술료 ) 어휘 DB 구분 공동연구 참여기업일반 기업 중소기업대기업중소기업대기업 한국어 형태소 기분 석 사전 기술료 조건 착수기본료 ( 원 ) 6,000,00012,000,0006,000,00012,000,000 매출정률 사용료 (%) 0000 한국어 세부분류 개체명 사전 기술료 조건 착수기본료 ( 원 ) 10,000,00020,000,00010,000,00020,000,000 매출정률 사용료 (%) 0000 한국어 이형태 정규 화 사전 기술료 조건 착수기본료 ( 원 ) 4,000,0008,000,0004,000,0008,000,000 매출정률 사용료 (%) 0000 단위 : 천원
9 ::: ETRI, The Future Wave ::: 제공 기술 자료 사전 – 한국어 형태소 기분석 사전 – 한국어 세부분류 개체명 사전 – 한국어 이형태 정규화 사전 기술 문서 – 형태소 태그 설명서 – 개체명 태그 설명서
10 ::: ETRI, The Future Wave ::: 연락처 담당자 –ETRI 지식마이닝연구팀, 허정 – 전화 : (042) , – 팩스 : (042) – – 주소 : ( 우 ) 대전시 유성구 가정로 218 한국전자통신연구원 음성 / 언어정보연구부 지식마이닝연구팀