Download presentation
Presentation is loading. Please wait.
1
말뭉치 기반 형태소 및 의미 태깅 시스템 발표자 : 신준철
UTagger 말뭉치 기반 형태소 및 의미 태깅 시스템 발표자 : 신준철 안녕하세요 UTagger 태깅 시스템을 발표하게될 신준철입니다.
2
차례 아이디어 전체 시스템 시연
3
복잡한 한국어 형태소 시작 용언 어간 접두사 부사 선어말어미 어미 명사 접미사 감탄사 관형사 보조용언 … 조사 끝
한국어에서 형태소에 대한 개념은 상당히 복잡합니다. 때문에 최소한의 형태소 사전만을 가지고 분석기를 만들겠다면 반드시 코드가 복잡해지게 되는데요. 이를 우회할 수 있는 첫번째 방법이 기분석 사전입니다. Ex) 사람인가 사람이 + ㄴ가/EF 사람+이/VCP+ㄴ가/EF 사람/NNG+이/VCP+ㄴ가/EF
4
기분석 사전 Full Word Morpheme Dictionary(FWD) 전체 어절의 형태소 분석 결과 저장
입력 어절의 94% 처리 나머지 6%는 처리 불가
5
부분 어절 기분석 사전 Partial Word Morpheme Dictionary(PWD) 입력 : 사람인가 분리
검색 : 사람 검색 : 인가 사람+은 명물+이+ㄴ가 사람+이+ㄴ가
6
PWD 복합명사 고급한자인가 고급한 자인가 고급하+ㄴ+자+이+ㄴ가 점수 계산 -> 점수가 낮음 3개로 분리 시도
7
PWD 설계의 어려운 점 입력 : 달린다면서 … 달리+ㄴ다면서 린 = 리+ㄴ 음절 분리 =형태소의 분리? PWD 구축 방법
린은 2개의 형태소와 연결됩니다. PWD 구축 방법 알고리즘 설계 PWD 구조 결정
8
PWD 교차 검색 입력 : 달린다면서 분리 검색 : 달린* 검색 : *린다면서 달리+ㄴ다 걸리+ㄴ다면서 달리+ㄴ다면서
교차 검색 시에는 별표를 줘서 검색합니다. 별표에 의미는 린 음절이 2개의 형태소와 연결된다는 것입니다. 달리+ㄴ다면서
9
말뭉치로 PWD 구축 사 람 인 가 사람 이 ㄴ가 멀리가 멀리 가 아 표층형 원형 사람인가 사람+이+ㄴ가 사람인* 사람+이
*인가 ㄴ가 사 람 인 가 사람 이 ㄴ가 표층형 원형 멀리가 멀리+가+아 멀리가* 멀리+가 멀리 가 가+아 *가 아 멀리가 빨간 줄 긋는 부분이 비교적 힘든 부분. 표층형과 원형의 음절단위 연결 멀리 가 아
10
복합명사 의미분석 사과인사차 사과절차 사과예의 사과정신 사과행동 사과행동이었겠지만 예문
씨__01 3 껍질 1 해__01 1 나무__01 2 감__01 1 맛__01 2 덕성__99 1 교목__02 2 원산지 4 일반적 1 귤 1 시__18 2 월__02 7 생물계 1 종자식물 1 과육 4 수__02 2 밤__02 1 크림 1 균류 2 영양__05 2 겉껍질 1 아시아 2 인디애나 1 달걀 2 이남__02 1 산형 2 붉은색 2 사과__05 20 곡식 1 농약 1 질__08 1 우리나라 1 저장력 1 생활 1 선태식물 1 현상__04 1 지방__05 1 타원형 2 허천 1 향기__01 3 피해__01 1 대개__03 3 갈래 1 셀룰로오스 1 가지__01 2 사과나무 3 톱니 2 원료__02 1 단맛 3 품종 11 분홍색 1 밖 1 사이__01 1 병__04 1 속__01 4 해__11 1 신경__04 1 비타민 2 좌우__01 1 노란빛 1 꽃차례 2 열매__01 10 생식__03 1 동물 1 생장__01 1 상순__01 2 제철__01 1 과즙 1 주__05 1 광합성 1 능금나무 2 서부__01 2 조류__03 1 낙과__01 1 증식 1 잎__01 4 조직 1 진홍색 1 끝__01 2 후__08 3 잎겨드랑이 2 씨방 3 바나나 1 동남__01 2 배__08 1 물체 1 평양 1 포도__06 1 배__03 1 세균 2 일생__01 1 하나 11 개량종 2 품질__03 2 엽록소 1 식물__02 7 감각__02 1 홍옥__01 2 살__01 1 동안__01 1 세포막 1 빛 2 신맛 7 알__01 1 조생종 1 체제__02 1 낙엽 2 가운데 1 북아메리카 1 물__01 2 사람 1 과실__01 1 하순__01 1 미생물 1 기관__10 1 이동력 1 고깔 1 개량__01 2 홀씨주머니 1 것__01 3 금강__99 1 수분__01 1 자주색 1 병충해 1 빛깔 1 향__03 1 벌레__01 3 세포벽 1 생명 1 양치식물 1 국광__02 2 꽃__01 3 장미과__02 3 운동__02 1 유럽__02 2 모양__02 3 미국__03 1 잘못 3 내용__02 1 사람 2 태도__03 1 일__01 6 자신__01 1 기준__03 1 상상__07 1 사물__10 2 과정__03 1 것__01 1 용서__01 2 자극__01 1 대궐__02 1 뜻 1 가시나무 1 개념 1 죄__03 3 판단 1 기억__02 1 자기__04 1 작용__01 1 황궁 1 까닭 1 용어__02 1 판정 1 일련__01 1 말__01 2 지각__04 1 포괄적 1 논리 1 등__01 1 정신__12 1 등__05 1 머리__01 1 사과__08 3 추리__04 1 행동 1 예문 사과인사차 사과절차 사과예의 사과정신 사과행동 사과행동이었겠지만 사과바나나 사과음식 사과요리 사과파이 사과과즙 사과과자
11
전체 시스템 입력 세종 말뭉치 입력 학습 데이터 학습 FWD 검색 PWD 검색-조합 사용자 학습 학습 데이터 HMM 태깅
실시간 사용자 데이터 출력
12
옵션 기능들
13
성능 정확률 96.27% 설정 초당 처리 어절 수 1어절 8bytes 분석 40,000 320KB 분석+속성명사 9,000
분석+태깅 15,000 120KB 분석+속성명사+태깅 6,600 52KB
14
시연 : 기본 기능 http://nlplab.ulsan.ac.kr UTaggerWR.exe 입력 예문 고마웠겠지만
수영했습니다. 멀리가버린 나는아파서. 배를 먹고 배를 타서 배가 아팠다. 예문 사과인사차 사과절차 사과예의 사과정신 사과행동 사과행동이었겠지만 사과바나나 사과음식 사과요리 사과파이 사과과즙 사과과자
15
시연 : 사용자 사전 간단하면서 강력하다. 예문 미등록어 수영했을런가 학습 : 사랑했을런가 테스트 : ~~했을런가 갤럭시탭
사랑하/VV+었/EP+을런가/EF 테스트 : ~~했을런가 미등록어 갤럭시탭 아이패드 뮤비
Similar presentations