Extracting Schedule Information from Korean Email 제목을 이렇게 해도 될지? Kyoungryol Kim
Table of Contents Introduction Methods and Experiments Discussion Proposed Architecture Discussion
Introduction
Goal To extract schedule information, Meeting location and Speaker, automatically from Email 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Extract Location 1층 세미나실 Speaker 김 아나톨리, 박광희
Methods and Experiments
Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 발표자 는 김 아나톨리 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 B 세미나실 B 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 B 니 O ... 4 O 시 O 에 O , O 1층 B 세미나실 I 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Meeting Location 1층 세미나실 Speaker 김 아나톨리, 박광희 INPUT TEXT Boundary Detection Boundary Disambi-guation NE Type Classific-ation NE Extraction OUTPUT Tokenization CRF Model ? ?
Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 발표자 는 김 아나톨리 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 B 세미나실 B 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 B 니 O ... 4 O 시 O 에 O , O 1층 B 세미나실 I 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Meeting Location 1층 세미나실 Speaker 김 아나톨리, 박광희 INPUT TEXT Boundary Detection Boundary Disambi-guation NE Type Classific-ation NE Extraction OUTPUT Tokenization CRF Model ? ?
Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 발표자 는 김 아나톨리 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 I-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Meeting Location 1층 세미나실 Speaker 김 아나톨리, 박광희 INPUT TEXT Boundary Detection Boundary Disambi-guation OUTPUT Tokenization Tag Matching NE Extraction CRF Model NE Patterns SVM
Proposed Architecture 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 B-Speaker 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 1. Check whether tagged NE Type is proper, using SVM classifier. Classes : Speaker / Location / O (check only to the types Speaker and Location, not O) e.g.) 김 B-Speaker Speaker (do nothing) 영수 O (skip) 본부장 B-Speaker O (correct tag) 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 2. Check whether B- or I- tags are assigned properly or should be corrected, using NE-patterns come from training corpus. e.g.) POS-featured NE-patterns. 5 층 자판기 앞 B-Location/nnc I-Location/nbu I-Location/ncn I-Location/ncn Boundary Detection Boundary Disambiguation Tag Matching Boundary Correction Boundary Expansion SVM NE Patterns
Proposed Architecture 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 B-Speaker 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 I-Speaker 본부장 O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 B-Speaker 수 I-Speaker 팀장 O 1. Backward search : check whether the tagged sequence can have I-tag or B-tag, previously, using NE-patterns 2. Forward search : check whether the tagged sequence can have I-tag on the next., using NE-patterns 3. Filling blank : check whether the blank (O-tag) between B-tag and I-tag or I-tag and I-tag, can have I-tag, using NE-patterns e.g.) 순천 대학교 70 주년 기념관 B-Location/ncn 순천 I-Location/ncn 대학교 O/nnc 70 I-Location I-Location/nbu 주년 I-Location/ncn 기념관 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O Boundary Detection Boundary Disambiguation Tag Matching Boundary Correction Boundary Expansion SVM NE Patterns
NE-Patterns NE-patterns table as below is made from the training corpus By looking at this table, we might correct and expand boundary of NEs. Feature can be added more, so far POS-tag feature only will be applied. index Feature Sequence Freq. 1 POS ncn sl sr Tag B-Location I-Location 2 xsncc 7 3 nnc nbu 15 ... e.g. ) 장소 : 진주 동방 호텔 5 층 POS : ncn sp ncn ncn ncn nnc nbu Answer : O O B-Location I-Location I-Location I-Location I-Location Tagged : O O B-Location I-Location I-Location O I-Location
Boundary Detection Boundary Tagset : IOB2 Features Linguistic {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag, POS-tag + length of the word, character-level bigram Orthographic : 18 types of the word isKorean, isChinese, isAlpha, isAlnum, 2DigitNum, PuncChar, Currency, ... Gazetteer : Person/Location Pronoun dictionary (ETRI 99) from Training corpus : Heading words, Surrounding words, NE words Syntactic : Sentence level : Position of the POS-level word in the chunk (S / C / E) Position of the chunk in the sentence (S / C / E) Document level : Position of the sentence in the document (S / SC / CE / E) TF-IDF Newly added features
Experiment : Boundary Detection 948 emails including 'Location' or 'Speaker' 995 Speakers, 1,114 Meeting Locations CRFs Model, 10-fold cross validation, Exact Matching F-measure B-Sp : + 7.19 I-Sp : + 1.56 B-Loc : +3.18 I-Loc : +5.45 Result of Feb 17 Result of Feb 24
Discussion Dependency between NEs in the sentence Location and Speaker appeared together only 5 times out of 1844 sentences. This can be a good factor to classify NE-type. Location with time (start time : 5.81%, end time : 1.54%) with landmark : 4.79% with title : 3.45%, topic : 0.38% with speaker : 0.27%, attendee : 0.22%, supervisor : 0.74%, target : 0.59% with reference : 1.74%, movesby : 0.86% Speaker with topic : 8.10%, title : 0.71% with attendee : 2.22%, supervisor : 0.37%, target : 0.32% with time (start time : 1.17%, end time : 0.71%) with location : 0.27%
Discussion Possibility information from CRFs module We may use this information if we train models in different criteria. Comparing the possibility with number of models and then select one which has biggest possibility number. e.g.) Input Sentence : 다. 장 소 : 한국관광공사 지하1층 TIC 상영관 - Morpheme : 다 | O / O | 0.8958613190892613 - Morpheme : . | O / O | 0.9937353480938121 - Morpheme : 장 | O / O | 0.9460514699205853 - Morpheme : 소 | O / O | 0.9830620933125314 - Morpheme : : | O / O | 0.9991695612063729 - Morpheme : 한국관광공사 | B-Location / B-Location | 0.7054019272613514 - Morpheme : 지하1층 | I-Location / I-Location | 0.9216401435591766 - Morpheme : TIC | B-Location / I-Location | 0.34791983714386404 - Morpheme : 상영관 | I-Location / I-Location | 0.383894050337381 (Answer) : O O O O O B-Location I-Location I-Location I-Location (Tagged) : O O O O O B-Location I-Location B-Location I-Location
Schedule Plan ~Feb 24 : ~Mar 3 : ~Mar 10 : ~Mar 31: >85% of F-measure for boundary detection, with applying boundary disambiguation module. Open web-based system to share my experimental result. ~Mar 3 : NE-type classification module ~Mar 10 : System refinement and organization. ~Mar 31: Writing paper, problem analysis