Extracting Schedule Information from Korean

Slides:



Advertisements
Similar presentations
[ 영어 향기 모임일지 ] 일시 장소혁신교육 지원센터참석인원 8 주제 Side by side 활동내용 We studied [side by side] lesson 6 Family members / Describing activities and events.
Advertisements

김수연 Capstone Design Realization Cost Reduction through Deep Artificial Neural Network Analysis.
수강신청절차 ( ~1.30) 자동차선박기술대학원 교학행정실. 수강신청 일정 구 분구 분기 간기 간비고 전공별 개설 예정과목 접수 ( 목 ) ~ ( 금 ) 전공주임교수 → 행정실 운영위원회 ( 교과목확정 ) (
- 을까요 ? ① Sogang Korean 1B UNIT 5 “– 을까요① ?” 같이 춤 출까요 ? 네, 좋아요.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
1320EH ㈜ 원 인터내셔널.
소프트웨어 종합설계 (Software Capstone Design)
Green Ajou Administrative Procedures그린아주 운영절차
★생활관 식당 조식/석식 할인 이용 관련 안내★
Sentiment analysis support vector machines with diverse information sources 데이터베이스 연구실 이 상환.
C++ Tutorial 1 서강대학교 데이터베이스 연구실.
Domain Name System.
Chapter 7 ARP and RARP.
스테레오 비젼을 위한 3장 영상의 효율적인 영상정렬 기법
Introduction to Django
Hierarchical Classification: Comparison with Flat Method
대한피부과학회지 Annals of Dermatology
SAP QUERY SAP R/3 4.6C.
기본 컴퓨터 프로그래밍 Lecture #6.
Information Retrieval (Chapter 4: 질의언어)
7장 : 캐시와 메모리.
ISO / KS A 9001:2000 전환을 위한 지침.
-으세요 ② 아버지가 테니스를 좋아하세요? 네, 테니스를 좋아하세요. Sogang Korean 1B UNIT 3 “–으세요②”
EPS Based Motion Recognition algorithm Comparison
Word2Vec Tutorial 박 영택 숭실대학교.
6장. 물리적 데이터베이스 설계 물리적 데이터베이스 설계
Technological Forecasting & social change(2014)
제 14 장 거시경제학의 개관 PowerPoint® Slides by Can Erbil
전사 기업관리 사이클 최적화를 통한 경영혁신과 전략적 수행방안
Semi-supervised Document classification (probabilistic model and EM)
for Robust Facial Landmark Localization
발표자 : 홍익대학교 소프트웨어 공학 연구실 변은영 지도교수 : 김영철
몇 시예요? 지금 몇 시예요? 다섯 시 오 분이에요. Sogang Korean 1A UNIT 2 “몇 시예요?”
목 차 회사 정보 기업 본부 재정 정보 뉴스 제품 목록 지원 서비스 제휴 업체/판매 업체 명단 구인 목록 목차 항목
있어요/ 없어요 앤디 씨, 우산 있어요? 우산 있어요? 아니요, 없어요. 네, 있어요.
Team no.13 Tech TonicS.
SQL Server 7.0 세미나 (Performance Tuning)
VistA Internationalization Phase 2 – Menu System l10n
Data Mining Final Project
SYSMAC GATEWAY 간이 매뉴얼.
Progress Seminar 권순빈.
A Web-Based Little Man Computer Simulator
2009, 46th KLA General Conference
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
Master’s Thesis An Approach for Mapping of the Location Text in the Meeting Announcement to the Geographical Location 제 석사논문연구 제목은, “회의공지의 장소텍스트와 그 지리적.
My WebBook 1 조 이규태,고석현,이진학 손효일,최용호.
Push Notification의 현재와 발전방향
23rd KIMUN Orientation ROP 리서치 하는 방법 포지션페이퍼 쓰는 법 QNA
“1%의 Leader를 위한 영어 영재 교육원”
McGraw-Hill Technology Education
Progress Seminar 신희안.
: 부정(negative)의 의미를 나타내는 접두사
Text Mining (Parsing) with R
CEO가 가져야 할 품질 혁신 마인드.
이게 이게 뭐예요? 시계예요. Sogang Korean 1A Preparing UNIT 2 “이게”
Extracting Schedule Information from Korean
『중소•벤처기업의 인적자원관리』 이 규 환 서울특별시 강남구 삼성동 현대빌딩 506호 전화 : (02) , Fax : (02)
• I was touched by my friends’ effort.
소프트웨어 종합설계 (Software Capstone Design)
-아/어 드릴까요? 문 열어 드릴까요? 네, 감사합니다. Sogang Korean 2A UNIT 7 “-아/어 드릴까요?”
Templete for you!
Bug Localization Based on Code Change Histories and Bug Reports
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
[CPA340] Algorithms and Practice Youn-Hee Han
Progress Seminar 신희안.
연구 진행 상황 보고서 Insulin Pump CPF Xproject 2주전 계획 연구 결과 문제점 및 대책 목표 및 계획
Progress Seminar 선석규.
Implementing SmartThings App Visualization tool
CINAHL Plus with Full Text
Chapter 7: Deadlocks.
Presentation transcript:

Extracting Schedule Information from Korean Email 제목을 이렇게 해도 될지? Kyoungryol Kim

Table of Contents Introduction Methods and Experiments Discussion Proposed Architecture Discussion

Introduction

Goal To extract schedule information, Meeting location and Speaker, automatically from Email 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Extract Location 1층 세미나실 Speaker 김 아나톨리, 박광희

Methods and Experiments

Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 발표자 는 김 아나톨리 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 B 세미나실 B 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 B 니 O ... 4 O 시 O 에 O , O 1층 B 세미나실 I 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Meeting Location 1층 세미나실 Speaker 김 아나톨리, 박광희 INPUT TEXT Boundary Detection Boundary Disambi-guation NE Type Classific-ation NE Extraction OUTPUT Tokenization CRF Model ? ?

Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 발표자 는 김 아나톨리 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 B 세미나실 B 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 B 니 O ... 4 O 시 O 에 O , O 1층 B 세미나실 I 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B 아나톨리 I , O 박광희 B 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Meeting Location 1층 세미나실 Speaker 김 아나톨리, 박광희 INPUT TEXT Boundary Detection Boundary Disambi-guation NE Type Classific-ation NE Extraction OUTPUT Tokenization CRF Model ? ?

Proposed Architecture ... 4 시 에 , 1층 세미나실 에서 세미나 를 진행 합니다 발표자 는 김 아나톨리 박광희 학생 이 니 ... 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 I-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O ... 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 발표자 O 는 O 김 B-Speaker 아나톨리 I-Speaker , O 박광희 B-Speaker 학생 O 이 O 니 O 안녕하세요, 금주 수요일 오후 2시~4시에, 1층 세미나실에서 세미나를 진행합니다. CI LAB과 TC LAB 이 공동으로 주관하는 세미나이며, 지도교수님께서 참석하실 예정입니다. 석사과정학생들은 꼭 참석바랍니다. 발표자는 김 아나톨리, 박광희 학생이니 준비해주십시오. 문의사항은 박상원 학생에게 문의바랍니다. 감사합니다. Meeting Location 1층 세미나실 Speaker 김 아나톨리, 박광희 INPUT TEXT Boundary Detection Boundary Disambi-guation OUTPUT Tokenization Tag Matching NE Extraction CRF Model NE Patterns SVM

Proposed Architecture 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 B-Speaker 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 1. Check whether tagged NE Type is proper, using SVM classifier. Classes : Speaker / Location / O (check only to the types Speaker and Location, not O) e.g.) 김 B-Speaker Speaker (do nothing) 영수 O (skip) 본부장 B-Speaker O (correct tag) 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 2. Check whether B- or I- tags are assigned properly or should be corrected, using NE-patterns come from training corpus. e.g.) POS-featured NE-patterns. 5 층 자판기 앞 B-Location/nnc I-Location/nbu I-Location/ncn I-Location/ncn Boundary Detection Boundary Disambiguation Tag Matching Boundary Correction Boundary Expansion SVM NE Patterns

Proposed Architecture 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 B-Speaker 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 O 본부장 O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 O 수 I-Speaker 팀장 O 관광 O 협회 O 중앙회 O 김병삼 B-Speaker 국장 O , O 벤처기업협회 O 김 B-Speaker 영수 I-Speaker 본부장 O 벤처기업 O 연구원 O 이미순 B-Speaker 박사 O , O 기술 O 보증기금 O 강성 B-Speaker 수 I-Speaker 팀장 O 1. Backward search : check whether the tagged sequence can have I-tag or B-tag, previously, using NE-patterns 2. Forward search : check whether the tagged sequence can have I-tag on the next., using NE-patterns 3. Filling blank : check whether the blank (O-tag) between B-tag and I-tag or I-tag and I-tag, can have I-tag, using NE-patterns e.g.) 순천 대학교 70 주년 기념관 B-Location/ncn 순천 I-Location/ncn 대학교 O/nnc 70 I-Location I-Location/nbu 주년 I-Location/ncn 기념관 4 O 시 O 에 O , O 1층 I-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O 4 O 시 O 에 O , O 1층 B-Location 세미나실 I-Location 에서 O 세미나 O 를 O 진행 O 합니다 O Boundary Detection Boundary Disambiguation Tag Matching Boundary Correction Boundary Expansion SVM NE Patterns

NE-Patterns NE-patterns table as below is made from the training corpus By looking at this table, we might correct and expand boundary of NEs. Feature can be added more, so far POS-tag feature only will be applied. index Feature Sequence Freq. 1 POS ncn sl sr Tag B-Location I-Location 2 xsncc 7 3 nnc nbu 15 ... e.g. ) 장소 : 진주 동방 호텔 5 층 POS : ncn sp ncn ncn ncn nnc nbu Answer : O O B-Location I-Location I-Location I-Location I-Location Tagged : O O B-Location I-Location I-Location O I-Location

Boundary Detection Boundary Tagset : IOB2 Features Linguistic {-2,-1,0,1,2} POS-level word, {-2,-1,0,1,2} POS-tag, POS-tag + length of the word, character-level bigram Orthographic : 18 types of the word isKorean, isChinese, isAlpha, isAlnum, 2DigitNum, PuncChar, Currency, ... Gazetteer : Person/Location Pronoun dictionary (ETRI 99) from Training corpus : Heading words, Surrounding words, NE words Syntactic : Sentence level : Position of the POS-level word in the chunk (S / C / E) Position of the chunk in the sentence (S / C / E) Document level : Position of the sentence in the document (S / SC / CE / E) TF-IDF Newly added features

Experiment : Boundary Detection 948 emails including 'Location' or 'Speaker' 995 Speakers, 1,114 Meeting Locations CRFs Model, 10-fold cross validation, Exact Matching F-measure B-Sp : + 7.19 I-Sp : + 1.56 B-Loc : +3.18 I-Loc : +5.45 Result of Feb 17 Result of Feb 24

Discussion Dependency between NEs in the sentence Location and Speaker appeared together only 5 times out of 1844 sentences. This can be a good factor to classify NE-type. Location with time (start time : 5.81%, end time : 1.54%) with landmark : 4.79% with title : 3.45%, topic : 0.38% with speaker : 0.27%, attendee : 0.22%, supervisor : 0.74%, target : 0.59% with reference : 1.74%, movesby : 0.86% Speaker with topic : 8.10%, title : 0.71% with attendee : 2.22%, supervisor : 0.37%, target : 0.32% with time (start time : 1.17%, end time : 0.71%) with location : 0.27%

Discussion Possibility information from CRFs module We may use this information if we train models in different criteria. Comparing the possibility with number of models and then select one which has biggest possibility number. e.g.) Input Sentence : 다. 장 소 : 한국관광공사 지하1층 TIC 상영관 - Morpheme : 다 | O / O | 0.8958613190892613 - Morpheme : . | O / O | 0.9937353480938121 - Morpheme : 장 | O / O | 0.9460514699205853 - Morpheme : 소 | O / O | 0.9830620933125314 - Morpheme : : | O / O | 0.9991695612063729 - Morpheme : 한국관광공사 | B-Location / B-Location | 0.7054019272613514 - Morpheme : 지하1층 | I-Location / I-Location | 0.9216401435591766 - Morpheme : TIC | B-Location / I-Location | 0.34791983714386404 - Morpheme : 상영관 | I-Location / I-Location | 0.383894050337381 (Answer) : O O O O O B-Location I-Location I-Location I-Location (Tagged) : O O O O O B-Location I-Location B-Location I-Location

Schedule Plan ~Feb 24 : ~Mar 3 : ~Mar 10 : ~Mar 31: >85% of F-measure for boundary detection, with applying boundary disambiguation module. Open web-based system to share my experimental result. ~Mar 3 : NE-type classification module ~Mar 10 : System refinement and organization. ~Mar 31: Writing paper, problem analysis