Presentation is loading. Please wait.

Presentation is loading. Please wait.

Master’s Thesis An Approach for Mapping of the Location Text in the Meeting Announcement to the Geographical Location 제 석사논문연구 제목은, “회의공지의 장소텍스트와 그 지리적.

Similar presentations


Presentation on theme: "Master’s Thesis An Approach for Mapping of the Location Text in the Meeting Announcement to the Geographical Location 제 석사논문연구 제목은, “회의공지의 장소텍스트와 그 지리적."— Presentation transcript:

1 Master’s Thesis An Approach for Mapping of the Location Text in the Meeting Announcement to the Geographical Location 제 석사논문연구 제목은, “회의공지의 장소텍스트와 그 지리적 위치 간의 매핑을 하는 방법” 입니다. 이와 같은 제목으로 발표를 시작하겠습니다 Kyoungryol Kim

2 Table of Contents Introduction The Proposed Method Experimentation
Overall Architecture Ontological Location Model Module 1: Location Extraction Module 2: Geocoding Module 3: Disambiguation Experimentation Discussion 발표 순서는 다음과 같습니다 먼저 Introduction 에서 본 연구에서 다루는 문제에 대해서 충분히 설명을 드린 다음에 본 연구에서 제안하는 시스템의 세부 내용들을 예제와 함께 살펴보겠습니다. 그 다음에는 실험결과를 통해 시스템의 성능 평가하는 시간을 갖고, 마지막으로 Discussion 에서 정리를 하도록 하겠습니다.

3 Introduction 먼저 introduction 입니다

4 Information Recognition on Smartphone
Smartphone devices begin supporting information recognition technologies focusing on date and time, phone numbers. iPhone supports address recognition, but it recognize only completely formatted address, not all location text. Apple iPhone Google Android RIM Blackberry MS Windows Phone Time(Text) Recognition Phone No. Location(Text) Adding event by recognized time May 21, 2011 Address (Captured from Apple iPhone) 스마트폰이 굉장히 빠른 속도로 퍼지면서, 많은 최신 기술들이 일생생활에 적용되는 것을 쉽게 확인할 수 있습니다. 이와함께 정보추출기술들도 초기 단계이지만 적용되어 일반인들도 사용하고 있습니다. 1) 전화번호인식, 2) 날짜/시간표현인식, 3) 주소인식 등이 지금 적용되어 일반인들도 쉽게 확인할 수 있습니다. 우측의 그림과 같이, Apple의 iPhone 에서는 이메일에 주소표현이 발견되면 밑줄을 그어서 링크를 만들어주고 이 링크를 클릭하면 맵이나 캘린더로 연결해주는 기능을 포함시켰습니다. 이처럼 기업들이 장소의 추출에 관심을 가지기 시작했는데요, 본 연구에서 초점을 맞추고 있는 부분은 바로 ‘장소에 대한 추출’입니다. People start to pay attention to ‘Location Extraction’ technique

5 Information Extraction in Research Area
In research area, there have been trials setting up location model/ interoperating with other GIS, location extraction from the text, geocoding location text including address. But there’s no research have tried to make a system with all of these, synthetically. Interoperability Location Model GIS 1 GIS 2 GIS n GIS Geocoding Address Text 어은동 112-1 , Geocoding Location Text 어은동 GS25 앞 , Location Extraction 석사과정 학생 여러분, 이따 퇴근하고 오후 7시에 어은동 GS25 앞에서 봅시다. 어은동 GS25 앞 [Ben-Akiva 1998] [Bishr 1998] [Flury 2004] [Haklay 2010] [Freitag 1999] [Ciravegna 1999] [Soderland 2000] [Pouliquen 2006] [Goldberg 2007] 한편, 연구영역에서는, 장소와 관련된 연구들은 오래 전부터 활발히 있어왔습니다 - 다른 GIS 시스템과의 상호운용성을 위한 Location Model 에 대한 연구가 있었구요, - 텍스트로부터 장소를 추출하는 연구가 있었습니다. - 주소를 나타내는 텍스트로부터 지리상의 위치를 얻어내는 연구들도 진행되어 왔습니다. 들이 활발한 연구 영역들입니다. - 그런데 주소표현으로부터 지리상의 위치를 얻는 연구는 많이 있었지만, 장소를 나타내는 문자열로부터 지리상의 위치를 얻는 연구는 아직까지 제가 찾아본 바에 의하면 없었습니다. 본 연구는 빨강색으로 하이라이트된 것처럼 이처럼 4가지 분야에 대해 진행된 연구로, 네번째 항목에 있는 것 처럼, 장소를 나타내는 텍스트를 Geocoding 하는 문제를 푸는데 중점을 두었습니다. Coverage of This Research Location Model, Interoperating with other GIS Location Extraction from Text Geocoding Address Text Geocoding Location Text

6 Goal of this Research Mapping Meeting Location text to the Geographical Location and update it to online calendar. Meeting Announcement Extract Meeting Location 무더운 날씨가 본격적으로 시작되는 즈음하여 유니브캐스트의 상반기 평가와 하반기 운영을 위한 정기팀장회의를 개최합니다. 날짜 : 7월 19일(토) 오후 2시 장소 : 명동 민들레영토 민들레영토 오는길 지도와 같이 명동역 8번 출구로 나오셔서 쭉 상가 끼고 걸어가시면 저기 YMCA빌딩 1층에 있습니다. Update Calendar Meeting Location Name 명동 민들레영토 Address 대한민국 서울특별시 중구 명동1가 1-1 Geocode ( , ) 본 연구의 목표는 이렇습니다. 회의공지로부터 회의의 시간과 장소정보를 추출해서 온라인 캘린더에 업데이트를 해주는 큰 시스템의 일부로, - 시간의 추출은 여기서 다루지 않고, - “회의장소를 추출하여 이 장소의 지도상의 위치를 찾아주는 것” 을 목표로 합니다. Time T14:00 Extract Time

7 Problem Specification
Target complexity of the problem : “1 Meeting Location” with “1 Event” * ‘Event’ is specifically clarified time or date for an event in the meeting announcement Extracting the meeting location term from the meeting announcement 회의는 오후 5시 학생회관 101호에서 열립니다. (Meeting will be held 5 PM at Room 101, Student Union.) Geocoding the extracted meeting location term. The geographical location for ‘학생회관 101호(Room 101, Student Union)’ is ambiguous, because almost every university have ‘학생회관(Student Union)’. Event 에 대한 언급이 너무 짧게 넘어가는데 세부적으로 설명할것. (예를들어 컨퍼런스 내에 많은 이벤트가 있는데, 이런경우도 분류되어서 지금 문제랑 비교) Disambiguation 문제는 크게 2개 나뉠 수 있는데, 1. 회의공지문서로부터 회의장소를 추출하는 문제 2. 추출된 회의장소의 지리적 위치를 찾는 문제. 이렇게 나뉩니다. 그런데, 박스 안의 예문과 같이, “학생회관 101호” 라는 장소는 대학만 보더라도, 거의 모든 대학에 ‘학생회관’ 이 있기 때문에 장소를 나타내는 텀에 해당하는 지리적 위치가 다수 존재할 수 있는 ambiguity 가 존재합니다. 따라서, 이를 disambiguation 해주는 문제를 함께 해결하면서 Geocoding을 해주어야 합니다. 따라서 본 연구는 이렇게 3가지 문제를 해결하는 연구가 되겠습니다.

8 Additional Problem : Location with Supplement
“Supplement” Location : Locations which have different representation for each other, but points same location. They are meaningful when all of supplements are merged together. 점프볼 클럽리그 대표자 회의는 3월18일 (목) 오후 8시에 점프볼 사무실에서 열립니다. A representative gathering for Jump-ball club league will be held (Thu) PM 8 at Jump-ball Office. ……… 점프볼 주소 : 서울시 송파구 가락동 49-4 화영빌딩 3층 Jump-ball Address : 3rd floor, Hwayung B/D, 49-4, Garak-dong, Songpa-gu, Seoul supplement relationship 서울시 송파구 가락동 49-4 화영빌딩 3층 점프볼 사무실 merge 본 논문에서 다루는 추가적인 문제를 한가지 더 소개하겠습니다. 회의공지의 특성을 분석해보면, 다음과 같은 형태의 문서도 일부 발견됩니다. 이름을 “supplement” location 이라고 해보았는데요, 지금 이 공지는, 대표자 회의가 ‘점프볼 사무실’에서 열린다는 공지인데요, 점프볼 사무실의 주소는 아래쪽에 나와있습니다. 이 주소가 점프볼 사무실이라는 정보를 알게 되면 번지단위의 주소정보가 있기 때문에 Disambiguation 없이 바로 geocoding 을 해줄 수 있게 됩니다. 그래서, 두 정보는 서로를 보충해주는 성격을 띄고 있다고 해서 “supplement” 관계의 장소라고 하였습니다. 본 연구에서는, 이것을 merge 해주는 문제가 추가로 반영되였습니다.

9 Coverage of this Research
Toward 1,011 meeting announcements in the corpus Coverage of this research : % of documents (95.6% excepting no meeting location case) Complexity Portion 1 Meeting Location with 1 Event 88.23 % 1 Meeting Location with N Event 0.29 % N Meeting Location with 1 Event 0.09 % N Meeting Location with N Event 1.38 % M Meeting Location with N Event 2.81 % No Meeting Location 7.20 % Complexity Portion Location Only 99.21 % Location with Supplement 0.79 % 9p. 웹페이지에서 가져온 것들이기 때문에 그것도 언급해주야 하고, (source 에 대한 이야기가 빠져있음) 이게 상당히 formal 하다는 걸 말해야 한다. 우리연구의 코퍼스에 대한 이야기일뿐 전체 real-world 에 대한 이야기는 아닐수 있으니까 언급해야함. coimplexity 를 이야기할때 p13.의 이야기가 함께 반영되어서 설명하도록 하자. 본 연구가 아직 모든 경우의 문제에 대해서 Cover 하진 못하고 있는데요, 하나의 이벤트에 하나의 미팅장소만을 갖는 경우에 대해서만 다루는 것으로 제한을 하였습니다. 1,011개의 회의 공지에 대해서, 총 88.23%의 coverage 를 갖습니다. 그러나 회의 장소가 포함되지 않은 문서도 7.2% 나 되기 때문에, 그것을 빼면, 95% 이상의 coverage 를 갖는다고 할 수 있겠습니다. 추가적으로 해결하고자 하는 supplement location 이 있는 경우는 0.79% 인데, 이것도 함께 해결할 수 있도록 반영하였습니다. 데이터가 더 커진다면 이 비율들이 달라질 수 있기 때문에 독특한 문서라도, 일단 발견된 경우의 문서들은 의미가 있다고 볼 수 있겠습니다.

10 The Proposed Method 1) Overall Architecture
2) Ontological Location Model 3) Location Extraction 4) Geocoding 5) Disambiguation 여기서부터는 본 연구에서 제안하는 시스템에 대해서 설명하겠습니다. 먼저 전체적인 시스템의 구조입니다.

11 Overall Architecture Training System Testing System Corpus Expansion
Input Document Personal Information Location Extraction Corpus Expansion Extract Rules Meeting Location Ontology & Instances OpenAPI Map Services Document Annotation Adding Document to Corpus Geocoding Disambiguation Geocode DB Training Corpus Extract Instances OUTPUT Address Boundary DB

12 The Proposed Method 1) Overall Architecture
2) Ontological Location Model 3) Location Extraction 4) Geocoding 5) Disambiguation 다음은 Location 의 온톨로지컬 모델에 대한 소개입니다.

13 Ontological Location Model
Necessity of Ontological Location Modeling Granularity Variance (Niu and Kay 2008) Although there are differences to NEs in the granularity level, many NER system doesn’t reflect the granularity. To point the location on the map, it is necessary to recognize NEs with the specifically classified granularities. Country > ... > City > ... > Building > ... > Room Relation between Locations To identify whether the locations in the document are same or not, the concept of relation should be reflected. Embedded ‘서강대학교 마테오관 1층 대강의실’ ‘서강대학교’ (Organization), ‘마테오관’ (Building), ‘1층’(Floor), ‘대강의실’(Room) Equivalent 화영빌딩은 화정역 3번출구 1층에 드림오피스라는 문구점이 있는 건물입니다 Supplement 울산광역시 울주군 상북면 등억리 27번지 먹고 쉬었다가 ( ) 미팅장소를 위해 온톨로지컬 모델링이 필요한 이유는 크게 다음의 2가지로 요약해볼 수 있습니다. 1. 장소는 다양한 granularity 를 가집니다. 국가명, 도시명, 빌딩명, 호실은 그 granularity 가 틀립니다 2. 그 장소들 간의 관계를 표시해주어야 합니다. 이렇게 장소안에 또 장소가 있는 경우도 있고, 서로 같은 장소를 나타내는 경우도 있고 정보의 보완의 관계를 가지는 경우도 있습니다. 이런 이유에서 온톨로지를 도입하게 되었고,

14 Ontological Location Model
Advantages of Ontological Location Model 여기서는 앞 페이지에서 설명한 것들이 온톨로지컬 모델을 쓰면 반영이 되는지를 보여줄것 뒷페이지의 온톨로지도 인과관계에 따라 보여주도록 할것 p13 과 14가 인과관계가 없어보인다. 13에서 말하는 인과관계를 가지고 예를 재미있게 설명하도록. 기-승-전-결에서 지금 기-승으로 넘어가는 단계인거 같은데, 그게 아직 안되고 있다. p15 에 나오는 온토롤지가 인과관계 없이 그냥 나와있는데 그게 빠져있다. 이쯤에서는 이론이 나오기 전에 example 이 3개정도 나와주면서, 온톨로지를 통해서 어떻게 된다는 것을 보여줘야 한다. 그래서 온톨로지컬 모델링을 함으로써 장소의 표현력이 상승되기 때문에, 처리하고 통신할때 수월함이 있고 기존의 지리정보 서비스들과의 통합에도 유리합니다.

15 Meeting Location Ontology
이것은 지금까지 구축된 형태의 온톨로지의 taxonomy와 object property 들입니다.

16 The Proposed Method 1) Overall Architecture
2) Ontological Location Model 3) Location Extraction 4) Geocoding 5) Disambiguation 다음은 문서로부터 회의장소를 추출하는 과정입니다.

17 Architecture of Location Extraction
Rule-based Location Extraction (actual use and evaluation) Rule Generation by Ontology Input: - Meeting Announcement Text Training Corpus Lexical Analysis Extraction Rule Token Boundary Detection Uploading Announcement Token / Relation Extraction by Rule Token Type Matching Manual Annotation (Token / Relation) Syntax Analysis Extraction Rule Generation Annotation Database (Token, Relation) External Context Analysis External Relation Analysis Meeting Location Ontology & Instances Convert Token to Instance 장소의 추출 과정의 전체적인 구조입니다. 좌측의 그림에서는 rule 을 생성하는 과정이고, 어노테이션을 통해 ontology 의 instance 를 생성합니다. 크게 Lexical Analysis 와 Syntax Analysis 두 단계로 나누어 입력 문서에 대해 처리를 하고 최종적으로 토큰 List 와 토큰들간의 relation List 를 출력합니다. Internal Structure Analysis Manually Predefined NE Pattern & Rule Output: - Token List - Relation List

18 NER System (1/2) : Lexical Analysis
Using extraction rules extracted from instances of ontology, detect boundary of tokens and match the type of the tokens at once, so that the system generate the symbol table. 타운미팅, 창업을 준비하는 청년과의 대화 개최 안내 알림 1. 관련: 중소기업은행-기업고객부( ) 2. 위와 관련하여 창업을 준비하는 청년과 대화의 장을 마련하고자 개최하는 타운미팅에 참석을 다음과 같이 알려드리니 많은 관심과 참가 신청을 바랍니다. 가. 개최목적 : 창업관련 애로사항에 대한 은행제도 개선 및 대정부 건의 나. 개최일시 : (목) 15:00 ~ 16:30(1.5H) 다. 개최장소 : 서강대학교 마테오관 1층 대강의실 라. 참석대상 : 창업동아리연합회 서울지역 재학생 및 졸업생, 창업에 관심있는 학생, 학교입주 창업기업 대표 등 150여명 마. 참 석 자 : 은행장, 기업고객담당 부행장, 중소기업청 창업진흥과장, (주)에이앤비소프트 대표 Input: - Meeting Announcement Text Lexical Analysis Syntax Analysis Extraction Rule Generation Meeting Location Ontology & Instances Output: - Token List - Relation List Token Boundary Detection Token Type Matching Symbol Table Internal Structure External Context Analysis External Relation Context Predefined Manually NE Pattern & Rule External Relation Analysis Internal Structure Analysis Token Boundary Detection Token Type Matching Token List ID Token Token Type 1 개최일시 Signal 2 (목) 15:00 Time(startTime) …. 10 서강대학교 마테오관 1층 대강의실 Location(isHeldAt)

19 NER System (2/2) : Syntax Analysis
Using extraction rules for external context, relation, internal structure and predefined NE patterns & rules, link tokens which are matched with those rules. Then system generate external context table, external relation table, internal structure table. Input: - Meeting Announcement Text Lexical Analysis Syntax Analysis Extraction Rule Generation Meeting Location Ontology & Instances Output: - Token List - Relation List Token Boundary Detection Token Type Matching Symbol Table Internal Structure External Context Analysis External Relation Context Predefined Manually NE Pattern & Rule External Relation Analysis Internal Structure Analysis Token List 타운미팅, 창업을 준비하는 청년과의 대화 개최 안내 알림 1. 관련: 중소기업은행-기업고객부( ) 2. 위와 관련하여 창업을 준비하는 청년과 대화의 장을 마련하고자 개최하는 타운미팅에 참석을 다음과 같이 알려드리니 많은 관심과 참가 신청을 바랍니다. 가. 개최목적 : 창업관련 애로사항에 대한 은행제도 개선 및 대정부 건의 나. 개최일시 : (목) 15:00 ~ 16:30(1.5H) 다. 개최장소 : 서강대학교 마테오관 1층 대강의실 라. 참석대상 : 창업동아리연합회 서울지역 재학생 및 졸업생, 창업에 관심있는 학생, 학교입주 창업기업 대표 등 150여명 마. 참 석 자 : 은행장, 기업고객담당 부행장, 중소기업청 창업진흥과장, (주)에이앤비소프트 대표 ID Token Token Type 1 개최일시 Signal 2 (목) 15:00 Time(startTime) …. 10 서강대학교 마테오관 1층 대강의실 Location(isHeldAt) External Context Analysis External Relation Analysis Internal Structure Analysis Relation List Subject Predicate Object 1,2,3 isInPrevSenOf 10 4 isInCurrSenOf 5 isInNextSenOf 1,4,5 isHeadingOf Subject Predicate Object 6,7,8,9 isPartOf 10 6 hasBldg 7 hasFloor 8 hasRoom 9

20 The Proposed Method 1) Overall Architecture
2) Ontological Location Model 3) Location Extraction 4) Geocoding 5) Disambiguation

21 Geocoding Architecture

22 Merge Equivalent Location
점프볼 클럽리그 대표자 회의는 3월18일 (목) 오후 8시에 점프볼 사무실에서 열립니다. A representative gathering for Jump-ball club league will be held (Thu) PM 8 at Jump-ball Office. ……… 점프볼 주소 : 서울시 송파구 가락동 49-4 화영빌딩 3층 Jump-ball Address : 3rd floor, Hwayung B/D, 49-4, Garak-dong, Songpa-gu, Seoul supplement relationship 서울시 송파구 가락동 49-4 화영빌딩 3층 점프볼 사무실

23 Merge Equivalent Location

24 Expansion of Administrative Address
명동 유네스코회관 2층 미지센터

25 Extract Address Information
From Organization name, if there is any address included, extract them. 서울교육문화회관, 서울밀레니엄힐튼, 예산농업진흥센터

26 Search Candidate Location
서울 밀레니엄 힐튼 Query : - Millenium Hilton - Millenium - Hilton 1.Millenium Hotel 2223-1, Daehwa-dong, Ilsanseo-gu, Goyang-si, Kyunggi-do , 2.Millenium 379-1, Sutaek-dong, Guri-si, Kyunggi-do , 3.Millenium PC-room Euljiro 6-dong branch 18-93, Euljiro-6ga, Jung-gu, Seoul , 4.Hilton Hotel, Seoul 395, Namdaemunro-5ga, Jung-gu, Seoul , ……more results…

27 The Proposed Method 1) Ontological Location Model 2) Location NER
3) Geocoding 4) Disambiguation

28 Finding Target Locations Relation-type Classification
Disambiguation Title | Query | Address Original Query 동강밀레니엄래프팅 밀레니엄 대한민국 강원도 영월군 영월읍 거운리 547-1 밀레니엄피시방 서현점 밀레니엄 대한민국 경기도 성남시 분당구 서현동 307 밀레니엄모텔 밀레니엄 대한민국 광주광역시 북구 오룡동 서울힐튼호텔 밀레니엄 힐튼 서울 대한민국 서울특별시 중구 남대문로5가 395 밀레니엄 힐튼 서울 Input Document OUTPUT Finding Target Locations Location NER Relation-type Classification OpenAPI Map Services Disambiguation Normalization Trained Models (CRFs,SVMs) Gazetteer Personal Information Disambiguation Number of Matched characters query-title, query-original query, query-address (Can be used ) Semantic Type / Personal Annotation DB / Distance between locationLandmark Personal Address book/Search history/GPS log 서울힐튼호텔 : 대한민국 서울특별시 중구 남대문로5가 395 ( , ) (Hotel)

29 Experimentation Data Analysis Experimental Result 1 : NER
Experimental Result 2 : Geocoding

30 Discussion

31 Limitations TBD


Download ppt "Master’s Thesis An Approach for Mapping of the Location Text in the Meeting Announcement to the Geographical Location 제 석사논문연구 제목은, “회의공지의 장소텍스트와 그 지리적."

Similar presentations


Ads by Google