Presentation is loading. Please wait.

Presentation is loading. Please wait.

Research Presentation -related in NLP

Similar presentations


Presentation on theme: "Research Presentation -related in NLP"— Presentation transcript:

1 Research Presentation -related in NLP
Speaker – Won Jae Lee (ASH)

2 대규모 코퍼스기반 자동으로 문법 규칙 및 정보 추출하는 방법
Edit: A Broad-Coverage Grammar Checker using Pattern Grammar Chung-Chi Huang, Shih-Thing Huang Mei-Hua Chen, Jason S. Chang Information Extraction from Web-Scale N- gram Data Niket Tandon Gerard de Melo

3 데이터로부터 무수히 많은 사실들을 얻어낼 수 있다는 사실
빈라덴과 데이터의 관계? 데이터로부터 무수히 많은 사실들을 얻어낼 수 있다는 사실

4 왜? 수동적 규칙 부여와 한정된 패턴 추출 & 정제된 코퍼스로부터 문법 패턴을 자동으로 추출
사용자의 문장과 비교 후 정확한 문장 제시 작은 규모의 코퍼스로부터 부정확한 관계 정보를 추출 → 웹을 기반으로한 대규모 코퍼스로부터 많은 시간을 소 요하지않고 정확한 관계를 도출

5 발전해온 과정 문법 오류를 식별 수동적으로 부여된 규칙을 바탕으로 오류 식별
POS 태깅과 n-grams 등을 혼합하여 오류 식별 통계적인 방법 도입시도 ---- 한가지 관계만을 찾아보기 매우 구체적인 정보를 단일 웹페이지에서 추출 좀더 많은 웹페이지에서 정보 탐색 속도를 향상시키려는 시도

6 저자들의 시스템이 더 우월한 이유 전반적으로 폭넓게 문법 오류를 검사하고 많은 규모의 텍스트로부 패턴을 추출하여 단어의 교체, 삽입, 삭제까지 자동적으로 계산하여 제시 ---- 유용성 N-gram 데이터의 확장가능성

7 완성된 예제 (Edit)

8 완성된 예제 (N-gram) isA(Laden, terrorist) part of(Laden, zihard)
hasProperty(Laden, cruelty)

9 구현방법 Edit Lemmatizing, POS Tagging and Phrase chunking.
N grams and Collocations. Constructing Inverted Files. Deriving pattern rules N-gram 1) Gather a set of patterns 2) derive a vector representation for each candidate tuple 3) Based on a training set of labelled tuples, a learning algorithm finally determines which candidate tuples should be accepted

10 Edit 구현 Using ‘GRASP’ -> computer-assisted language learning
For (2), we use MI value

11

12 Algorithm in Edit system

13 N-gram 구현

14 어떻게 패턴을 찾아내는가? 1) Concept Net 2) PMI score

15 트레이닝 벡터 생성 Manually tag labels l(x,y)

16 도출된 결과 평가 시험 환경 Use British National Corpus as general corpus C.
Exploit GENIA tagger to get the lemmas, PoS. Examine three types of errors and mixture of them for correction system Compare the result with MSR ESLs Edit is easily accessible and effective in both grammaticality and usage check. For the evaluation, we used 3 different sources of n-gram statistics. Also, we choose 3 relations which fulfill the conditions earlier existed. We labeled data and got results with table shown below.

17

18

19

20

21 How to extract the pattern and match
“He play an important roles to close this deals. He looks forward to hear you.” → give a suggestion how to correct How to find the relationship from the information → trying to find the relationship between play and role if there is such tuple

22 의견 발전방향: 문법 패턴 교정에서 나아가 문단, 페이지, 글 전체를 의미에 맞게 교정하는 시스템 완성.
발전방향: 단어사이의 관계 도출에서 확장하여 여러 단어의 관계 도출, 복잡한 관계식 유도, 가 지고있는 한계점들을 개선하여 실용가능성 있 는 프로그램 완성.

23 감사합니다.


Download ppt "Research Presentation -related in NLP"

Similar presentations


Ads by Google