Presentation is loading. Please wait.

Presentation is loading. Please wait.

자연어처리 기초 번역 엔진 연구팀 손성준.

Similar presentations


Presentation on theme: "자연어처리 기초 번역 엔진 연구팀 손성준."— Presentation transcript:

1 자연어처리 기초 번역 엔진 연구팀 손성준

2 언어의 유한 오토마톤 모델 언어의 수학적 모델 설명 문법 Analysis in With community
언어는 일종의 골격을 가짐(문법) 문법 인접 단어끼리 가져야 할 제약 Analysis in With community Analysis : N, in : PREP With : PREP, community : N

3 문맥 자유형 문법 인접 단어의 제약 표현 정규 문법 영어와 같은 종류 언어 적용 용이 유한 오토마톤의 한계
인접 단어 제약 가능 떨어져 있는 문자열의 상관관계 표현 불가 영어와 같은 종류 언어 적용 용이

4 형태소 해석 개요1/5 문장을 사전에 등록된 최소 단위로 분해 자연어 처리 1단계 음소(phoneme)
인간의 의미(의지) 전달에서 음성을 어떻게 사용하는가를 기초로 생각한 음의 단위

5 형태소 해석 개요2/5 형태소(morpheme) 단어(word) 의미를 가진 최소의 언어 단위, 하나 이상의 음소로 구성
하나의 의미의 총합을 이루며, 문법상 하나의 기능을 가진 최소의 언어 단위, 하나 이상의 형태소로 구성

6 형태소 해석 개요3/5 문장(sentence) 문, 텍스트(text)
전달하고자 하는 내용을 가지며, 완결된 언어 단위, 하나 이상의 단어로 구성 문, 텍스트(text) 전달하고자 하는 내용을 표현하기 위하여 문장이 순서대로 모여진 집합 인접하는 문장 상호간에는 어떤 종류의 관계성이 존재

7 형태소 해석 개요4/5 나는 너를 사랑한다. 나는 너를 사랑한다. 나+아는 낳+아는 나+는 날+는 너+를 너르+ㄹ
사랑+하+ㄴ다+.

8 형태소 해석 개요5/5 비텔비(Viterbi) 알고리즘 은둔 마르코프 모델(HMM)

9 구문 해석 개요1/3 자연언어의 구조를 문법규칙에 기초하여 복원 처리하는 것 영어에서는 구문 해석이 중요
한국어 같은 교착어는 구조가 미약

10 구문 해석 개요2/3 문맥자유문법(CFG)의 생성 규칙이 아래와 같이 주어질 때
[1] S   → NP VP [4] VP → V [7] PP → PREP NP [2] NP → N [5] VP → V NP   [3] NP → DET N [6] VP → V NP PP

11 구문 해석 개요3/3 Top-Down 알고리즘 Bottom-Up 알고리즘
S부터 시작하여 차례로 규칙을 적용해서 주어진 그림을 얻어질 때까지 반복하는 방법 O(kn) Bottom-Up 알고리즘 입력문(bottom)에서 S를 만들어 가는 방향으로 해석 O(nk)

12 의미 해석1/3 격문법(case grammar) 어와 어 사이의 의미관계를 동사를 중심으로 다룬 것

13 의미 해석2/3 의미소에 의한 해석 용례, 시소러스에 의한 해석
의미의 기본 단위인 의미소(semantic premitive)라는 것을 이용하여 의존관계의 제약(restriction)을 기술하는 방법 의미 속성 용례, 시소러스에 의한 해석 걸다 1(희망, 기대 등을 갖다) :     「그」가 「아들」에 「희망」을... 걸다 2(물건을 걸다) :       「그」가 「벽」에 「그림」을...

14 의미 해석3/3 연상관계에 근거한 의미적 애매성 해소 떨어져 있는 단어 사이에도 의미적인 정합관계가 존재 사전의 정의문 코퍼스

15 코퍼스란...1/3 언어 데이터를 대량으로 수집하고 언어 현상의 조사, 통계처리 등을 목적으로 수집된 언어 데이터
텍스트 코퍼스 음성 코퍼스

16 코퍼스란...2/3 Penn Treebank의 작성 과정 의미 정보는 없음

17 코퍼스란...3/3 인간에 의한 언어지식의 기술 컴퓨터 시스템에 의한 자연언어처리 시스템 처리결과의 평가
COBUILD English Dictionary 컴퓨터 시스템에 의한 자연언어처리 형태소정보, 구문정보가 부가된 코퍼스가 있으면, 형태소해석, 구문해석을 위한 우선규칙의 파라미터를 계산 코퍼스로부터의 학습에 의해 문법, 격프레임등의 언어지식을 자동적으로 획득 시스템 처리결과의 평가

18 기계 번역1/16 번역(translation)
어떤 언어(원 언어)의 텍스트를 다른 언어(목적 언어)의 등가의 텍스트로 치환하는 것 단어와 구조의 등가성을 중시하는 번역 의미 내용의 등가성을 중시하는 번역 사회적 이해의 등가성을 중시하는 번역

19 기계 번역2/16 번역의 어려움 어휘 대응의 차이 단어와 구의 대응
"(옷을) 입다",  " (안경을) 쓰다", "(모자를) 쓰다", "(신발을) 신다 put on 단어와 구의 대응 hot water

20 기계 번역3/16 구조의 차이 다른 품사간의 대응 He wears a black suit 그는 검은 셔츠를 입고 있다
자극성 기체 -> 명사 + 명사 stimulative gas -> 형용사 + 명사

21 기계 번역4/16 명시적으로 표현하는 정보의 차이 번역의 요소 합성에 있어 비단조성
수(단수, 복수)의 정보 (영어O, 한국어X) 번역의 요소 합성에 있어 비단조성 논문 – paper, 박사의 – doctoral 박사의 논문 - doctoral thesis

22 기계 번역5/16 기계 번역의 단계 해석, 변환, 생성 기계 번역 시스템 구문 변환 방식 지식형 기계 번역 실례형 기계 번역

23 기계 번역6/16 구문 변환 방식 어휘와 문법에 관한 언어적인 지식 활용 해석 표현적인 격구조 생성 목적언어의 구조로 변환
목적 언어의 표층 표현 생성

24 기계 번역7/16 해석단계(일영 번역 시스템) 형태소해석 단어의 품사의 애매성 해소 복합어 처리 연용형의 동사 처리
병렬 명사구의 처리 명사내의 구조 해석 단문내의 구조 해석 ~は(~은)의 처리 명사구, 동사구 간의 의미적 관계 분석 시제, 양상의 해석

25 기계 번역8/16 변환 단계(일영 번역 시스템) 어휘 변환 구조 변환

26 기계 번역9/16 생성 단계(일영 번역 시스템) 생성 사전 검색 필수격의 생성과 구구조에서의 위치 결정
임의격의 생성과 구구조에서의 위치 결정 수동 변형, 혹은 대동사의 사용 결정 동사구 처리 it ~ that 변형 병렬 명사구, 동사의 등위 접속의 축약 관계절의 변형, 축약 there 구문의 사용 부사, 전치사의 위치 결정

27 기계 번역10/16 지식형 기계 번역(KBMT) 중간 과정에서 개념의 형성이 필요
격구조에서는 언어 종속적 규칙을 적용해서 올바른 번역이 될 수 없다고 봄 대상 분야의 지식을 개념 체계화 필요 추론을 통한 고품질 번역 가능

28 기계 번역11/16 KBMT의 번역 방식

29 기계 번역12/16 해석 변환 생성 원언어의 입력문을 해석 모듈로 해석하고 개념 표현으로 사상
얻어진 개념 표현을 목적 언어에 맞는 개념 표현으로 변환 생성 해석과 역방향 처리를 함으로써 개념 표현에 대응하는 목적 언어의 문 생성

30 기계 번역13/16 개념 정의(표현) 개념 변환 통상의 단어가 갖는 뜻을 개념으로 구성 상속, 재정의 가능
개념 표현이 완전히 중립적이지 못해서 개념 표현을 근사적인 다른 개념으로 바꾸는 것 사영 : 특정 슬롯의 삭제 범용화 : 어떤 개념을 그 상위 개념으로 치환 특수화 : 어떤 개념을 그 하위 개념으로 치환

31 기계 번역14/16 KBMT의 특징 대상 분야 지식의 이용 지식 표현과 상속 중간 언어적 방식의 개념 표현 추론과의 통합
다언어간 번역

32 기계 번역15/16 실례형 기계 번역 방식(EBMT)
어떤 문장과 비슷한 문장은 원래의 문장과 주로 비슷한 구조나 의미로 번역된다는 기본 원리에 입각 Swimming is good for you. Vegetables are good for you. > 야채는 몸에 좋다. Swimming is good for you. > 수영은 몸에 좋다.

33 기계 번역16/16 자연언어 소수의 추상화된 규칙 집합의 한계 풍부한 실례와 용례를 이용하는 것이 유효할 것
개개 단어의 개별성과 방대한 다의성 소수의 추상화된 규칙 집합의 한계 풍부한 실례와 용례를 이용하는 것이 유효할 것


Download ppt "자연어처리 기초 번역 엔진 연구팀 손성준."

Similar presentations


Ads by Google