Presentation is loading. Please wait.

Presentation is loading. Please wait.

형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)

Similar presentations


Presentation on theme: "형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)"— Presentation transcript:

1 형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)
문법적, 관계적인 뜻을 나타내는 단어 또는 단어의 부분 형태소 분석 단어(또는 어절)를 구성하는 각 형태소 분리 분리된 형태소의 기본형 및 품사 정보 추출

2 형태소 분석이란 무엇인가? 형태소 분석 과정 분석 후보 생성 분석 후보로부터 옳은 결과 선택
문법 규칙에 맞는 후보 생성 형태소 분리와 기본형 추정 분석 후보로부터 옳은 결과 선택 형태소끼리의 결합 제약 조건 만족 사전에서 기본형 확인 자연언어의 특징 (형태소 분석의 관점에서) 형태소 분석의 처리 대상 : 단어 또는 어절 단어  하나 이상의 형태소로 이루어짐. 형태소 분석 결과 : 단어간의 결합 제약 형태론적 모호성 발생

3 형태소 분석의 관점 언어학/국어학의 관점 전산 언어학의 관점 새로운 형태론적 언어 현상 발견 및 규명
정성적 (qualitative) 배경지식 : 인가의 언어 능력 전산 언어학의 관점 컴퓨터 프로그램으로 형태소 분석하는 방법론 정량적 (quantitative) 형태론적 현상들을 컴퓨터로 처리하는 방법 다양한 형태론적 현상들을 처리할 수 있는가? 얼마나 정확한 분석을 수행하는가? 시스템이 얼마나 효율적인가? 배경지식 : 어휘 사전과 문법 규칙

4 일반적인 형태소 분석 과정 형태소 분석 입력 : 단어 (어절) 형태소 분석 출력 형태소 분석의 예
단어를 이루고 있는 형태소들의 기본형 각 형태소의 품사 또는 문법적/관계적인 의미를 나타내는 기호 형태소 분석의 예 감기는 : (NOUN ‘감기’) + (JOSA ‘는’) (VERB ‘감기’) + (EOMI ‘는’) (VERB ‘감’) + (EOMI ‘기’) + (JOSA ‘는’) 가시는 : (NOUN ‘가시’) + (JOSA ‘는’) (VERB ‘가시’) + (EOMI ‘는’) (VERB ‘가’) + (P-EOMI ‘시’) + (EOMI ‘는’) (VERB ‘갈’) + (P-EOMI ‘시’) + (EOMI ‘는’)

5

6 일반적인 형태소 분석 과정 (1) 전처리 단계 분석 후보 생성 결합 제약 검사 문장으로부터 단어 추출 문장 부호 분리
숫자나 특수 문자열 처리 분석 후보 생성 형태소 분리 불규칙 원형 복원 결합 제약 검사 모음 조화 형태소 결합 제약 음운현상에 따른 제약 등

7 일반적인 형태소 분석 과정 (2) 옳은 후보 선택 후처리 단계 사전 탐색 단어 형성 규칙 복합 명사 추정 사전 미등록어 처리
준말 처리

8 언어 특성에 따른 형태소 분석 띄어쓰기 안 하는 언어 (중국어, 일본어 등) 굴절이 심한 언어 (핀란드어 등)
단어 분리 문제 중요 굴절이 심한 언어 (핀란드어 등) 형태소의 원형 복원 강조 교착어 (한국어 등) 형태소 분리 문제 중요

9 응용 분야에 따른 형태소 분석 기계번역, 기계이해 시스템 자동색인, 정보검색 맞춤법 검사 및 교정
분석의 정확성, 모호성 해결 강조 자동색인, 정보검색 명사(키워드) 추출, 복합 명사/미등록어 처리 맞춤법 검사 및 교정 오류어 분석 문제 중요

10 형태소 분석 방법 (1) 언어학적 방법 변형 생성 문법 형태론적 변형 현상 설명 변형 규칙으로 기술
변형 현상을 설명하는 단위 규칙 단위 규칙들의 적용 순서 문제 발생

11 형태소 분석 방법 (2) 전산언어학적 방법 형태소 분석 알고리즘 중시 형태론적 현상의 처리 목적
단위 규칙 대신 합성 규칙 사용 중간과정보다는 최종 분석 결과 중시 언어 독립적 방법론 보편적인 언어 현상 처리 형태론적 변형, 형태소 분리 언어 종속적 방법론 개별적인 언어 현상 처리 단어 형성 규칙, 띄어쓰기 등

12 언어 독립적 방법론 Two-level 형태론 형태소 분석 및 생성 이론 분석과 생성을 동일한 규칙으로 기술
생성은 분석의 역방향 형태소 분석 : 표층형을 어휘형으로 변환 Two-level 규칙으로 처리 형태론적 변형 현상 처리에 적합 한국어에서는 불규칙 활용 어절

13 Two-level 형태론의 구현 Two-level 모델 (TM) TM = (R, F, D)
R : two-level 규칙들의 집합 F : Finite State Transducer D : trie 구조로 된 사전 R : string match로 표현 F는 Ri (Ri  R)를 FST로 표현 규칙 기반 시스템의 효율성 문제 해결 Trie 구조 사전(D) 입력 문자열과 사전의 string 일치에 필수

14 음절 기반 형태론 Two-level 모델의 문제점 Two-level 규칙을 string 일치로 기술 제약
비선형적(nonlinear) 음운 현상 독일어의 움라우트 처리 등. Two-level 규칙의 기술 방법 음절과 음운을 기반으로 하여 lhs/rhs/조건(C)을 (특성, 값) 쌍으로 기술 [LHS > RHS : C] 특성-값 쌍의 기술 예 (stem, +1) : 단어의 첫번째 음절 (rhyme, -1) : 마지막 음절의 각운 (coda, +1) : 첫번째 음절의 종성 (coda, +1) /ㅆ/ : 첫음절 조성이 ‘ㅆ’ (coda, +1) [voiced, +]

15 한국어 형태소 분석 방법론 (1) 한국어 형태소 분석법 분류 단어 검색 방향에 따라 형태소 분리 문제 형태소 결합 문제
Left-to-right, right-to-left, bi-directional 형태소 분리 문제 Head-tail 구분법 형태소 결합 문제 Tabular 파싱법, 최장/최단 일치법 형태소 분리 및 결합 문제 음절 단위 분석법

16 한국어 형태소 분석 방법론 (2) Head-tail 구분법 형태소의 분리 Top-down 방식
(2) tail로부터 head 추정

17 한국어 형태소 분석 방법론 (3) Tabular 파싱법 Bottom-up 방식 CYK 알고리즘의 변형
단어를 이루는 가능한 형태소 추출 자모 단위의 substring을 사전에서 검색 추출된 형태소  삼각 테이블에 저장 CYK 알고리즘의 변형 삼각 테이블에서 단어를 이루는 형태소 집합 발견 동적 프로그래밍 기법 : 처리 속도 문제

18 한국어 형태소 분석 방법론 (4) 최장 일치법과 최단 일치법 Tabular 파싱법의 효율 문제 해결 최장 일치법 최단 일치법
우선 순위(형태소의 길이에 따라)가 높은 형태소를 우선적으로 분석 Backtracking 방법 이용 한 가지 분석 결과만 필요한 때 사용 최장 일치법 단어를 이루는 형태소의 길이가 긴 것 우선 최단 일치법 단어를 이루는 형태소의 길이가 짧은 것 우선

19 한국어 형태소 분석 방법론 (5) 음절 단위 분석법 알고리즘과 사전 탐색의 비효율성 문제 방법론 한국어의 음절 특성 이용
단위 음절 특성, 부분 음절 특성 분석 후보들의 자격 요건 강화 분석 후보의 수를 최소화 방법론 형태 변이가 일어난 음절의 특성 이용 복합 명사 및 미등록어 추정 특이한 언어 현상 (예: 불구동사, 준말 등) 기분석 사전에 분석 결과 저장 음절 단위 비교 및 음절 단위 사전 구성 문법 형태소 분리 음절 단위로 분리 조사/어미의 음절 특성 이용 형태론적 변형 원형 복원법 사용

20 영어 형태소 분석 (1) 영어 형태소 분석 접미사 분리 규칙 변형 (regular inflection)
단어의 원형 복원 접두사 및 접미사 분리 불규칙 변형 (irregular inflection) 기분석 사전으로 분석 결과 수록 접미사 분리 명사 : 복수형, 소유격 Books  book + s, John’s -> John + ’s 동사 : 3인칭 단수, 과거/과거분사/현재분사 Changing  change + ing 형용사, 부사 : 비교급, 최상급 -ly, -ation 등

21 영어 형태소 분석 (2) 형태소에 대한 정보 제공 형태소의 기본형, 품사, 수 (단수, 복수) 단어의 쓰인 형태
동사 : 현재, 과거, 과거분사, … 형용사, 부사 : 원급, 비교급, 최상급, … 대명사 : 주격, 소유격, 목적격 단어의 쓰이는 유형 접속사 : 등위 접속사, 종속 접속사 부사 ; 원급, 비교급, 최상급 동사의 패턴 동사, 명사의 경우 함께 잘 쓰이는 전치사 대명사의 인칭 문장에서 나타난 단어의 형태

22 한국어 단어의 유형 (1) 어휘형태소 유형에 따라 어휘유형 1: 단일 형태소로 이루어진 단어
어휘유형 2: 어휘형태소의 품사가 체언인 것 어휘유형 3: 어휘형태소의 품사가 용언인 것 어휘유형 4: 어휘형태소가 복합명사인 것 어휘유형 5: 준말인 단어 어휘유형 6: 숫자나 영문자가 포함된 것 어휘유형 7: 어휘형태소가 미등록어인 것

23 한국어 단어의 유형 (2) 문법형태소의 유형에 따라 문법유형 1: 조사 혹은 어미만 결합된 단어
문법유형 2: 선어말어미가 결합된 단어 문법유형 3: 어미의 변형이 일어난 단어 문법유형 4: 서술격 조사가 생략된 단어 문법유형 5: 접미사가 있는 단어 문법유형 6: 보조 용언이 결합된 단어

24 한국어 형태소 분석 한국어 형태소 분석기에 필요한 기능 조사와 어말 어미의 분리(어미의 변이체) 생략된 서술격 조사 복원
선어말 어미와 접미사의 분리 불규칙 원형 복원 붙여쓰기가 허용되는 경우(보조 용언) 처리 준말 처리 복합어와 미등록어 추정 영문자, 숫자, 수사 처리 사전 탐색 기능

25

26 형태소 분리 형태소 분리 대상 사전에 수록되는 형태소의 결합형 예) ‘사무실에서부터였다고는’
어근, 조사, 어미, 선어말어미, 접미사 사전에 수록되는 형태소의 결합형 (가) 조사로만 이루어진 결합형 서술격 조사 ‘이’는 제외 (나) 어말 어미로만 이루어진 결합형 명사형 어미는 제외 (다) (가)에 어말 어미가 결합되는 경우 (라) (나)에 조사가 결합되는 경우 예) ‘사무실에서부터였다고는’  ‘사무실’ + ‘-에서부터’ + ‘-이-’ + ‘-었-’ + ‘-다고는’

27 불규칙의 원형 복원 (1) 불규칙 유형과 끝음절 특성 ‘ㄷ’ 불규칙 : 10개 (끝음절로 사용되는 음절)
걷/긷/닫/묻/싣/겯/눋/듣/붇/컫 ‘ㅂ’ 불규칙 : 46개 ‘ㅅ' 불규칙 : 9개 긋/낫/붓/잣/짓/끗/뭇/잇/젓 ‘ㅎ’ 불규칙 : 10개 갛/닿/랑/맣/얗/겋/떻/렇/멓/옇 '러‘ 불규칙 : 1개 ‘르’ 불규칙 : 1개 ‘으’ 탈락 : 11개 그/끄/느/뜨/르/쁘/쓰/으/크/트/프

28 불규칙의 원형 복원 (2) 원형 복원 끝음절 특성에 해당되는 어근에 대해서만 분석 후보의 수 최소화
사전 탐색 overhead 줄임

29 복합어와 미등록어 추정 복합명사 추정 미등록어 추정 4/5/6 음절 복합명사 : 복합명사 97%
3 음절 복합명사 : 사전에 수록 7 음절 이상 복합명사 : 미등록어 처리 미등록어 추정 문법형태소 분리 후 어근을 미등록어로 간주 미등록어 선택 시 우선순위 1. 세 개 이상의 형태소로 분리된 후보 2. 체언으로 분석된 후보 (조사가 분리된 후보) 3. 두 음절 이상의 어미가 분리된 후보 4. 어휘 형태소 부분이 길이가 짧은 것 5. 용언보다는 체언 후보 우선

30 형태소 분석기의 성능 분석률 (analysis ratio) 처리속도 모호성 분석 여부 정확히 분석한 비율 (%)
잘못 분석한 비율 틀린 단어의 인식 비율 처리속도 단위 시간당 분석한 단어의 수 알고리즘의 복잡도와 사전 탐색 횟수에 비례 모호성 분석 여부 모호성이 내포된 단어의 모든 분석 결과 생성 모호성 해결 여부


Download ppt "형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)"

Similar presentations


Ads by Google