형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit)

Slides:



Advertisements
Similar presentations
품사. 의미 기능형태 기능에 따라 분류해 봅니다 조사와 결합하는데 ? 형태가 변하지 않아 ^^ 체언.
Advertisements

프로그램이란 프로그램 생성 과정 프로젝트 생성 프로그램 실행 컴퓨터를 사용하는 이유는 무엇인가 ? – 주어진 문제를 쉽고, 빠르게 해결하기 위해서 사용한다. 컴퓨터를 사용한다는 것은 ? – 컴퓨터에 설치 혹은 저장된 프로그램을 사용하는 것이다. 문제를 해결하기 위한.
제 5 장 구문 정의  프로그래밍 언어의 기본 문자 집합  Alphabet 문자 (A-Z) 26 개 + 아라비아 숫자 (0 - 9) 10 개  예 ) Fortran : 기본 문자 집합 + 13 개의 특수문자 (=+ - * / ( ),. $ ‘ : 공백 ) Algol60.
→ 「 too+ 형용사 [ 부사 ]+to 부정사」는 ‘ 너무 ~ 해서... 할 수 없다 ’ 라는 의미 로 이때의 to 부정사는 정도를 나타내는 부사적 용법으로 쓰였다. too ~ to 용법 A → 「 so+ 형용사 [ 부사 ]+that+ 주어 +cannot+ 동사원형」으로.
형용사와 부사 형용사의 용법 형용사의 종류 부사의 용법 부사의 위치. 형용사의 용법 (1)  보어 역할 : 명사나 대명사를 설명함. The book is very interesting.( 주격보어 )I I found the book interesting.( 목적격보어.
문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.
4. 알고 싶은 것, 묻고 싶은 것 ⑴ 국어의 음운 체계와 변동 이해하기.
컴퓨터와 인터넷.
현재분사 a sleeping baby = a baby who is sleeping
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
1. 컴파일러 개론 1-1. Compiler 정의 1-2. Language Processing System
Hybrid INDIGO project 중간보고
Learning Classifier using DNA Bagging
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
Chapter 02 순환 (Recursion).
3강 한글 맞춤법 총칙.
분석적 사고 (Analytical Thinking)
시스템 설계와 산업디자인 개발.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
컴퓨터과학 전공탐색 배상원.
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
응용언어학 제 2언어 습득 이론 -동일성 가설 권보경 이윤태.
제 1장. 멀티미디어 시스템 개요.
능동형동사의 형태와 용법 09 고아라 11 김지완 11 유지은.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
프로그래밍 개요
5. Context-free 문법 5-1. 서 론 5-2. 유도와 유도 트리 5-3. CFG표기법.
인터넷응용프로그래밍 JavaScript(Intro).
13. 포인터와 배열! 함께 이해하기 IT응용시스템공학과 김 형 진 교수.
자연어 처리 (Natural Language Processing) (Lecture Note #27)
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
프로그래밍 언어론 - 소개 순천향대학교 컴퓨터공학과 하 상 호.
Lesson 3 For Our Green Earth 관계부사 계속적 용법의 관계대명사 which.
Regular Expression 1 Powerful pattern matching with regular expression to a string while () { if ( /ab*c/ ) { print $_; } } substitute operator s/abc*c/def/;
자바 5.0 프로그래밍.
텍스트 분석 기초.
논문작성을 위한 연구모형 설정 양동훈.
접어의 정의 및 특징 박진현.
제6장 형용사와 부사 형용사의 용법 형용사의 종류 부사의 용법 부사의 위치.
하이브리드 문화 현상 11조 윤주성, 이호, 허성녕.
알고리즘 알고리즘이란 무엇인가?.
Regular Expression 1 Powerful pattern matching with regular expression to a string while () { if ( /ab*c/ ) { print $_; } } substitute operator s/abc*c/def/;
(생각열기) 축구장의 전광판에 사용되는 LED에서 나오 는 빛의 3원색은 무엇인가?
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
수 동 태1 1. 수동태 2. 형식에 따른 수동태 3. 주의해야 할 수동태 4. 형성평가.
Chapter 1 단위, 물리량, 벡터.
자연언어의 의미 자연언어 처리의 분석 단계 프로그래밍 언어와 같은 인공언어에 대응하는 개념, 인간이 일상적으로 사용하는 언어
Chapter 2 Unit 2 be동사 be동사와 대명사.
Chapter 10 데이터 검색1.
공학도를 위한 C언어 프로그래밍실습1 -통합개발환경 사용법-
단어 허인영 한국어 형태론 발제
부대상황의 분사구문 • ‘접속사+주어+동사’의 의미를 가진 분사가 이끄는 구를 분사구문이라 한다.
발표자 : 이지연 Programming Systems Lab.
..재외동포 대상 한국어 교육 방안 (학습자 연령에 따른 한국어 교육)
텍스트 분석 ㈜ 퀀트랩.
8장 선택 논리 II 1. 논리연산자 1.1 논리연산자 : AND (&&) 1.2 논리연산자 : OR (||)
제 4 장 Record.
Chapter 1. 이산수학의 개요.
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
Ch 07. 조사 도구 개발 조사 도구 개발 과정 조사주제 •가설 정의 개념화•조작화 척도 질문지 구성-원칙과 양식
김선균 컴퓨터 프로그래밍 기초 - 12th : 문자열 - 김선균
제16장 수 동 태 1. 수동태 2. 형식에 따른 수동태 3. 주의해야 할 수동태 4. 형성평가.
13. 포인터와 배열! 함께 이해하기.
형태소의 식별과 분류 :구조주의 언어학자 Harris(1942)와 Nida(1948)의 논의를 중심으로
C++ Espresso 제15장 STL 알고리즘.
6 객체.
이 은 Tyler 교육과정 개발 모형 이 은
1 제조 기술의 세계 3 제품의 개발과 표준화 제품의 개발 표준화 금성출판사.
Presentation transcript:

형태소 분석 형태소의 정의 형태소 분석 의미가 있는 최소의 단위 (minimally meaningful unit) 문법적, 관계적인 뜻을 나타내는 단어 또는 단어의 부분 형태소 분석 단어(또는 어절)를 구성하는 각 형태소 분리 분리된 형태소의 기본형 및 품사 정보 추출

형태소 분석이란 무엇인가? 형태소 분석 과정 분석 후보 생성 분석 후보로부터 옳은 결과 선택 문법 규칙에 맞는 후보 생성 형태소 분리와 기본형 추정 분석 후보로부터 옳은 결과 선택 형태소끼리의 결합 제약 조건 만족 사전에서 기본형 확인 자연언어의 특징 (형태소 분석의 관점에서) 형태소 분석의 처리 대상 : 단어 또는 어절 단어  하나 이상의 형태소로 이루어짐. 형태소 분석 결과 : 단어간의 결합 제약 형태론적 모호성 발생

형태소 분석의 관점 언어학/국어학의 관점 전산 언어학의 관점 새로운 형태론적 언어 현상 발견 및 규명 정성적 (qualitative) 배경지식 : 인가의 언어 능력 전산 언어학의 관점 컴퓨터 프로그램으로 형태소 분석하는 방법론 정량적 (quantitative) 형태론적 현상들을 컴퓨터로 처리하는 방법 다양한 형태론적 현상들을 처리할 수 있는가? 얼마나 정확한 분석을 수행하는가? 시스템이 얼마나 효율적인가? 배경지식 : 어휘 사전과 문법 규칙

일반적인 형태소 분석 과정 형태소 분석 입력 : 단어 (어절) 형태소 분석 출력 형태소 분석의 예 단어를 이루고 있는 형태소들의 기본형 각 형태소의 품사 또는 문법적/관계적인 의미를 나타내는 기호 형태소 분석의 예 감기는 : (NOUN ‘감기’) + (JOSA ‘는’) (VERB ‘감기’) + (EOMI ‘는’) (VERB ‘감’) + (EOMI ‘기’) + (JOSA ‘는’) 가시는 : (NOUN ‘가시’) + (JOSA ‘는’) (VERB ‘가시’) + (EOMI ‘는’) (VERB ‘가’) + (P-EOMI ‘시’) + (EOMI ‘는’) (VERB ‘갈’) + (P-EOMI ‘시’) + (EOMI ‘는’)

일반적인 형태소 분석 과정 (1) 전처리 단계 분석 후보 생성 결합 제약 검사 문장으로부터 단어 추출 문장 부호 분리 숫자나 특수 문자열 처리 분석 후보 생성 형태소 분리 불규칙 원형 복원 결합 제약 검사 모음 조화 형태소 결합 제약 음운현상에 따른 제약 등

일반적인 형태소 분석 과정 (2) 옳은 후보 선택 후처리 단계 사전 탐색 단어 형성 규칙 복합 명사 추정 사전 미등록어 처리 준말 처리

언어 특성에 따른 형태소 분석 띄어쓰기 안 하는 언어 (중국어, 일본어 등) 굴절이 심한 언어 (핀란드어 등) 단어 분리 문제 중요 굴절이 심한 언어 (핀란드어 등) 형태소의 원형 복원 강조 교착어 (한국어 등) 형태소 분리 문제 중요

응용 분야에 따른 형태소 분석 기계번역, 기계이해 시스템 자동색인, 정보검색 맞춤법 검사 및 교정 분석의 정확성, 모호성 해결 강조 자동색인, 정보검색 명사(키워드) 추출, 복합 명사/미등록어 처리 맞춤법 검사 및 교정 오류어 분석 문제 중요

형태소 분석 방법 (1) 언어학적 방법 변형 생성 문법 형태론적 변형 현상 설명 변형 규칙으로 기술 변형 현상을 설명하는 단위 규칙 단위 규칙들의 적용 순서 문제 발생

형태소 분석 방법 (2) 전산언어학적 방법 형태소 분석 알고리즘 중시 형태론적 현상의 처리 목적 단위 규칙 대신 합성 규칙 사용 중간과정보다는 최종 분석 결과 중시 언어 독립적 방법론 보편적인 언어 현상 처리 형태론적 변형, 형태소 분리 언어 종속적 방법론 개별적인 언어 현상 처리 단어 형성 규칙, 띄어쓰기 등

언어 독립적 방법론 Two-level 형태론 형태소 분석 및 생성 이론 분석과 생성을 동일한 규칙으로 기술 생성은 분석의 역방향 형태소 분석 : 표층형을 어휘형으로 변환 Two-level 규칙으로 처리 형태론적 변형 현상 처리에 적합 한국어에서는 불규칙 활용 어절

Two-level 형태론의 구현 Two-level 모델 (TM) TM = (R, F, D) R : two-level 규칙들의 집합 F : Finite State Transducer D : trie 구조로 된 사전 R : string match로 표현 F는 Ri (Ri  R)를 FST로 표현 규칙 기반 시스템의 효율성 문제 해결 Trie 구조 사전(D) 입력 문자열과 사전의 string 일치에 필수

음절 기반 형태론 Two-level 모델의 문제점 Two-level 규칙을 string 일치로 기술 제약 비선형적(nonlinear) 음운 현상 독일어의 움라우트 처리 등. Two-level 규칙의 기술 방법 음절과 음운을 기반으로 하여 lhs/rhs/조건(C)을 (특성, 값) 쌍으로 기술 [LHS -----> RHS : C] 특성-값 쌍의 기술 예 (stem, +1) : 단어의 첫번째 음절 (rhyme, -1) : 마지막 음절의 각운 (coda, +1) : 첫번째 음절의 종성 (coda, +1) /ㅆ/ : 첫음절 조성이 ‘ㅆ’ (coda, +1) [voiced, +]

한국어 형태소 분석 방법론 (1) 한국어 형태소 분석법 분류 단어 검색 방향에 따라 형태소 분리 문제 형태소 결합 문제 Left-to-right, right-to-left, bi-directional 형태소 분리 문제 Head-tail 구분법 형태소 결합 문제 Tabular 파싱법, 최장/최단 일치법 형태소 분리 및 결합 문제 음절 단위 분석법

한국어 형태소 분석 방법론 (2) Head-tail 구분법 형태소의 분리 Top-down 방식 (2) tail로부터 head 추정

한국어 형태소 분석 방법론 (3) Tabular 파싱법 Bottom-up 방식 CYK 알고리즘의 변형 단어를 이루는 가능한 형태소 추출 자모 단위의 substring을 사전에서 검색 추출된 형태소  삼각 테이블에 저장 CYK 알고리즘의 변형 삼각 테이블에서 단어를 이루는 형태소 집합 발견 동적 프로그래밍 기법 : 처리 속도 문제

한국어 형태소 분석 방법론 (4) 최장 일치법과 최단 일치법 Tabular 파싱법의 효율 문제 해결 최장 일치법 최단 일치법 우선 순위(형태소의 길이에 따라)가 높은 형태소를 우선적으로 분석 Backtracking 방법 이용 한 가지 분석 결과만 필요한 때 사용 최장 일치법 단어를 이루는 형태소의 길이가 긴 것 우선 최단 일치법 단어를 이루는 형태소의 길이가 짧은 것 우선

한국어 형태소 분석 방법론 (5) 음절 단위 분석법 알고리즘과 사전 탐색의 비효율성 문제 방법론 한국어의 음절 특성 이용 단위 음절 특성, 부분 음절 특성 분석 후보들의 자격 요건 강화 분석 후보의 수를 최소화 방법론 형태 변이가 일어난 음절의 특성 이용 복합 명사 및 미등록어 추정 특이한 언어 현상 (예: 불구동사, 준말 등) 기분석 사전에 분석 결과 저장 음절 단위 비교 및 음절 단위 사전 구성 문법 형태소 분리 음절 단위로 분리 조사/어미의 음절 특성 이용 형태론적 변형 원형 복원법 사용

영어 형태소 분석 (1) 영어 형태소 분석 접미사 분리 규칙 변형 (regular inflection) 단어의 원형 복원 접두사 및 접미사 분리 불규칙 변형 (irregular inflection) 기분석 사전으로 분석 결과 수록 접미사 분리 명사 : 복수형, 소유격 Books  book + s, John’s -> John + ’s 동사 : 3인칭 단수, 과거/과거분사/현재분사 Changing  change + ing 형용사, 부사 : 비교급, 최상급 -ly, -ation 등

영어 형태소 분석 (2) 형태소에 대한 정보 제공 형태소의 기본형, 품사, 수 (단수, 복수) 단어의 쓰인 형태 동사 : 현재, 과거, 과거분사, … 형용사, 부사 : 원급, 비교급, 최상급, … 대명사 : 주격, 소유격, 목적격 단어의 쓰이는 유형 접속사 : 등위 접속사, 종속 접속사 부사 ; 원급, 비교급, 최상급 동사의 패턴 동사, 명사의 경우 함께 잘 쓰이는 전치사 대명사의 인칭 문장에서 나타난 단어의 형태

한국어 단어의 유형 (1) 어휘형태소 유형에 따라 어휘유형 1: 단일 형태소로 이루어진 단어 어휘유형 2: 어휘형태소의 품사가 체언인 것 어휘유형 3: 어휘형태소의 품사가 용언인 것 어휘유형 4: 어휘형태소가 복합명사인 것 어휘유형 5: 준말인 단어 어휘유형 6: 숫자나 영문자가 포함된 것 어휘유형 7: 어휘형태소가 미등록어인 것

한국어 단어의 유형 (2) 문법형태소의 유형에 따라 문법유형 1: 조사 혹은 어미만 결합된 단어 문법유형 2: 선어말어미가 결합된 단어 문법유형 3: 어미의 변형이 일어난 단어 문법유형 4: 서술격 조사가 생략된 단어 문법유형 5: 접미사가 있는 단어 문법유형 6: 보조 용언이 결합된 단어

한국어 형태소 분석 한국어 형태소 분석기에 필요한 기능 조사와 어말 어미의 분리(어미의 변이체) 생략된 서술격 조사 복원 선어말 어미와 접미사의 분리 불규칙 원형 복원 붙여쓰기가 허용되는 경우(보조 용언) 처리 준말 처리 복합어와 미등록어 추정 영문자, 숫자, 수사 처리 사전 탐색 기능

형태소 분리 형태소 분리 대상 사전에 수록되는 형태소의 결합형 예) ‘사무실에서부터였다고는’ 어근, 조사, 어미, 선어말어미, 접미사 사전에 수록되는 형태소의 결합형 (가) 조사로만 이루어진 결합형 서술격 조사 ‘이’는 제외 (나) 어말 어미로만 이루어진 결합형 명사형 어미는 제외 (다) (가)에 어말 어미가 결합되는 경우 (라) (나)에 조사가 결합되는 경우 예) ‘사무실에서부터였다고는’  ‘사무실’ + ‘-에서부터’ + ‘-이-’ + ‘-었-’ + ‘-다고는’

불규칙의 원형 복원 (1) 불규칙 유형과 끝음절 특성 ‘ㄷ’ 불규칙 : 10개 (끝음절로 사용되는 음절) 걷/긷/닫/묻/싣/겯/눋/듣/붇/컫 ‘ㅂ’ 불규칙 : 46개 ‘ㅅ' 불규칙 : 9개 긋/낫/붓/잣/짓/끗/뭇/잇/젓 ‘ㅎ’ 불규칙 : 10개 갛/닿/랑/맣/얗/겋/떻/렇/멓/옇 '러‘ 불규칙 : 1개 ‘르’ 불규칙 : 1개 ‘으’ 탈락 : 11개 그/끄/느/뜨/르/쁘/쓰/으/크/트/프

불규칙의 원형 복원 (2) 원형 복원 끝음절 특성에 해당되는 어근에 대해서만 분석 후보의 수 최소화 사전 탐색 overhead 줄임

복합어와 미등록어 추정 복합명사 추정 미등록어 추정 4/5/6 음절 복합명사 : 복합명사 97% 3 음절 복합명사 : 사전에 수록 7 음절 이상 복합명사 : 미등록어 처리 미등록어 추정 문법형태소 분리 후 어근을 미등록어로 간주 미등록어 선택 시 우선순위 1. 세 개 이상의 형태소로 분리된 후보 2. 체언으로 분석된 후보 (조사가 분리된 후보) 3. 두 음절 이상의 어미가 분리된 후보 4. 어휘 형태소 부분이 길이가 짧은 것 5. 용언보다는 체언 후보 우선

형태소 분석기의 성능 분석률 (analysis ratio) 처리속도 모호성 분석 여부 정확히 분석한 비율 (%) 잘못 분석한 비율 틀린 단어의 인식 비율 처리속도 단위 시간당 분석한 단어의 수 알고리즘의 복잡도와 사전 탐색 횟수에 비례 모호성 분석 여부 모호성이 내포된 단어의 모든 분석 결과 생성 모호성 해결 여부