제4장 자연언어처리, 인공지능, 기계학습
인공지능 (Artificial Intelligence) 지능적인 컴퓨터에 대한 연구 인간과 동물의 지능 집안청소 컴퓨터프로그램, 로봇 인공지능의 연구주제들 지식표현, 탐색, 추론, 문제해결, 학습, 인지, 행동, 자연언어처리…
자연언어처리 인공지능을 위한 자연언어처리 자연언어처리를 위한 인공지능 컴퓨터의 발전 음성인식, 형태소분석, 통사분석, 의미분석 언어이해 인공지능 자연언어처리를 위한 인공지능 형태론, 구문론, 의미론, 화용론적 언어지식 지식표현 지식의 습득 기계학습 (대규모의 말뭉치) 컴퓨터의 발전
인공지능과 자연언어처리 1950년대 ~ 1980년대 1990년대 다양한 응용분야의 개척 기계번역, 질의응답시스템, 자료검색, 언어이해 1990년대 컴퓨터의 급속한 발전 인터넷 사용자의 폭발적 증가 대량의 말뭉치 데이터 통계적, 경험적 인공지능기법의 도입
자연언어처리와 기계학습 컴퓨터의 발전 인터넷의 대중화 대규모 말뭉치 데이터의 구축 기계학습이론의 발전 및 구현
말뭉치 데이터 (Corpus) 신문, 잡지, 교과서 등에서 추출한 다양한 문장들로 구성 언어에 대한 다양한 표식 품사, 문장성분, 구문분석 결과 Korea Information Base System http://kibs.kaist.ac.kr British National Corpus http://info.ox.ac.uk/bnc
통계적 학습기반의 자연언어처리 음성인식 모호성 해소 분류문제 언어습득 및 이해 구조표지, 품사표지, 중의성 해소, 전치사 접속 결정 언어습득 및 이해 규칙추론, 정보추출 및 검색, 자동요약, 기계번역
기계학습 기법 기호적 학습 비기호적 학습 확률적 학습 변형기반학습, 능동학습, 부스팅, 강화학습, 건설적 귀납 사례기반학습, 결정트리, 귀납논리 비기호적 학습 신경망, 유전자 알고리즘 확률적 학습 베이지안망, 은닉마코프모델, 확률문법 변형기반학습, 능동학습, 부스팅, 강화학습, 건설적 귀납
기호적 학습 (Symbolic Learning) 분류문제 주어진 개체의 각종 특성들로부터 그 개체의 종류를 결정하는 문제 기호적 학습 특성과 종류간의 관계를 몇 가지 규칙으로 서술 주어진 데이터로부터 규칙을 학습 결정트리(decision tree)
결정트리 결정트리 귀납적학습을 위한 실용적인 방법 이산값을 가지는 함수의 추정 = 규칙집합의 구축 생성이 용이, 학습을 통해 생성된 결정트리를 규칙의 집합으로 이해 가능
결정트리 표현 <outlook, humidity, wind, playtennis> outlook wind sunny overcast rain high low strong No Yes weak
결정트리 학습 Top-down greedy search through the space of possible decision trees. ID3, C4.5 by Quinlan 결정적 특성(attribute)의 선정
결정트리 응용 모호성 해소 음성인식, 품사태깅, 중의성 해소, 구문 분석, 문서 분류, 문서 요약, 공지시 해소, 중심구 찾기, 기계번역을 위한 동사 분류 구문분석 문장의 단어의 품사 결정, 구성 성분의 경계 결정, 적절한 구성 성분 결정, 접속사의 접속 범위 결정
결정리스트 결정리스트 논리곱 형식의 규칙들의 순서화된 리스트 데이터 단편화 문제의 완화
변형기반오류에 의한 학습 말뭉치 기반의 자연언어처리를 위한 방법 Lazy TBL 1990 by Eric Brill 규칙의 집합을 구축 품사 태깅, 전치사 접속 결정, 구문 분석, 철자 교정, 중의성 해소 Lazy TBL Monte Carlo sampling
선형 분리자 (Linear Separator) 가중치 갱신방법으로 학습 잡음, 고차원 문제에 적합 SNOW 선형분리자의 망(network of linear separators) 철자교정, 품사태깅 Weighted majority algorithm, Widrow-Hoff rule, EG
사례기반 학습 귀납적 감독 학습(inductive supervised learning) k-nearest neighbor TiMBL (Tilburg memory-based learning environment) 정보추출에서의 문장의 어휘, 구조, 의미 모호성의 해결
비기호적 학습 (Subsymbolic Learning) 신경망(neural network) 인간의 뇌의 정보처리를 모방하려고 하는 학습 모델 병렬 처리에 기반 회귀(regression), 분류 문제에 적용 유전자 알고리즘(genetic algorithm) 생물의 진화를 모방한 학습 방법 전역해(global solution)를 구할 가능성이 있음.
신경망의 표현 입출력간의 사상(mapping)을 학습 y = f(x1, x2, ..., xn) x1 xn x2 h1 hk y
연결가중치 w0 x1 w1 x2 w2 wn xn
신경망 학습 가중치 조절 다층퍼셉트론(multi-layer perceptron) 재귀망(recurrent network) 헤비안 학습 규칙, 오류 역전파, 볼츠만 방법 다층퍼셉트론(multi-layer perceptron) 재귀망(recurrent network) 전문가망(mixture of experts) 자기조직신경망(self-organizing map)
신경망의 응용 필기체문자인식, 음성인식, 얼굴인식 자연언어처리 문자인식, 음성인식과 합성 품사 태깅 구절경계찾기, 구문분석, 문법추론, 전치사접속결정, 중의성 해소, 문서분류, 철자교정
유전자 알고리즘 (Genetic Algorithm) 생물의 진화과정 모델링 함수 최적화에 이용 개체군(population) 적합도(fitness function) 선택, 복제, 교차, 돌연변이 군 탐색 방법(population-based search) 확률적 연산 전역해(global solution)
진화 과정 reproduction mutation crossover 00010101011101 00010100001101 0001011111101 reproduction mutation crossover 00010101011101 00010100011101 1111011111101
유전자 알고리즘의 응용 결정트리학습, 신경망학습 자연언어처리 품사태깅, 구문분석 정보검색, 동사분류
확률적 학습 (Stochastic Learning) 확률모델 관찰되는 데이터를 생성하는 과정을 기술하는 모델 확률망(probabilistic network) 형태 확률변수간의 확률적 종속성을 표현 결합확률분포(joint probability distribution)를 표현
나이브베이즈분류기 (Naïve Bayes Classifier) 개체의 종류가 정해진 경우 각 특성들간의 독립을 가정 C a1 a2 an
나이브베이즈분류기의 확률추론 데이터 (a1, …, an)의 종류 c*
나이브베이즈분류기의 응용 문맥의존 철자교정, 품사태깅, 의미 중의성 해소 문서분류 문서표현: term vector (t1, t2, …, tn) 문서를 종류별로 구분
최대엔트로피원리 다양한 통계적 증거들을 최대엔트로피원리에 의거해 결합, 활용 음성인식, 품사태깅, 전치사접속결정, 구문분석, 문서분류, 문장분할
은닉마코프모델 Stochastic process modeling 상태집합 기호 알파벳 전이확률 발산확률
은닉마코프모델 예제 S1 S2 상태: (s1, s2), 기호: (a, b) a:0.3 a:0.2 b:0.2 b:0.1
은닉마코프모델 응용 음성인식, 합성 품사태깅, 중의성해소 학습 전진-후진(forward-backward) 알고리즘
기타기계학습방법 클러스터링 문서분류 앙상블머신 품사태깅, 철자교정 배깅, 부스팅 SVM 계산학습이론에 기반
결론 인공지능 자연언어처리 기계학습 지능적인 기계의 개발 자연언어처리가 필요 자연언어의 이해 기계학습의 이용 지능적인 물체의 학습 과정을 모델링