제4장 자연언어처리 인공지능 기계학습
목차 자연언어처리 인공지능 기계학습
자연언어처리
기본적인 자연언어처리 과정 형태소 분석 구문 분석 의미 분석 화용 분석
자연언어처리의 응용 분야 기계번역 웹 번역
자연언어처리의 응용 분야 (계속) 문서분류 시스템 문서 요약기 NewsWeeder: 사용자의 관심사에 따른 분류 Rating from users feedback WebWatcher: 웹 서핑 보조 E-mail 여과기 문서 요약기 방송 script 요약 Video Stream Indexing
자연언어처리의 응용 분야 (계속) 지식 추출 대량의 문서에서 유용한 지식을 추출 유전자 사이의 관계를 도식화한 망 구조 의학 및 생물학 논문 DB에서 구축 http://www.pubgene.org
자연언어처리의 발전과정 1950년대 ~ 1980년대 1990년대 다양한 응용분야의 개척 기계번역, 질의응답시스템, 자연어검색, 언어이해 1990년대 컴퓨터의 급속한 발전 인터넷 사용자의 폭발적 증가 자연언어처리기술 수요의 증가 대량의 말뭉치 데이터 통계적, 경험적 인공지능기법의 도입을 가능케 함
인공지능 지능적인 컴퓨터에 대한 연구 다양한 연구주제 인간과 동물의 지능 집안청소 S/W, H/W 사람이 하기는 쉽지만 기계가 하기는 어려운 일 S/W, H/W 다양한 연구주제 지식표현, 탐색, 추론, 문제해결, 학습, 인지, 행동, 자연언어처리
지식표현 및 추론 지식표현 추론 명제논리 Semantic Network 전문가시스템 Theorem Prover Prolog, Lisp Semantic Network 개념간의 관계를 망 형태로 표현 추론 전문가시스템 Theorem Prover
탐색 및 문제해결 Game Play 최적화 및 탐색 방법 탐색, branch and bound, 바둑, 장기 Greedy search Beam search Gradient 유전알고리즘 진화연산
기계학습 지적 개체의 학습과정을 모델링 관련 분야 인공지능 Bayesian Methods Computational Complexity Theory Control Theory Information Theory Statistics Philosophy Psychology and Neurobiology
자연언어처리와 인공지능 인공지능의 연구분야로서의 자연언어처리 자연언어처리를 위한 인공지능 기법 음성인식, 형태소분석, 통사분석, 의미분석 언어이해 인공지능 자연언어처리를 위한 인공지능 기법 형태론, 구문론, 의미론, 화용론적 언어지식 지식표현 (WordNet)
WordNet 자연언어처리를 위한 영단어의 관계망
자연언어처리와 기계학습 자연언어처리의 문제 해결을 위한 기계학습 자연언어처리에 이용되는 지식을 자동으로 학습 통계적 및 경험적 인공지능 기법
말뭉치 데이터 신문, 잡지, 교과서 등에서 추출한 다양한 문장들로 구성 언어에 대한 다양한 표식 품사, 문장성분, 구문분석 결과 Korea Information Base System http://kibs.kaist.ac.kr British National Corpus http://info.ox.ac.uk/bnc
브라운 말뭉치
기계학습기반의 자연언어처리 음성인식 모호성 해소 분류문제 언어습득 및 이해 신호처리 구조표지, 품사표지, 중의성 해소, 전치사 접속 결정 등 언어습득 및 이해 규칙추론, 정보추출 및 검색, 자동요약, 기계번역
기계학습
기계학습 기법 구분의 예 기호적 학습 비기호적 학습 확률적 학습 변형기반학습, 능동학습, 부스팅, 강화학습, 건설적 귀납 사례기반학습, 결정트리, 귀납논리 (ILP) 비기호적 학습 신경망, 유전알고리즘 확률적 학습 베이지안망, 은닉마코프모델, 확률문법 변형기반학습, 능동학습, 부스팅, 강화학습, 건설적 귀납
기호적 학습 분류문제 기호적 학습 주어진 개체의 각종 특성들로부터 그 개체의 종류를 결정하는 문제 특성과 종류간의 관계를 몇 가지 규칙으로 서술 if-then 규칙 등 주어진 데이터로부터 규칙을 학습
기호적 학습 방법 결정트리 결정리스트 변형기반오류에 의한 학습 선형분리자 사례기반학습
결정트리 결정트리 귀납적학습을 위한 실용적인 방법 이산값을 가지는 함수의 추정 = 규칙집합의 구축 생성이 용이, 학습을 통해 생성된 결정트리를 규칙의 집합으로 이해 가능
결정트리 표현 <outlook, humidity, wind, playtennis> outlook wind sunny overcast rain high low strong No Yes weak
결정트리 학습 Top-down greedy search through the space of possible decision trees. ID3 및 C4.5 알고리즘 결정적 특성의 선정 데이터단편화 데이터가 적은 경우 일반화 성능 저하 Pruning 결정리스트 논리곱 형식의 규칙들의 순서화된 리스트
변형기반오류에 의한 학습 말뭉치 기반의 자연언어처리를 위한 방법 규칙집합 탐색의 비용 1990 by Eric Brill 템플릿 이용 오류를 가장 많이 수정하는 규칙 순으로 집합을 구축 품사 태깅, 전치사 접속 결정, 구문 분석, 철자 교정, 중의성 해소 규칙집합 탐색의 비용 Lazy TBL (transformation-based error-driven learning) Monte Carlo sampling
선형 분리자 가중치 갱신방법으로 학습 잡음, 고차원 문제에 적합 SNOW (sparse network of Winnows) 선형분리자의 망 (network of linear separators) 철자교정, 품사태깅 Weighted majority algorithm, Widrow-Hoff rule, EG (exponentially gradient) 문서분류용 선형분리자 기반 시스템
사례기반 학습 학습데이터를 “모두” 저장 귀납적 감독 학습 (inductive supervised learning) k-nearest neighbor TiMBL (Tilburg memory-based learning environment) 정보추출에서의 문장의 어휘, 구조, 의미 모호성의 해결
비기호적 학습 신경망 유전알고리즘 인간의 뇌의 정보처리를 모방하려고 하는 학습 모델 병렬 처리에 기반 회귀(regression), 분류 문제에 적용 유전알고리즘 생물의 진화를 모방한 학습 방법 지역해를 벗어나는 것이 목표
신경망의 표현 입출력간의 사상을 학습 y = f(x1, x2, ..., xn) x1 xn x2 h1 hk y
연결가중치 w0 x1 w1 x2 w2 wn xn
신경망 학습 가중치 조절 다층퍼셉트론(multi-layer perceptron) 재귀망(recurrent network) 헤비안 학습 규칙, 오류 역전파, 볼츠만 방법 다층퍼셉트론(multi-layer perceptron) Universal Approximator 재귀망(recurrent network) 동적 데이터 자기조직신경망(self-organizing map) 클러스터링
신경망의 응용 필기체문자인식, 음성인식, 얼굴인식 자연언어처리 문자인식, 음성인식과 합성 품사 태깅 구절경계찾기, 구문분석, 문법추론, 전치사접속결정, 중의성 해소, 문서분류, 철자교정
유전알고리즘 생물의 진화과정 모델링 함수 최적화에 이용 개체군(population) 적합도(fitness function) 선택, 복제, 교차, 돌연변이 군 탐색 방법(population-based search) 확률적 연산 전역해(global solution)
진화 과정 reproduction mutation crossover 00010101011101 00010100001101 0001011111101 reproduction mutation crossover 00010101011101 00010100011101 1111011111101
유전알고리즘의 응용 최적화문제 결정트리학습, 신경망학습 자연언어처리 품사태깅, 구문분석 정보검색, 동사분류
확률적 학습 확률모델 관찰되는 데이터를 생성하는 과정을 기술하는 모델 확률망(probabilistic network) 형태 확률변수간의 확률적 의존을 표현 결합확률분포(joint probability distribution)를 표현
나이브베이즈분류기 개체의 종류가 정해진 경우 각 특성들간의 독립을 가정 C a1 a2 an
나이브베이즈분류기의 확률추론 데이터 (a1, …, an)의 종류 c*
나이브베이즈분류기의 응용 문맥의존 철자교정, 품사태깅, 의미 중의성 해소 문서분류 문서표현: term vector (t1, t2, …, tn) 문서를 종류별로 구분
최대엔트로피원리 다양한 통계적 증거들을 최대엔트로피원리에 의거해 결합, 활용 음성인식, 품사태깅, 전치사접속결정, 구문분석, 문서분류, 문장분할
은닉마코프모델 Stochastic process modeling 상태집합 기호 알파벳 전이확률 발산확률
은닉마코프모델 예제 S1 S2 상태: (s1, s2), 기호: (a, b) a:0.3 a:0.2 b:0.2 b:0.1
은닉마코프모델 응용 음성인식, 합성 품사태깅, 중의성해소 예측 학습 Viterbi 알고리즘 (dynamic programming) 학습 Baum-Welch 알고리즘
기타기계학습방법 클러스터링 앙상블머신 SVM 베이지안망 문서분류 품사태깅, 철자교정 배깅, 부스팅 계산학습이론에 기반 확률그래프모델 인과관계의 추론
결론 인공지능 자연언어처리 기계학습 지능적인 기계의 개발 자연언어처리가 필요 자연언어의 이해 기계학습의 이용 지능적인 물체의 학습 과정을 모델링