제4장 자연언어처리 인공지능 기계학습.

Slides:



Advertisements
Similar presentations
자동 제어 Sun Moon University 1 of 17 자동제어 목 차 강의 개요 Ch.10 주파수 응답 기법 Ch. 8 근궤적 기법.
Advertisements

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
컴퓨터와 인터넷.
Deep Learning.
Deep Learning.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
의사 결정 트리(decision tree)
뇌를 자극하는 Windows Server 2012 R2
(Classification – Advanced Techniques)
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
1. 컴파일러 개론 1-1. Compiler 정의 1-2. Language Processing System
신호처리 실험 (Signal Processing Lab)
유전자 알고리즘(Genetic Algorithm)
3장 구문과 의미론 순천향대학교 컴퓨터공학과 하상호.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
II. 전략기획 템플릿 (17) 과제 정의서 과제 정의서 과제명(No.) 전략 과제 명 과제성격 강화 보완 신규 과제 목표
10장 랜덤 디지털 신호처리 1.
제4장 자연언어처리, 인공지능, 기계학습.
Hybrid INDIGO project 중간보고
WJ543 인공지능 2003년도 제 2학기.
Learning Classifier using DNA Bagging
Multi Intelligence Theory
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
분석적 사고 (Analytical Thinking)
컴퓨터과학 전공탐색 배상원.
개요 신경회로망(Neural Networks)
CAS (Computer Algebra System) 소개
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
제 1장. 멀티미디어 시스템 개요.
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
Deep Learning.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
자바 5.0 프로그래밍.
프로그래밍 개요
5. Context-free 문법 5-1. 서 론 5-2. 유도와 유도 트리 5-3. CFG표기법.
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
퍼지이론(Fuzzy Theory) 지 은 희.
Multi Intelligence Theory
기계학습 (Machine Learning)
Chapter 03. 관계 데이터베이스 설계.
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
졸업 요건 충족을 위한 추가 이수 학점에 대해서는 ‘졸업요건‘ 규정 확인 바람
Decision Tree & Ensemble methods
LabVIEW WiznTec 주임 박명대 1.
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
CAS (Computer Algebra System) 소개
문성우 SQL 실습 Part Ⅰ 문성우.
알고리즘 알고리즘이란 무엇인가?.
김민호 부산대학교 전자전기컴퓨터공학과 자연언어처리 김민호 부산대학교 전자전기컴퓨터공학과.
문서 클러스터링 일본언어문화학과 서동진.
Word2Vec.
Word Embedding.
Support Vector Machine
오라클 11g 보안.
CAS (Computer Algebra System) 소개
1. 비정형 데이터마이닝의 이해.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
Animating Pictures with Stochastic Motion Textures
공학도를 위한 C언어 프로그래밍실습1 -통합개발환경 사용법-
발표자 : 이지연 Programming Systems Lab.
텍스트 분석 ㈜ 퀀트랩.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
왜 ‘프로그래밍’을 ‘비이공계 학생’이 알아야 하는가?
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
 6장. SQL 쿼리.
강화학습: 기초.
Progress Seminar 선석규.
이 은 Tyler 교육과정 개발 모형 이 은
Presentation transcript:

제4장 자연언어처리 인공지능 기계학습

목차 자연언어처리 인공지능 기계학습

자연언어처리

기본적인 자연언어처리 과정 형태소 분석 구문 분석 의미 분석 화용 분석

자연언어처리의 응용 분야 기계번역 웹 번역

자연언어처리의 응용 분야 (계속) 문서분류 시스템 문서 요약기 NewsWeeder: 사용자의 관심사에 따른 분류 Rating from users  feedback WebWatcher: 웹 서핑 보조 E-mail 여과기 문서 요약기 방송 script 요약  Video Stream Indexing

자연언어처리의 응용 분야 (계속) 지식 추출 대량의 문서에서 유용한 지식을 추출 유전자 사이의 관계를 도식화한 망 구조 의학 및 생물학 논문 DB에서 구축 http://www.pubgene.org

자연언어처리의 발전과정 1950년대 ~ 1980년대 1990년대 다양한 응용분야의 개척 기계번역, 질의응답시스템, 자연어검색, 언어이해 1990년대 컴퓨터의 급속한 발전 인터넷 사용자의 폭발적 증가 자연언어처리기술 수요의 증가 대량의 말뭉치 데이터  통계적, 경험적 인공지능기법의 도입을 가능케 함

인공지능 지능적인 컴퓨터에 대한 연구 다양한 연구주제 인간과 동물의 지능 집안청소 S/W, H/W 사람이 하기는 쉽지만 기계가 하기는 어려운 일 S/W, H/W 다양한 연구주제 지식표현, 탐색, 추론, 문제해결, 학습, 인지, 행동, 자연언어처리

지식표현 및 추론 지식표현 추론 명제논리 Semantic Network 전문가시스템 Theorem Prover Prolog, Lisp Semantic Network 개념간의 관계를 망 형태로 표현 추론 전문가시스템 Theorem Prover

탐색 및 문제해결 Game Play 최적화 및 탐색 방법 탐색, branch and bound, 바둑, 장기 Greedy search Beam search Gradient 유전알고리즘 진화연산

기계학습 지적 개체의 학습과정을 모델링 관련 분야 인공지능 Bayesian Methods Computational Complexity Theory Control Theory Information Theory Statistics Philosophy Psychology and Neurobiology

자연언어처리와 인공지능 인공지능의 연구분야로서의 자연언어처리 자연언어처리를 위한 인공지능 기법 음성인식, 형태소분석, 통사분석, 의미분석 언어이해  인공지능 자연언어처리를 위한 인공지능 기법 형태론, 구문론, 의미론, 화용론적 언어지식  지식표현 (WordNet)

WordNet 자연언어처리를 위한 영단어의 관계망

자연언어처리와 기계학습 자연언어처리의 문제 해결을 위한 기계학습 자연언어처리에 이용되는 지식을 자동으로 학습 통계적 및 경험적 인공지능 기법

말뭉치 데이터 신문, 잡지, 교과서 등에서 추출한 다양한 문장들로 구성 언어에 대한 다양한 표식 품사, 문장성분, 구문분석 결과 Korea Information Base System http://kibs.kaist.ac.kr British National Corpus http://info.ox.ac.uk/bnc

브라운 말뭉치

기계학습기반의 자연언어처리 음성인식 모호성 해소  분류문제 언어습득 및 이해 신호처리 구조표지, 품사표지, 중의성 해소, 전치사 접속 결정 등 언어습득 및 이해 규칙추론, 정보추출 및 검색, 자동요약, 기계번역

기계학습

기계학습 기법 구분의 예 기호적 학습 비기호적 학습 확률적 학습 변형기반학습, 능동학습, 부스팅, 강화학습, 건설적 귀납 사례기반학습, 결정트리, 귀납논리 (ILP) 비기호적 학습 신경망, 유전알고리즘 확률적 학습 베이지안망, 은닉마코프모델, 확률문법 변형기반학습, 능동학습, 부스팅, 강화학습, 건설적 귀납

기호적 학습 분류문제 기호적 학습 주어진 개체의 각종 특성들로부터 그 개체의 종류를 결정하는 문제 특성과 종류간의 관계를 몇 가지 규칙으로 서술 if-then 규칙 등 주어진 데이터로부터 규칙을 학습

기호적 학습 방법 결정트리 결정리스트 변형기반오류에 의한 학습 선형분리자 사례기반학습

결정트리 결정트리 귀납적학습을 위한 실용적인 방법 이산값을 가지는 함수의 추정 = 규칙집합의 구축 생성이 용이, 학습을 통해 생성된 결정트리를 규칙의 집합으로 이해 가능

결정트리 표현 <outlook, humidity, wind, playtennis> outlook wind sunny overcast rain high low strong No Yes weak

결정트리 학습 Top-down greedy search through the space of possible decision trees. ID3 및 C4.5 알고리즘 결정적 특성의 선정 데이터단편화 데이터가 적은 경우 일반화 성능 저하 Pruning 결정리스트 논리곱 형식의 규칙들의 순서화된 리스트

변형기반오류에 의한 학습 말뭉치 기반의 자연언어처리를 위한 방법 규칙집합 탐색의 비용 1990 by Eric Brill 템플릿 이용 오류를 가장 많이 수정하는 규칙 순으로 집합을 구축 품사 태깅, 전치사 접속 결정, 구문 분석, 철자 교정, 중의성 해소 규칙집합 탐색의 비용 Lazy TBL (transformation-based error-driven learning) Monte Carlo sampling

선형 분리자 가중치 갱신방법으로 학습 잡음, 고차원 문제에 적합 SNOW (sparse network of Winnows) 선형분리자의 망 (network of linear separators) 철자교정, 품사태깅 Weighted majority algorithm, Widrow-Hoff rule, EG (exponentially gradient) 문서분류용 선형분리자 기반 시스템

사례기반 학습 학습데이터를 “모두” 저장 귀납적 감독 학습 (inductive supervised learning) k-nearest neighbor TiMBL (Tilburg memory-based learning environment) 정보추출에서의 문장의 어휘, 구조, 의미 모호성의 해결

비기호적 학습 신경망 유전알고리즘 인간의 뇌의 정보처리를 모방하려고 하는 학습 모델 병렬 처리에 기반 회귀(regression), 분류 문제에 적용 유전알고리즘 생물의 진화를 모방한 학습 방법 지역해를 벗어나는 것이 목표

신경망의 표현 입출력간의 사상을 학습 y = f(x1, x2, ..., xn) x1 xn x2 h1 hk y

연결가중치 w0 x1 w1 x2 w2   wn xn

신경망 학습 가중치 조절 다층퍼셉트론(multi-layer perceptron) 재귀망(recurrent network) 헤비안 학습 규칙, 오류 역전파, 볼츠만 방법 다층퍼셉트론(multi-layer perceptron) Universal Approximator 재귀망(recurrent network) 동적 데이터 자기조직신경망(self-organizing map) 클러스터링

신경망의 응용 필기체문자인식, 음성인식, 얼굴인식 자연언어처리 문자인식, 음성인식과 합성 품사 태깅 구절경계찾기, 구문분석, 문법추론, 전치사접속결정, 중의성 해소, 문서분류, 철자교정

유전알고리즘 생물의 진화과정 모델링 함수 최적화에 이용 개체군(population) 적합도(fitness function) 선택, 복제, 교차, 돌연변이 군 탐색 방법(population-based search) 확률적 연산  전역해(global solution)

진화 과정 reproduction mutation crossover 00010101011101 00010100001101 0001011111101 reproduction mutation crossover 00010101011101 00010100011101 1111011111101

유전알고리즘의 응용 최적화문제 결정트리학습, 신경망학습 자연언어처리 품사태깅, 구문분석 정보검색, 동사분류

확률적 학습 확률모델 관찰되는 데이터를 생성하는 과정을 기술하는 모델 확률망(probabilistic network) 형태 확률변수간의 확률적 의존을 표현 결합확률분포(joint probability distribution)를 표현

나이브베이즈분류기 개체의 종류가 정해진 경우 각 특성들간의 독립을 가정 C a1 a2 an

나이브베이즈분류기의 확률추론 데이터 (a1, …, an)의 종류 c*

나이브베이즈분류기의 응용 문맥의존 철자교정, 품사태깅, 의미 중의성 해소 문서분류 문서표현: term vector (t1, t2, …, tn) 문서를 종류별로 구분

최대엔트로피원리 다양한 통계적 증거들을 최대엔트로피원리에 의거해 결합, 활용 음성인식, 품사태깅, 전치사접속결정, 구문분석, 문서분류, 문장분할

은닉마코프모델 Stochastic process modeling 상태집합 기호 알파벳 전이확률 발산확률

은닉마코프모델 예제 S1 S2 상태: (s1, s2), 기호: (a, b) a:0.3 a:0.2 b:0.2 b:0.1

은닉마코프모델 응용 음성인식, 합성 품사태깅, 중의성해소 예측 학습 Viterbi 알고리즘 (dynamic programming) 학습 Baum-Welch 알고리즘

기타기계학습방법 클러스터링 앙상블머신 SVM 베이지안망 문서분류 품사태깅, 철자교정 배깅, 부스팅 계산학습이론에 기반 확률그래프모델 인과관계의 추론

결론 인공지능 자연언어처리 기계학습 지능적인 기계의 개발 자연언어처리가 필요 자연언어의 이해 기계학습의 이용 지능적인 물체의 학습 과정을 모델링