Semi-supervised Document classification (probabilistic model and EM)

Slides:



Advertisements
Similar presentations
Made by 주례 없는 결혼식♥ 대본 사회 : 홍길동.
Advertisements

산들초등학교 마녀샘의 교실 2 ♪딩동댕 ~ 산들초등학교의 중간고사가 끝났습니다. 아이들은 신났습니다. 와 ~!!! 시험끝났다 !
장애인 인권 강화 전남언어발달센터 사무국장 / 임준형. 인권교육 근거 전남 장애인 차별실태 조사 결과 보고서 나. 교육 및 진학 과정에서의 장애인 차별 교육 및 진학 과정에서의 장애인 차별에서는 “ 장애 를 이유로 주변 동료 학생들로부터.
구분날 짜일 정주요내용비 고 국내 교육 10/20(월)13:00-18:00 오리엔테이션 중국 저작권 비즈니스 이해 중국 문화 콘텐츠 시장 코엑스 무역아카데미 10/22(수)13:00-18:00 한중FTA와 쿤화콘텐츠 중국 비즈니스 인문학 특강 10/24(금)13:00-18:00장르별.
겨울신앙학교 교리 골든벨을 울려라 !. 1 성경은 인간에 대한 구원과 사랑의 약속이 담긴 책이다. O X.
2007 년 1 월 9 일 승가원 법인사무국 2007 년도 겨울학기 승가원 실습생 O.T 2007 년도 겨울학기 승가원 실습생 O.T.
2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필 목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
노동법률원 법률사무소 새날 공인노무사 정명아
안녕? 자두야 5학년 5반 17번 김서연 달콤한 머핀체,달콤한 머핀체.
아름다운 이들의 행복한 길음안나의 집.
2013년도 예산어린이집 오리엔테이션.
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
목차 Ⅰ. 과제 추진 배경 Ⅱ. 현상 분석 Ⅲ . 과제 추진 활동 및 성과 Ⅳ. 기대효과 Ⅴ. 향후 추진 계획.
사미인곡 p79.
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
Hierarchical Classification: Comparison with Flat Method
제1장 소프트웨어 프로젝트 개요 1.1 프로젝트개요 1.2 프로젝트 유형 1.3 프로젝트 관리의 중요성과 실패 원인
2학년용 2018학년도 대입 변화 이해 및 대비 전략.
모형설계제작 서강대학교 기계공학과
Ⅱ-1. 물질의 기본 성분 원소들의 지도, 주기율표 이솔희.
2018-2학기 신입학생 오리엔테이션 안내자료 동국대학교 미래융합교육원.
정 의 학습의 일반적 정의 기계학습(Machine Learning)의 정의
제주지역대학 제주 새별오름 들불축제 지역 식생(植生) 변화 조사 연구
REINFORCEMENT LEARNING
순환&면역 6조 박아름 이명동 최제춘.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
Generative Adversarial Network
Technological Forecasting & social change(2014)
Internet Computing KUT Youn-Hee Han
제 3 장 신경회로망 (Neural Networks)
6. 인구 변화와 인구 문제 01.인구 분포 02.인구 이동 03.인구 문제 세계와 우리나라 인구 분포의 특징
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
Parallel software Lab. 박 창 규
여는 장 큰제목과 조원이름은 늘 가로중앙선에 중심을 맞춰주세요.
국가대표 생애주기교육 프로그램 참여방법 안내
보육시설 유형과 운영.
Data Mining Final Project
학교생활기록부 기재요령 중요사항 변경사항 학교생활기록부 개선안.
정보 추출기술 (Data Mining Techniques ) : An Overview
개인사유에 의한 사고, 부상, 질병 발생 경위서 작성완료 후 스캔 하셔서 휴직원에 첨부해 주십시오.
공정-기술 로드맵 기술개요도에 나타나 있듯이 레오 포밍 기술은 여러 가지 최종제품을 만드는데 있어 기존의 공정
Course Guide - Algorithms and Practice -
2007년 02월 15일 수요일 랩 세미나 띄어쓰기 및 철자 오류 동시 교정 작성,발표:이주호.
수업 첫 날 교육B 황유미 첫 수업 계획에 대해 알아보도록 하겠습니다..
연결링크 이미지를 마일리지샵 내에 기획전으로 제작하여 오픈/노출 사이즈 가로 1000/세로 상관x 배너사이즈 가로 400
약속 November 9th, 2012.
: 부정(negative)의 의미를 나타내는 접두사
McGraw-Hill Technology Education
24차시 효도 달서시니어클럽 전통예절사업단.
현대의 원자 모형에 의한 전자 배치의 원리 현대의 원자 모형
우리나라의 수자원 물 보기를 금같이 우리나라의 수자원 현황 우리나라의 수자원 이용 현황.
(생각열기) 염화나트륨은 고체 상태에서는 전류가 통하지 않지만 용융 상태나 물에 녹으면 전류가 잘 통한다. 그 이유는?
지역의 자연 환경과 인문환경 조사 사회 1학년 1학기 Ⅰ.지역과 사회 탐구>1.지역사회의 지리적 환경(3/6
제목을 수정하시려면 제목을 지우시고 폰트로 삽입하세요^^
Internet Computing KUT Youn-Hee Han
호칭어와 지칭어 가족관계.
2015년 2학년 1반.
Convergence Security 융합보안학과 17학번 이재승.
• I was touched by my friends’ effort.
담배 없는 우리 마을 만들기 전남 무안군 만풍보건진료소 일 시 : 2006년 2월 28일 ~ 5월 8일.
6월 1주 주간메뉴표 NEW 엄마손 조식 쉐프 삼촌 중식 참새 방앗간 석식 ◎원산지 안내 : 쌀(국내산)
지은이 : 오종철 ONLY ONE 작성자 : 원다성.
Impact Discipleship Training 아홉 번째 모임 2009년 5월 19일
1.예수 거룩한 주 예수 생명의 11.예수 권능의 주 예수 19.그 누구도 그 누구도 21.It's all about you.
시작하기.
유체역학 마이크로마노미터의 이론과 공식을 설명하라. 환경공학과 김기복.
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Progress Seminar 선석규.
Chapter 4. Energy and Potential
Presentation transcript:

Semi-supervised Document classification (probabilistic model and EM)

Document Classification: Bag of Words Approach aardvark 0 about 2 all 2 Africa 1 apple 0 anxious 0 ... gas 1 oil 1 … Zaire 0

Supervised: Naïve Bayes Learner Train: For each class cj of documents 1. Estimate P(cj ) 2. For each word wi estimate P(wi | cj ) Classify (doc): * Assign doc to most probable class * assuming words are conditionally independent, given class

Accuracy vs. # training examples

What if we have labels for only some documents? Learn P(Y|X) Y X1 X2 X3 X4 1 ? Y X1 X4 X3 X2 EM: Repeat until convergence Use probabilistic labels to train classifier h Apply h to assign probabilistic labels to unlabeled data

From [Nigam et al., 2000]

E Step: wt is t-th word in vocabulary M Step:

Using one labeled example per class Words sorted by P(w|course) / P(w| : course)

20 Newsgroups

20 Newsgroups

Hidden Markov Model

순차 데이터 시간성이 없는 데이터 시간성 있는 데이터 (순차 데이터) 특징들의 선후 관계는 무의미 특징들의 선후 관계는 매우 중요함 2019-01-01

순차 데이터 순차 데이터 기호들이 시간에 따라 의존성 가짐 가변 길이 관측 벡터로 표현 관측 oi가 가질 수 있는 값의 집합을 알파벳이라 함 알파벳 V={v1,v2,…,vm} vi를 기호라 함 기호들이 시간에 따라 의존성 가짐 예) 그림 7.2의 온라인 숫자 P(ot=2|ot-1=6)≈0 P(ot=5|ot-1=6) > P(ot=4|ot-1=6) 2019-01-01

마코프 모델 우선 은닉 마코프 모델에서 은닉이 빠진 마코프 모델을 공부하자. 러시아 수학자 Andrey Markov가 제안 시간 t에서의 관측은 가장 최근 r개 관측에만 의존한다는 가정 하의 확률 추론 2019-01-01

마코프 모델 마코프 체인의 합리성은? 예) 최근 사흘의 날씨 정보를 가지고 오늘 날씨 추론 그끄저께 해 (ot-3=해), 그저께 해 (ot-2=해), 어제 비 (ot-1=비) 오늘 비올 확률은? 1차 마코프 체인을 사용한다면 즉 1차 마코프 체인에서는 아래 네 개 확률이 같다. 정말 같을까? 다르다면 오차가 무시할 정도일까? 2019-01-01

마코프 모델 마코프 모델 날씨 예 1차 마코프 체인 사용 2차 이상에서는 추정할 매개 변수가 많아 현실적인 문제 발생 알파벳을 구성하는 기호 각각을 상태로 간주 날씨 예 V={비, 구름, 해} 기후 관측에 의해 얻은 날씨 변화 확률 2019-01-01

마코프 모델 상태 전이 상태 전이 확률 행렬과 상태 전이도 2019-01-01

마코프 모델 마코프 모델로 무엇을 할 수 있나? 관측벡터 O의 확률 구하기 예제 7.1 2019-01-01

마코프 모델 또 다른 예, 온라인 필기 숫자 인식 2019-01-01

마코프 모델 또 다른 예, 온라인 필기 숫자 인식 상태 전이 확률 행렬을 구하면, 초기 확률 행렬을 구하면, 2019-01-01

마코프 모델 또 다른 예, 온라인 필기 숫자 인식 이렇게 만든 마코프 모델로 그림 7.6의 샘플이 발생할 확률을 구하면, 2019-01-01

마코프 모델 마코프 모델과 0차, 2차 마코프 체인과의 비교 (온라인 필기 숫자 예) 0차 마코프 체인 2019-01-01

마코프 모델 마코프 모델과 0차, 2차 마코프 체인과의 비교 (온라인 필기 숫자 예) 추정할 매개 변수가 64*8개로 증가 꼭 이해하고 기억해야 할 것! (MM과 HMM의 근본적인 차이점) 마코프 모델에서는 상태를 나타내는 노드에 관측 (비, 해, 구름) 그 자체가 들어 있다.즉 상태를 볼 수 있다. HMM에서는 상태를 볼 수 없다. 즉 상태가 은닉된다. 2019-01-01

은닉 마코프 모델로의 발전 은닉 마코프 모델로의 발전 마코프 모델은 한계를 가진다. 보다 복잡한 현상이나 과정에 대한 모델링 능력의 한계 모델의 용량을 키우기 위해, 상태를 감추다. 2019-01-01

동기 마코프 체인의 차수와 추정할 매개 변수의 수 HMM 어떤 비결에 의해 이런 뛰어난 능력이 가능한가? r차에서 mr(m-1) 개의 매개 변수 차수에 따라 기하급수적으로 모델 크기가 증가함 HMM 차수를 미리 고정하지 않고 모델 자체가 확률 프로세스에 따라 적응적으로 정함 따라서 아무리 먼 과거의 관측도 현재에 영향을 미침 즉 P(해|비,비), P(해|비,비,비), P(해|비,비,…,비), P(해|비,비,해,…,해)가 모두 다름 이런 뛰어난 능력에도 불구하고 모델 크기는 감당할 정도임 어떤 비결에 의해 이런 뛰어난 능력이 가능한가? 상태를 감춘다. 2019-01-01

동기 상태를 감추면, 마코프 모델이 은닉 마코프 모델이 된다. 2019-01-01

동기 그림 7.7.의 해석 (예를 들어, 해해비구름이 관측되었다.) 마코프 모델 그것은 상태 s3s3s1 s2에서 관측한 것이다. 은닉 마코프 모델 모든 상태에서 {비,해,구름}이 관측 가능하므로 s3s3s1s2일 수도 있고 s1s2s3s1일 수도 있다. 가능한 경우는 몇 가지 일까? 그들의 확률은 다르다. 예를 들어 s3s3s1 s2일 확률은 2019-01-01

HMM의 예 예제 7.4 여자 친구의 삶 [Wikipedia] 여자 친구의 일상을 관찰, V={산책, 쇼핑, 청소} 날씨는 해와 비 (상태) 내가 가진 정보 답할 수 있나? 그녀가 일주일 연속으로 쇼핑만 할 확률은? 그끄저께 산책, 그저께 산책, 어제 청소했다는데 3일간 그곳 날씨는? 그끄저께 산책, 그저께 산책, 어제 청소했다는데 오늘과 내일 무얼할까? 날씨 날씨에 따른 그녀의 행동 2019-01-01

HMM의 예 HMM을 사용하면 확률 추론할 수 있다. 어떻게? 2019-01-01

구성 요소와 세 가지 문제 앞의 예제는 한쪽 면만 조망 모델을 알때 확률 추론하라. 그녀의 삶 예에서는 날씨와 그녀의 행위에 대한 확률 분포 알고 있음 또 다른 측면 어느 것이 상태인가? 상태는 몇 가지인가? (아키텍처 설계) 확률 분포는 어떻게 구하나? (학습) 예) 온라인 필기 인식 무엇이 상태인고 상태를 몇 가지로 할까? 가진 것은 오로지 훈련 집합 2019-01-01

구성 요소와 세 가지 문제 아키텍처 HMM은 가중치 방향 그래프로 표현 노드가 상태 상태로 사용할 것이 명확한 경우도 있지만 그렇지 않은 경우도 있다. 대표적인 아키텍처 어고딕 모델과 좌우 모델 응용의 특성에 따라 적절한 아키텍처 선택 중요 예를 들어 음성 인식은 좌우 모델이 적당함. 왜? 2019-01-01

구성 요소와 세 가지 문제 세 가지 매개변수 상태 전이 확률 행렬 A=|aij| 관측 행렬 B=|bj(vk)| 2019-01-01

구성 요소와 세 가지 문제 세 가지 문제 평가. 모델 Θ가 주어진 상황에서, 관측벡터 O를 얻었을때 P(O| Θ)는? 학습. 훈련집합 X={O1,..,ON}이 주어져 있을때 HMM의 매개 변수 Θ는? 2019-01-01

알고리즘 이제 세 가지 문제를 풀기 위한 알고리즘을 공부하자. 평가. 동적 프로그래밍 이용 디코딩. 동적 프로그래밍 이용 (Viterbi 알고리즘) 학습. EM 알고리즘 (Baum-Welch 알고리즘) 2019-01-01

평가 평가 문제란? 평가 문제를 풀어 보자. 모델 Θ가 주어진 상황에서, 관측벡터 O를 얻었을때 P(O| Θ)는? 예) 그녀가 일주일 연속으로 쇼핑만 할 확률은? 평가 문제를 풀어 보자. HMM에서는 O를 관측한 상태 열을 모른다. 우선 O를 관측한 상태 열을 안다고 가정하고 그것을 Q=(q1,…,qT)라 하자. 그럼 아래 식을 유도할 수 있다. 원래 문제 P(O| Θ)는 모든 상태 열에 대해 (7.10)의 식을 더하여 구할 수 있다. 2019-01-01

평가 예제 7.5 여자 친구의 삶 “그녀가 오늘 산책, 내일 산책, 모레 청소, 그리고 글피 쇼핑할 확률은?” 즉 O=(o1=산책, o2=산책, o3=청소, o4=쇼핑)일 때, P(O| Θ)는? 모든 상태 열을 나열하면, 2019-01-01

평가 예제 7.5 여자 친구의 삶 상태 열 Q1에 대해 구해 보면, 모든 상태 열에 대한 값을 더하여 답을 구해 보면, 2019-01-01

평가 답은 구할 수 있다. 하지만, 보다 효율적인 알고리즘이 있다. 예제 7.5에서 상태 열의 개수는 24=16 가지 일반적으로 상태의 수가 n이고 관측 열 O의 길이가 T라면 NT 가지의 상태 열 각각의 상태 열은 2T-1번의 곱셈. 따라서 시간 복잡도는 Θ(NTT) 예) n=5, T=30이라면 5.4948*1022 번의 곱셈 필요. 계산 폭발! 보다 효율적인 알고리즘이 있다. 기본 아이디어는 동적 프로그래밍에 의한 중복 계산 제거 예) 예제 7.5의 Q1=‘비비비비’, Q2=‘비비비해’의 계산 P(O,Q1|Θ)=π1b1(산책)a11b1(산책)a11b1(청소)a11b1(쇼핑) P(O,Q1|Θ)=π1b1(산책)a11b1(산책)a11b1(청소)a12b2(쇼핑) 빨간 부분의 계산은 같다. 2019-01-01

평가 동적 프로그래밍 그림 7.13의 격자에 16개의 모든 상태 열이 들어 있다. 그림 7.13의 격자에 16개의 모든 상태 열이 들어 있다. 예, 진한 파랑은 Q1=‘비비비비’, 연파랑은 Q7=‘비해해비’에 해당 αt(i) 는 관측 벡터의 일부 o1o2…ot를 관측하고 시간 t에 si에 있을 확률 2019-01-01

평가 전방 알고리즘forward algorithm 초기식을 포함시키 완벽한 식으로 정리하고 그것을 가상 코드로 적으면, 시간 복잡도는Θ(N2T) n=5, T=30이라면 750 번의 곱셈 이전의 낱낱 계산과 비교해 보라. 2019-01-01

평가 예제 7.6 전방 계산에 의한 확률 평가 t=1일때 t=2일때 t=3과 4일때 답은 2019-01-01

디코딩 디코딩 문제란? 생각 1 모델 Θ가 주어진 상황에서, 관측벡터 O를 얻었을때 그것의 최적 상태열은? 예) 그끄저께 산책, 그저께 산책, 어제 청소했다는데 3일간 그곳 날씨는? 무엇을 기준으로 최적을 판단할 것인가? 생각 1 예를 들어, O=(o1=산책, o2=산책, o3=청소, o4=쇼핑)이었다면, 산책은 s1보다 s2가 확률이 높으므로 s2, 청소는 s1이 확률이 높으므로 s1, 쇼핑은 s1이 확률이 높으므로 s1 을 취함. 즉 O의 최적 상태열은 Q= s2s2s1s1=‘해해비비’로 함 합리적인가? 2019-01-01

디코딩 합리적인 생각은, P(O,Q|Θ)를 기준 함수로 채택하고 이것을 최대화하는 를 찾아야 한다. 즉, 평가 문제와 비슷하다. 모든 Q에 대해 계산하고 (그것을 더하는 대신) 그것 중 가장 큰 것을 취함 이런 낱낱 방법은 계산 폭발 동적 프로그래밍을 이용하자. 2019-01-01

디코딩 Viterbi 알고리즘 전방 계산 (τ는 매 단계에서 최적 경로 기록) 최적 경로 역추적 2019-01-01

디코딩 Viterbi 알고리즘 가상 코드로 쓰면, 시간 복잡도는Θ(N2T) 2019-01-01

디코딩 예제 7.7 Viterbi 알고리즘에 의한 디코딩 t=1일때 t=2일때 t=3과 4일때 역추적하면 답은 2019-01-01

학습 학습 문제란? 학습의 목적을 적어보면, 관측 벡터O가 주어져 있을때 HMM의 매개 변수 Θ는? 평가와 디코딩의 반대 작업 평가와 디코딩 같은 분석적 방법 없음 수치적 방법 필요 학습의 목적을 적어보면, 2019-01-01

학습 학습 알고리즘 스케치 반복적 개선 2019-01-01

학습 가진 것과 찾아야 하는 것 Baum-Welch 알고리즘의 골격 가진 것 O, 찾아야 하는 것 Θ=(A,B,π) 은닉 변수latent variable 등장 가우시언 혼합 추정과 유사성 있음 Baum-Welch 알고리즘의 골격 2019-01-01

학습 E 단계 ( 의 추정) 는 시간 t에서 상태 si에 있을 확률 는 시간 t에 si, t+1에 sj에 있을 확률 를 구하는데 필요한 α와 β는 2019-01-01

학습 M 단계 (Θ의 추정) E 단계에서 구한 로 Θnew의 재추정reestimation P(O|Θnew)>P(O|Θ)이어야 함. 즉 Θnew는 Θ보다 O를 ‘잘 설명해야’ 함 2019-01-01

학습 Baum-Welch 알고리즘 특성 어고딕과 좌우 모델 초기화는 어떻게? 멈춤 조건은 어떻게? 수렴한다. 욕심 알고리즘이므로 전역 최적점 보장 못한다. 어고딕과 좌우 모델 크기 문제 (어고딕 모델) 다중 관측 학습 (좌우 모델) 2019-01-01

부연 설명 HMM의 출력은 확률. 큰 장점이다. 샘플 생성 능력이 있다. HMM은 생성generative 모델이다. 2019-01-01

부연 설명 HMM을 예측 목적으로 사용할 수 있다. HMM을 분류기로 사용할 수 있다. 적절한 아키텍처를 선택해야 한다. (7.30)으로 분류 적절한 아키텍처를 선택해야 한다. 그녀의 삶은 어떤 모델? 음성 인식은 어떤 모델? 상태의 개수를 적절히 해야 한다. 훌륭한 공개 소프트웨어가 있다. 캠브리지 대학의 HTK (HMM Toolkit) 2019-01-01