Download presentation
Presentation is loading. Please wait.
1
2 장. 베이시언 결정 이론 오일석, 패턴인식, 교보문고, 2008.
2
가장 그럴듯한 이라는 보편 법칙 보편적인 인식 법칙 기계 (컴퓨터)의 인식 ‘가장 그럴듯한’ 부류로 분류
라디오 목소리가 배철수인지 배칠수인지 헛갈리는데 배칠수 같다. 도로 표지판이 전주인지 진주인지 확실치 않은데 전주인것 같다. 기계 (컴퓨터)의 인식 수학 틀에 넣어야 프로그래밍이 가능해짐 P(ωi|x): x가 주어졌을때 그것이 부류 ωi에서 발생했을 확률 (사후 확률)
3
어렵고 중요한 문제 사후 확률 P(ωi|x)의 추정 어려운가? (그림 1.6을 가지고 생각해 보자.) 왜? 어떻게 추정하나?
2~3장의 핵심 주제
4
2.1.1 확률 기초 주사위 사람 키 패턴 인식에서 특징 각각이 랜덤 변수에 해당
주사위 던졌을 때 3이 나올 확률 P(X=3)=1/6 X를 랜덤 변수라 부름 이 경우 X는 이산 값을 가짐 사람 키 연속 값 확률 밀도 함수 p(X) 패턴 인식에서 특징 각각이 랜덤 변수에 해당
5
확률 실험 (사전 확률, 우도, 사후 확률을 설명할 목적의 시나리오)
2.1.1 확률 기초 확률 실험 (사전 확률, 우도, 사후 확률을 설명할 목적의 시나리오) 주머니에서 카드를 뽑아 상자를 선택하고 선택된 상자에서 공을 뽑아 관찰 랜덤 변수 X∈{A,B}, Y={파랑, 하양}
6
P(X)를 사전 확률이라prior probability 부름
2.1.1 확률 기초 확률 상자 A가 선택될 확률은? P(X=A)=P(A)=7/10 상자 A에서 하얀 공이 뽑힐 확률은? 조건부 확률 P(Y=하양|X=A)=P(하양|A)=2/10 상자는 A이고 공은 하양이 뽑힐 확률은? 결합 확률 P(A, 하양)=P(하양|A)P(A)=(2/10)(7/10)=7/50 하얀 공이 나올 확률은? 주변 확률 P(하양)=P(하양|A)P(A)+P(하양|B)P(B) =(2/10)(7/10)+(9/15)(3/10)=8/25 P(X,Y)=P(X)P(Y)이면 X와 Y는 독립 P(X)를 사전 확률이라prior probability 부름
7
2.1.1 확률 기초 이런 문제를 생각해 보자. 생각 1 하얀 공이 뽑혔는데 어느 상자에서 나왔는지 맞추어라.
기본 전략: 상자 A와 B에서 나왔을 가능성 각각을 구하고 큰 가능성을 보인 상자를 답으로 취한다. 이렇게 해야 맞출 가능성이 최대 (오류 범할 가능성이 최소)가 됨 가능성은 어떻게 계산? 생각 1 상자 A의 하얀 공 확률과 상자 B의 하얀 공 확률을 비교하여 큰 쪽을 취한다. P(하양|B)=9/15 > P(하양|A)=2/10 이므로 ‘상자 B에서 나왔다’고 말함 조건부 확률 P(Y|X)를 사용한 셈이다. 타당한가? 이 조건부 확률을 우도라고likelihood 부름
8
2.1.1 확률 기초 생각 2 올바른 생각 상자 A와 상자 B의 선택 가능성을 비교하여 큰 쪽을 취한다.
P(A)=7/10 > P(B)=3/10 이므로 ‘상자 A에서 나왔다’고 말함 사전 확률 P(X)를 사용한 셈이다. 타당한가? 올바른 생각 생각 1과 생각 2의 한계 극단적으로 P(A)=0.999라면 생각 1이 틀린 것이 확실하다. 극단적으로 P(하양|A)=0.999라면 생각 2가 틀린 것이 확실하다. 우도와 사전 확률을 모두 고려함이 타당해 보임 문제에 충실하자. 조건부 확률 P(A|하양)과 P(B|하양) 을 비교하여 큰 쪽을 취함 즉 P(X|Y)를 사용하겠다는 생각이 타당하다. P(X|Y)를 사후 확률 이라posterior probability 함 어떻게 게산할 것인가?
9
2.1.1 확률 기초 베이스 정리의 유도 베이스 정리를 이용한 사후 확률 계산
10
2.1.2 평균과 분산 평균 벡터와 공분산 행렬
11
2.1.2 평균과 분산 예제 2.3 8개 샘플이 주어진 상황에서 평균 벡터와 공분산 행렬 구함
12
2.1.3 확률 분포의 표현과 추정 이산인 경우 연속인 경우 차원의 저주
변수의 수가 d이고 각 변수가 q개의 구간을 가진다면 qd에 비례하는 메모리 필요 연속인 경우 일정한 형태를 가는 상황 그렇지 않은 상황
13
분류기 학습 (훈련)에 사용하는 정보는 ‘훈련 집합’
2.2 베이시언 분류기 분류기 학습 (훈련)에 사용하는 정보는 ‘훈련 집합’ 훈련 집합 X={(x1,t1), (x2,t2), …, (xN,tN)} xi=(x1,x2,…,xd)는 특징 벡터 ti∈{ω1,ω2,…,ωM} 부류 표지 (이진 분류기인 경우 M=2) 예) 필기 숫자 x1=(13/11,12/12)T, t1=ω1 (숫자 0) x2=(12/7,14/5)T, t2=ω2 (숫자 1) x3=(6/11,13/4)T, t3=ω3 (숫자 2) x4=(13/11,10/14)T, t4=ω4 (숫자 3) …… x40=(15/13,11/17)T, t40=ω10 (숫자 9)
14
주어진 특징 벡터 x에 대해 ‘가장 그럴듯한’ 부류로 분류
2.2.1 최소 오류 베이시언 분류기 주어진 특징 벡터 x에 대해 ‘가장 그럴듯한’ 부류로 분류 (2.16)에서 사후 확률은 직접 구할 수 없음. 왜? 베이스 정리를 이용하여 사후 확률 계산을 사전 확률과 우도로 대치 분모는 무시해도 됨. 왜? 우도와 사전 확률은 어떻게 계산?
15
2.2.1 최소 오류 베이시언 분류기 사전 확률 계산 우도 계산 P(ω1)=n1/N, P(ω2)=n2/N
훈련 집합에서 ωi에 속하는 샘들들을 가지고 P(x|ωi) 추정 부류 조건부 확률 이라고도class-conditional probabilty 함 3장의 주제
16
2.2.1 최소 오류 베이시언 분류기 최소 오류 베이시언 분류기 결정 규칙 특수한 경우로 (2.18)의 의미 해석하면,
사전 확률이 0.5인 경우 우도만으로 분류 P(ω1)>>P(ω2)인 경우 사전 확률이 의사 결정 주도
17
2.2.1 최소 오류 베이시언 분류기 최소 오류 베이시언 분류기 오류 확률 최적성
18
2.2.2 최소 위험 베이시언 분류기 성능 기준으로 오류가 적절하지 못한 상황 손실 행렬 정상인과 암 환자 분류
과일을 상품과 하품으로 분류 손실 행렬
19
2.2.2 최소 위험 베이시언 분류기 최소 위험 베이시언 분류기 우도비로 다시 쓰면 우도비 결정 규칙
20
2.2.3 M 부류로 확장 M 부류 최소 오류 베이시언 분류기 M 부류 최소 위험 베이시언 분류기 사후 확률로 쓰면
사전 확률과 우도로 쓰면 M 부류 최소 위험 베이시언 분류기
21
2.3 분별 함수 지금까지 분류기를 분별 함수로 다시 작성하면
22
2.3 분별 함수 분별 함수 표현의 장점 여러 분류기를 하나의 틀로 표현
f(.)가 단조 증가라면 p(x|ωi) P(ωi)대신 gi(x)=f(p(x|ωi) P(ωi)) 사용하여도 같은 결과 f(.)로 log 함수를 주로 사용 log는 곱셈을 덧셈으로 바꾸어 주므로 수식 전개에 유리하고 log 취하면 값의 규모가 커져 수치 오류에 둔감한 이점
23
우도가 정규 분포를 따른다는 가정 하에 베이시언 분류기의 특성을 해석해 보자.
2.4 정규분포에서 베이시언 분류기 정규 분포 (가우시언 분포) 현실 세계에 맞는 경우 있음 평균과 분산이라는 두 종류의 매개 변수만으로 표현 가능 수학적인 매력 우도가 정규 분포를 따른다는 가정 하에 베이시언 분류기의 특성을 해석해 보자.
24
2.4.1 정규분포와 분별 함수 정규 분포
25
2.4.1 정규분포와 분별 함수 우도를 다시 쓰면, 로그를 취하여 분별 함수를 만들어 보면,
gi(x)는 변수 x에 대한 2차 식
26
2.4.1 정규분포와 분별 함수 예제 2.4 d=2이고 아래와 같다고 가정 분별 함수를 유도해 보면,
27
2.4.1 정규분포와 분별 함수 결정 경계 두 부류가 차지하는 영역의 경계 gi(x)=gj(x)인 점 즉 gij(x)=0인 점
28
2.4.2 선형 분별 모든 부류의 공분산 행렬이 같은 상황, 분별 함수를 다시 쓰면
i에 무관한 항은 제거해도 됨. 따라서 2차 항 xTΣ-1x 없어짐 선형식이 됨
29
2.4.2 선형 분별 결정 경계
30
2.4.2 선형 분별 예제 2.5
32
차 분별 임의의 공분산 행렬
33
차 분별 예제 2.6
34
2.4.4 최소 거리 분류기 최소 거리 분류기로 다시 해석해 보자. 거리 척도
수식 유도 편의를 위해 두 부류의 사전 확률과 공분산 행렬 같다고 가정 최소 거리 분류기 거리 척도
35
2.4.4 최소 거리 분류기 예제 2.7
37
2.5 베이시언 분류의 특성 베이시언 분류의 특성
38
2.5 베이시언 분류의 특성 나이브naïve 베이시언 분류기 특징들이 서로 독립이라는 가정
우도 계산을 (2.45)로 하는 분류기를 나이브 베이시언 분류기라 함 얻은 것: 차원의 저주를 피함 잃은 것: 성능 저하
39
2.6 기각 처리 기각 신뢰도가 충분치 않은 경우는 의사 결정 포기
그림 2.16에서 두 부류의 확률 차이가 Δ보다 작으면 기각
Similar presentations