Download presentation
Presentation is loading. Please wait.
1
군집 분석
2
군집 분석 clustering 관찰된 데이터를 군집(cluster)로 나누는 것
3
왜? 복잡한 패턴 1개 단순한 패턴 여러 군집 군집별로 다른 대응(예: 프로모션)
4
대표적 방법들 위계적 군집분석(Hierarchical clustering) K-Means
가우시안 혼합 모형(Mixtures of Gaussian)
5
위계적 군집분석 반복해서 뭉치거나 쪼개는 방식으로 군집은 만드는 방법 보통은 뭉치는 방법을 사용
6
뭉치는 기준 (1) 군집 간의 거리는 어떻게 측정할까 Single link Complete link
두 군집에서 가장 가까운 멤버의 거리 긴 체인(chain)을 만드는 경향 Complete link 두 군집에서 가장 먼 멤버의 거리 구형(spherical)으로 뭉치는 경향
7
뭉치는 기준 (2) Average link Centroids Ward's method 평균 거리 중심 간의 거리
군집을 합쳤을 때 군집 내 거리 분산의 변화
8
K-Means 군집의 중심에 가까운 점들을 군집에 추가
9
K-Means의 과정 (1): 초기화 무작위로 군집의 중심을 찍는다
10
K-Means의 과정 (2): E-단계 군집의 중심에서 거리로 각 점들을 군집의 멤버로 넣는다
11
K-Means의 과정 (3): M-단계 멤버들을 바탕으로 군집의 중심을 정한다
12
K-Means의 과정 (4): 반복 더 이상 중심이 변치 않을 때까지 E-단계와 M-단계를 반복
13
가우시안 혼합 모형 각각의 군집은 가우시안(정규) 분포 형태
혼합 계수(mixing coef.): 군집이 전체 데이터에 차지하는 비율 각 점이 특정 군집에 속할 확률을 가짐(soft assignment)
14
EM 알고리즘 예상(Expectation)과 최대화(Maximization)을 반복
가우시안 혼합 모형 외의 여러 모형에서 활용 K-Means의 연장선에서 이해할 수 있음
15
EM 알고리즘 (1): 초기화 무작위로 군집의 평균, 분산, 혼합 계수를 정한다
16
EM 알고리즘 (2): E-단계 예측(Expectation): 각 점이 군집에 속할 확률을 구한다
17
EM 알고리즘 (3): M-단계 최대화(Maximization): 우도를 최대화 하도록 분포를 업데이트
18
EM 알고리즘 (4): 반복 더 이상 분포가 바뀌지 않을 때까지 E-단계와 M-단계를 반복
Similar presentations