Presentation is loading. Please wait.

Presentation is loading. Please wait.

군집 분석.

Similar presentations


Presentation on theme: "군집 분석."— Presentation transcript:

1 군집 분석

2 군집 분석 clustering 관찰된 데이터를 군집(cluster)로 나누는 것

3 왜? 복잡한 패턴 1개  단순한 패턴 여러 군집 군집별로 다른 대응(예: 프로모션)

4 대표적 방법들 위계적 군집분석(Hierarchical clustering) K-Means
가우시안 혼합 모형(Mixtures of Gaussian)

5 위계적 군집분석 반복해서 뭉치거나 쪼개는 방식으로 군집은 만드는 방법 보통은 뭉치는 방법을 사용

6 뭉치는 기준 (1) 군집 간의 거리는 어떻게 측정할까 Single link Complete link
두 군집에서 가장 가까운 멤버의 거리 긴 체인(chain)을 만드는 경향 Complete link 두 군집에서 가장 먼 멤버의 거리 구형(spherical)으로 뭉치는 경향

7 뭉치는 기준 (2) Average link Centroids Ward's method 평균 거리 중심 간의 거리
군집을 합쳤을 때 군집 내 거리 분산의 변화

8 K-Means 군집의 중심에 가까운 점들을 군집에 추가

9 K-Means의 과정 (1): 초기화 무작위로 군집의 중심을 찍는다

10 K-Means의 과정 (2): E-단계 군집의 중심에서 거리로 각 점들을 군집의 멤버로 넣는다

11 K-Means의 과정 (3): M-단계 멤버들을 바탕으로 군집의 중심을 정한다

12 K-Means의 과정 (4): 반복 더 이상 중심이 변치 않을 때까지 E-단계와 M-단계를 반복

13 가우시안 혼합 모형 각각의 군집은 가우시안(정규) 분포 형태
혼합 계수(mixing coef.): 군집이 전체 데이터에 차지하는 비율 각 점이 특정 군집에 속할 확률을 가짐(soft assignment)

14 EM 알고리즘 예상(Expectation)과 최대화(Maximization)을 반복
가우시안 혼합 모형 외의 여러 모형에서 활용 K-Means의 연장선에서 이해할 수 있음

15 EM 알고리즘 (1): 초기화 무작위로 군집의 평균, 분산, 혼합 계수를 정한다

16 EM 알고리즘 (2): E-단계 예측(Expectation): 각 점이 군집에 속할 확률을 구한다

17 EM 알고리즘 (3): M-단계 최대화(Maximization): 우도를 최대화 하도록 분포를 업데이트

18 EM 알고리즘 (4): 반복 더 이상 분포가 바뀌지 않을 때까지 E-단계와 M-단계를 반복


Download ppt "군집 분석."

Similar presentations


Ads by Google