군집 분석
군집 분석 clustering 관찰된 데이터를 군집(cluster)로 나누는 것
왜? 복잡한 패턴 1개 단순한 패턴 여러 군집 군집별로 다른 대응(예: 프로모션)
대표적 방법들 위계적 군집분석(Hierarchical clustering) K-Means 가우시안 혼합 모형(Mixtures of Gaussian)
위계적 군집분석 반복해서 뭉치거나 쪼개는 방식으로 군집은 만드는 방법 보통은 뭉치는 방법을 사용
뭉치는 기준 (1) 군집 간의 거리는 어떻게 측정할까 Single link Complete link 두 군집에서 가장 가까운 멤버의 거리 긴 체인(chain)을 만드는 경향 Complete link 두 군집에서 가장 먼 멤버의 거리 구형(spherical)으로 뭉치는 경향
뭉치는 기준 (2) Average link Centroids Ward's method 평균 거리 중심 간의 거리 군집을 합쳤을 때 군집 내 거리 분산의 변화
K-Means 군집의 중심에 가까운 점들을 군집에 추가
K-Means의 과정 (1): 초기화 무작위로 군집의 중심을 찍는다
K-Means의 과정 (2): E-단계 군집의 중심에서 거리로 각 점들을 군집의 멤버로 넣는다
K-Means의 과정 (3): M-단계 멤버들을 바탕으로 군집의 중심을 정한다
K-Means의 과정 (4): 반복 더 이상 중심이 변치 않을 때까지 E-단계와 M-단계를 반복
가우시안 혼합 모형 각각의 군집은 가우시안(정규) 분포 형태 혼합 계수(mixing coef.): 군집이 전체 데이터에 차지하는 비율 각 점이 특정 군집에 속할 확률을 가짐(soft assignment)
EM 알고리즘 예상(Expectation)과 최대화(Maximization)을 반복 가우시안 혼합 모형 외의 여러 모형에서 활용 K-Means의 연장선에서 이해할 수 있음
EM 알고리즘 (1): 초기화 무작위로 군집의 평균, 분산, 혼합 계수를 정한다
EM 알고리즘 (2): E-단계 예측(Expectation): 각 점이 군집에 속할 확률을 구한다
EM 알고리즘 (3): M-단계 최대화(Maximization): 우도를 최대화 하도록 분포를 업데이트
EM 알고리즘 (4): 반복 더 이상 분포가 바뀌지 않을 때까지 E-단계와 M-단계를 반복