군집분석 (Cluster analysis) 과목명:조사방법론 담당교수:김동건 학번:20090109 이름:김태희
차례 1.군집분석의 개념 및 목적 2.군집분석의 절차 3.군집분석 방법 4.군집분석의 예 5.군집분석의 고려사항 (1)거리 및 자료형태의 종류 (2)군집화 방법 (3)계층적 군집화 방법 (4)비계층적 군집화 방법 4.군집분석의 예 5.군집분석의 고려사항
1.군집분석의 개념 및 목적 군집분석은 대상(개체 혹은 변수)들이 지니고 있는 다양한 이질적인 특성을 유사성(similarity)을 바탕으로 동질적인 집 단으로 묶어 주는 방법으로서, 대상들의 명확한 분류기준이 존재하지 않거나 밝혀지지 않은 상태에서 유용하게 이용될 수 있는 방법이다. 따라서 군집분석은 1.유사성의 측정방법, 2. 군집화 방법의 두 가지가 가장 핵심적인 과제가 된다 개체들에 대한 군집의 개수, 내용 ,구조 등이 사전에 정의되 지 않은 상황하에서 군집의 구성됨을 개체 사이의 유사성에 근거하여 식별함으로써 전체 다변량 자료의 구조를 파악하 고, 군집의 형성과정과 그 특성 그리고 식별된 군집간의 관 계 등을 체계적으로 연구 분석하는 과정의 총체를 군집분석 의 목적이라 할 수 있다.
1.군집분석의 개념 및 목적 각 대상들이 얼마나 비슷한가의 정도를 나타내는 유사성의 척도. 각 대상들이 얼마나 비슷한가의 정도를 나타내는 유사성의 척도. 조사자가 모든 대상들간의 유사성에 대 하여 측정을 하였다고 해서 군집화가 되 는 것은 아니다. 대상들의 군집화가 끝난 후 연구자는 군 집화된 결과가 어떤 의미를 갖는지 알아 야 하며, 또한 어떻게 각 군집의 명칭을 부여하고 그 집단의 특성을 파악해야 하 는지에 대해 알아야 한다.
2.군집분석의 절차 연 구 목 적 분 석 대 상 분석방법결정 자료형태결정 계층적 군집화 비계층적 군집화 거 리 결 합 방 법 거 리 결 합 방 법 결 과 해 석
2.군집분석의 절차 1.계층적 군집방법: 병합적(agglomerative)방법과 분할적(division)방법이 있다. 병합적 방법은 가까운 개체들끼리 묶어감으로써 군집을 만들어 가는 방법이며, 분할적 방법은 반대로 먼 개체들을 나누어 가는 방법이다 (1)병합적 방법 (agglomerative) A. 최단 연결법(single linkage method) B. 최장 연결법(complete linkage method) C. 평균 연결법(average linkage method) D. 중심 연결법(centroid linkage method) E. 중위수 연결법(Median Linkage Method) F. 와드의 방법(ward's method) (2)분할적 방법 (division) 먼저 N개의 개체를 2개의 군집으로 나누는 것으로부터 시작되어 병합 적인 방법의 역순으로 진행된다. 군집들이 병합 또는 분리되는 과정은 나무모양그림(dendrogram)을 이용하여 간단히 표현될 수 있다.
2.군집분석의 절차 2.비계층적 군집방법 (Non-Hierarchical Clustering Method): 최적분리 군집방법(k-Means Clustering)은 계층적인 방법으로 군집을 형성하지 않고 관찰값들을 몇개의 군집으로 구분시키는 형태를 택하고 있다. ( 최종군집의 수와 시작점을 미리 지정해주어야 한다.)
3.군집분석의 방법 1.거리 및 자료 형태의 종류 측정자 자료 측정 대상 등간척도 빈도 이분자료 유사성 비유사성 Pearson 상관계수 Rusell & Rao measure Simple Matching measure Jaccard measure Dice measure 비유사성 유클라디안 거리 민코스키 거리 도시블럭 거리 Chi-square 거리 Phi-square 거리
3.군집분석의 방법 유사성: 값이 클수록 두 대상간의 거리가 가까움 을 의미, 값이 작을수록 거리가 멀다는 것을 의미 비 유사성: 두 대상 사이의 떨어진 정도를 나타내므로 값이 클수록 서로 거리가 멀다는 것을 나타 내고 작을수록 거리가 가까움을 의미.
dAB= (Ai –Bi) ²¹² 3.군집분석의 방법 (1).유클라디안 거리(Euclidean distance): 임의의 두거리의 최단거리를 의미하며 구하는 공식은 다음과 같다 dAB= Ai -Bi i dAB : 대상 A와 B간의 거리 Ai :대상 A의 I 번째 변수의 측정치 Bi :대상 B의 I 번째 변수의 측정치 n: 변수의 수, 혹은 차원의 수 dAB= (Ai –Bi) ²¹²
3.군집분석의 방법 (2)도시 블록 거리(City-block distance): 임의의 지정 A와 B를 생각했을 때 A에서B로 직선거리가 아닌 평면상에서 정해진 길을 따 라 이동했을 때의 거리를 의미하는 것. B 구하는 공식은 다음과 같다. A
dAB= |Ai –Bi| 3.군집 분석의 방법 (3)민코스키 거리(Minkowski distance): 비 유사성을 나타내는 거리의 일반형 구하는 공식은 다음과 같다 dAB= |Ai –Bi| 1/P
3.군집 분석의 방법 계층적 군집화 방법: (1). 최단 연결법(single linkage method) (2). 최장 연결법(complete linkage method) (3). 평균 연결법(average linkage method) (4). 중심 연결법(centroid linkage method) (5). 중위수 연결법(Median Linkage Method (6). 와드의 방법(ward's method)
3.군집 분석의 방법 (1). 최단 연결법(single linkage method): 두 군집 사이의 거리를 각 군집에 속하는 임의의 두 개 체들 사이의 거리 중 최단거리로 정의된 각 개체를 가장 유사성이 큰 군집으로 묶어 나가는 방법이다. 이러한 최단 연결법은 수리적인 면이 매우 우수하며, 이에 따라 컴퓨터 처리 시간이 비교적 빠르다. 또한 자료에 대한 단조변환에 대하여 나무구조가 불변하 기 때문에 순서적 의미를 갖는 자료에 대하여 좋은 결과를 제공한다. 그러나 두 군집이 몇 개의 개체들로 연결된 ‘고리현상’이 있을 경우 부적절한 결과를 낳게된다.
3.군집분석의 방법 (2). 최장 연결법(complete linkage method): 두 군집와사이의 거리를 각 군집에 속하는 임의의 두 개체들 사이의 거리 중 최장거리 로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법이다. 이와 같은 최장 연결법은 앞의 최단연결법과는 대조적인 관계가 있다. 일반적으로, 최단 연결법이 고립된 군집을 찾는데 유용하다면, 최장 연결 법은 군집들의 응집성에 중점을 둔다.
3.군집분석의 방법 (3). 평균 연결법(average linkage method): 두 군집과 사이의 거리를 각 군집에 속하는 모든 개체들의 평균거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법이다.
3.군집분석의 방법 (4). 중심 연결법(centroid linkage method): 두 군집의 중심점과 군집의 중심점 사이의 거리를 두 군집 사이의 거리로 정의하여 가 장 유사성이 큰 군집을 묶어 나가는 방법이 다.
3.군집분석의 방법 (5). 중위수 연결법(Median Linkage Method): 두 군집 와 사이의 거리 를 각 군집에 속하는 임의 의 두 개체들 평균을 합하여 2로 나눈 값(군집의 크기를 고려하지 않은 단순평균)을 근간으로 정의 하여 가장 유사성이 큰 군집을 묶어 나가는 방법이다.
3.군집분석의 방법 (6). 와드의 방법(ward's method): 단순한 거리기준이 아닌, 구성 가능한 군집 들 모두에 대해서 그 군집을 구성하는 대상 들의 측정치와 분산을 기준으로 사용하는 방 법.
3.군집분석의 방법 비계층적 군집화 방법: K-means 방법 구하고자 하는 군집의 수를 정한 상태에서 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함해가는 방식으로 군집을 형성하는 방법 분석자가 적절한 수준의 군집 수를 미리 정하고, 군집대상의 분 포에 따라 군집의 초기값을 설정하여 주면, 그 초기값에서 가장 가까운 거리에 있는 대상을 하나씩 더해가는 식으로 군집화해 가는 방법. 많은 자료를 빠르고 쉽게 분류할 수 있으나 군집의 수를 미리 정해 주어야 하고 군집을 형성하기 위한 초기값에 따라 군집결과가 달라지는 단점이 있음.
4.군집분석의 예 단일기준결합방식 가장 가까운 대상을 군집화시키는 방법 최소 거리기준 A BC D E A BC D E 예)에서 제일 가장 가까운 거리를 나타내는 대상은 B와 C이므로 (BC)가 제일 먼저 하나의 군집이 됨
4.군집분석의 예 단일기준결합방식 A BC D E A BC 3.0 D 6.5 2.5 E 8.0 4.0 1.5 1단계 B와 X간의 거리와 C와X간의 거리 중 최소거리는 (BC) 와 D간의 거리는 2.5가 됨 2단계 가장 가까운 단계 (DE)간의 1.5 A BC DE BC 3.0 DE 6.5 2.5 최종단계 (BC)와 (DE)간의 거리 2.5 가장 가까운 단계 A와 B간 거리 3과 A와 C간 거리 4의 평균 3.5 A BCDE BCDE 3.0
4.군집분석의 예 완전기준결합방식 근본적으로 가장 가까운 거리의 대상을 군집화시킨다는 점에서 단일기준결합방식과 동일하다. 근본적으로 가장 가까운 거리의 대상을 군집화시킨다는 점에서 단일기준결합방식과 동일하다. 제2단계에서는 최장거리기준으로 사용함. A E BC D E A BC D
4.군집분석의 예 완전기준결합방식 A BC D E A BC 4.0 D 6.5 3.5 E 8.0 5.0 1.5 1단계 DE간의 거리 1.5가 가장 가깝다. A BC DE BC 4.0 DE 8.0 5.0 2단계 가장 가까운 BC와 A간의 거리4 ABC DE ABC DE
4.군집분석의 예 와드의 방법(ward's method) 구성 가능한 군집들 모두에 대해서 그 군집을 구성하고 대상들의 측정치의 분산을 기준으로 사용 구성 가능한 모든 군집들에 대해 이러한 분산을 비교해서 가장 작은 값을 나타내는 쌍을 군집화 함
5.군집분석의 고려사항 1)군집분석에 사용하는 군집화 변수의 특징 일반적으로 분석에 사용되는 변수의 질과 획득비용은 서로 반비례, 따라서 연구자는 연구환경과 연구목적, 그리고 비용을 고려하여 적절하나 군집화 변수를 선정 하여 사용하는 것이 필요하다.
5.군집분석의 고려사항 2)군집분석과 요인분석 비교 요인분석: 군집분석: 요인분석: 군집분석: a.변수열을 대상으로 함 a.레코드(행)을 대상으로 함 b.변수간의 상관관계 정보를 사용함 b.거리정보를 이용함 c.여러 변수들을 묶어 요인을 형성함 c.응답자 군집을 형성 d.통계적인 분석 d.수리적인 분석 X1(변수) X2(변수) X3(변수) x4(변수) 1(레코드) 2(레코드) 3(레코드) 4(레코드)
5.군집분석의 고려사항 3) 군집화에 사용할 변수의 표준화에 대한 고찰 일반적으로 군집분석에 사용하는 모든 변수는 표준화해서 사용해야 한다. 변수를 표준화 한다 = 변수의 단위를 표준편차단위로 바꾸는 것 Ex)몸무게 g를 kg로, 키 mm를 cm로
5.군집분석의 고려사항 4) 군집 수에 대한 결정 군집의 수에 대한 결정은 표본을 추출해서라도 계층적 군집분석을 일차적으로 수행하여 얻은 덴 다이어그램 을 이용하여 판단하는 것이 바람직하다. 5) 군집분석에서 사용되는 변수의 척도 일반적으로 거리 측정에 사용할 수 있는 변수이어야 한다. 따라서 등간 척도나 비율척도로 측정된 변수이어 야 한다.
5.군집분석의 고려사항 6) 군집분석에 사용되는 변수와 변수의 가중치 변수를 표준화하여 사용하지 않을 경우에는 변수 의 분산 정도에 따라 가중치가 자동적으로 다르게 책정될 수 있으나 변수를 표준화하여 사용할 경우 변수들의 가중치는 모두 일정하게 된다. 따라서 연구자는 변수의 선정뿐만 아니라 표준화 및 명목변수 사용에 대한 결정에 신중해야 한다
제가 준비한 것은 여기까지 입니다. 감사합니다^^