Download presentation
Presentation is loading. Please wait.
Published by보람 판 Modified 8년 전
1
Marketing Research 1 군집분석의 개념과 적용 군집분석 (cluster analysis) : 다수의 대상들 ( 소비자, 제품, 기타 ) 을 그들이 소유하는 특 성을 토대로 유사한 대상들끼리 그룹핑하는 다변량 통계기법 → 군집내의 구성원들은 가급 적 유사하게, 군집들간에는 가급적 상이하게 대상들을 그룹핑. 군집 (cluster) : 군집분석에 의해 형성되는 각 그룹. 마케팅에서의 사용 : 시장세분화, 유사브랜드 그룹핑 → 어느 브랜드와 직접적 경쟁관계에 있는지 알 수 있음. 제 17 장 군집분석 ( 참고 ) 자료의 구조를 평가한다는 점에서 요인분석에 비유될 수 있으나, 요인분석은 변수들을 그 룹핑하는데 비해 군집분석은 대상들을 그룹핑한다는 점에서 근본적으로 다르다. 대상들을 분류한다는 점에서 판별분석에 비유될 수 있으나, 판별분석은 분석 이전에 집단 이 이미 나누어져 있으며 기본과업이 집단들간의 차별적 특성을 설명하는 변수들을 발견하 는데 있는데 비해 군집분석은 사전에 집단이 나누어져 있지 않으며 기본과업이 여러 변수 들에 걸쳐 유사한 대상들끼리 집단화한다는 점에서 다르다.
2
Marketing Research 2 군집분석을 위한 자료 군집분석을 위해 흔히 사용되는 자료 : 간격척도 / 비율척도로 측정된 거리값 (distance measure) 이며 경우에 따라서는 명목척도 또는 비율척도로 측정된 값들로도 군집분석이 가능 ( 대부분의 군집분석 : 거리로 나타낸 값들을 대상으로 이루어짐 ). 거리의 종류 Minkowski 거리 도시블럭 거리 제곱 Euclidian 거리 Euclidian 거리 : 두 지점간의 거리를 계산할 때 직각 삼각형의 원리를 이용하는 것으로 가장 흔히 사용됨. 대상 2(x 2, y 2 ) 대상 1(x 1, y 1 ) y 2 – y 1 x 2 – x 1 군집방법 중 단일결합법, 완전결합법, 평균결합법 을 사용하는 경우 흔히 Euclidian 거리를 사용하고 Ward 법을 사용하면 제곱 Euclidian 거리를 많이 사용. 군집분석을 위해 변수들의 단위가 다르면 원자료를 사용해서는 안 된다. → 여러 변수들이 동일한 단위 로 측정된 경우가 아니면 표준화된 값을 사용해야 한다.
3
Marketing Research 3 군집분석을 위한 가정 표본의 통계량으로부터 모집단의 모수를 추정하는것이 아니며, 주어진 자료의 구조를 파악 하여 기술하므로 기술통계기법임. 따라서 모집단의 정규성이나 집단간 공분산의 동일성과 같은 가정이 요구되지 않는다. 경우에 따라 다중공선성 (multicollinearity) 이 결과에 크게 영향을 미칠 수 있다. 군집의 추출 계층적 군집화 (hierarchical clustering) : 처음 각 대상이 독립군집으로 출발하는데 ( 예 를 들어 대상이 10 개이면 군집이 10 개 ), 거리가 가장 가까운 어느 두 대상 ( 즉, 두 군집 ) 이 군 집을 이루기 시작하여 가까운 군집들끼리 계속적인 군집화가 이루어지는 방법으로 이 과정 에서 계속적으로 군집의 수가 감소. 군집추출방식 계층적 군집화 비계층적 군집화 단일결합법 완전결합법 평균결합법 Ward 법 K – 평균법
4
Marketing Research 4 단일결합법 (single linkage) : 최단거리 기준. ● ● ● ● 01234567 ●●●● ● ABCDE 대상들간의 거리를 행렬로 나타내면 다음과 같다. ABCD B2.0 C3.01.0 D5.53.52.5 E7.05.04.01.5 덴드로그램 ● ● ● ● ● A B C D E 1 2 3 4 B, C 결합 : BC 군집형성. 최단거리 기준으로 BC 군집으로 부터 A 까지의 거리는 2. D, E 거리는 1.5 이므로 D 와 E 가 결합하여 DE 군집형성. BC 군집과 A 의 거리는 2 이나 BC 군집과 DE 군집의 거리는 2.5 이므로 BCA 군집이 이루어지 고 BCA 군집과 DE 군집이 결합.
5
Marketing Research 5 완전결합법 (complete linkage) : 형성된 군집과 다른 군집의 거리를 계산할 때 최장거 리를 기준으로 한다. 평균결합법 (average linkage) : 형성된 군집과 다른 군집의 거리를 계산할 때 한 군 집의 모든 구성원들로부터 다른 군집의 모든 구성원들까지 거리의 평균을 기준으로 함. »BC 군집과 A 의 거리는 2.5( ) 이며, BC 군집과 DE 군집의 거리는 3.75( ). » 극단값을 사용하지 않고 각 군집에 포함된 모든 구성원들의 값을 사용한다는 점에서 보다 합리적. Ward 법 : 최단거리를 기준으로 군집화가 진행되는 것은 동일하나 군집간의 거리를 계산 하는 방식에서 차이가 있는데 두 군집간의 거리는 각 군집을 구성하는 대상들이 평균으로 부터 떨어진 정도, 즉 “ 편차 ” 의 제곱을 그 군집을 구성하는 대상들에 걸쳐 합한 것으로 거 리를 계산 ( 다음은 변수가 한 개인 경우 ). ● ● ● ● BC 군집과 A 의 거리는 3 이며, BC 군집과 DE 군집의 거리는 5. = 각 군집의 i 번째 대상의 속성치 = 그 군집을 구성하는 대상들의 평균치 = 각 군집을 구성하는 대상들의 수
6
Marketing Research 6 4 개에서 두 개씩 추출할 수 있는 조합의 수는 6 개 ( 4 C 2 ) 이며, 각각의 편차의 제곱값의 합계 를 계산하면, AB = (0 - 1) 2 + (2 - 1) 2 = 2 AC = (0 - 1.5) 2 + (3 - 1.5) 2 = 4.5 AD = (0 - 2.75) 2 + (5.5 – 2.73) 2 = 15.125 BC = (2 – 2.5) 2 + (3 - 2.5) 2 =.5 BD = (2 – 3.75) 2 + (5.5 – 3.75) 2 = 3.0625 CD = (3 - 4.25) 2 + (5.5 - 4.25) 2 = 3.125 편차의 제곱값의 합계 6 개 중 가장 짧은 거리를 갖는 B 와 C 가 결합하여 BC 의 군집이 형성되 고 BC 는 하나의 군집이 되었으므로 다음과 같이 계산됨. ABC = (0 - 1.67) 2 + (2 – 1.67) 2 + (3 – 1.67) 2 = 4.667 BCD = (2 – 3.5) 2 + (3 – 3.5) 2 + (5.5 – 3.5) 2 = 6.5 따라서 BC 군집에 가장 가까운 거리를 갖는 A 가 결합된다. 끝으로 ABC 군집에 D 가 결합되어 ABCD 의 군집 형성. ABC B2 C4.5.5 D15.1253.06253.125 ABC 4.667 D15.256.5 123450 6 ● ●●● A BCD
7
Marketing Research 7 비계층적 군집화 ((nonhierarchical clustering) : 군집의 수가 한 개씩 감소하는 것이 아니라 사전에 정해진 군집의 숫자에 따라 대상들이 군집들에 할당되는 것. 계층적 군집화 : 6 개의 군집해 (six-cluster solution) 는 7 개 군집해에서 어느 두 군집들 이 결합하는 것. 비계층적 군집화 : 6 개 군집해는 가능한 모든 6 개 군집해들 중에서 최상의 것이됨. 방법 : 가장 널리 이용되는 것이 K- 평균법 (K-means) 으로 K 는 군집의 수를 의미. 한 군집씨앗 (cluster seed) 이 선택되고 사전에 명시된 한정거리 (threshold distance) 이내에 있는 대상들이 그 군집씨앗을 중심으 로 군집화. 또다른 군집씨앗이 정해지고 같은 방식 으로 군집화가 진행 되나 어떤 대상이 사 전에 한 군집에 속해 져 있더라도 새로운 군집씨앗에 보다 가 까우면 이 대상은 새 로운 군집에 할당. 사전에 정해진 K 개의 군집씨앗을 중심으로 K 개의 군집이 도출될 때 까지 계속 진행되며, 군집화가 진행 됨에 따라 각 군집의 중심점 (centroid) 이 달라진다.
8
Marketing Research 8 SPSS 프로그램에 의한 계층적 군집화 : computer output 의 dendrogram 은 대상들 이 군집화되는 순서를 보여주나 비계층적 군집화를 하면 각 대상이 어느 군집에 속하는지 최종결과만 나타나며 그 과정은 나타나지 않는다. 계층적 군집화 vs 비계층적 군집화 계층적 군집화 방법 중에서는 일반적으로 Ward 법과 평균결합법이 널리 이용됨. 계층적 군집화 방법의 한계점 한 대상이 일단 어느 군집에 소속되면 다른 군집으로 이동될 수 없다. 예외값 (outlier) 이 제거되지 않고 반드시 어느 군집에 속하게 된다 ( 예외값의 영향력 은 완전결합법의 경우 더욱 크게 나타나므로 이러한 문제를 해결하기 위해서는 예외값 을 갖는 대상을 제거해야 함 ). 표본의 크기가 큰 경우 컴퓨터 처리 용량이 상당히 커야 한다. 비계층적 군집화는 최근 보다 널리 이용되고 있음. 계층적 군집화가 갖는 문제점은 없으나 군집의 수를 사전에 지정해 주어야 함. » 연구자가 사전에 몇 개로 정하는 것이 바람직하다는 신념을 갖지 않는 경우 군집의 수를 달리하여 여러 번 실행 후 한 가지 결과를 선택. » 계층적 방법에 의해 군집화를 한 다음, 그 결과로부터 가장 적절한 수의 군집 수를 결정하여, 다시 비계층적 방법에 의해 분석하면서 이때 그 수를 지정하는 것으로 계 층적 군집화에서 나타나는 예외값을 이때 제거하는 것이 바람직 ( 현실적으로 많이 이용되는 방법 ). » 각 군집의 명칭과 관리적 시사점을 가장 명확히 할 수 있는 수준에서 군집의 수를 결 정하는 것이 바람직.
9
Marketing Research 9 군집의 해석 군집분석 결과에 따라 도출되는 각 군집의 명칭을 부여하면 그 결과를 보는 사람들이 각 군 집의 특징을 보다 잘 이해 → 표준화시키지 않은 원자료의 값의 중심값 (centroid) 을 이용 / 표준화시킨 자료를 군집화분석하였다면 각 군집의 각 변수의 원자료 값을 역으로추적하여 해석. 군집분석의 예 군집분석 자료 사교성직무성적 12357 24893 35776 44088 54582 64285 75886 84774 93264 103672 계층적 군집분석 : Ward 법 사용, 제곱 Euclidian 거리 사용.
10
Marketing Research 10 근접성 행렬 제곱 유클리디안 거리 케이스 12345678910 1192115171250110911452066865130394 21921370891301001493621097585 31517370433180306101104769457 41250894336113328245640272 51109130180611818568493181 611451003061318257146541205 720661491013281852572651160680 886536210424568146265325125 91301097769640493541116032580 1039458545727218120568012580 이것은 상이성 행렬입니다. ↑ 판매원들 (case) 간의 근접성행렬 근접성 행렬
11
Marketing Research 11 군집화 일정표 단계 조합된 군집 계수 최초출현 군집단계 다음 단계 군집 1 군집 2 군집 1 군집 2 1466.500002 24530.667105 391070.667007 437121.167006 524193.250028 638299.417408 719460.750039 823759.905569 9122191.700780 4 + 6 + 5 + 2 + 3 + 1 9 + 10 + 1 3 + 7 + 8 + 2 시작되는 부분
12
Marketing Research 12 수직 고드름표와 Dedrogram 수직 고드름도표 케이스 군집의 수 87356421091 1××××××××××××××××××× 2×××××××××××××××××× 3××××××××××××××××× 4×××××××××××××××× 5××××××××××××××× 6×××××××××××××× 7××××××××××××× 8×××××××××××× 9×××××××××××
13
Marketing Research 13 군집의 수를 3 개로 한 경우 cases 8, 7, 3 ; 5, 6, 4, 2 ; 10, 9, 1 이 각각 군집화됨을 알수 있음. Dendrogram using Ward Method C A S E Label Num 0 510152025 Rescaled Distance Cluster Combime 4 6 5 2 3 7 8 9 10 1 1 2 3 4 5 6 7 8 9
14
Marketing Research 14 최종군집표 : 각 군 집에 cases 가 추가 됨에 따라 중심값 (centroid) 이 달 라졌음을 보여준다 → 군집 1 에 속한 cases 1, 9 의 사교 성 중심값은 27.5( ) 인데, 반올림하여 28 로 나타나 있다. 비계층적 군집분석 (K- 평균법에 의한 분석결과 : 계층적 군집분석에서 3 개의 군집이 적절하 다고 판단했으므로 군집의 수를 3 개로 지정 ) 초기군집중심 군집 123 사교성 234057 직무성적 578876 소속군집 케이스 수군집거리 115.701 2210.707 334.014 424.565 523.441 621.020 738.353 838.413 915.701 10210.507 최종군집중심 군집 123 사교성 284254 직무성적 618479 cluster seed 번호 각 군집의 케이스 수 군집 12.000 25.000 33.000 유효 10.000 결측.000
Similar presentations