판별분석의 개념과 적용(→ 추계통계적 성격) 제 16 장 판별분석 판별분석의 개념과 적용(→ 추계통계적 성격) 회귀분석 : 독립변수와 종속변수가 모두 간격척도, 비율척도로 측정된 경우 변수들간의 관계에 관한 분석(예외적으로 더미변수가 독립변수로 사용되면 이는 명목척도). 판별분석(discriminant analysis) : 독립변수는 간격척도 또는 비율척도로 측정되었으나 종속변수는 명목척도(또는 범주척도, 분류척도)로 측정된 경우 독립변수와 종속변수의 관계를 조사하는 분석방법으로 마케팅에 매우 유용하게 이용될 수 있음. 두 집단 판별분석 : 종속변수의 범주가 두 개인 경우의 판별분석. 다중판별분석 : 종속변수의 범주가 세 개 이상인 경우의 판별분석. 기본적으로 집단내 분산에 비해 집단간 분산의 차이를 최대화하는 독립변수들의 계수를 찾아야 하며, 이때 독립변수들의 선형결합을 판별함수(혹은 판별식)라고 한다. Z = 판별점수 Wi = 변수 i에 대한 판별계수(discriminant coefficient) Xi = 독립변수 i
정수기 제조회사가 신제품 정수기를 개발하여 10명의 주부들에게 한동안 제품을 시험사용하게 한 후 세 가지 속성을 10점 척도로 평가하도록 하고 구매의도를 질문(10점 척도로 평가). 신제품 정수기에 대한 평가와 구매의사 구매의도 소비자 번호 속성 내구성(X1) 성능(X2) 스타일(X3) 그룹 1 1 8 9 6 구매하겠음 2 7 5 3 10 4 그룹평균 7.4 6.8 4.0 그룹 2 구매하지 않겠음 3.2 4.4 3.8 그룹평균간 차이 4.2 2.4 0.2 두 그룹간의 차이가 내구 성에서는 매우 높게 나타났으며, 그 다음 성능, 그리고 스타일 에서는 매우 낮게 나타남.
판별분석 결과에 의해 어떤 변수(들)가 어느 방향(正/負)으로 얼마만큼 판별점수에 영향을 미치는지 알 수 있음(회귀분석의 개별 회귀계수의 역할과 유사). 새로운 대상의 독립변수의 값에 대한 정보가 있을 때 판별점수를 계산함으로써 그 대상이 어느 범주에 속할 것인지를 예측(회귀분석에서 회귀식을 이용하여 독립변수의 값들로부터 종속변수 값을 예측하는 것과 유사). → 스타일이 높다고 해서 구매할 것 같지 않으며, 내구성을 높게 평가하는 그룹이 구매할 가능성이 높으며, 영향력은 내구성 > 성능 > 스타일이다. 판별분석을 위한 가정 독립변수들이 다변량 정규분포(multivariate normality)를 이루며, 종속변수에 의해 범주화되는 그룹들의 분산-공분산행렬(variance-covariance matrices)이 동일해야 한다. 다중정규성 가정을 충족시키지 못하는 자료를 판별분석을 하는 경우 : 판별함수의 추정에 문제를 야기시키며, 이 경우 logistic regression이 사용될 수 있다. 분산-공분산 행력이 동일하다는 가정이 충족되지 못하는 경우 : 보다 큰 분산-공분산 행렬을 갖는 그룹에 많은 관측치가 분류되는 문제점 발생. 다중정규성 가정을 엄격하게 요구하지 않음.
판별함수의 수와 판별분석을 위한 표본의 크기 판별식의 추정과 적합도 평가 “종속변수 집단 수 – 1”과 “독립변수의 수” 중에서 작은 값만큼의 판별함수가 만들어짐. 판별분석을 위해서는 관측치의 개수(표본의 크기)가 독립변수 수의 20배 이상이 되는 것이 요구되며, 종속변수의 각 범주에 최소한 20개가 요구하며, 표본의 크기가 이를 충족시키지 못하면 분석결과는 불안정(unstable : 판별식을 구성하는 각 독립변수와 전체 판별식의 설명력과 예측력을 신뢰할 수 없다는 의미)해 짐. 판별식의 추정과 적합도 평가 동시입력방식(simultaneous estimation) : 모든 독립변수들에 대한 계수 동시에 계산. 단계입력방식(stepwise estimation) : 판별력이 높은 순서로 입력되어 추정이 이루어짐. 판별함수 계산 판별함수의 판별력(discriminatory power)의 통계적 유의성 점검 판별함수의 전반적 적합도(overall fit) 점검 : Wilks’ lamda가 주로 사용되며, χ2검증을 실시. : 회귀분석의 R2에 해당하는 값은 판별분석에서 hit ratio(정확히 분류된 대상의 수를 전체 대상의 수로 나눈 값으로 0과 1 사이의 값). 다중회귀분석에서 F-검증에 의해 회귀식이 유의적인 것으로 판명되었다 하더라도 R2가 높을수록 그 회귀식의 설명력이 높은 것으로 받아들이는 것과 유사하며, 판별함수의 판별력은 유의적으로 나타나더라도 두 집단의 경우 hit ratio가 예를 들어 53% 밖에 되지 않으며 판별력이 좋다고 할 수 없다. 이는 두 집단의 크기가 같은 경우 임의적 분류를 하더라도 hit ratio는 50%이기 때문이다.
판별분석의 예(두 집단 판별분석 ; 동시입력방식에 의한 판별분석한 결과) ( 판별분석 방법 ) 판별분석방법 동시입력방식 단계입력방식 판별분석의 예(두 집단 판별분석 ; 동시입력방식에 의한 판별분석한 결과) 판별분석을 위한 변수와 정의 변수 정의 독립변수 : 사교성 평점 경력 직무성적 100점 척도 대학성적(4.0 만점) 경력연수 100점 만점 종속변수 : 판매실적집단 범주 두 집단 집단 1 = 실적 하위집단(27명) 집단 2 = 실적 상위집단(43명)
집단통계량 집단통계량 집단 평균 표준편차 유효수(목록별) 가중되지 않음 가중됨 1 사교성 44.2963 9.8793 27 27.000 평점 2.9517 .6483 경력 5.5556 1.7831 직무성적 68.2593 9.0293 2 51.8372 12.1576 43 43.000 3.1318 .5576 6.4419 1.6374 79.8605 9.9704 합계 48.9286 11.8497 70 70.000 3.0623 .5962 6.1000 1.7375 75.3857 11.1151 네 개 변수 모두 에서 집단 2는 집단 1보다 높게 나타남. 비율척도 간격척도
차이검증(ANOVA) 결과 두 집단간에 사교성, 경력, 직무성적의 차이는 유의적이나 평점의 차이는 비유의적으로 나타남. 집단평균의 동질성에 대한 검정 Wilks 람다 F 자유도 1 자유도 2 유의확률 사교성 .903 7.333 1 68 .009 평점 .978 1.525 .221 경력 .937 4.537 .037 직무성적 .738 24.123 .000 두 집단을 구별하는데 직무성적이 가장 유용한 변수일 것으로 추정할 수 있다. 차이검증(ANOVA) 결과 두 집단간에 사교성, 경력, 직무성적의 차이는 유의적이나 평점의 차이는 비유의적으로 나타남. Wilks’ lamda : 집단내 분산/(집단내 분산 + 집단간 분산)의 비율로서 집단간 분산이 집단내 분산에 비해 클수록 0에 가까워지며, 반대의 경우 1에 가까워지고 분산분석의 F값과는 반대방향을 갖는다.
공분산 행렬과 Box’s M-검증 공분산 행렬(a) 집단 사교성 평점 경력 직무성적 1 97.601 2.221 -1.479 19.036 .420 .384 .584 -1.497 3.179 -3.496 81.430 2 147.806 1.822 3.978 7.905 .311 .312 3.000 2.681 6.849 99.409 합계 140.415 2.272 3.471 33.013 .355 .373 2.548 3.019 5.323 123.545 a 전체 공분산행렬은 69의 자유도를 가집니다.
모집단 공분산행렬이 동일하다는 영가설을 검정합니다. a 첫 번째 1 정준 판별함수가 분석에 사용되었습니다. 검정 결과 Box의 M 16.978 F 근사법 1.581 자유도 1 10 자유도 2 14257.016 유의확률 .105 모집단 공분산행렬이 동일하다는 영가설을 검정합니다. 공분산 행렬이 동일성 가정에 위배되지 않음 을 보여줌. 정준상관계수(canonical correlation coefficient) : 제곱하면 (.570)2 = .3249로, 이는 종속변수 분산의 32.49%가 네 개의 독립변수들에 의해 설명됨을 의미. 정준판별함수(Canonical Discriminant Function) 고유값 함수 분산의 % 누적 % 정준 상관 1 .481(a) 100.0 .570 a 첫 번째 1 정준 판별함수가 분석에 사용되었습니다. Wilks의 람다 함수의 검정 카이제곱 자유도 유의확률 1 .675 25.906 4 .000 유의적 : 판별함수가 유용함을 나타냄. 독립변수들에 걸쳐 두 집단간에 차이가 있는지를 검증하는 것으로 검증결과 유의적으로 나타나 네 개의 독립변수들에 걸쳐 두 집단간에 유의적인 차이가 있는 것으로 나타남.
표준화된 정준판별함수계수와 구조행렬 표준화된 정준판별함수 계수 함수 1 사교성 .444 평점 -.329 경력 .284 직무성적 .879 표준화된 정준판별함수 계수(standardized canonical discriminant function coefficient) : 표준화된 계수로서 각 변수가 판매원들의 소속집단을 설명하는데 있어서 상대적 중요도를 나타냄(직무성적이 가장 중요 ← 판별력이 가장 큼) → 회귀분석의 표준화된 회귀계수에 비유될 수 있으며, 판별함수식의 Wi값을 표준화 한 것. 판별적재값 : ± .3 이상이면 유의적인 것으로 본다. 구조행렬(판별력) 함수 1 직무성적 .859 사교성 .474 경력 .373 평점 .216 판별변수와 표준화 정준 판별함수 간의 집단-내 통합 상관행렬. 변수는 함수내 상관행렬의 절대값 크기 순으로 정렬되어 있습니다. 구조행렬(structure matrix) : 각 변수와 표준화된 정준판별함수간의 상관관계를 나타내며, 상관관계 값은 판별적재값(discriminant loading)이라고 하며, 요인분석의 요인적재값에 비유될 수 있음. 직무성적과 판별함수간의 상관관계가 가장 높게 나타남. 판별력 : 전통적으로 표준화된 판별계수를 이용하였으나, 다중회귀분석의 경우와 유사하게 각 변수의 판별력이 “다중공선성(multicollinearity)”때문에 낮게 나타날 수 있어 판별력의 크기는 구조행렬로 판단(직무성적 >사교성 > 평점 > 경력).
정준판별함수계수와 중심값(centroid) 정준판별함수 계수 함수 1 사교성 .039 평점 -.554 경력 .168 직무성적 .091 (상수) -8.128 표준화하지 않은 계수 표준화되지 않은 정준판별함수계수(unstandardized discriminant function coefficient) : 회귀분석의 회귀계수에 비유될 수 있으며, 판별함수식의 Wi값이며, 판별점수(Z)를 계산하는데 사용. 판매원 1의 판별점수 = .039×23 - .544×2.28 + .168×3 + .091×57 - 8.128 = - 2.803 함수의 집단중심점 함수 판매실적집단의 범주 1 집단 1 -.862 집단 2 .541 표준화하지 않은 정준 판별함수가 집단 평균에 대해 계산되었습니다. 판매원 1은 원래 집단 1에 분류 → 각 집단에 속한 판매원들의 판별점수를 구하고 이 값들의 평균 : 각 집단의 중심값(centroid). 좌측의 표는 각 집단의 중심값을 나타내고, 이 표를 통해서 두 집단 구성원들의 전체평균이 0 임을 알 수 있다.
집단 1 집단 2 - 1 + 1 .541 -.862 집단 1은 집단 2보다 평균값 0으로부터 더 멀리 떨어져 있다. 그러므로 -.862×27 + .541×43 = 0으로 전체평균이 0 임을 알 수 있다. id 1의 각 값을 집어 넣었을 때 값을 통해 집단 1로 제대로 분류되었는지를 확인할 수 있다. 분류함수계수 분류함수(classification function) 또는 Fisher’s 선형판별함수(linear discriminant function) : 각 집단별로 생성되며(집단의 수만큼 생성), 새로운 분류대상이 있을 때 그 분류대상의 독립변수 값들을 분류함수에 삽입하여 계산한 결과 큰 값으로 나타나는 집단에 분류된다. 새로운 판매사원의 네 가지 독립변수 값들이 다음과 같은 경우 : 사교성 : 40, 평점 : 3.00, 경력 : 7, 직무성적 : 80 집단 1 : .233×40 + 2.581×3.00 + .848×7 + .623×80 – 33.277 = 39.562 집단 2 : .288×40 + 1.803×3.00 + 1.084×7 + .751×80 – 44.462 = 40.135 판매실적집단의 범주 집단 1 집단 2 사교성 .233 .288 평점 2.582 1.803 경력 .848 1.084 직무성적 .623 .751 (상수) -33.277 -44.462 Fisher의 선형 판별함수
위 식을 통해 집단 2의 값이 더 크므로 이 판매원은 집단 2로 분류된다. 분류함수와 정준판별함수의 구별 분류함수 : 집단의 수만큼 도출되며, 기존 분석의 대상이 된 판매원이나 새로운 판매원이 어느 집단에 분류될 것인지를 예측하는데 사용. 정준판별함수 : “집단의 수 – 1”과 “독립변수의 수” 중에서 작은 수만큼 도출되며, 기존 분석의 대상이 된 판매원들이 소속된 각 집단의 중심값(cetroid)을 계산하는데 사용. 분류결과 원래 집단 1의 27명 중 20명이, 집단 2의 43명 중 32명이 정확하게 분류. 회귀분석의 R2와 유사 : 설명, 즉 제대로 판별되었는지를 나타낸다. 분류결과(a) 예측 소속집단 전체 집단 1 2 원래값 빈도 20 7 27 11 32 43 % 74.1 25.9 100.0 25.6 74.4 a 원래의 집단 케이스 중 74.3%이(가) 올바로 분류되었습니다. 조사대상 판매원들의 실제소속집단과 분류함수에 의한 예측소속집단의 교차표로서 분류함수가 표본판매원들의 분류를 얼마나 잘 예측하는가를 나타낸다. 전체적으로 70명 중 52명이 정확하게 분류되어 hit ratio는 74.3%이다.
판별분석 결과 해석 시 중점사항 요약 공분산행렬과 Box’s M 검증 : 분류집단들의 공분산행렬의 동일성 가정을 검증하는 것으로 p-value > .05이면 가정을 충족. 정준판별함수 : Wilks’ lamda 값의 χ2-검증결과 p-value < .05이면 집단간에 유의적이 차이가 있다. 표준화된 정준판별함수 계수와 구조행렬 : 독립변수의 판별력을 보여주는데 구조행렬상에 있는 계수(판별적재값)가 많이 사용되며, 계수값이 클수록 판별력이 크다. 정준판별함수 계수와 중심값(cetroid) : 정준판별함수 계수는 회귀분석의 회귀계수에 비유될 수 있으며, 각 집단의 중심값을 계산하는 데 사용됨. 분류함수 계수 : 새로운 분류대상을 어느 집단으로 분류할 것인가를 결정하는 데 사용되며, hit ratio계산을 위하여 원자료 구성원의 독립변수 값들로부터 소속될 집단을 예측하는데 사용됨. Hit Ratio : 판별함수가 조사대상을 얼마나 잘 분류할 수 있는가를 나타내는데, 회귀분석의 R2에 비유될 수 있다.