2007 겨울 통계강좌 중급과정 제12강 판별함수 분석의 이해 및 실전
판별함수 분석의 이해 1 판별함수분석은 연속형 자료로 구성된 독립변인의 선형조합을 이용, 모든 개인을 집단변인인 종속변인으로 분류하고 예측할 목적으로 사용되는 통계기법. 이때 집단의 분류오류를 최소화하기 위해 선형조합을 통한 판별함수를 도출. 판별함수에서 각 집단의 평균을 센트로이드라고 하는데, 센트로이드는 집단이 두 개면 두 개, 세 개면 세 개의 센트로이드가 구해진다. 이에 따라 원리적으로 본다면 판별함수분석은 각 집단에서 얻어진 센트로이드에 차이가 있는지를 검증하는 것이 되며, 여기서 나타나는 센트로이드의 차이는 결국 판별계수에 의해 결정 또는 판별된다. 판별점수는 베타 가중치에 의해 집단간 차이를 극대화시키고 집단 내 변량을 최소화시키기는 규칙에 의해 구해지기 때문에, 만일 집단 내 변량에 비해 집단간 변량이 상대적으로 크다면 판별함수가 잘 판별해 준다고 말할 수 있다. 또한 판별함수분석은 변량분석과 유사점이 많다. 즉, 중다변량분석과는 수학적으로 동일한 모델에서 출발한다. 이처럼 판별함수 분석은 원리에 있어서 수학적으로는 마노바(MANOVA)와 같지만 판별함수의 예측력을 평가하고 개별 독립변인의 효과를 검증하고자 하는 목적 부분에 있어서는 회귀분석과 같다. 따라서 독립변인이 판별함수식에 투입되는 과정 역시 회귀분석과 같이 세 가지 방법에 의존하는데 중다회귀분석과 같이 표준 판별함수분석, 위계적 판별함수분석, 단계적 판별함수분석으로 구분 할 수 있다.
판별함수 분석의 사용목적 1 판별함수분석은 집단구성원을 예측하는 판별함수를 찾고 예측력을 평가하며, 집단구성원을 분류하는 데 가장 기여하는 예측변인이 무엇인지를 밝히려는 목적을 가지고 있다. 사실 이론적인 근거를 가진 변인을 예측요인으로 선택하는 것이 가장 바람직하다. 그러나 마케터나 사회조사에서 현실적으로 보다 실용적 목적을 가진다면 기타의 다른 분석에 비해 융통성 있게 변인을 선정하는 것이 판별분석에서는 가능하다. 특히 판별함수분석에서의 집단은 무선적으로 할당된 집단이 아니기 때문에 보다 실용적 목적으로 사용이 가능하다. 1) 예측의 유의성 검증 여러 예측요인의 선형조합을 통해 판별 함수식을 만들었을 때, 예측요인들이 얼마나 종속변인을 신뢰감 있게 예측하는가를 검증할 수 있다. 이는 산출된 판별함수가 얼마나 통계적으로 유의미한가를 검증하는 것으로, 예측요인들이 집단을 구분하는 좋은 판단력을 갖고 있을 때 판별함수에 대해 여러 값들(정준상관계수, Wilks' Lamda, 아이겐값)이 유의미하게 나타낸다.
판별함수 분석의 사용목적 2 2) 유의미한 판별함수의 수를 결정한다. 판별함수분석을 통해 분류하고자 하는 집단이 몇 개의 차원에 의해 예측되는지를 알 수 있는데, 보통 판별함수의 수는 집단 수-1 혹은 예측변인의 수와 같게 나온다. 예를 들어 세 집단(정상/학습장애/정서장애)을 구분하기 위해 여러 예측변인을 사용했다면, 첫 번째 판별함수가 정상집단과 나머지 집단을 그리고 두 번째 판별함수가 학습장애와 정서장애 집단을 구분하는 역할을 한다. 3) 산출된 판별함수의 의미를 해석한다. 정준판별계수에 의해 각 집단이 분류되었을 때, 첫 번째 판별함수가 대출기업을 비대출기업 및 보류기업으로부터 분류해 주고 두 번째 판별함수가 비대출기업을 보류기업으로 구분해 준다면 첫 번째 판별함수가 기업의 신용도와 자산평가라는 예측변인과 상관이 높고 두 번째 판별함수는 상대적으로 거래실적이라는 예측변인 과 상관이 높다면, 요인분석에서 요인의 명칭을 부여한 과정과 동일하게 첫 번째 판별함수 축은 ‘기업의 신뢰도’ 두 번째 판별함수는 ‘은행거래 실적’이라고 명명하여 해석할 수 있다.
판별함수 분석의 사용목적 3 4) 예측변인 간의 상대적 중요도를 평가한다 중다회귀분석이 표준화된 회귀계수의 크기의 비교를 통해서 독립변인간의 상대적 중요도를 평가한다면 판별함수분석에서는 ① 변인의 상대적 크기를 결정하는 방법(즉 첫 번째 함수가 기업의 신용도가 자산평가라는 변인과 상관이 높을 때, 대출 기업의 예측에 있어 기업의 신용도가 중요하다고 해석한다)과 ② 각 집단에 대해 어떠한 변인이 중요한지에 대한 정보를 주지는 않지만 보다 직관적으로 각 변인이 제거된 후의 F값을 비교함으로서 예측변인들의 상대적 중요도를 비교할 수 있다(다른 변인에 비해 A라는 변인이 제거된 후에도 F값이 크다면 그 변인은 다른 변인에 비해 중요한 변인이 아닌 것으로 판단이 가능하다.) 5) 연합의 강도를 파악할 수 있다. 판별함수분석을 통해 분류집단(종속변인)과 예측(독립)변인간의 설명변량을 파악 할 수 있는데, 즉 각 판별함수에서 집단변량과 예측요인 변량의 공유 정도는 그 판별함수의 설명력으로 정준상관계수를 통해 해석되며, 그 값을 제곱하였을 때 설명변량의 비율이 된다.
판별함수 분석의 사용목적 4 6) 분류의 적절성을 평가한다. 판별함수의 강점 중의 하나는 분류함수에 기초하여 개개인을 각 집단에 얼마나 정확하게 분류하였는지를 알 수 있으며, 잘못 분류한 사례가 있다면 어느 집단을 잘못 분류하였는지 알려주는 것이다. 이처럼 분류의 적절성은 연구의 관심이 개인 혹은 개별 대상에 초점을 두고 있는 연구문제일 때 효과적이며, 판별분석을 통해 개발된 모델이 타당할 때, 이를 새로운 표본의 개별 사례를 예측하기 위한 판별모델로도 활용할 수 있다. 7) 공변인을 포함한 예측의 유의성을 밝힌다. 판별함수분석에서도 중다회귀분석에서 처럼 어떤 변인을 통제한 상태에서 나머지 예측변인의 효과를 검증할 수 있으며 개념과 사용절차는 중다회귀분석과 동일하다. 그리고 예측요인들이 집단을 잘 판별한다면, 예측요인에 대해 각 집단의 평균이 얼마인가를 비교하는 것으로, 각각의 예측요인이 집단간 차이에 얼마나 기여하는지 역시 검증할 수 있다.
판별함수 분석의 기본가정 1 판별함수 분석에서는 예측요인과 집단구성의 인과관계를 설명하지 않지만, 특수한 목적에 의해 연구자가 집단을 무선적으로 할당하여 실험할 수 있다면, 집단분류의 원인을 인과성에 의해 설명하고 결과를 일반화 시킬 수도 있다. 1) 가장 작은 집단의 사례수는 최소한 예측변인의 수를 초과해야 한다. ① 집단간에 동등한 표본 크기를 가정할 필요는 없지만, 다만 가장 작은 집단의 사례수가 예측변인의 수보다 많아야 한다. ② 누락된 응답이 있는 경우에는 해당사례는 분석에서 제외되어야 한다. 2) 다변량 정상성을 따라야 한다. 다변량 정상성은 예측변인에서의 점수들이 모집단으로부터 독립적이고 무선적 으로 추출되어야 하고, 모든 예측변인들의 선형조합의 표본분포가 정상성을 이루어야 한다는 것을 말하는데, 예측요인의 선형조합에 의한 정상성을 검증할 방법이 개발되지 않았다. 하지만, 가장 작인 집단의 사례수가 20이 넘으면 정상성 이 크게 문제시 되지 않는다.
판별함수 분석의 기본가정 2 3) 변량-공변량 행렬의 동질성을 확보해야 한다. 변량-공변량 행렬이 동질적이어야 한다는 것은 각 집단의 변량-공변량 행렬이 동일한 모집단의 변량-공변량 행렬로부터 추출되었기 때문에 합리적으로 단일한 오차추정치를 만들 수 있다는 것을 가정하는 것이다. 즉 집단내의 오차행렬이 이질 적이라면, 오차변량의 추정치를 잘못 산출하기 때문에 유의검증 결과를 신뢰할 수 없다는 것이다. 표본의 크기가 동일하거나 충분히 크다면 그리 문제가 되지 않지만, 표본의 크기가 다르거나 작다면 변량-공변량 행렬의 동질성을 확보하기 위해 몇 가지의 진단과 조치가 필요한데 그것은 다음 페이지의 내용과 같다.
판별함수 분석의 기본가정 3 ① 만일 표본의 크기가 크고 변량 및 공변량이 크다면 유의수준을 더 엄격하게 변량-공변량 행렬의 동질성을 파악하기 위한 진단과 조치 ① 만일 표본의 크기가 크고 변량 및 공변량이 크다면 유의수준을 더 엄격하게 설정하여야 하고, 표본의 크기가 작고 변량 및 공변량이 크다면 유의수준을 다소 높게 설정하여 조정할 수 있다. ② Wilks의 람다값 보다 집단내 분산에 덜 영향을 받는 Pillai의 준거 값을 사용한다. ③ 집단의 사례 수를 동일하게 맞춘다. 집단의 사례 수를 적은 집단의 사례와 동일 하게 맞춘다. 단 이 경우에 통계적 검증력이 현저히 떨어진다면 가장 적은 집단 의 사례수가 부족하여 이 방법은 사용하기 곤란하다. ④ Box's M 통계치를 검토한다. 그 값이 p<0.5이면 집단의 공변량이 이질적이라는 의미가 되고, p>.05이면 동질적이라는 해석이 된다. ⑤ 산포도를 확인한다. 산포도는 최초로 산출되는 두 개의 판별함수를 좌표로 각 집단의 변산을 나타내 준다. 각 집단의 산포도가 대략적으로 유사한 형태를 취하고 있으면 집단 내 분산이 같다. 한편 판별분석의 분류 옵션을 통해서 이질적인 변량-공변량 행렬인 경우에도 분류를 가능하게 할 수 있는데 이 경우에는 표본이 충분히 크지 않은 상태에서는 분석하면 무리수가 발생한다.
판별함수 분석의 기본가정 4 4) 예측요인의 모든 쌍이 선형적 관계에 있는지를 검증하라. 판별함수분석은 각 집단 내에서 예측변인간의 선형적 관계를 검증하는데, 선형성을 가정하지 못할 때는 독립변인의 선형조합이 가능한 최대가 되도록 집단을 분류하지 못하므로 통계적 검증력이 약화된다. 따라서 SPSS의 산포도나 PLOT의 절차를 통해 모든 조합 가능한 변인들의 분포를 살펴볼 필요가 있다. 일반적으로 이 가정은 변량-공변량의 이질성이 가져오는 1종 오류에 의한 검증력의 약화보다는 덜 심각하기 때문에 지나치게 선형성을 위배하지 않는다면 해석에 큰 영향을 주지는 않는다. 5) 지나친 다중공선성이 없어야 한다. 다중공선성이란 예측변인간의 상관이 높은 경우(.90이상)를 말하는데, 이렇게 다중공선성이 높을 때는 개별 예측변인의 효과를 설명하는 것이 부적절해지기 때문에 요인분석을 통하여 하나의 변수로 묶어주거나 제거해야 한다. 이러한 다중 공성성이 높은 변인을 찾는 방법으로는 각 예측변인에 대해 한 변인은 종속변인으로 나머지 변인은 독립변인으로 놓고 중다회귀분석을 반복하여 어떤 변인을 제외할 것인지를 통계적으로 결정할 수 있다.
판별함수 분석의 유형과 해석 1 1> 직접적 판별분석과 해석 모든 예측변인이 한꺼번에 판별식에 투입되고 그에 따라 예측변인들의 공통변량 은 전체변량에는 기여하지만 개별예측변인의 효과에서는 제외된다. MANOVA에 서 주효과에 대한 전반적인 검증과 동일하지만, MANOVA는 판별함수 분석의 예측변인의 선형조합을 종속변인으로 하고 종속변인인 ‘집단’을 독립변인으로 분석한다는 점이 다르며, 또한 MANOVA에서는 전반적 검증이 유의미할 때 주효 과가 여러 종속변인에서 어떻게 다른가를 평가하지만, 판별함수분석에서는 판별 함수의 수를 결정하고 평가하며 집단구성원에 대한 분류의 정확성을 검증한다. 이때 좋은 판별함수란 판별계수의 추정을 통해 집단내 변량에 비해 집단간 변량이 최대화된 것을 말한다.
판별함수 분석의 유형과 해석 2 2) 위계적 판별분석과 해석 직접적 판별분석은 함수에 대한 예측변인간의 공통변량이 개별 요인의 기여도를 설명하는 변량에 포함되지 않기 때문에 예측변인의 상대적 기여도를 정확히 평가 하지 못한다. 따라서 개별 예측변인의 효과를 명확히 설명하기 위해서는 위계적 판별함수분석을 사용하여야 한다. 특히 위계적 판별함수분석은 연구자의 의도에 따라 예측변인을 판별식에 순차적으로 투입하기 때문에, 새로운 예측변인이 이미 구성된 판별식에 추가되었을 때 함수의 예측력을 평가하거나 공변인을 포함한 분석이 가능하다. 위계적판변분석은 회귀분석과 동일한 것처럼 보이지만 몇 가지 점에서는 다른데 그 차이점은. 첫째, 판별함수식에 투입되거나 제거되는 통계적 준거를 만족하지 못하는 예측 변인은 다음 단계로 진행될 때 분석에서 제외된다. 둘째, 위계적 판별함수분석에서는 동일한 우선순위를 준 예측변인이 동일 분석 단계에서 비교되지 않고 각각 다른 단계에서 분석된다는 점이 회귀분석 보다 덜 강력한 면이다. 즉 위계적 판별분석에서는 같은 단계에서 분석되지 않으므로 우선순위를 정하기 위한 목적으로 사용할 수 없다.
판별함수 분석의 유형과 해석 3 또한 교재의 사례처럼 위계적판별분석은 각 단계별로 투입된 변인들의 변량비율을 파악함으로써 상대적 중요도를 보다 명확하게 해석할 수 있다. 그래서 각 개별 예측변인이 이직자와 잔류자를 정확하게 분류한 비율을 추정할 수 도 있다. 그러나 더욱 중요한 점은 연령이 가장 먼저 투입되어서는 안되며, 이는 ‘변인의 투입 순서를 정할 수 없을때, 위계적 판별분석이 해석의 오류를 가져올 위험성이 있다는 것’을 암시한다. 하지만 위계적 판별분석은 연구자나 실무자가 목적하는 연구문제에 맞추어 적절히 사용한다면 강력한 도구로 사용될 수 있다. 3) 단계적 판별분석과 해석 앞서 위계적 판별분석은 연구자에 의해 변인의 투입순서가 결정되지만 단계적 판별분석은 전적으로 통계적 준거에 의존하여 컴퓨터가 결정한다는 것이 다를 뿐 공통적인 원리와 해석절차를 가지고 있다. 단계적 판별분석은 탐색적으로 변인의 우선순위를 결정하거나 집단을 분류하는 판별모델을 가설적으로 만들고자 할 때 유용하게 사용된다. 하지만 변인간에 상관이 높을 때 사소한 차이에 의해 변인의 투입 순서가 결정될 수 있고, 나중에 투입되는 변인이 먼저 투입된 변인과 높은 상관을 가질 때 중요한 변인임에도 불구하고 통계적으로 유의미하지 않은 결과를 낳을 수도 있다.
판별함수 분석의 실제 1 ▣ 독립변인: 가격(PRICE), 제품이미지(IMAGE), 서비스(SERV), 기능성(OPERAT), 편의성(CONV) ▣ 종속변인: 지역[ 강북(1), 강남(2), 기타(3) ] (조건) 7점 척도로 측정: 1.전혀 중요하지 않다에서 7.매우 중요하다까지 지역(Z)= B0+B1(가격)+B2(이미지)+B3(서비스)+B4(기능성)+B5(편의성) *가설이 없음으로 위계적 판별분석은 제외된다.* 2. 기본가정에 대한 평가 2.1 집단의 사례수와 결측치 (1) 가장 낮은 집단의 사례수가 예측변인수인 5를 훨씬 초과함으로 통과 (2) 누락된 응답 제외 (3) 집단 사례수가 다르면 Compute from group size를 선택 2.2 다변량 정상성에 대한 평가 (1) 집단의 사례수가 20을 넘어 정상성을 가정하는데 문제시 되지 않는다.
판별함수 분석의 실제 2 2.3 변량-공변량 행렬의 동질성 평가 (1) BoX's M값을 p>.05면 동질성 통과 (2) 산포도의 모양 비슷하면 변량-공변량 동질성 가정 2.4 선형성 평가 (1) Scatter 절차를 통해 산포도의 선형성 검증 2.5 다중공선성 평가 (1) 집단내 통합상관을 통해 상관관계가 낮으면 다중공선성이 없다는 것이 검증.