독립성금증(χ2)-교차표 분석 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계를 조사하는 통계기법으로 χ2독립성 검증(chi-square independence test)이 있다. 예를 들어, 특정 속성에 대하여 집단별로 어떤 차이가 있는지를 알아보기 위해서 사용하는 분석방법임. 세탁기 담당 마케팅관리자는 가족규모에 따라 구매하는 세탁기의 크기가 다른지를 알기 위하여 마케팅조사자와의 협의에 의해 주부들을 대상으로 다음과 같은 질문을 하였다. 귀하의 가족은 모두 몇 명입니까 ? (명목척도) 귀하 가정의 세탁기는 다음 중 어디에 해당합니까 ? 1 ~ 2명 3 ~ 4명 5명 이상 소형 중형 대형 표 8.1 가족규모와 세탁기 크기에 대한 교차표 세탁기의 크기 가족규모 1 ~ 2명 3 ~ 4명 5명 이상 합계 소형 25 37 8 70 중형 10 62 53 125 대형 5 41 59 105 40 140 120 300 기대빈도 : 40 ×70/300
이 자료에 의해 가족규모에 따라 구매하는 세탁기의 크기가 다르다고 할 수 있는가 ? α = .05. 마케팅담당자의 관심문제 “가족규모에 따라 구매하는 세탁기의 크기가 다른가 ?” → “가족규모와 구매하는 세탁기의 크기는 서로 독립적인가 아닌가 ?” ; 가족규모와 세탁기의 크기가 독립적이지 않을 때 가족규모에 따라 세탁기의 크기는 다르게 나타난다. 그러므로 “가족규모에 따라 세탁기의 크기가 다를 것이다.” 또는 “식구가 많으면 보다 큰 세탁기를 살 것이다.”가 연구가설(대립가설)이 되고, “가족규모와 세탁기의 크기는 무관하다.”라는 진술이 귀무가설로 설정된다. 연구가설 : 가족규모와 세탁기 크기는 독립적이지 않다(가족규모에 따라 세탁기 크기는 다르다). Ho : 가족규모와 세탁식 크기는 독립적이다(가족규모와 세탁기 크기는 무관하다). H1 : 가족규모와 세탁기 크기는 독립이지 않다(가족규모에 따라 세탁기 크기는 다르다).
SPSS 10.0을 이용한 독립성검증 메뉴 바에서 『분석(A) → 기술통계량(E) → 교차분석(C)』을 선택하면…
점근적 검정(A) : 유의수준은 검증통계량의 점근적 분포를 토대로 계산되는데, 일반적을 0
카이제곱(H) : Pearson 카이제곱, 우도비 카이제곱, 선형 대 선형결합 카이제곱 등이 표시됨. 분할계수(O) : 분석결과가 유의적으로 나타나(예를 들어, p < .05) 두 변수가 독립적이지 않다(즉, 관계가 있다)라고 결론을 내리는 경우, 두 변수의 관계의 크기를 나타낸다. 분할계수는 0이상 1미만이다. 분할계수가 클수록 두 변수의 관계는 크다고 할 수 있음. [빈도] 관측빈도(O) : 각 셀에 있는 케이스의 실제 수. 기대빈도(E) : 행 변수와 열 변수가 서로 독립적인 경우 각 셀에 기대되는 케이스 수.
[퍼센트] 행(R) : 교차표의 한 행에 있는 모든 케이스들 중에서 특정 셀이 차지하는 케이스들에 해당하는 퍼센트를 나타내줌. 열(C) : 교차표의 한 열에 있는 모든 케이스들 중에서 특정 셀이 차지하는 케이스들에 해당하는 퍼센트를 나타내줌. 전체(T) : 모든 케이스들 중에서 특정 행과 열이 차지하는 케이스들에 해당하는 퍼센트를 나타내줌. [행순서] 오름차순(A) : 행 변수값들이 낮은 값의 순으로 제시되도록 순서를 정해줌(기본설정). 내림차순(D) : 행 변수값들이 높은 값에서 낮은 값은 순으로 제시되도록 순서를 정해 줌.
χ2독립성검증에 이용된 케이스가 모두 300이며 결측치가 없음을 보여줌. 가족규모와 세탁기 크기 교차셀들의 관측빈도와 기대빈도가 나타나 있음. Pearson 카이제곱값은 58.208, 그리고 p-value = .000으로 H0(가족규모와 세탁기 크기는 독립적이다)는 α = .05, α = .01, 나아가 α= .001에서도 기각된다. 가족규모에 따라 세탁기는 다르다”라는 연구가설은 지지된다. 분할계수는 .403으로 두 변수의 관계가 크지도 않고 작지도 않은 중간정도라고 할 수 있음.
적합도검증(χ2) 적합도검증의 개요 : 빈도자료에 의해 통계적 검증을 하는 다른 방법으로 χ2 적합도 검증이 있다. χ2 적합도 검증(chi-square goodness of fit test)은 어떤 조건에서 기대되는 빈도에 관측빈도가 얼마나 적합한가를 조사하는 사용하는 방법임. 한 자동차제품 회사의 신제품개발 담당자는 현재 신제품 승용차의 색깔대안 다섯 가지를 고려하고 있으며 소비자들이 이 증 일부 색깔을 더 선호하는지 여부를 알고자 한다. 300명의 소비자들에게 다섯 가지 색깔 대안 A, B, C, D, E의 승용차를 보여주고 가장 선호하는 것을 질문하였다. 이러한 자료로부터 소비자들의 색깔에 대한 선호는 다르다고 할 수 있는가 ? α = .01. 연구가설 : 색깔의 선호도에는 차이가 있을 것이다. H0 : 색깔의 선호도에는 차이가 없다. H1 : 색깔의 선호도에는 차이가 있다. 표 8.6 특정색깔을 선호하는 소비자의 수 자동차 색깔 A B C D E 합계 88 65 52 40 55 300
메뉴 바에서 『분석(A) →비모수 검정(N) → 카이제곱(C)』을 클릭하면…
[기대범위] 데이터로부터 얻기(D) : 나타난 각 개별값은 범주로 정의됨(기본설정). 지정한 범위 사용(S) : 특정한 범위내의 검증변수값을 갖는 케이스들에 대해서만 분석하도록 검증변수값의 하한(L)과 상한(U)을 지정할 수 있다. 검증변수에 대해서 범위 밖의 값을 갖는 케이스는 분석에서 제외됨. [기대값] 모든 범주가 동일(I) : 모든 범주들이 동일한 기대값을 가지는 것으로 가정됨(기본설정).
모든 범주들이 동일한 기대값을 가지는 것으로 가정(기본설정)
다섯 가지 자동차 색깔에 대한 관측빈도와 기대빈도가 제시되어 있음. 검증통계량의 카이제곱은 21.633, 그리고 p-value = .000이므로 H0(색깔의 선호도에는 차이가 없다)은 α = .01에서 기각되며, 나아가 α= .001에서도 기각된다. “색깔의 선호도에는 차이가 있을 것이다”라는 연구가설은 지지된다.