SPSS를 활용한 통계분석 김 덕 기 (toby123@cbnu.ac.kr) 충북대학교 정보통계학과 범주형 자료분석 SPSS를 활용한 통계분석 김 덕 기 (toby123@cbnu.ac.kr) 충북대학교 정보통계학과
목 차 범주형 자료분석-빈도분석 다중응답분석 교차분석 카이제곱검정 - 독립성 검정 동일성 검정 목 차 범주형 자료분석-빈도분석 다중응답분석 교차분석 카이제곱검정 - 독립성 검정 동일성 검정 2016년 - SPSS를 활용한 통계특강 -
범주형 자료분석 : 자료구조 독립변수의 수 빈도분석 교차분석(2원 분할표) 범주형 자료 : 측정(또는 반응)척도가 범주집합으로 구성됨. 명목 척도 (범주형 자료) 명목척도는 관심대상의 특성을 범주로 분류하여 각 범주에 숫자를 부여한 척도. (예1) 성별 : 남(1), 여(2) (예2) 주거형태 : 아파트(1), 주택(2), 기타(3) 서열 척도 관심대상의 특성을 범주들간에 자연적순서를 갖게 되는데 이에 숫자를 부여한 척도. (예1) 건강상태 : 양호(1), 보통(2), 나쁨(3) (예2) 낙태 법에 대한 태도 : 반대(1), 부분찬성(2), 찬성(3) 독립변수의 수 하나 빈도분석 둘 교차분석(2원 분할표) 2016년 - SPSS를 활용한 통계특강 -
범주형 자료분석 : 빈도분석 1 빈도분석 : (산업체인턴.sav) 산업체 인턴쉽프로그램에 대한 만족도 및 태도 설문조사의 일부분으로 학년, 성별, 인턴쉽기관(기업군)에 대한 빈도분석을 수행하여라. [1] 학년 ? 1) 1학년 ( ) 2) 2학년 ( ) 3) 3학년 ( ) 4) 4학년 ( ) [2] 성별 ? 1) 남자 ( ) 2) 여자 ( ) [3] 본인의 인턴쉽기관은 어느 기업군에 속합니까 ? 1) 대기업 ( ) 2) 공기업 ( ) 3) 중소기업 ( ) 4) 국가연구소 ( ) 수행절차 1 : [메뉴 분석 기술통계량 빈도분석] 선택 변수 : 분석하고자 하는 변수. 통계량 : 평균, 분산 등을 얻고자 할 때 선택. 도표 : 막대도표, 히스토그램 등 자료의 시각화. 형식 : 빈도표 출력시 형식 선택. 빈도표 출력 : 변수의 각 범주별 빈도와 퍼센트를 얻고자 할 때 선택. 2016년 - SPSS를 활용한 통계특강 -
범주형 자료분석 : 빈도분석 2 수행절차 2 : 통계량, 도표 2016년 - SPSS를 활용한 통계특강 -
다중응답분석 1 다중(복수)응답분석 : (다중응답.sav) 제품구입 이유와 어울리는 장소에 대한 다중(복수)응답분석을 수행하시오. (1) 제품을 구입한 이유로서 알맞은 것에 O표를 해 주십시오. (복수 선택 가능) 1. 가격이 싸다. 2. 품질이 좋다. 3. 디자인이 좋다. 4. 아는 사람의 권유. (2) 제품을 두는 장소로 어울린다고 생각하는 곳에 O표를 해 주십시오. (2개를 선택) 1. 사무실 2. 가정의 서재 3. 연구실 4. 학교의 교실 2016년 - SPSS를 활용한 통계특강 -
다중응답분석 1 : 변수군정의 제품구매이유관련 다중응답에 대한 분석을 수행하기 위한 변수군 정의. [메뉴 분석 다중응답 변수군정의] 변수코딩형식 : (0, 1)로 코딩 되어있으므로 이분형(선택), 빈도화 값(1) 이름 : 새로운 변수군의 이름을 ‘제품구입이유’로 지정한 후 추가버튼을 클릭. 2016년 - SPSS를 활용한 통계특강 -
다중응답분석 1 : 빈도분석 복수응답에 대한 빈도분석을 수행하고 그 의미를 해석하라. [메뉴 분석 다중응답 빈도분석] 14/6*100=233.3% 2016년 - SPSS를 활용한 통계특강 -
다중응답분석 2 : 변수군정의 어울리는 장소관련 다중응답에 대한 분석을 수행하기 위한 변수군 정의. [메뉴 분석 다중응답 변수군정의] 2016년 - SPSS를 활용한 통계특강 -
다중응답분석 2 : 빈도분석 복수응답에 대한 빈도분석을 수행하고 그 의미를 해석하라. [메뉴 분석 다중응답 빈도분석] 12/6*100=200% 2016년 - SPSS를 활용한 통계특강 -
다중응답분석 : 실습 다중응답분석-1 : (대사중후군.sav) 에 대한 다중응답(당뇨,…,기타)문항에 대한 빈도분석을 수행하시오. 다중응답분석-2 : (산업체인턴.sav)에 대한 다중응답(16번 문항)에 대한 빈도분석을 수행하시오. (16번 : 인턴쉽 실습을 통해 얻은 것이 무엇입니까 ? (두 가지만 응답요망)) 1) 실무능력 ( ) 2) 조직사회 적응력 ( ) 3) 인간관계 ( ) 4) 책임감 ( ) 5) 취업에 대한 목표의식 ( ) 6) 기타 ( ) 분설절차 : [메뉴 분석 다중응답 변수군정의] [메뉴 분석 다중응답 빈도분석] 결과해석 : 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 분할표분석 1 교차분석 : 이원 분할표의 자료구조는 다음과 같다. (속성 A : 행 변수, 속성 B : 열 변수) n : 빈도수 (1) 본인의 인턴쉽기관은 어느 기업군에 속합니까 ? 1) 대기업 ( ) 2) 공기업 ( ) 3) 중소기업 ( ) 4) 국가연구소 ( ) (2) 실제 인턴쉽기간은 ? ( ) 1) 2주일 ( ) 2) 3주일 ( ) 3) 4주일 ( ) 4) 6개월 ( ) 파일 : (산업체인턴.sav) 산업체 인턴쉽프로그램에 대한 만족도 및 태도조사에서 인턴쉽기관(기업군)과 인턴쉽 기간의 교차분석을 수행하는 경우. (속성A =인턴쉽 기업) : A1(대기업)~A4(국가연구소), (속성B =인턴쉽 기간) : B1(2주)~B4(6개월) 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 분할표분석 2 교차분석 : 인턴쉽기업을 행으로 인턴쉽기간을 열로하여 셀의 전체퍼센트가 들어간 이원 분할표를 작성하고, 이를 시각화 한 수평누적 막대도표를 작성하여 분할표와 그래프를 해석하시오. 교차분석 : [메뉴 분석 기술통계량 교차분석] 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 분할표분석 3 이원 분할표의 결과를 보면 응답자 157명 중 인턴쉽기업의 경우 중소기업> 국가연구소 > 공기업> 대기업 순이며, 인텁쉽기간의 경우 4주 > 2주 > 3주 > 6개월 순으로 나타났다. 막대도표는 분할표의 도수를 시각적으로 표현한 것으로 중소기업의 경우 4주동안의 인턴쉽 프로그램이 가장 많음을 알 수 있다. 2016년 - SPSS를 활용한 통계특강 -
(alternative hypothesis, H1) 가 설 설 정 앞의 두 개의 설문 문항인 인턴쉽 기업과 인턴쉽 기간이 서로 연관성이 있지 않겠는가 ? 에 관심이 있어 이를 입증하려 한다면 다음과 같이 가설을 설정한다. 귀무가설 : 인턴쉽 기업과 인턴쉽 기간은 연관성이 없다. 대립가설 : 인턴쉽 기업과 인턴쉽 기간은 연관성이 있다. (입증하고자 하는 가설) 가설 (Hypothesis) 실증적인 증명 이전에 세워지는 잠정적인 진술. 가설은 논리적인 검정과정을 통해 기각 또는 수정될 수 있다. 귀무가설 (null hypothesis, H0) 검정대상이 되는 가설 혹은 처음 세운 가설, 기존의 정보 및 주장. 대립가설 (alternative hypothesis, H1) 귀무가설을 받아들일 수 없을 때 다른 결론을 내리기 위해 설정되는 가설. 새롭게 제기된 이론·학설·주장으로서 자료로부터의 강력한 증거에 의하여 입증하고자 하는 가설. 1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하는 오류( ) 2종 오류 : 귀무가설이 틀린데 귀무가설을 채택하는 오류( ) 2016년 - SPSS를 활용한 통계특강 -
가설 검정절차 일반적인 가설검정의 절차 가설 설정 유의수준 의 설정 검정통계량선정 및 계산 유의확률(p-value) 계산 유의수준 의 설정 검정통계량선정 및 계산 유의확률(p-value) 계산 의사결정 유의수준: 1종 오류를 범할 최대 허용한계로 연구자가 결정. ( ). 유의확률: 검정통계량의 관측값에 대해 귀무가설을 기각하는 최소의 유의수준. ( P ) 의사결정: if 유의확률(P) < 유의수준( ) then 귀무가설을 기각. 2016년 - SPSS를 활용한 통계특강 -
검정통계량과 유의확률 다양한 유의수준 t 검정, ANOVA, 회귀분석, 교차분석을 실시했을 때 유의수준을 판단하는 여러 가지 지표가 나오는데, 공통으로 사용되는 유의수준이 바로 p 값이다. 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 가설검정방법 교차분석 : 카이제곱 검정. [메뉴 분석 기술통계량 교차분석] 2016년 - SPSS를 활용한 통계특강 -
의사결정 : 유의확률(P) = 0.015 < 유의수준( )=0.05 이므로 귀무가설 기각 교차분석 : 가설검정결과 = 20.469 의사결정 : 유의확률(P) = 0.015 < 유의수준( )=0.05 이므로 귀무가설 기각 결과해석 : 인턴쉽 기업과 인턴쉽 기간은 연관성이 있다. 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 가중케이스를 이용하는 경우 자료가 빈도로 정리되어 있는 경우 : [자료입력 변수보기 변수이름, 설명, 값 지정] 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 가중케이스를 이용하는 경우 자료가 빈도로 정리되어 있는 경우 : [자료입력 메뉴 데이터 가중케이스] 교차분석 : 가중케이스를 이용하는 경우 자료가 빈도로 정리되어 있는 경우 : [자료입력 메뉴 데이터 가중케이스] 카이제곱검정 : [메뉴 분석 기술통계량 교차분석] 정확성(또는 대표성)의 문제 셀 조합 수의 20%가 5이하의 기대 값을 갖는 경우 어떻게 처리하나 ? 2016년 - SPSS를 활용한 통계특강 -
교차분석 : Fisher’s exact Test [방법 1] 범주의 수를 합리적으로 줄인다. (기업군, 기간 중 어떤 것을 줄일까?) [방법 2] Fisher’s exact Test 분석절차 : [메뉴 분석 기술통계량 교차분석 정확(정확한 검정)] 결과해석 : 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 가중케이스 - 실습자료 사람들의 피의 형태와 눈의 색깔 사이에 어떤 관련성이 있는가를 알아보기 위해서 400명을 임의로 추출하여 조사한 결과를 다음과 같이 이원분할표로 정리하였다. 사람의 혈액형과 눈의 색깔 사이에 연관성이 있는가를 유의수준 0.05로 검정하시오. 귀무가설 : 가설설정 대립가설 : 2016년 - SPSS를 활용한 통계특강 -
교차분석 : 가중케이스 - 실습자료 (1) 가중케이스(실습).sav 파일을 불러와서 변수 ‘빈도’에 가중케이스를 설정하라. [메뉴 데이터 가중케이스] (2) 행 변수를 ‘눈의색깔’, 열 변수를 ‘혈액형’로 하여 [셀 : 관측빈도, 기대빈도, 전체퍼센트]가 들어간 이원 분할표를 작성하고, 수평누적 막대도표를 그려 의미를 해석하시오. [메뉴 분석 기술통계량 교차분석 : 셀지정, 수평누적막대도표선택] (3) 눈의색깔과 혈액형에 연관성이 있는가를 카이제곱 검정을 통해 결과를 해석하시오. [메뉴 분석 기술통계량 교차분석 : 통계량의 카이제곱을 선택] 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정 : 독립성 검정(자료구조) 이원 분할표의 자료구조와 같으며 (속성 A : 행 변수)와 (속성 B : 열 변수)가 독립적인가를 검정하는 경우이다. [예제] 500명을 임의 추출하여 정당의 선호와 보호무역 법안에 대한 지지도를 질문 하였다. 주어진 이원분할표를 이용해 법안에 대한 선호도와 의견의 유형과 정당의 선호도와는 독립적이라는 근거가 있는가 ? 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정 : 독립성 검정 (가중케이스) 귀무가설 : 정당별 보호무역법안에 대한 선호도는 차이가 없다(독립이다) 대립가설 : 정당별 보호무역법안에 대한 선호도에 차이가 있다(종속이다) [메뉴 데이터 가중케이스 빈도변수(관측도수)선택] 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정 : 독립성 검정(교차분석) 교차분석 : 메뉴 분석 기술통계량 교차분석 셀(빈도:관측빈도, 퍼센트 :전체) 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정, 연관성측도 : [통계량 옵션 교차분석 : 분할, 파이 선택] 카이제곱검정 : 독립성 검정(연관성측도) 카이제곱검정, 연관성측도 : [통계량 옵션 교차분석 : 분할, 파이 선택] 연관성측도 : 명목-명목 분할계수(O) 파이 및 Cram의 V(P) 람다, 불확실성 계수 연관성측도 : 순서-순서 Gamma Somers의 d Kendall의 타우-b, 타우-c 연관성측도 : 명목-등간 에타 연관성 측도 : measure(측도)가 -1 또는 +1에 가까우면 높은 연관성을 나타낸다. 0.2~0.4 : 낮은 상관 , 0.4~0.7 :보통 상관 , 0.7이상 : 높은 상관 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정 : 독립성 검정 (실습) [문제] 980명을 임의 추출하여 성별에 따른 소속정당을 분류한 자료가 아래 표에 주어져 있다. 이 자료를 이용해 성별에 따른 소속정당에 차이가 있는가를 유의수준 0.05로 검정하고, 연관성측도와 더불어 결과를 해석하시오. [파일 : 독립성검정(실습).sav] 성별 소속정당 민주당 독립당 공화당 합계 여성 279 73 225 577 남성 165 47 191 403 444 120 416 980 가설설정 귀무가설 : 대립가설 : [메뉴 데이터 가중케이스] (2) [메뉴 분석 기술통계량 교차분석 : 셀(관측,기대도수), 수평누적막대도표선택] (3) [메뉴 분석 기술통계량 교차분석 : 통계량(카이제곱, 분할, 파이 선택] 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정 : 동일성 검정(자료구조) 이원 분할표의 자료구조와 비슷하지만 두 개의 속성에 따라 빈도자료를 정리하는 독립성 검정과 달리 (속성 A)를 표본조사설계단계에서 몇 개의 층으로 나누어 표본크기를 고정한 후 (속성 B)에 따라 빈도자료를 정리한 경우로 동일성 검정의 자료구조는 다음과 같다. [예제] 4가지 직업에 종사하는 사람들의 알코올중독 여부에 관하여 알아보기 위해 성직자, 교육자, 행정가, 상인을 각각 300명, 250명, 300명, 350명을 추출하여 조사한 결과이다. 2016년 - SPSS를 활용한 통계특강 -
(파일 : 동일성검정.sav) - [메뉴 데이터 가중케이스 빈도변수(빈도)선택] 카이제곱검정 : 동일성 검정 (가중케이스) 직업에 따라 알코올중독에 차이가 있다고 할 수 있는지를 유의수준 0.05로 검정하시오. 검정결과와 연관성측도에 대해 의미를 해석하시오. 귀무가설 : 직업에 따라 알코올중독에 차이가 없다 (동일이다) 대립가설 : 직업에 따라 알코올중독에 차이가 있다 (동일하지 않다) (파일 : 동일성검정.sav) - [메뉴 데이터 가중케이스 빈도변수(빈도)선택] 2016년 - SPSS를 활용한 통계특강 -
교차분석 : [메뉴 분석 기술통계량 교차분석 셀(빈도:빈도, 퍼센트 :전체)] 카이제곱검정 : 동일성 검정 (교차분석) 교차분석 : [메뉴 분석 기술통계량 교차분석 셀(빈도:빈도, 퍼센트 :전체)] 2016년 - SPSS를 활용한 통계특강 -
카이제곱검정 : 동일성 검정 (실습) [예제] 연령별로 선호하는 주류의 비율이 다른지를 알아보기 위해 20대, 30대, 40대 이상의 사람들을 각각 50명씩 조사하여 얻은 자료가 다음과 같다. 유의수준 0.05로 연령과 선호하는 주류 간에는 연관성이 있는지를 검정하시오. [파일 : 동일성검정(실습).sav] 주류 연령 맥주 소주 위스키 칵테일 합계 20대 20 10 8 12 50 30대 15 19 6 40대 이상 5 45 49 33 23 150 가설설정 귀무가설 : 대립가설 : [메뉴 데이터 가중케이스] (2) [메뉴 분석 기술통계량 교차분석 : 셀(관측,전체%), 수평누적막대도표선택] (3) [메뉴 분석 기술통계량 교차분석 : 통계량(카이제곱, 분할, 파이 선택] 2016년 - SPSS를 활용한 통계특강 -