자료처리 및 통계분석(2) 통계분석의 이해(2) - 가설검증 - 변수유형에 따른 통계분석방법 통계분석방법 - 가설검증 - 변수유형에 따른 통계분석방법 통계분석방법 - 빈도분석, 카이스퀘어검증, t-검증, 분산분석, 상관관계분석, 회귀분석
가설검증 가설검증(hypothesis testing) 두 개 이상 변수간의 관계를 검증하는 것: 일반적으로 모집단에서 추출한 표본을 분석하여 모집단의 특성을 나타내는 변수 간의 관계를 검증하는데 사용 가설검증은 추론통계 활용 보통 추론통계에서는 연구가설을 직접 검증하지 않고 영가설의 가능성을 부인해서 연구가설의 타당성 검증. 영가설은 연구가설을 검증할 목적으로 추론분석에서 사용하는 방법. * 가설종류: 연구가설(research hypothesis): 연구자가 지지하는 가설, 즉 검증하고자 하는 가설. 변수들 사이에 차이나 관계가 있다는 진술 영가설(null hypothesis): 연구가설을 부인하는 서술. 연구 가설에 대한 논리적 대안. 변수들 사이에 차이나 관계가 없다는 진술. 가설설정의 예: 영가설 - 두 집단 간 소득수준은 차이가 없다 연구가설- 두집단 간 소득수준은 차이가 없다 보통 가설검증은 영가설을 기각에 초점을 맞추게 되고, 영가설을 기각하게 되면 연구가설 지지하게 됨
가설채택과 유의수준 영가설을 채택할 것인지, 연구가설을 채택할 것인지는 가설검증을 위해 정한 검증통계치(표본통계량이 모집단값과 유사한지 등을 검증하는 값. 예: t값, F값 등 ) 에 의해 결정 조사연구의 궁극적 목적은 표본결과를 가지고 모집단의 특성을 추론하고 예측하는 것임. 그런데, 모집단에 추정은 어디까지나 통계치로 추정한 것이기 때문에 오류를 내포할 가능성 항상 존재. 즉, 조사결과와 실체현상간에는 약간의 차이가 있을 수 있는데 이것을 오차라 함 이러한 오차의 가능성을 가설검증 과정에서도 어느 정도 인정하는데, 이를 유의수준(significant level)이라고 함 -> 유의수준: 가설검증에서 용납될 수 있는 오류의 정도 보편적으로 유의수준(α로 표기)은 0.05(5%), 0.01(1%) 사용 유의수준은 영가설을 기각하는 영역을 결정하는 것(유의수준은 영가설을 기각하는 확률적 기준)으로 가설검증에서 중요한 의미를 가짐 - 가설검증은 항상 영가설이 옳다는 전제하에 자료를 분석하여 검증통계치를 구하고 영가설의 채택여부를 결정함 검증통계치값이 나타날 가능성(* 검증통계치가 나타날 가능성을 측정하는값: 유의확률값(p-value)이 유의수준 이하이면 영가설을 기각하고, 유의수준 이상이면 영가설 채택 * 예 : 유의수준을 0.05(5%)로 정했는데, 검증통계치의 유의확률값(p-value)이 0.02로 나타났으면 유의확률값이 유의수준보다 작기 때문에 영가설 기각되고 연구가설 채택. 반대로 크면 영가설채택, 연구가설은 부인됨 즉, 검증과정에서 유의확률값이 유의수준보다 작으면 영가설 기각되고, 연구가설 채택. 이때 분석결과가 유의미하다고 말함. -> 통계학적으로 의미있는 결과로 인정됨. 즉, 표본에서 나온 분석결과(통계치)를 모집단에 적용해도 큰 무리가 없다고 판단되는 것 연구보고서 표기방법 : * p<.05, **p<.01
① 명목변수: 상호배타적인 몇 개의 범주로 나눌 수 있을 뿐 서열, 크기 등의 속성이 없음 변수유형에 따른 통계분석방법 변수유형: 변수는 그 속성, 즉 측정가능방법과 관련해서 4가지로 분류할 수 있음. 변수가 어떤 속성을 가졌는가에 의해 활용해야 하는 통계기법이 다름 ① 명목변수: 상호배타적인 몇 개의 범주로 나눌 수 있을 뿐 서열, 크기 등의 속성이 없음 (예) 성별, 종교, 국적, 결혼유무, 계절 ② 서열변수: 속성을 상호배타적인 범주로 나눌 수 있고, 범주간 서열 측정 가능 (예) 학점, 생활수준, 찬성강도 등 ③ 등간변수: 어떤 변수의 범주간의 순서뿐만 아니라 범주 간의 거리가 일정(등간성) (예) 온도, 지능지수 등 ④ 비율변수: 변수의 범주 간 간격이 등간격일 뿐 아니라 절대영점을 가지고 있어 비율측정 가능 (예) 소득, 자녀수, 경력, 교육기간, 무게 등 연속적 변수와 비연속적 변수 연속적 변수: 변수가 연속성을 가지고 있는 것(등간변수, 비율변수) 비연속적 변수: 변수가 연속성을 가지고 있지 않은 것(명목변수, 서열변수) 변수유형과 분석방법 독립변수 종속변수 비연속적 변수 연속적 변수 카이제곱검증 로지스틱회귀분석 이분변수: t-검증 다분변수: 분산분석 피어슨 상관관계 회귀분석
통계분석방법 1. 빈도분석 단일 변수에 대한 빈도분포 분석 빈도분포: 수집된 자료를 성질이나 크기가 유사한 형태로 분류한 것으로 자료의 특성을 쉽게 파악하게 함. 기본적으로 빈도, 백분율, 유효백분율, 누적백분율로 표시 빈도(frequency): 각 집단에 속하는 사례수 백분율(percentage): 전체 사례 중에서 각 집단의 빈도가 차지하는 비율 유효백분율(valid percentage): 자료에서 무응답사례를 제외한 합계에서 각 집단의 빈도가 차지하는 비율 누적백분율(cumulative percentage): 각 집단에 속한 백분율과 상위 계급에 속한 백분율을 포함한 백분율 예: 노인가구의 학력 빈도 백분율 유효백분율 누적백분율 무학 210 27.2 27.5 초등졸 216 28.0 28.2 55.7 중졸 128 16.6 16.7 72.4 고졸 147 19.1 19.2 91.6 대학이상 64 8.3 8.4 100.0 합계 765 99.2 100 결측(missing) 6 0.8 전체합계(N) 771
2. 카이스퀘어검증 (chi- square test) 집단들간의 빈도에 차이가 있는 가를 통해 집단 비교 독립변수, 종속변수 모두 비연속적 변수(명목, 서열)일 때 사용 예: 성별에 따른 종교, 성별 취업여부 차이, 가구유형별(노인, 모자, 장애인가정) 직업분포의 차이, 담배피우는 사람과 피우지 않는 사람 간 술소비량 차이(술마시지 않음, 술적게 마심, 술많이 마심) 3. t –검증 두 집단의 평균이 통계적으로 유의미하게 차이 있는지를 검증하는 방법 독립변수는 비연속적 변수, 종속변수는 연속적 변수(등간, 비율)일 때 사용 집단의 평균들 간에 차이가 있는 지를 통해 집단 비교 1) 독립표본 t-검증(두 집단 간의 평균 차이 검증) - 독립된 두 집단 간의 평균이 통계적으로 유의미한 차이가 있는지 검증하는 방법 - 예: 남녀간 평균 임금 차이, 스트레스를 많이 받은 사람과 적게 받은 사람 두 집단 간 직무만족도 2) 대응표본 t-검증(동일집단 간의 사전 사후 t-검증) - 어떤 집단의 사전검사와 사후검사의 차이 등을 알아보고자 할 때 활용 - 예: 부부대화프로그램에 참여한 부부의 사전 대화 시간과 사후 대화 시간 간의 차이 검증
4. 분산분석(Analysis of Variance: ANOVA) t 검증은 평균차이를 이용하여 두 집단의 차이를 검증하는 통계기법인데 반해 분산분석은 분산의 차를 이용하여 2집단 이상의 차이를 검증하는 통계기법 * 분산: 각각의 관찰값들이 평균으로부터 떨어져 있는 거리(편차)를 제곱한 후 그 수를 모두 더해서 총관찰값으로 나눈 값 집단의 분산들 간에 차이가 있는 가를 통해 집단 비교 독립변수는 비연속적 변수, 종속변수는 연속적 변수일 때 사용 예: 초등학생, 중학생, 고등학생, 대학생들 간에 수업시간 외에 하루 평균 공부시간 차이 분석, 연령대별 컴퓨터 이용시간 분석 학력에 따른 소득의 차이 5. 상관관계분석(correlation analysis) 한 변수가 변함에 따라 다른 변수가 어떻게 변하는지를 알아보는 것 상관관계는 변수 사이의 관련성의 방향과 정도를 말함 -> 상관계수(피어슨 상관계수: r 로 표시 상관계수값: r은 -1에서 1. r 의 절대값이 클수록 높은 상관관계 +는 정적관계( 한 변수 ↑ , 다른 변수 ↑), -는 부적관계(한 변수 ↑ , 다른 변수 ↓ ) 독립변수는 연속적 변수, 종속변수는 연속적 변수일 때 사용 예: 교육연수와 소득과의 상관관계, 사회복지사의 소득과 직무만족도 간의 상관관계 검증
6. 회귀분석(regression analysis) 독립변수들의 값을 가지고 종속변수의 값을 설명하고 예측하는 것을 검증 상관관계는 독립변수와 종속변수의 구분 없이 두 변수가 얼마나 상호 관련되어 있는지 분석하는 반면, 회귀분석은 독립변수가 종속변수에 미치는 영향 분석. 독립변수가 한 단위 변함에 따라 종속변수가 얼마나 변화하는가 까지 설명해줌 -> 다른 통계기법보다 정교하게 변수간의 관계를 나타내줌 단순회귀분석: 독립변수가 하나일 경우 - 예: 교육연수가 소득에 미치는 영향 분석 다중회귀분석: 독립변수가 둘 이상일 경우 - 예: 교육연수와 재직기간이 소득에 미치는 영향 독립변수와 종속변수 모두 연속적 변수일 때 사용