제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가? 2007 겨울 통계강좌 중급과정 제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가?
▣ 변량분석이란 무엇인가? 그 의미는 무엇인가? 변량분석은 Analysis of Variance 의 의미로 분산분석이라고도 한다. 흔히들 ANOVA분석이라고 칭함 그럼 변량이란 무엇인가? 변량 또는 분산이라고도 칭하는 Variance는 연구자가 해당 연구를 수행함으로 인해서 관찰한 값들의 평균(값)으로 부터 개별 관찰치가 얼마나 떨어져 있는지를(흩어져 있는지)를 알려주는 분산(散布圖 / measure of dispersion)의 정도를 말해주는 것이다. 따라서 변량은 각 관측값이 평균으로부터 얼마나 떨어져 있는지를 표준 편차라 하고 이를 제곱한 값(평균에서 떨어진 값을 +값과 –값으로 구성되 어 모두 더하면 0이 되므로 제곱하여 더한다)으로 표준편차의 제곱의 합이 라 표현한다. 왜냐면 평균은 표준편차와는 달리 단지 정보의 집중된 경향만을 알려주기 때문에 관측치들이 어떤 형태로 분포되어 있는지(연구자가 알고자 하는 바) 를 정확하게 알려주지 못합니다.
사례 : 삶의 만족도에 대한 질문 -> 한 집단 3명의 응답자 대상 (표준편차) (표준편차의 제곱) ▫ A 응답자 : 1점 -2 점 4점 ▫ B 응답자 : 3점 평균 : 3점 0 점 0점 ▫ C 응답자 : 5점 +2 점 4점 __________________________________________________________ 더하면 0 점 8/3 = 1.632… 따라서 각 편차의 제곱을 해 더해서(자승합 : Sum of Square) 사례수로 나누면 여기에서 변량의 추정치인 평균자승(Mean Square)이 산출된다. 이것을 표본에서 나온 변량(Varience)이라 하고, 여기에 √를 씌우면 표준편차가 산출된다. 변량 = 표준편차2 => 표준편차(또는 변량)이 크면 클 수록 개별 관측치들이 평균으로부터 멀리 떨어진다는 점을 알 수 있다. 따라서 변량값의 정도는 그 집단의 동질성 정도를 나타내는 수치로 볼 수 있다. 결국 변량분석의 목적은 이러한 전체 변량의 구성요소를 분석하여 왜 이러한 현상이 나타나는 지에 대한 설명하는 것이 결론적인 목적이다.
▣ 변량분석 Key Concept 1 모집단 변량과 표본변량(population variance & sample variance) 모집단 변량은 모집단 안에 모든 사례들 간의 변량이다. 즉 (~~하는 대학생이라면) ~~하는 대학생 전체의 집단이 모집단의 변량이다. 표본변량은 모집단으로부터 대표성을 띌 수 있는 추출된 집단에서의 사례들 간 변량이다. 왜 그런가? 일반적으로 학술적인 연구에서는 모집단( ) 전체를 대상으로 분석할 수 없기 때문에 그 모집단을 대표할 수 있는 표본집단을 샘플링해서 분석해야 하며, 변량분석을 통한 가설검정은 결론적으로 표본의 집단간 평균치(결과값)이 우연인지, 혹은 모집단의 본질적인 특성에 인하여 표본에 그렇게 나타나는 것인지를 살펴 보는 것이다.
▣ 변량분석 Key Concept 2-1 체계적 변량과 오차변량(systematic variance & error variance) 체계적 변량 오차변량 용어 집단간 변량 집단내 변량, 잔차 특성 독립변인의 영향으로 발생된 설명 가능한 변량으로 집단간 평균치의 차이가 우연히 아니라 어떤 구체적인 변수 값에 의해서 일어나는 차이를 반영하는 변량 독립변인과는 무관하게 우연히 발생한 변량으로 측정변수의 변량의 총합에서 집단간 변량을 뺀 변량 기본가정 독립성 표본의 측정치는 다른 표본의 측정치와 서로 관련이 없어야 한다. 즉 상관관계가 없이 독립적이어야 한다. 정상분포성 측정치의 분포는 정상분포이어야 한다 (t-test의 경우 非정상분포 가정). 변량의 동일성 집단간 변량이 동일해야 한다. 집단간 변량 집단내 변량 전체 변량= Between-Group Variance + Within-Group Variance Explained Variance Unexplained Variance 자유도(df) 공식 집단간 독립표본 수-1 집단내 n-독립표본 수 전체 집단간 변량 + 집단내 변량
▣ 변량분석 Key Concept 2-2 모집단의 특성을 아주 잘 반영하는 집단이라 하더라도 표집오차를 완전하게 없애는 것은 불가능함으로 오차변량은 집단 내에 일정 부분 항시 존재하게 된다.
▣ 일원변량분석 언제, 어떨 때 사용하나? 언제 사용하나? 일원변량분석의 사례 : 일원변량분석의 전제조건 : 한 요인(변수)내에 있는 두 독립표본[개별집단, 요인수준] 이상의 종속변수의 평균치에 대한 차이가 통계적으로 유의미한지를 검정하는 통계기법으로 표본들이 동일한 평균을 가지고 있는 집단에서 추출된 것인지의 여부를 추론할 수 있다. 따라서 종속변수의 척도는 등간 또는 비율로 미리 설정되어야 한다. 일원변량분석의 사례 : 통계학을 수강한 학생들의 점수(종속변수:비율 또는 등간 척도로 구성)에 대한 두 집단 이상으로 구성된 각 학년별(독립변수 : 명목 척도로 구성) 점수의 차이가 있는지를 통계적으로 유의미한 차이가 있는지 검증 일원변량분석의 전제조건 : 1) 각 독립표본들이 정규분포 집단에서 나올것 2) 각 모집단은 동일한 변량( )을 갖는다고 가정 3) 이때 영가설은 각 독립집단은 평균에 차이가 없다(동일하다) -> 따라서 통계학 수강학생들의 통계학 점수가 학년별로 평균점수에 있 어서 통계적으로 유의미한 차이가 있다? -> 연구가설(귀무가설 채택) 통계적으로 유의미한 차이가 없다? -> 영가설 채택
▣ t-test와 One-way Anova 분석의 차이는? 변량분석은 독립변인에 따른 종속변인의 평균차이가 있는지 없는지 변량의 비율(F ratio)을 가지고 비교하는 추리통계방법이기에 t-test와 유사하다. 실제로 SPSS에서는 분석명령어에서 Analsis t-test One Way ANOVA 표 본 수 소표본(샘플 100개 이하) 표본이 많은 경우 표집 분포 정상분포를 가정하지 않음 정상분포를 가정 집단의 개수 2개 집단 비교 3개 집단 이상 독립변인 척도 명목/서열 종속변인 척도 등간/비율
▣ One-way Anova 실제 불러올 파일 : 지역조사.SAV 독립변수의 각 집단이 두 개 이상이며, 종속변수가 등간척도 이상으로 되어 있는 경우 -> 평균을 구할 수 있는 경우 변량분석 실시 일원변량분석은 독립변수와 종속변수가 각각 하나씩 이다. 불러올 파일 : 지역조사.SAV 응답자의 학력에 따라 심리적 이웃관계의 평균차이가 모집단의 평균차이에 의한 것인지(통계적으로 유의미한 것인지?), 우연히 표본의 평균차이에 의한 것인지? 독립변수[Factor] : 학력(edu) 투입 종속변수[Dependent List] : 심리적 이웃관계(v02) 투입 1) Data 속성 파악 2) Analyze -> compare means -> one-way anova 3) 변수 이동 4) 콘트라스트, 사후검증, 옵션 선택 5) 분석실행
Tukey의 다중 t검증은 독립변수의 각 집단 별로 두 개의 집단끼리 교차로 반복해 모든 경우의 수로 검증 실시 종속변수 투입 독립변수 투입 Tukey의 다중 t검증은 독립변수의 각 집단 별로 두 개의 집단끼리 교차로 반복해 모든 경우의 수로 검증 실시 동일집단 군에 대한 평균을 표시 ANOVA, MANOVA는 여러 집단간 평균이 같다는 영가설이 기각된다 하더라도 유의미한 차이를 갖는 것이 어떤 것인지를 밝혀주지 못하기에 사후분석을 통한 집단간 평균차를 검증한다 기술통계분석 : 기초적 데이터 분석 변량의 공분산성 검증 : Levene의 통계량 검증
Output - 1 통계분석의 가장 기본인 데이타 집단의 동질성 검증으로 만일 Levene 통계수치를 통과한다면(95% 신뢰수준에서) 일원변량분석이 가능하지만 동질성 검증을 통과하지 못하면 비모수 통계로 분석을 해야 한다.
ANOVA 검증의 핵심인 F ratio와 유의수준 Output - 2 ANOVA 검증의 핵심인 F ratio와 유의수준 각 집단간 변량으로 체계적 변량을 의미. 집단간 변량의 자슨합은 17.415이며, 자유도는 4이다. 따라서 자승합 / 자유도(사례수) = 평균자승으로 변량이 된다. 따라서 모집단 변량의 추정치가 되므로 4.354가 모집단 변량의 추정치이다. 각 집단내 변량으로 오차변량을 의미. 각 집단 내에 있는 잔차변량으로 전체 변량(Total)에서 집단간 변량을 뺀 나머지 변량이다. 자유도는 596이며, 모집단에서 오차변량의 추정치는 .605이다.
Output - 3
직접 실습 검증 과제 종교에 따른 심리적 이웃관계에 통계적으로 유의미한 차이가 있는지 검증. 학력에 따른 ‘아이돌보기’ – ‘공동참여’까지의 변수에 통계적으로 유의미한 차이가 있는지 검증하시오 학력에 따른 ‘행정수행평가’ – ‘거주불만이유’까지의 변수에 통계적으로 유의미한 차이가 있는지 검증하시오. 학력에 따른 ‘아이돌보기’ – ‘공동참여’까지의 변수에 통계적으로 유의미한 차이가 있는지 검증하시오 학력에 따른 ‘행정수행평가’ – ‘거주불만이유’까지의 변수에 통계적 으로 유의미한 차이가 있는지 검증하시오.
▣ 일원변량 분석 결과의 보고 변량분석의 경우 각 그룹의 평균과 편차를 기술통계 부분에 포함하거나 따로 표를 만들어 보여준다. 그리고 계산 된 F값을 F(df1,df2)=abc의 형태로 나타낸다 예: 변량분석 결과 각 그룹간 차이는 유의한 것으로 나타났다(F[1,299]=18.32, p<.001).
참고할 사항 티 검증은 두 평균의 비교에 비용된다 한 그룹 두 번 측정 (학부 반복 측정-중간, 기말) Paired sample t-test 두 그룹 한 번씩 측정 (학부, 대학원 비교) Independent sample t-test 변량 분석은 2개 이상의 그룹 혹은 조건에서의 측정값을 비교하는 것. 따라서 위의 B의 경우에 해당 두 그룹을 한번씩 측정한 경우 독립 티-검증 혹은 변량 분석을 이용해 분석 가능한 그룹에 대한 3번이상의 반복 측정 분석은? 대응 티 검증(paird-sample t-test)을 여러 번 실시 예) A, B, C의 경우 A-B, A-C, B-C 검증