(Analysis of Variation, ANOVA) 통계학 분산분석 (Analysis of Variation, ANOVA)
분산분석 목적 : 일반적으로 셋 이상의 모집단에 대해 모평균의 차이가 있는지 여부를 알아보기 위한 검정 -> 독립변수의 효과를 분석 예) 온도변화에 대한 작물성장 요인 : 결과에 영향을 주는 실제 인자 (온도) 수준 : 요인의 조건 (10℃, 20℃) 처리조합 : 요인의 수준조합 단일요인과 생산량의 관계를 분석하는 것을 일원분산분석이라 함
일원배치법 (일원분산분석) 하나의 종속변수에 대해 하나의 요인의 영향을 분석 요인 (A)의 (k)개의 수준 A1, A2,…Ak에서 (m)번씩 반복하여 실험한 결과 수준 A1 A2 ….. Ak 1 y11 y21 yk1 2 y12 y22 yk2 3 y13 y23 yk3 m y1m y2m ykm 합계 y1 y2 yk 평균
j번째 모집단의 평균은 전체 평균과 그 모집단의 성분인 요인수준 효과 αj의 합과 같다고 볼 수 있으므로 일원분산분석모형 yij : j번째 처리에 대한 i번째 관찰치 μj : j번째 처리의 모수 평균 εij : 오차항 j번째 모집단의 평균은 전체 평균과 그 모집단의 성분인 요인수준 효과 αj의 합과 같다고 볼 수 있으므로 관찰치 전체 표본평균 추정된 요인수준효과 잔차
(총편차) (처리효과편차) (잔차) 기계 (I) 기계 (II) 기계 (III) 총편차 y y1 y2 y3 처리효과 편차 잔차
SST (총제곱합) = SSA (요인 A의 제곱합) + SSE (오차제곱합) 두 변동 중 요인에 의한 변동이 총 변동을 상대적으로 더 많이 설명할 수 있다면 수준에 따라 평균차이가 있음을 뜻하고, 반대로 오차에 의한 변동이 상대적으로 크다면 총 변동의 원인은 요인의 수준차이에 기인한다고 보기 어려움
평균제곱=제곱합/자유도 일원배치법의 분산분석표 가설 : Ho : μ1=μ2=…=μk Ha : 적어도 하나 이상의 평균이 다름 임계치 : f (α, k-1, n-k) 분산분석표의 검정통계량 f가 f(α, k-1, n-k)보다 크다면 귀무가설 기각 -> 평균이 다름 평균제곱=제곱합/자유도 요인 제곱합 자유도 평균제곱 A SSA k-1 MSA=SSA/(k-1) 잔차(오차) SSE n-k MSE=SSE/(n-k) 합계 SST n-1 F=MSA/MSE
예제 한 공장에서 세 종류의 기계 (기계I, 기계II, 기계III)의 일일 생산량을 조사하였다. 분산분석을 통해 평균차이를 여부를 조사하라 (유의수준,0.05) 기계(I) 기계(II) 기계(III) 생산량 25 21 22 20 16 26 15
기계(I) 기계(II) 기계(III) 총계 생산량 25 21 22 20 16 26 15 합계 96 72 63 231 평균 24 18 표본계수 4 3 11 SST =(25-21)2 + (20-21)2+…+(21-21)2=122 SSA = 4(24-21)2 +4(18-21)2+3(21-21)2=72 SSE = SST-SSA = 50
검정 분산분석표 임계치 : f (0.05, 2, 8) = 비교, 해석 요인 제곱합 자유도 평균제곱 A 잔차(오차) 합계 F= 2 36 8 6.25 122 10 5.76 4.46 대립가설 채택->평균 다름->영향 있음
SPSS 실행 입력 -> 분석->평균비교->일원배치분산분석
이원배치법 (이원분산분석) 요인이 둘 있는 경우로 확장 (예, 기계종류+작업자의 경력) 반복이 있는 경우와 반복이 없는 경우로 구분
반복이 없는 이원분산분석 반복이 없는 경우의 모형 αi = 요인 1의 고정된 효과 βj = 요인 2의 고정된 효과 각 관찰치는 다음과 같은 네 개의 성분으로 분리 g : 요인 1의 수준 (기계종류) c : 요인 2의 수준 (경력)
SST = SSA + SSB + SSE 반복이 없는 경우의 이원분산분석표 요인 제곱합 자유도 평균제곱 F 요인 1 SSA g-1 MSA=SSA/(g-1) MSA/MSE 요인 2 SSB c-1 MSB=SSB/(c-1) MSB/MSE 잔차(오차) SSE (g-1)(c-1) MSE=SSE/(g-1)(c-1) 합계 SST gc-1
예제 앞의 예제에서 세 종류의 기계와 작업자의 경력 (1년, 4년, 8년)의 일일 생산량을 조사하였다. 분산분석을 통해 기계나 경력이 생산량에 영향을 미치는지 여부를 조사하라 (유의수준,0.05) 기계(I) 기계(II) 기계(III) 1년 25 20 21 4년 28 22 19 8년 18 23
SST = (25-22)2+(28-22) 2+…+(23-22) 2=76 SSA = 기계(I) 기계(II) 기계(III) 합계 평균 1년 25 20 21 66 22 4년 28 19 69 23 8년 18 63 75 60 198 SST = SSA = SSB = SSE = (25-22)2+(28-22) 2+…+(23-22) 2=76 3{(25-22)2+(20-22)2+(21-22)2}=42 3{(22-22)2+(23-22)2+(21-22)2}=6 SST-SSA-SSB=28
요인 제곱합 자유도 평균제곱 f F(0.05) 기계 경력 잔차(오차) 합계 42 2 21 3.0 6.94 6 2 3 0.43 6.94 28 4 7 76 8 기계 = 경력 = 귀무가설 채택->영향 없음
SPSS 실행 입력->분석->일반선형모형->일변량
반복이 있는 이원분산분석 두 요인의 조합 총 개수 g * c에 각각 h 의 반복적 관찰치 반복이 있는 경우의 모형 αi = 요인 1의 고정된 효과 βj = 요인 2의 고정된 효과 αβij = 요인 1과 요인 2의 상호작용효과
상호작용 없음->αβ제거 상호작용 있음->αβ고려 요인 2의 수준 1 요인 2의 수준 2 요인 1의 수준
SST = SSA + SSB + SSAB + SSE 각 관찰치를 네 개의 성분으로 분리하면 따라서 SST = SSA + SSB + SSAB + SSE
SST = SSA + SSB +SSAB + SSE 반복이 있는 경우의 이원분산분석표 요인 제곱합 자유도 평균제곱 F 요인 1 SSA g-1 MSA=SSA/(g-1) MSA/MSE 요인 2 SSB c-1 MSB=SSB/(c-1) MSB/MSE 상호작용 SSAB (g-1)(c-1) MSAB=SSAB/(g-1)(c-1) MSAB/MSE 잔차(오차) SSE gc(h-1) MSE=SSE/gc(h-1) 합계 SST gch-1
예제 화학공장에서 압력에 3개의 요인수준, 온도에 2개의 요인수준에 대해 각 3회의 수율실험을 하였다.각 요인의 영향을 분석하여라 (유의수준, 0.05) 200 250 300 저온 98 108 104 89 99 111 86 114 100 고온 115 106 102 109 121 92
200 250 300 합계 저온 98 108 104 89 99 111 86 114 100 계 273 321 315 909 평균 91 107 105 101 고온 115 106 102 109 121 92 303 345 297 945 총계 576 666 612 1854 총평균 96 103
SST = {(98-103)2+(89-103)2+…+(92-103)2}=1414 SSA = 2*3{(96-103)2+(111-103)2+(102-103)2}=684 SSB = 3*3{(101-103)2+(105-103)2}=72 SSAB = 3*{(91-96-101+103)2+(101-96-105+103)2 +…+ (99-102-105+103)2}=228 SSE = SST-SSA-SSB-SSAB=430
요인 제곱합 자유도 평균제곱 f F(0.05) 압력 온도 상호작용 잔차(오차) 합계 684 2 342 9.55 3.89 72 1 72 2.01 4.75 228 2 114 3.18 3.89 430 12 35.83 1414 17 압력 : 온도 : 상호작용 : 대립가설 채택->수율에 영향 줌 귀무가설 채택->수율에 영향 없음 귀무가설 채택-> 상호작용 없음
SPSS 실행 입력->분석->일반선형모형->일변량