Presentation is loading. Please wait.

Presentation is loading. Please wait.

ANOVA-test.

Similar presentations


Presentation on theme: "ANOVA-test."— Presentation transcript:

1 ANOVA-test

2 분산분석 관찰된 총분산을 파악한 후 이 총 분산이 어떤 요인으로 설명할 수 있는 부분과 우연으로 인한 부분(또는 설명이 안 되는 부분)으로 나누어 비교함으로써 각 요인이 영향을 주는지 그렇지 않은지를 판단한다. 분산분석의 목적은 표본간의 차이가 단지 우연(표집오차)에 의한 것인지 혹은 처치효과(systematic effects)로 인한 것인지를 결정한다.

3 분산분석의 개요 전체분산 설명되지 않는 분산 (오차분산) 어떤 요인에 의해서 설명되는 분산 (처치효과)
따라서 분산분석의 목적은 표본 간의 차이가 단지 우연(표집오차)으로 인한 것인지 아니면 처치 효과로 인한 것이 유의한지를 검정하는 것이다.

4 분산분석(실험계획법의 종류) 분산분석(실험계획법) 일원분산분석 -완전랜덤계획법
completely randomized design) 1개 요인 이원분산분석 -랜덤완전블럭계획법 (randomized complete block design) 2개요인, 교호작용 무시 -요인계획법(factor design) 2개요인 이상, 교호작용 고려 삼원분산분석 -라틴방격법(latin square design) 3개요인

5 분산분석(ANOVA=analysis of variance)
둘 또는 그 이상의 평균들간의 차이를 동시에 검증해야 할 필요가 있을 때 사용됨. 예를 들어, C라는 병원에 입원해 있는… 혈관성 치매 알츠하이머 치매 파킨슨 질환으로 인한 치매환자 중에서 각각 5명을 무작위로 추출한 경우 이상의 세 가지 질환을 가지고 있는 환자들의 일상생활 수행능력을 조사한 결과가 다음 표와 같다.

6 질환 수행능력 평균 SD 혈관성 치매 30 40 50 60 70 15.8 알츠하이머 치매 90 100 82 16.4
파킨슨 치매 95 96 4.2 이상에서 나타난 평균의 차이는 단지 표본 자료에서 나타난 차이일 뿐 모집단에서도 과연 유의미한 차이가 존재하는가하는 문제는 일정한 통계 검증의 절차를 거치기 이전에는-즉, 통계적 유의도 검증을 행하기 이전에는-명확한 해답을 제시할 수 없는 성질의 문제이다.

7 변량분석의 기본논리 -영가설 및 대립가설이 어떠한 방식으로 진술되는가를 살펴보면, 위의 표와 같이 진술된다.
각 집단들이 지니는 모집단 평균들이 모두 같지 않음을 뜻한다. j까지의 평균들 중에서 최소한 두 가지 이상이 같지 않음을 뜻한다. 영가설은 ‘각 집단들이 지니는 모집단 평균들이 모두 같음’을 뜻한다. -영가설 및 대립가설이 어떠한 방식으로 진술되는가를 살펴보면, 위의 표와 같이 진술된다. -위의 세가지 진술방식은 표면적으로는 서로 다르게 보이지만 실질적인 내용은 동일하다. -변량분석에서 대립가설은 특정한 집단들간의 구체적 차이는 지정되지 않은 채 다만 일부의 집단들 사이에 모집단 평균의 차이가 존재한다거나 혹은 일부의 집단들 에서 처리 효과가 존재한다는 식으로 진술된다는 사실을 알 수 있다.

8 변량분석의 해석 변량분석을 행한 결과 영가설이 기각되고, 대립가설이 수용되었을 경우 우리가 주장할 수 있는 것은
‘일부’의 집단들 사이에 통계적으로 유의미한 차이가 존재한다거나 혹은 ‘일부’의 집단들에서 유의미한 처리효과가 존재한다라고만 말 할 수 있을 뿐이지, 구체적으로 어느 집단과 어느 집단 사이에 유의미한 차이가 존재한다거나 혹은 구체적으로 어느 집단에서 유의미한 처리효과가 존재한다고는 밝힐 수가 없는 것이다. 만일 이와 같은 구체적 차이를 밝혀내고 주장하기 위해서는 별도의 추가적 분석이 요구되는데, 이를 사후비교(post-hoc comparison)라고 한다.

9 분산분석의 단계 전체자료 집합에 대한 전체 분산을 결정한다.
전체분산을 계산하기 위해서는 모든 독립된 표본의 점수를 결합하여 전체실험에 대한 분산의 일반 측정치를 구한다. 전체 분산량을 측정한 다음 그것을 작은 요소들로 나눈다. 분석이란 말은 작은 부분으로 나누는 것을 뜻한다. 분산을 분석하므로 이 과정을 분산분석이라고 한다.

10 집단간(처치간) 분산 (일정한 관찰대상이 특정한 집단에 소속됨으로 인하여 발생하는 효과)
변량분석에서는 본격적인 분석을 행하기 이전에 표본에서의 처리효과 혹은 집단효과를 먼저 계산한다. 모집단에서의 처리효과: αj=μj-μ 표본에서의 처리효과: a j=Yj-Y 여기에서 처리효과를 자세히 관찰하면, 모집단에서의 처리효과는 일정한 집단의 모집단 평균과 전체 모집단의 평균사이의 차이를 의미하며, 마찬가지로 표본에서의 처리효과는 일정한 지반의 표본평균과 전체표본의 평균사이의 차이를 의미한다. 실질적으로 연구자가 알고 있는 것은 표본에서의 처리효과 뿐이다.

11 치매환자의 일상생활수행력에서 독립변수는 [진단명]이며 종속변수는 [일상생활수행력]이다.
앞의 예제에서 처리효과는 혈관성치매=-26 알츠하이머 치매=6 파킨슨 치매=20 일상생활 수행력에서 혈관성 치매환자가 여타의 환자에 비하여 전체적으로 26점이 더 낮다는 사실을 의미하며, ……. 치매환자의 일상생활수행력에서 독립변수는 [진단명]이며 종속변수는 [일상생활수행력]이다.

12 집단간(처치간) 차이를 보이는 경우 처치효과 개인차 실험오차 서로 다른 처치로 인하여 발생되는 결과이다.
실험에 참가한 대상자들은 서로 다른 개인차, 즉 연령, 성, 태도 등의 차이가 있다. 표본간의 차이가 개인차로 인하여 발생한다. 실험오차 측정시 오차로 인하여 발생되는 결과를 말하며, 이는 주의부족이나 측정시 예상치 못한 일이 발생하여 생길 수 있다. 이 처럼 통제되지 않고 설명되지 않는 오차를 실험오차로 부른다.

13 집단내(처치내) 분산 집단내에서 분산이 있다. 집단내에서 차이를 보이는 이유는 개인차 실험오차
실험에 참가한 대상자들은 서로 다른 개인차로 인하여 발생된다. 실험오차 측정시 오차로 인하여 발생되는 결과를 말하며, 이는 주의부족이나 측정시 예상치 못한 일이 발생하여 생길 수 있다.

14 변량분석의 일반모형 일정한 집단 j에 소속된 i라는 사례의 값(혹은 관찰 값)을 나타낸다. 여기서 j는
변량분석의 유형은, -사용된 독립변수의 수가 단 한가지 인 경우; 일원변량분석(One-Way ANOVA) -두 가지 이상 복수의 독립변수들이 사용되는 변량분석; 이원변량분석(Two-Way ANOVA)이라 하고, 두 가지 이상 복수의 독립변수들이 사용되는 변량분석을 일반화된 용어로 요인설계 (Factorial Design)라고 한다. 모집단평균 모집단에서의 처리효과 모집단에서의 무작위오차 일정한 집단 j에 소속된 i라는 사례의 값(혹은 관찰 값)을 나타낸다. 여기서 j는 1에서부터 j까지 변화하며, i는 1부터 i까지 변화하는데 i는 일정한 집단(j)의 사례수 를 지칭한다는 의미에서 종종 nj 라는 기호로도 표현된다.

15 평균 구하는 공식 **위에서 제시된 치매환자들의 경우에, -전체 평균=76 -집단평균 _혈관성 치매=50
_알츠하이머 치매=82 _파킨슨 치매=96 이상을 바탕으로 일원변량분석의 일반모형을 구성하면 다음과 같다. ????

16 Y =76 혈관성 알츠하이머 파킨슨 Y11=30 Y12=60 Y13=90 Y21=40 Y22=70 Y23=95 Y31=50
Mean=50 Mean=82 Mean=96 Y =76

17 여기에서 혈관성 치매의 경우에는 일상생활수행능력이 평균 50점 근방인데, eij가 존재함으로 인하여 50점 이하의 점수를 지니는 환자들(30점 및 40점)이 있는가 하면 50점 이상의 점수를 지니는 환자들(60점 및 70점) 또한 있음을 의미한다. 이는 50점이라는 통계학 평균점수를 주위로 어느 정도의 변량이 존재함을 의미하는 것이기도 하다.

18 변량분석의 절차

19 표본통계치를 산출하는 방식 변량분석에서는 F라는 통계치를 사용 변량분석은
종속변수가 지니는 변량의 몇 %가 독립변수에 의하여 설명-처리효과-될 수 있고, 몇 %가 설명되지 않는가-오차-를 파악하기 위한 목적을 지닌다. 독립변수에 의하여 설명되어지는 종속변수의 변량을 파악한다는 점에서 변량분석이라는 용어가 유래 됨 변량분석은 모집단에서의 처리효과 및 오차간의 비율을 파악하는 것이라고도 말 할 수 있다.

20 The F Ratio

21 Two Sources of Variability

22 Two Sources of Variability

23 집단내이산 집단간이산 전체이산 전체자승합(SST) [ 0 ] 집단내자승(SSW) 집단간자승(SSB) SST=SSW+SSB

24 The F Ratio “mean squares between” “mean squares within”

25 The F Ratio Sum of Squares Degrees of Freedom “sum of squares within”
“sum of squares between” “degrees of freedom within” “degrees of freedom between” Sum of Squares Degrees of Freedom

26 The F Ratio “sum of squares total” “degrees of freedom total”

27 계산공식 SST=모형에 설정된 독립변수에 의하여 설명되어지지 않는 부분 및 독립변수에 의하
여 설명되어지는 부분의 합을 의미한다. SSW=모형에 설정된 독립변수 이외의 여타 요인들에 의하여 발생하는 효과로써, SST 가운데 독립변수에 의하여 설명되어지지 않는 부분을 의미한다. 즉, 종속변수 의 변량 가운데 모형에 설정된 독립변수에 의하여 설명되어지지 않는 오차를 의미함 SSB=모형에 설정된 독립변수에 의하여 발생한 처리 효과로써, SST 가운데 독립변수 에 의하여 설명되어지는 부분을 의미한다. 즉, 종속변수의 변량 가운데 설정된 독립 변수에 의하여 설명되어지는 부분을 의미한다. **결론적으로 이상의 값들을 구한 이유가, F-표본통계치를 구하기 위한 기본적인 값 들이다.

28 이상에서 살펴본 자료를 중심으로 위의 표와 같이 결과표를 제시할 수 있다.
-평균자승은 자승합을 자유도로 나누어준 값이다. *집단간 평균자승(Mean Squares Between Group 혹은 MSB) *집단내 평균자승(Mean Squares Within Group 혹은 MSW) 결론적으로 F-표본통계치는 MSB/MSW

29 F-표본 통계치의 특성 통계치는 MSB와 MSW의 비율이기 때문에 J-1(ν1)및 N-J(ν2) 만큼의 자유도를 지닌다.
항상 1 이상의 양수 값만을 지닌다. F 통계치의 분자에 해당하는 MSB는 독립변수의 처리효과를 나타냄에 비하여 분모에 해당하는 MSW는 독립변수 이외의 오차를 나타낸다는 사실에 비추어 볼 때, 만일 MSB와 MSW는 동일한 값을 갖게 되어 F 표본통계치는 결국에 1이 될 것이다. 대립가설의 진술이 MSB>MSW와 같은 방식이다. 따라서 모든 변량분석이 실제로 단측검증이라는 사실을 시사한다. 변량분석에서도 F-표본통계치와 F-기각치를 비교하여 ( ) 상대적으로 크면 영가설을 기각하고, ( )가 상대적으로 크면 영가설을 기각하지 못하게 된다.

30 변량분석을 위한 전제조건 각 집단에서 추출된 표본들은 무작위추출과정을 거쳐야 한다.
각 표본이 추출된 모집단은 정규분포를 형성하여야 한다. 변량분석에서 종속변수는 반드시 연속형 변수이어야 한다. 독립변수를 바탕으로 종속변수의 변화를 추정하는 과정에서 발생하는 오차는 평균이 ‘0’이고 일정한 변량을 지니는 정규분포를 형성하여야만 한다.

31 η ²(에타자승) 대립가설이 선정되었을 때, 실질적으로 독립변수와 종속변수간의 관계의 강도를 파악하기 위한 목적으로 특정한 통계치를 계산하는 것이 일반적인데, 이와 같은 통계치를 말한다. 독립변수에 의해서 설명되어진 종속변수의 변량을 나타내는 통계치이다. 범위는 [0~1]까지이며 0 인 경우는 두 변수간에 전혀 연관성이 없는 완전 독립적인 상태이다. 1 인 경우는 두 변수가 최고의 연관관계를 지니고 있음을 나타낸다.

32

33

34

35 즉, 일상생활 수행능력이 지니는 변량의 72%가 치매 진단에 의하여 설명되었다
는 사실을 확인할 수 있다. 이는 또한 일상생활수행능력이 지니는 변량 가운데 28%는 치매 진단에 의하여 설명되어 지지 않는 오차에 해당된다는 사실을 제시 하는 결과이기도 하다.

36 사후검정(Scheffe test) 제1종 오류(알파)를 줄이기 위해 사용하기 때문에 Scheffe 검정은 모든 사후 검정 중에서 보수적이다. F비를 사용하여 두 처치 간의 유의한 차를 검정한다. F비의 분자는 비교하는 두 가지 처치를 사용하여 계산한 처치간 평균제곱합(MSA)이며, 분모는 전체분산 분석에 사용된 같은 처치 내 평균제곱합(MSW)이다.

37 Scheffe 검정의 안전요인 단지 두 처치만을 비교하더라도 scheffe 검정은 원실험의 k 값을 이용해서 처치간 df을 계산한다. 그래서 F비의 분자의 df는 k-1dlek. Scheffe F비는 임계치는 전체분산분석에서 F비를 측정할 때 사용한 것과 같다. 그러므로 Scheffe는 모든 사후검정이 전체분산분석에 사용된 것과 같은 준거를 만족할 것을 요구한다.

38 세가지 종류의 진통완화제(A,B,C)의 효과를 측정하기 위한 정규분포하는 독립
표본 실험에서 얻은 것이라고 가정하자. 위약을 받은 네번째 집단도 실험한다. 본 실험의 목적은 이 표본 자료가 네가지 약들간에 유의한 차이가 있는지 알아 보는 것이며, 종속변수는 실험대상자들이 자극을 견딜 수 있는 시간(초)이다. 자극을 견딜 수 있는 시간(초)으로 측정한 약품효과 위약 약A 약B 약C 3 5 7 2 4 1 요인 SS df MS F 집단간 30 3 10 F =5.00 집단내 16 8 2 전체 46 11

39 4가지 조건 중에서 가장 큰 평균의 차이를 보는 것부터 시작하여 유의하지 않은 것이 나올때까지 점차 작은 차이를 검정한다.
위약과 약품C 사이에서 이 두처치의 집단간 제곱합 SSB을 계산하는 것이 첫 단계이다. SSB=24  MSB=24/3=8 F=MSB/MSW=8/2=4.00 임계치는 df=3,8이고 알파=0.05일때 F의 임계치는 4.07이다. F 값이 4.00으로 F 임계치 4.07보다 작은 영역에 속해 있으므로 영가설을 수용하게 된다. 여기에서의 가설을 설정하시오.

40 An Example: ANOVA CP ADHD AUTISM 10 5 4 7 1 6 3 9 8

41

42 An Example: ANOVA

43 ANOVA_Lab

44 예제1 영가설을 수용하였으므로, -모집단에서 종교와 삶의 질 사이에는 95% 수준에서 통계적으로 유의미한 차이가
존재하지 않는다. -모집단에서 종교는 삶의 질에 대하여 α=0.05 수준에서 통계적으로 유의미한 처리 효과가 존재하지 않는다.

45


Download ppt "ANOVA-test."

Similar presentations


Ads by Google