: Two Sample Test - paired t-test - t-test - modified t-test

: Two Sample Test - paired t-test - t-test - modified t-test
9. 두 표본의 가설 검정 : Two Sample Test - paired t-test - t-test - modified t-test

Two Sample Test 단일표본의 평균치 검정에서는 한 개의 모집단의 알려지지 않은 평균치 를 알려진 모평균 0와 비교하였다.. 더 흔한 경우는 두 개의 서로 다른 모집단의 평균 1와 2를 비교하는 것이다. : Two Sample Test 그래서 두 모평균이 같은지를 증명하고자 한다. 이때 두 모평균 1와 2는 알려져 있지 않은 (unknown) 값들이다.

두 모평균들이 짝을 지은 표본으로부터 도출된 평균들인지, 두 개의 독립적인 표본으로부터 도출된 평균들인지에 따라 가설 검정 방법이 달라진다.
1 and 2 came from two dependent data (= a paired data) 1 and 2 came from two independent data

Paired data 짝을 지은 두 표본을 비교하는 경우 한 집단의 각 측정치는 다른 집단의 특정 값과 대응하게 된다. (paired or dependent data)

An example of pairing 1 : 자가 짝짓기
자가 짝짓기(self-paring)는 한 사람에게서 두 개의 측정이 일어났을 때 사용한다. 수면제의 효과를 파악하기 위하여 10명 환자에게 수면제 한 번, 위약 한 번을 투여하였다. 환자 별로 수면제를 준 날 밤의 수면 시간과 위약을 준 날 밤의 수면 시간을 각각 측정하였다. 환자당 1 쌍의 수면 시간, 즉 (수면제를 준 날 수면 시간, 위약을 준 날의 수면 시간) 이 기록될 것이다.

Sleep duration under pill A Sleep duration under Placebo
A sleep duration under A and the sleep duration under placebo are from the same participant. Participant 2 Participant 1 Participant 2 Participant 1 Participant 3 Participant 3 Participant 4 Participant 4 Participant 10 Participant 10 𝑆𝑙𝑒𝑒𝑝 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛𝑖=𝑆𝑙𝑒𝑒𝑝 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛 𝑜𝑓 𝑝𝑖𝑙𝑙 𝐴𝑖 −𝑆𝑙𝑒𝑒𝑝 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛 𝑜𝑓 𝑃𝑙𝑎𝑐𝑒𝑏𝑜𝑖

An example of pairing 2 : 두 독립표본의 matching
첫 집단에 속한 사람과 성, 연령 등에 있어 비슷한 성격을 가진 사람을 두 번째 집단에서 골라 짝을 지을 수 있다. We want to know if BP is higher in renal syndrome patients than in healthy persons. Blood pressure was measured from patients with renal syndrome and healthy controls. We want to compare the mean BP of patients with renal syndrome and that of healthy controls. By design, we match (or pair) a patient with a control person based on his/her sex, age and race.

Patients with renal syndrome Healthy control persons
Female, age=49, Asian Male, age=29, White Female, age=44, Asian Male, age=25, White Male, age=31, Black Male, age=35, Black Male, age=31, White Male, age=27, White Matching Variable: -Sex -Age(5) -Race

Why do we pair? 짝짓기를 하는 이유는 외적 변이도를 최소한으로 유지하고자 하는 목적에 있다.
Ex1) We want to control the variations in BP due to other factors such as age, sex, race, obesity, genetic composition etc. By paring BPs from the same patient, we are able to control the variation for everything other than the treatment A. Ex2) By paring BPs from a patient and a control with the same sex, age, and race, we are able to control the variation for sex, age, and race other than the disease status.

Paring 을 무시하고 분석하면? Example 1에서 수면제를 준 날의 평균 수면 시간과 위약을 준 날의 평균 수면 시간을 비교하여 수면제 효과를 평가하게 되면, 같은 사람의 측정치가 2회 들어가게 되는 특수 상황을 무시하게 된다. 즉, 불필요한 외적 변이도를 계속 유지한 채로 분석하게 되어 연구 검정력을 떨어뜨린다. 따라서 Treatment A 군의 특정 값은 placebo군의 특정값 하고만 비교한다.

Hypothesis test for paired data

Hypothesis for paired data
If =0, the pill has no effect. H0 :  = 0 = 0 H1 :   0 각 약을 주었을 때의 수면시간을 두 개의 독립적인 측정으로 간주하지 않고 각 쌍의 값의 차이에 초점을 맞춘다. i 번째 사람의 수면 시간의 차는, 이다.

각 사람들의 수면 시간의 차 가 정규분포를 하고 그 평균이 라 하자.
각 차들은 한 개의 관측치로 취급할 수 있으며, 알려진 모평균 0 에 대한 단일표본 t-검정을 시행할 수 있게 된다. The test method becomes the same as the one-sample t-test.

짝지은 t 검정 Paired t-test Sample mean of the is,
And the standard deviation is, where n is number of pairs. Test statistics is , d.f.=n-1 If or then we reject H0.

Example 위약과 비교하였을 때 개인별로 수면제를 주어서 증가한 수면 시간을 10명에 대해 평균을 내면
이며, 그 표준편차는 이다. 표준오차는 =0.56 시간이 된다. 수면 시간의 차이가 정규 분포를 따른다면 t= 은 자유도 9인 t 분포를 따른다. with d.f.=9

T-distribution table 읽기
자유도 9인 t 분포의 양측 (two-sided) 5% 퍼센티지 포인트는 2.26이고, 이는 절대값이 2.26이 넘는 t 값이 관찰될 확률은 5%임을 의미한다. 2% 퍼센티지 포인트가 2.82, 1%의 경우 3.25이다. 따라서 관찰된 t 값인 3.18은 2.82와 3.25 사이에 있으므로, 이 값을 관찰할 확률은 2%와 1% 사이이다.

What is the degrees of freedom?
t-distribution table What is the degrees of freedom? What is the p-value? t-distribution with 10 d.f.

검정 결론 수면 시간의 차이는 따라서 2% 수준에서 유의하다 (significant at the 2% level)고 말할 수 있다. 왜냐하면 이 정도의 큰 차이가 우연에 의해서 나타날 확률은 2%가 안 되기 때문이다. P 값은 P<0.02 또는 0.01<P<0.02로 표시한다. 결론: 귀무가설을 기각한다. 수면제와 위약간에 수면 시간에 있어서 차이가 있으며 사실상 수면 시간을 늘려준다.

정확한 t1-α/2 혹은 p-value 구하기 이론적으로는 3.18이라는 t 값에 대응되는 정확한 확률을 계산할 수 있으며 일부 컴퓨터 프로그램은 그러한 기능을 가지고 있다. 그러나 손으로 계산으로 하기 위해서는 각 자유도에 대하여 다양한 t 값에 대한 확률표를 가지고 있어야 한다. 이는 매우 방대한 양이기 때문에 대부분의 경우 해당 자유도에 있어 몇 가지 퍼센티지 포인트만 제시해 준다. 만일 계산된 t값이 표에 존재하지 않는 값이라면 그 값에 가장 가까운 두 값을 찾아 p-값의 범위를 제시할 수 있다. 이 정도도 가설검정의 결론을 내리는 데는 지장이 없다.

Estimation of true increase
일단 약이 실제 효과가 있다는 사실을 파악한 후에는 일반적으로 그 약에 의하여 증가하는 수면 시간이 어느 정도인지 제시할 필요가 있다. 이것은 (예를 들어) 95% 신뢰 구간으로 제시된다.

100(1-α)% Confidence Interval in paired data
짝을 지은 두 표본의 모평균들의 차이의 모평균에 대한 100%x(1-α) 신뢰구간은, 위의 예에서 투약으로 인해 증가한 수면시간의 모평균의 95% 신뢰구간은, 1.78±(2.26×0.56) (0.51, 3.05) 즉, 0.51에서 3.05 시간이다.

신뢰구간의 가설검정적 해석 이 결과를 가지고 가설검정에 준하는 해석을 내려보자.
이 구간에는 귀무가설인 “0 시간 증가” 가 포함되지 않으므로 결론은 “투약으로 인해 수면시간이 1.78시간 증가하며 이는 5% 유의수준에서 통계학적으로 유의한 증가이다.”

독립된 두 표본의 t 검정 지금부터는 두 개의 독립된 표본들에서의 평균치 비교를 해 보고자 한다.
독립된 표본들이라 함은 한 표본의 측정치는 다른 표본의 측정치와 아무 관련 없이 측정되는 자료들이다. 한 표본의 모평균과 다른 표본의 모평균은 둘 다 알려지지 않은 값이다. 우리는 두 독립된 표본 평균치들이 같은 모평균에서 나온 것인지 서로 다른 모평균에서 나온 것인지를 판정하고자 한다.

두 독립 표본의 예 Cystic fibrosis(낭성 섬유증) 아동과 정상 아동의 혈중 철분 수준을 비교하고자 한다.
정상아 중 무작위로 n1=9명을 뽑고 Cystic fibrosis 환아 중 무작위로 n2=13명을 뽑았다. 두 집단의 표본 수는 달라도 된다. 두 집단의 혈중 철분 값은 독립적이며 정규분포를 한다. 정상아군은 평균 1 분산 12 을 갖고 cystic fibrosis 군은 평균 2 분산 22 을 갖는다.

Cystic Fibrosis Patients Normal Control Children
Fe levels in normal children and those in cystic fibrosis patients are independently measured. 2, 22 1, 12

Two sample t-test 귀무가설과 대립가설은: H0 : 1 = 2 H1 : 1  2
1 = 2 = 0?

Distribution of the differences of the two means
우리는 이면, 임을 배웠다. Controls Cystic fibrosis 𝑥 1 12 𝑥 2 22 n1 n2

Variance of the differences of the two means
두 집단의 평균 차의 분산을 추정하는 과정에서 두 가지 상황이 벌어질 수 있다. 1) 두 집단의 분산이 같은 경우 2) 두 집단의 분산이 다른 경우

등분산 가정시 Equal Variances
두 집단의 분산이 같고 모분산을 알고 있다고 하자.( ) 그러면 위의 식은, 따라서 검정 통계량 z 로 가설검정 한다.

Z- distribution (표준정규분포)

Unknown but Equal Variances
두 집단의 분산이 같되 모분산을 모르면 표본 분산 sp2 을 사용해야 한다. 이 경우 t 검정통계량을 산출한다. with d.f.=n1+n2-2 여기서 쓰인 공통표본분산 sp2 (pooled estimate of the variance)는 다음과 같이 구한다. Controls Cystic fibrosis 𝑥 1 s12 𝑥 2 s22 (즉 s12 과 s22 의 가중평균) n1 n2

t-distribution A collection of distribution depending on the degrees of freedom.

Two sample t-test 귀무가설 1 - 2=0 하에서 t 검정통계량은 t 분포를 따르며, 자유도는 n1 + n2-2 이다. t 검정통계량을 이용하여 우리가 관찰한 | | 값 혹은 이보다 더 큰 값을 관찰할 확률이 얼마인지 구하면 그것이 p-value 이다. 만일 이 p-value <  면 귀무가설을 기각한다. 만일 이 p-value   면 귀무가설을 기각하지 못한다. 이러한 가설 검정 방법을 두 표본 t 검정법 (two-sample t test) 이라고 한다.

Cystic Fibrosis Example
9명의 정상아들에서 혈중 철분을 잰 결과 평균은 mol/l, 그리고 표준편차 s1=5.9 mol/l이었다. 13명의 cystic fibrosis 환아들의 혈중 철분 평균값은 mol/l, 그리고 표준편차 s2=6.3mol/l이었다. We will assume the two samples are normally distributed and

두 군의 모집단의 공통분산 2를 모르고 있으므로 공통 표본분산을 구해야 한다.
따라서 검정통계량 t 는,

What is the degrees of freedom?
t-distribution table What is the degrees of freedom? What is the p-value? t-distribution with 10 d.f.

검정 결론 자유도 20인 t 분포에서 2.63은 윗 꼬리 부분 확률이 0.01(t20,0.99=2.528) 과 0.005(t20,0.995=2.845) 사이인 지점에 해당한다. 따라서 양측 p-value는, 2(0.005) < p < 2(0.01) 또는 0.01 < p < 0.02 이다. p < 0.05 이므로 귀무가설을 기각한다. 결론: 두 집단의 평균 혈중 철분 농도에 차이가 있다. 사실상 cyctic fibrosis 환아들에서의 철분 농도가 정상아들보다 더 낮다.

등분산 가정하에서의 100(1-α)% CI t 분포 하에서의 의 100(1-)% 신뢰구간은
If the 95% CI does not include the null hypothesis value (=0), “The mean difference of the two samples is statistically significant at 5% significance level”.

True difference of iron levels
cystic fibrosis 환아와 정상아의 혈중 철분농도의 평균치 차는 = 7.0 이다. 이 값은 의 점추정치 이다. 자유도 20인 t분포에서 95%의 관찰치가 과 사이에 존재한다. 즉 t20,0.975=2.086이다. 의 95% 신뢰구간은 =(1.4, 12.6) 이 구간은 0을 포함하지 않으므로 ( )%유의 수준에서 유의한 결과이다.

두 집단의 분산이 다른 경우 Unequal Variances
이런 경우에는 공통표본분산을 산출하는 의미가 없어진다.(no sp). 따라서 약간 변형된 t 검정법을 사용하여야 한다. (modified version of the two-sample t test) 이므로 σ 대신 s 를 사용한다. 따라서 검정통계량은, 불행히도 이 통계량의 분포가 어떤 모양을 가지는지 정확하게 그려내기가 힘들다.(don’t know the d.f.)

Satterthwaite approximation
그러나 귀무가설 1 - 2=0 하에서는 이 통계량이 대략적으로 자유도 d” 하에서 t 분포를 따르게 된다. d’ 를 다음과 같다고 하자. d” 는 d’를 내림한 값이다. (즉 d’=12.6 면 d”=12) 이런 방법을 Satterthwaite approximation 이라 한다. 사실상 두 분산이 다를 때 두 평균치 분석에서 가장 어려운 부분은 바로 이 자유도를 계산해 내는 일이다. Modified two sample t-test 는 Satterthwaite approximation으로 자유도를 구한 t-test 이다.

이분산에서의 100(1-α)% CI 두 표본의 분산이 다를 경우 신뢰구간은, 이다.
두 집단의 분산이 같은 경우와 비교해 d.f.변화로 인해 t 값이 달라짐에 유의하자.

(Homework) 앞의 Cystic Fibrosis 예에서 분산이 다르다고 가정하고 t-test를 시행하고 95% CI를 구해보라.

두 분산의 동질성 검정 (test for equal variance)
두 분산이 같은지 다른지를 알아보기 위해 또 검정을 시행할 수 있다. H0: 12=22 H1: 1222 우리는 표본에서 얻어진 두 분산의 비 (s12/s22) 를 계산하여 이 값이 너무 작거나 너무 크면 (즉 1에서 멀어질수록) 두 분산의 크기가 다르다고 판단한다. 이를 위해 s12/s22 의 분포가 어떤 모양을 가지는지 알 필요가 있다.

F ratio for equal variances
귀무가설 하에서 s12/s22 는 F 분포를 따른다. with d.f. of n1-1 and n2-1 ( ) 양측검정을 시행한다.

F distribution t 분포와 마찬가지로 자유도에 의해 모양이 결정되는 일련의 분포들의 집합체이다.
F 분포는 positively skewed 되어있으며 양의 값만 갖는다.

F-distribution

F 분포는 upper percentile points 만 제시한다
F 분포는 upper percentile points 만 제시한다. F 분포의 대칭성을 이용하여 lower percentile points를 유추한다. F 분포에서 분자와 분모의 d.f.가 n1-1, n2-1인 lower pth percentile 값은 분자와 분모의 d.f.가 n2-1, n1-1인 upper pth percentile 값의 역수와 같다.

The table for F distribution presents upper percentage points only.

F-distribution Table

F distributions with 4 and 12 df and with 10 and 100 df

F-test for equal variance

Conventional vs. Modified t-test
두 분산의 동질성 검정은 검정력이 떨어지는 것으로 증명된 바 있어(= big -error), 실제 modified two sample t test 를 사용해야 할 곳에 일반적인 two-sample t test 를 사용해버리는 경우가 있다. 두 집단의 분산이 같은지 다른지 모르는 경우에는 modified two sample t test가 더 큰 검정력을 가진 것으로 알려져 있다. 두 집단의 분산이 같다고 확신이 드는 경우에는 이 정보를 이용하여 일반적인 t-test를 시행할 수 있다(계산이 더 간단).

(Homework) 앞의 Cystic Fibrosis 예에서 두 비교집단의 분산이 같은지 F-검정을 시행해보라.

짝표본에 의한 모평균 차의 검정 AIDS 환자에 대해 A의사와 B의사가 각각 측정한 림프절의 수에 차이가 있는지 알아보자.
Patient Doctor_A Doctor_B 1 4 2 17 9 3 11 13 5 12 6 7 8 10 ︙ PROC TTEST DATA=ohk.nodes; PAIRED doctor_A*doctor_B; RUN;

짝표본에 의한 모평균 차의 검정 pair의 수 ⇒ p-value가 보다 작기 때문에 귀무가설을 기각한다. 따라서 A의사와 B의사가 각각 측정한 림프절수가 유의하게 다르다는 것을 알 수 있다.

두 독립표본에 의한 모평균 차의 검정 남성과 여성의 FEV에 차이가 있는지 알아보자.
그룹을 나타내는 변수 Id Sex FEV 301 1.708 451 1.724 501 1.72 642 1 1.558 901 1.895 1701 2.336 1752 1.919 1753 1.415 1901 1.987 1951 1.942 1952 1.602 2001 1.735 2101 2.193 2401 2.118 ︙ PROC TTEST DATA=ohk.FEV_t; Class sex; VAR fev; RUN;

두 독립표본에 의한 모평균 차의 검정 ⇒ 두 집단의 FEV 차의 95%CI. 차이는 5% 유의수준에서 유의하게 >0 이다. ⇒ p-value가 보다 작기 때문에 귀무가설을 기각한다. FEV는 남성과 여성에서 유의한 차이를 보였으며 사실상 여성에서 FEV가 더 높음을 알 수 있다. 분산이 동일한지 검정 귀무가설 : σ21=σ22 대립가설 : σ21≠σ22

Analysis of Variance (ANOVA)
10. 세 개 이상의 평균치 분석 Analysis of Variance (ANOVA)

일원성 분산 분석 비교 하고 싶은 집단이 3개 혹은 그 이상인 경우에는 어떻게 할 것인가?
Two-sample t test 를 연장하면 3개 이상의 평균치 비교도 가능해 진다. 이를 일원성 분산분석 (one-way analysis of variance) 라고 부른다.

Example 과체중인 성인 남자를 세 집단으로 나누어 추적관찰을 시작하였다. 첫 번째 집단은 식이조절은 하되 운동은 하지 않았고, 두 번째 집단은 정기적으로 운동은 하되 식이조절은 하지 않았고, 세 번째 집단은 식이조절도 운동도 하지 않았다. 1년 후 각 대상자들의 체중 변화를 측정하였다. 식이조절 운동 대조군 1, 12 2, 22 3, 32

세 집단의 평균비교 i 번째 집단 (i =1, 2, 3) 의 표본 수를 ni 라 하고, 평균을 , 그리고 표준 편차를 si라 하자. 세 집단간에 체중변화량의 평균에 차이가 있겠는가? 세 평균을 어떻게 비교하면 좋겠는가?

세 집단이 대표하는 기저 모집단에서의 체중 변화량의 평균을 각각 1, 2, 3 라 하자.
증명하고자 하는 귀무가설은 세 모평균이 서로 같다는 것, H0 : 1 = 2 = 3 대립가설은 세 모평균 중 적어도 한 개는 다르다는 것, H1 : i  j

왜 t-test를 쓰면 안되는가? 세 평균들을 한 쌍씩 two-sample t test로 계속 비교하면 되지 않을까?
이 경우 세 평균을 비교하게 되면 번의 검정을 시행해야 한다. 비교 군이 3개 보다 많으면 훨씬 더 많은 검정을 시행해야 한다. 뿐만 아니라 검정을 많이 시행하게 되면 잘못된 결론을 도출할 가능성도 높아진다.

만일 1 = 2 = 3 이 사실이고, 세 번의 검정은 독립적이고, 각 검정이 유의 수준 0.05 에서 시행된다면,
P(3 번 모두 H0 를 기각하지 않음) = (1-0.05)3 = 0.857 따라서 P(적어도 1번 H0 를 기각) = = 0.143 = P(type I error)

세 번의 검정을 통틀어  오류를 범할 확률이 0.05 보다 높아진 것을 확인할 수 있다.
우리는 세 번 검정을 통틀어  오류를 범할 확률을 어떤 고정된 값 (예를 들어 0.05) 에 놓이길 원한다.

분산분석의 가설 일반적으로 k 개의 독립적이고 정규 분포를 하는 표본의 평균을 비교할 때 다음과 같은 귀무가설을 세운다.
H0 : 1 = 2 = …. =k 여기서 k 집단의 모분산도 모두 동일하다고 가정할 수 있어야 한다. (1=2=3=……=) 일원성 분산분석은 그 이름이 의미하듯이 평균 대신 분산 추정치들의 값을 비교하여 각 군의 평균에 차이가 있는지 검정한다.

2가지 분산 여러 개의 집단을 비교할 때는 2가지 종류의 분산을 생각해 볼 수 있다.
각 집단의 평균 주위로 분포하는 개별 측정치들의 분산 (1), 과 모든 집단을 통합했을 때의 전체 평균 주위로 분포하는 표본 평균들의 분산 (2) 의 2가지 이다. 만일 각 집단 내 분산 (1) 이 평균들의 분산 (2) 에 비해 작으면, 이는 각 집단의 평균들이 다르다는 것을 의미한다.

따라서 우리는 다음 질문에 대한 답을 구한다. : 자료의 변이도는 집단 내 분산 (within group variance) 에서 주로 오는가 아니면 집단 간 분산 (between group variance) 에서 주로 오는가?

기호 정의 i 번째 집단에서 ni 개의 표본을 뽑는다고 하자. i 번째 집단의 j 번째 관측치를 xij 라 하자. i xij
1 x11 , x12 , x13 , x14 ,….., x1n1 2 x21 , x22 , x23 , x24 ,….., x2n2 3 x31 , x32 , x33 , x34 ,….., x3n3

i 번째 집단의 표본평균은 가 된다. 는 표본들 전체의 평균 (overall mean)이다. 이를 대평균 (grand mean) 이라 부르기도 한다.

전체 자료의 변이도는 각 측정치가 대평균에서부터 떨어진 정도를 측정하여 알아볼 수 있다.
여기서 는 i 번째 군에서 각 측정치들이 i 군 평균으로부터 떨어진 정도이며 이를 집단 내 변이도 (within group variation) 이라 한다. 는 i 군 평균이 대평균으로부터 떨어진 정도를 나타내며 이를 집단간 변이도 (between group variation) 라 한다.

위 식의 양쪽 항을 제곱하고, 각 측정치에 대해 모두 합산하면,
즉, SST = SSW + SSB Total Sum of Squares (SST) Within group Sum of Squares (SSW) Between group Sum of Squares (SSB)

다시 원래의 질문으로 돌아가, 집단간 변이도가 집단 내 변이도보다 큰지 작은지를 판단해 보자.
우선 집단 내 변이도를 측정한다. 집단 내 제곱 합인 SSW 는 전체 표본 수 n=n1 + n2 + n3 라고 하면, 집단 내 평균 변이도는 이 수치를 집단 내 평균 제곱 (within groups mean square) 이라고 한다.

Within groups mean square
MSW 가 two-sample t test 에서 구했던 두 군의 공통분산 (pooled estimate of the common variance) 구하는 방법과 비슷하게 구해진 것에 주시하기 바란다. 즉 MSW는 일원성 분산분석에서의 공통분산 pooled estimate of the variance for one-way ANOVA 이다. 만일 세 군의 기저 모집단의 분산이 동일하지 않다면 ANOVA 를 사용해서는 안된다. 다행히 ANOVA 검정은 동일 분산의 가정이 약간씩 위배되어도 그렇게 민감하지는 않다. 그러나 집단 내 분산이 2 배 이상 차이가 난다든지 하는 경우에는 ANOVA 를 사용하면 안될 것이다.

이제 집단간 변이도를 구해보자. 우선 집단간 제곱의 합인 SSB 는, 따라서 집단간 평균 변이도는 이 수치를 집단간 평균 제곱 (between groups mean square) 라고 부른다.

F-test in ANOVA 귀무가설은 세 집단의 모집단의 평균이 모두 같다는 것이었다. 이를 검정하기 위해 F 검정통계량을 사용한다. k 는 비교하는 집단의 수이다. Fk-1,n-k distribution p-value F

H0 하에서 F 검정통계량은 자유도 k-1 및 n-k 를 갖는 F 분포를 한다.
F 검정통계량이 크면 H0 를 기각한다. 구체적으로 유의수준  일때 F > Fk-1, n-k, 1- 면 귀무가설을 기각한다. ANOVA 에서는 단측, 양측 구별하지 않고 무조건  전체를 생각한다. P 값은 F 검정통계량 보다 큰 값에 해당하는 Fk-1, n-k 곡선 아래에 있는 면적이다.

1년이 지난 후 체중 변화량을 측정한 결과 다음과 같은 표를 얻었다.
과체중에 관한 임상시험으로 돌아가 보자. 집단 1 : 식이조절 집단 2 : 규칙적인 운동 집단 3 : 아무 것도 안함 1년이 지난 후 체중 변화량을 측정한 결과 다음과 같은 표를 얻었다. 따라서 k=3, n= =131 이다. 집단 ni si 1 42 -7.2 3.7 2 47 -4.0 3.9 3 0.6

대평균은, 집단 내 변이도는

집단간 변이도는, 귀무가설 H0: 1 = 2 = 3 을 유의수준 0.05 로 검정하려면 검정통계량 F 가 필요하다.

자유도 3-1=2, 131-3=128 을 갖는 F 분포에서 45. 4 보다 오른쪽 영역은 0. 001 보다 작다
자유도 3-1=2, 131-3=128 을 갖는 F 분포에서 45.4 보다 오른쪽 영역은 보다 작다. 표 9를 이용하면 자유도 2, 120인 경우 F = F0.999 = 7.32 이다. 45.4는 7.32 보다 크므로 p<0.001 이다. SAS 를 이용하여 F 분포상에서의 정확한 p 값을 계산하면 p=1.22x10-15 이다. 따라서 p <  이므로 귀무가설을 기각한다. 결론은 세 군간에 적어도 한 쌍은 체중변화의 모평균에 있어서 차이가 난다는 것이다.

ANOVA Table 일원성 분산분석의 결과는 흔히 ANOVA table 로 나타낸다. 일반적인 ANOVA 표는 다음과 같다.
Sources of Variation SS df MS F p Between 1292.4 2 646.2 45.5 <0.001 Within 1822.2 128 14.24 Total 3114.6 Sources of Variation SS df MS F p Between SSB k-1 MSB MSB / MSW Within SSW n-k MSW Total SST

다중비교 (multiple comparison)
귀무가설 H0를 기각하는 경우에는 어떻게 결론을 내리는가? 결론은 “각 집단의 모 평균간에 차이가 있다”이다. 이 이상은 구체적으로 말하기 어렵다. 따라서 추가적인 검정을 시행하여 어떤 집단끼리 차이가 나는지 구체적으로 알고자 한다.

다중비교를 위한 다양한 방법들이 개발되어 있다.
ANOVA로 전체 군간에 차이가 존재함을 밝힌 후, 두 군씩 비교를 반복하여 어느 군 간에 차이가 있는지 밝힌다. 두 군의 비교는 평균치 비교로 비교한다. LSD (least significant difference) 방법은 각 쌍의 비교를 two-sample t test (등분산 가정하에서) 로 한다.

LSD 다중비교 각 쌍의 비교에서 귀무가설은 H0 : i = j 검정통계량 t 는
여기서 MSW 가 공통분산 공식이 k 개의 표본으로 연장된 형태에 의해 구해졌던 점을 기억하자. H0 하에서는 tij 가 자유도 n-k 의 t 분포를 따른다.

과체중 예로 돌아가 귀무가설 1= 2 , 1 = 3 , 그리고 2 = 3 을 각각 검정해보자
과체중 예로 돌아가 귀무가설 1= 2 , 1 = 3 , 그리고 2 = 3 을 각각 검정해보자. 세 개의 검정통계량을 구해보면,

위의 3 가지 t 검정통계량들은 자유도 131-3=128 의 t 분포를 따른다.
각 t 검정통계량에 대한 양측검정 p 값은 모두 <0.001 이다. (구체적으로는 1.10x10-4, 1.89x10-16, 6.51x10-8) 따라서 유의수준 0.05 보다 작다. 따라서 귀무가설을 기각한다. 결론은 세 치료군 각각이 유의하게 체중감소량이 차이났고, 식이조절군, 운동군, 아무 치료를 안한 군의 순으로 체중감소가 컸다.

본페로니 보정 다중비교 시에 비교의 횟수가 너무 많아지면 전체적으로  오류 크기가 커진다.
즉 우연에 의해서도 유의한 차이를 갖는 쌍을 발견할 확률이 커지는 것이다. 따라서 전체 비교의 유의수준을 에 고정시키는 방법이 필요한데, 가장 대표적인 방법이 본페로니 보정 Bonferroni correction 방법이다.

전체 비교에서의 유의수준이 를 넘지 않게 고정하면서 k 개의 평균을 비교하고자 할 때, 각 쌍의 비교에 적용하는 유의수준 
즉,  를 비교의 횟수 만큼으로 나누어 주는 것이다.

상기 체중감소의 예로 돌아가서 본페로니 보정을 시도하면,
3개의 비교를 시행해야 하므로 각 비교에는 * = 0.05 / 3 = 의 유의수준을 적용해야 한다. LSD 법으로 치료군 1과 2, 2와 3, 3과 1간의 평균차를 각각 검정하였다. 각 t 검정통계량에 대한 양측검정 p 값은 모두 <0.001 이었다. 이는 보정된 유의수준 보다 작다. 따라서 귀무가설을 기각한다.

결론은 식이조절 군에서 평균 체중감량이 가장 컸고, 운동 군이 두 번째로 감량이 컸다
결론은 식이조절 군에서 평균 체중감량이 가장 컸고, 운동 군이 두 번째로 감량이 컸다. 아무것도 하지 않은 군에서 체중감량이 가장 작았다 (혹은 이 군에서는 실제로 체중이 늘어났을 수도 있다.) 양측검정을 한 경우에도 결론은 연구자가 주관적으로 갖고 있는 방향으로 내려도 무방하다. (양측검정은 검정을 좀 더 보수적으로 해 보자는 의의가 중요한 것이다.)

본페로니 보정의 문제점 본페로니 보정의 문제점은 과도하게 엄격한 유의수준을 제시하는 경향이 있다는 것이다. 비교군의 수 k가 커지면 LSD 방법에서의 임계치인 t1-/2는 크게 변하지 않는 반면 Bonferroni 다중비교법의 임계치인 t1-*/2 는 급격히 커진다. 따라서 실제 차이가 있음에도 불구하고 귀무가설을 기각하지 못하는 상황이 벌어질 수 있다. 비교 군의 수가 많지 않고, 어떤 군끼리 비교할지 미리 가설이 서 있는 경우면 LSD로만 분석해도 무방하다.

Linear Contrasts 또 다른 다중 비교 방법으로 Linear Contrasts 방법이 있다.
LSD 보다 더 일반적인 방법으로, 특정 군끼리의 비교 뿐 아니라 일련의 군들(l1)과 다른 군들(l2)간의 다중비교가 가능하다. Linear Contrast (L)은 개별 군 평균들의 선형 조합으로 계수들의 합은 0 가 된다. 각 군의 평균을 여기서는 로 표현하자.

, where 체중변화 연구에서 집단 1(식이조절), 2(운동조절)과 3(조절없음)의 평균 비교를 Linear Contrast로 표현해 보자. (즉 , , ) 이제 L의 모평균이 0과 같은지를 검정한다. H0: L= 0 H1: L 0 Where ,

Var( )= 이므로 Var(L)은 이다. 이때 s 는 MSW 와 같은 값이다. t 통계량은 다음과 같다. , d.f.=n-k If |t|>tn-k,1-α/2, then reject H0. P-value=2*Pr(tn-k< t) if t<0 P-value=2*Pr(tn-k> t) if t>0 If p-value < α then reject H0.

체중조절 자료에서 L= (-7.2)+(-4.0)-2(0.6) = 12.4 따라서 =8.77 ~ t128 under H0 P<0.001 결론: 식이조절이나 운동을 한 사람은 아무 조절을 안 한 사람보다 유의한 체중감소가 있다.

Linear Contrast 방법을 쓸 때 미리 계획을 세워놓지 않았던 다중비교를 할 경우가 있다
Linear Contrast 방법을 쓸 때 미리 계획을 세워놓지 않았던 다중비교를 할 경우가 있다. 이때도 다중비교 전체의 유의수준을 α로 고정하는 방법이 있는데 이를 Scheffe’s multiple-comparison이라고 한다. L 에대한 t 통계량을 구한 후, 기각역을 아래와 같이 보정한다. 또는

체중변화의 예에서 이므로 귀무가설을 기각한다. 결론: 식이조절이나 운동을 한 사람은 아무 조절을 안한 사람간보다 유의한 체중감소가 있다.

Multiple Test의 위험성 ANOVA 가 아닌 상황에서도 다중비교에 따른 1종 오류 확률 상승이 문제시 될 수 있다. (예를 들어 다중회귀분석에서 많은 변수들에 대해 반복해서 test 할 때) 한가지 방법은 미리 한가지 주 가설을 설정해 놓고, 부수적으로 몇 가지 다른 가설들을 설정하는 것이다. 주 가설 없이 투망식으로 관련인자를 “낚시” 할 때는 유의하게 나온 인자에 대해 매우 조심스러운 접근을 해야 한다. 유의한 p 값은 “관련성이 있을” 가능성을 열어놓는 것에 불과하며, 앞으로 이를 주 가설로 한 연구가 필요하다는 점을 제시하는 선에서 그쳐야 한다.

ANOVA 분석시의 가정 일원성 ANOVA 분석을 할 때에는 아래와 같은 가정이 필요하다는 점을 명심하자.
1) k 개의 표본은 서로 “독립적” 으로 추출된 것이어야 한다. 2) 각 표본의 모분산들은 모두 같다. (homogeneity of variance) 3) 기저 모집단은 대략적으로 정규분포를 따른다. (그렇지 않을 경우에는 자료를 변환 (transform) 하여 분석을 시행하는 것이 바람직 하다.): Sampling distributions of sample means must be normally distributed.

이러한 가정에 맞지 않는 경우에는 ANOVA 가 아닌 다른 분석 방법을 고려해야 한다
그러나 ANOVA 방법은 robust하여 어느 정도는 가정위배시에도 별 영향을 받지 않고 좋은 결과를 준다. : “robust”- assumptions can be violated somewhat, but the technique can still be used.

일원분산분석(One-way ANOVA)
FEV1/FVC ratio 에 따라 세 그룹으로 나누어 SO2에 대한 기관지 반응에 차이가 있는지 알아보고자 한다. Group A FEV1/FVC, ≤74% Group B FEV1/FVC, 75-84% Group C FEV1/FVC, ≥85% 20.8 7.5 9.2 4.1 2.0 30.0 11.9 2.5 24.7 4.5 6.1 13.8 3.1 8.0 4.7 28.1 10.3 10.0 5.1 2.2

자료입력방법 ① 엑셀을 이용하여 입력 ② SAS에 직접 입력 DATA FEV; 2 10.3 INPUT group so2;
2 10.3 INPUT group so2; 2 10 CARDS; 2 5.1 1 20.8 2 2.2 1 4.1 3 9.2 1 30 3 2 1 24.7 3 2.5 1 13.8 3 6.1 2 7.5 3 7.5 ; 2 11.9 RUN; 2 4.5 2 3.1 2 8 2 4.7 2 28.1 Group So2

PROC ANOVA DATA=FEV; CLASS group; MODEL so2= group; MEANS group / LSD; RUN;

ANOVA table

* 다중비교 옵션 LSD: 모든 가능한 pairwise comparison 시행 *

Linear contrast Group A와 group B&C를 비교해보자. PROC GLM DATA=FEV; CLASS group; MODEL so2= group; MEANS group / LSD; CONTRAST ‘LOW & HIGH’ group ; RUN; 대조하고자 하는 군 끼리 서로 더하여 ‘0’이 되도록 수를 지정해준다. 예: A (2), B (-1), C (-1)

Group A와 group B&C

: Two Sample Test - paired t-test - t-test - modified t-test

Similar presentations

Presentation on theme: ": Two Sample Test - paired t-test - t-test - modified t-test"— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

: Two Sample Test - paired t-test - t-test - modified t-test

Similar presentations

Presentation on theme: ": Two Sample Test - paired t-test - t-test - modified t-test"— Presentation transcript:

Similar presentations

About project

지원