Statistical inference II Hypothesis testing and the one-sample t-test Chapter 8
Statistical hypothesis testing and the Scientific method Science 물질계의 본성을 일반화 (generalizations, theories)하는데 이용되는 체계화된 지식으로, observation이나 experiment를 통해 얻어진다 Science 는 observation으로 시작 Population 내의 a single individual의 measurement가 하나의 observation 이다 Science는 observation을 설명하려고 할 때 시작된다 Observation의 tentative explanation (잠정적 설명)을 hypothesis (가설)이라 부른다 Good hypothesis는 다음과 같은 속성을 가지고 있다
Attributes of scientific hypothesis 1. Hypothesis는 observation과 일치한다. 가설이 옳다면 관찰한 것을 설명할 수 있다 2. 가설이 거짓 (false)일 경우, 그것이 거짓이라는 것이 보여질 수 있다. 가설은 검정 (test)될 수 있다는 의미 가설의 검정을 experiment라 한다 ‘만약 가설이 참 (true)이라면 참이라는 것이 보여질 수 있다’라고 말하지 않았음 Because, false hypothesis는 false라는 것이 증명될 수 있으나 true hypothesis는 true라는 것이 증명될 수 없다 따라서 Experiment (testing; 검정)을 통해 hypothesis가 false로 증명되지 못할 경우 그 hypothesis는 true로 여겨진다
Attributes of scientific hypothesis 하나라도 거짓 (false)일 경우: 거짓 따라서 하나의 경우만 false 이라는 것을 증명하면 된다 모두 참 (true)일 경우에만 참 따라서 참을 증명하기 위해서는 모든 경우를 다 검정해야 한다 모든 경우를 다 검정하는 것은 불가능
Attributes of scientific hypothesis 일반화된 가설: theory (이론) 가설처럼 false theory는 false 라는 것을 증명할 수 있으나, true theory는 true라는 것을 증명할 수 없다 Ex. Lamarck’s theory of inheritance 그 당시에는 good theory로 여겨졌으나 반복적인 실험에 의한 검정에 실패함 Science는 proving things (증명)에 의해 발전하는 것이 아니라 disproving things (반증)에 의해 발전한다 Incorrect theory will be proven to be incorrect Correct theory cannot be proven to be correct Hypothesis나 theory를 disproving (반증; 거짓임을 증명)하는 것을 scientific method 라 부른다
Attributes of scientific hypothesis 모집단에 관한 정보를 얻기 위하여 sample에 의존할 수 밖에 없는 경우가 대부분이다 Sample이 모집단을 그대로 나타내지 못하는 확률이 항상 존재한다 가설검정을 이용하여 결론이 incorrect할 확률을 구할 수 있다 correct할 확률을 구할 수 있는 것이 아님 이 확률이 낮으면 결론이 correct 하다는 것을 신뢰할 수 있다 전통적으로 incorrect 할 확률이 0.05 or less 일 경우 correct: why 0.05?? correct할 확률: 0.95 or higher
Null hypothesis and alternative hypothesis Hypothesis testing에서 두 가지 종류의 질문이 있다 ‘A is true’ and ‘A is not true’ 이중 하나의 statement 만 검정되며, 검정되는 가설을 null hypothesis (귀무가설)라 한다 Symbolized by H0 다른 하나의 가설을 alternative hypothesis (대립가설)라 한다 Symbolized by Ha Null hypothesis는 언제나 ‘a와 b는 같다’ or ‘a와 b는 차이가 없다’는 형을 Alternative hypothesis는 ‘차이가 있다’ or ‘같지 않다’의 형을 택한다
Null hypothesis and alternative hypothesis Ex.1: ‘신약이 특정 질병에 효과가 있다’는 가설을 검정할 경우 귀무가설 (H0): 신약이 특정 질병에 효과가 없다 대립가설 (Ha): 신약이 특정 질병에 효과가 있다 Ex.2: ‘호수가 오염되었다’는 가설을 검정할 경우 귀무가설 (H0): 호수가 오염되지 않았다 대립가설 (Ha): 호수가 오염되었다 Ex. 3: 간접흡연이 건강을 해친다’는 가설을 검정할 경우 귀무가설 (H0): 간접흡연은 건강을 해치지 않는다 대립가설 (Ha): 간접흡연은 건강을 해친다
The one-sample t-test Refer back to example 7.2 Ex. 7.2 Vitamin Y는 필수영양소이나, 많이 섭취할 경우 몸에 해롭다. 따라서 FDA (Food and Drug Administration)에서 각 vitamin pill에 평균 100 units의 vitamin Y가 함유되도록 정함 제조회사에서 100정의 vitamin pills을 random sample하여 vitamin 함량을 측정했을 때 Mean: 100.5 units; Standard deviation: 2.19 units Sample mean 100.5 units 이 population mean of 100에서 나왔다고 할 수 있나?
The one-sample t-test Null hypothesis (귀무가설) ‘Mean vitamin Y content of the pills is 100 units’ or H0 : μ = 100 units Alternative hypothesis (대립가설) Ha: μ ≠ 100 units To test the null hypothesis, t statistic (ts)를 계산 μ0 = hypothesized value (100) s / √n = the standard error of the mean
The one-sample t-test ts = (100.5 – 100) / (2.19/√100) = 2.283 From Table A.2, critical value of t for p = 0.05, degrees of freedom (99) : 1.984 t statistic (2.283) 이 critical value (1.984) 보다 크다 따라서 귀무가설 (H0)을 reject t-value:+1.984 -- -1.984: 모집단에서 sample이 추출되었다면 계산된 t-value가 위의 범위 (±1.984)에 속할 확률이 0.95 t-value가 -1.984보다 작거나 +1.984보다 클 확률이 0.05 따라서 2.283은 null hypothesis가 true일 확률이 너무 낮다 0.02 < p < 0.05 Reject the null hypothesis Alternative hypothesis is true
The one-sample t-test Figure 8.1: Shaded area: rejection region (기각역) Unshaded area: acceptance region (채택역) t-value: 2.283 귀무가설 reject!!
The one-sample t-test ts 값이 critical t value보다 큰 경우: there are two explanations 1. Null hypothesis가 true 이나 sample mean이 chance에 의해 population mean과 다르게 얻어졌다 In other word, sample이 잘못됨 2. Null hypothesis가 false Chance 만에 의해 sample mean이 population mean과 이렇게 다를 확률이 매우 낮을 경우 (less than 0.05), null hypothesis가 false라고 결론 내릴 수 있다 Ex. Chance 만에 의해 0.5 의 차이가 나타날 확률 (0.02 – 0.05)은 매우 낮다 {0.5 = 100.5 (sample mean) -100 (population mean)}: 따라서 이 차이는 실제 차이에서 옴 두 설명이 다 가능하므로 hypothesis testing에서 잘못된 결정을 할 수 있다 (section 8.3)
The one-sample t-test Sample value가 population에서 얻어졌을 확률이 미리 정한 확률 (predetermined probability)과 같거나 낮을 경우 Null hypothesis (H0)는 reject (기각)된다 이때 이 미리 정한 확률을 alpha (α)라고 하며, 일반적으로 0.05이다 Ex. ts(2.283)의 probability from Table A.2 Degree of freedom: 99 (100에서 찾음) p(0.05) = 1.984, p(0.02) = 2.364 따라서 ts(2.283)의 probability 는 0.02와 0.05 사이 0.02 < p < 0.05 Probability가 predetermined alpha보다 작으므로 null hypothesis를 reject Alpha level을 0.01로 선택했다면 null hypothesis를 reject 할 수 없다
One-tailed and two-tailed hypothesis tests 위의 예에서는 각 tail에 ½ alpha를 포함하고 있다 Because two tailed test 이므로 α/2 = 0.025 위의 예는 null hypothesis가 μ = 100 Null hypothesis 가 reject되었으므로 μ ≠ 100 100보다 클 경우와 작을 경우 다 해당됨 Two-tailed test (양측검정) Two-tailed test의 경우 t의 절대값이 중요 Distribution의 한쪽 tail에 만 관심이 있을 경우 One-tailed test (단측검정)
One-tailed and two-tailed hypothesis tests One-tailed test (단측검정) Ex. FDA requirement가 ‘vitamin pills가 적어도 100 units/pill 의 vitamin Y를 함유해야 함’일 경우 Vitamin pills는 100 units 이상을 함유해야 한다 따라서 null hypothesis (H0): μ ≥ 100 Alternative hypothesis (Ha): μ < 100 이 경우 t-distribution의 lower tail에만 관심이 있다 Lower tail에만 p(0.05)가 위치하게 된다 (Figure 8.2) 이 면적 (확률)을 해당하는 t-value: -1.660 (table A.2에서 0.1 확률 column 에 해당) One-tailed probability는 probability를 2배 한 후 table에서 찾는다 (0.05 → 0.1)
One-tailed and two-tailed hypothesis tests One-tailed test
One-tailed and two-tailed hypothesis tests 따라서 ts 값이 -1.660보다 작을 경우 null hypothesis를 reject 한다 Calculated ts 값: 2.283 따라서 null hypothesis가 reject되지 않는다 Thus, vitamin pills는 100 units 이상의 vitamin Y를 함유하고 있다고 결론 내릴 수 있다 One-tailed의 경우 t-value의 sign (+ or -)이 중요하다
One-tailed and two-tailed hypothesis tests Upper tail에만 관심이 있는 경우 Ex. FDA requirement가 ‘vitamin pills가 100 units/pill 이하의 vitamin Y를 함유해야 함’일 경우 따라서 null hypothesis (H0): μ ≤ 100 Alternative hypothesis (Ha): μ > 100 이 경우 t-distribution의 upper tail에만 관심이 있다 Upper tail에만 p(0.05)가 위치하게 된다 (Figure 8.3) 이 경우 critical t-value: +1.660 Calculated t-value가 critical t-value 이상일 경우 null hypothesis를 reject: Calculated t-value: 2.283 따라서 null hypothesis를 reject Pill은 100 units 보다 많은 vitamin Y를 함유하고 있다고 결론 내릴 수 있다 (null hypothesis에 equal sign이 들어감)
One-tailed and two-tailed hypothesis tests One-tailed test Calculated ts 값: 2.283 따라서 null hypothesis를 reject
One-tailed and two-tailed hypothesis tests One-tailed or two-tailed tests는 research question에 따라 결정된다 ‘같다’ or ‘다르다’를 결정할 경우: two-tailed ‘크다’ or ‘작다’를 결정할 경우: one-tailed Ex. 어떤 약이 혈압 강하에 효과가 있는지를 실험했을 경우 A: blood pressure after taking the medication B: blood pressure before taking the medication One-tailed or two-tailed? H0: μB-A ≤ 0; Ha: μB-A > 0 혈압이 떨어지는 경우에만 관심이 있음 (증가하면 안됨) 따라서 one-tailed test를 사용해야 함
Exercises Ex. 1: FDA는 사과에 남아 있는 농약의 농도가 10 ppb를 초과할 수 없도록 정함 Random sample한 100개의 사과에서 평균 10.03 ppb의 농약이 검출됨. Standard deviation은 0.12 ppb. 이 사과들이 FDA requirement를 만족하는가? Null hypothesis? One-tailed or two-tailed?
Exercises ts = (10.03 – 10) / (0.12/√100) = 2.5 H0: μ ≤ 10, Ha: μ > 10 One-tailed or two-tailed? One-tailed Critical t value: 1.660 (df=100, p=0.1) p value from table A.2: 0.005 < p < 0.01 One-tailed 이므로 0.01/2 < p < 0.02/2 따라서 H0를 reject 농약이 10ppb 이상 남아 있다
Exercises Homework: 충주호의 평균 물의 경도 (water hardness; Ca2+, Mg2+가 들어 있는 정도)가 425 mg/L이다. 축산폐수 웅덩이 (stock ponds) 속의 물의 경도가 충주호와 같은지를 알고자 한다. 이들 값은 normal distribution을 함 Random sample 된 25개의 stock ponds에서 물의 경도를 측정 346 496 352 378 315 420 485 446 479 422 494 289 436 516 615 491 360 385 500 558 381 303 434 562 496 Null hypothesis를 설정하고 검정하라 (at α = 0.05)
Type I and type II errors
The one-sample t-test Sample value가 population에서 얻어졌을 확률이 미리 정한 확률 (predetermined probability)과 같거나 낮을 경우 Null hypothesis (H0)는 reject (기각)된다 이때 이 미리 정한 확률을 alpha (α)라고 하며, 일반적으로 0.05이다 Ex. ts(2.283)의 probability from Table A.2 Degree of freedom: 99 (100에서 찾음) p(0.05) = 1.984, p(0.02) = 2.364 따라서 ts(2.283)의 probability 는 0.02와 0.05 사이 0.02 < p < 0.05 Probability가 predetermined alpha보다 작으므로 null hypothesis를 reject Alpha level을 0.01로 선택했다면 null hypothesis를 reject 할 수 없다
Statistical decision making and its potential errors 위의 예에서 α를 0.05로 결정했을 경우 H0를 reject, 그러나 α를 0.01로 결정했을 경우는 H0를 reject 할 수 없었다 Because of 0.02 < p < 0.05 따라서 alpha에 따라서 같은 data로부터 서로 모순된 결론이 도출될 수 있다 통계에는 항상 주관성 (subjectivity)이 존재한다 Statistical test를 통하여 결론을 내릴 경우 잘못된 결론 (incorrect conclusion)에 도달할 가능성이 있다 이 경우 2가지 types의 errors 가능하다
Statistical decision making and its potential errors Null hypothesis가 실제로 true 인데 statistical test의 결과는 reject로 계산될 경우 이러한 error를 type I error 라고 한다 Type I error의 확률을 Alpha (α)라고 부름 Statistical test를 통해 결정될 수 있음 Null hypothesis가 실제로는 false인데 statistical test로 reject 할 수 없을 경우 이러한 error를 type II error 라고 한다 Type II error의 확률을 Beta (β)라고 부름 Statistical test에서 대부분 결정되지 않음 (주로 α를 결정함)
Statistical decision making and its potential errors
Important point about Type I and type II errors Alpha는 연구자에 의해 일정한 수준에서 결정된다 일반적으로 0.05 (때때로 0.10, or 0.01) Statistical test에서 계산된 확률이 기준 alpha 이하일 경우 (t-test에서 ts 가 critical t value보다 클 경우) null hypothesis를 reject Error에 의한 차이일 확률이 낮으므로 error에 의한 차이가 아니라 실제 차이 Beta는 일반적으로 계산되지 않는다 Sample size가 증가하면 beta는 감소한다 Sample size가 커지면 standard error는 감소 Standard error가 감소하면 t value 증가 t value가 증가하면 null hypothesis가 reject될 확률이 높아짐: beta 감소 (실제 차이가 있는 것이 차이가 있는 것으로 나올 확률이 높아진다)
Important point about Type I and type II errors Beta risk는 statistical test에 따라 달라진다 Low beta를 가진 test가 검정력 (power of test)이 높다 동일한 null hypothesis를 test 할 수 있는 tests (통계처리 방법) 가 여러 개 일 경우 가장 검정력이 높은 test를 이용해야 한다 낮은 수준의 alpha (0.01 rather than 0.05)를 사용하면 type I error는 감소하지만 type II error의 위험은 증가한다 (and vice versa: 높은 수준의 α) 낮은 수준의 alpha (0.01 rather than 0.05)를 사용하면 검정력이 낮아진다 (차이가 있는 것이 차이가 없는 것으로 나타난다) 높은 수준의 α를 사용하면 type I error 증가: 차이가 없는 것이 차이가 있는 것으로 나타남 일반적으로 alpha를 0.05로 정하는데 이 수준이 type I error와 type II error를 잘 절충하는 수준이기 때문
Important point about Type I and type II errors Significant level (유의수준) Type I error 수준으로 귀무가설을 기각하는 확률 수준 (일반적으로 0.05, 0.01, or 0.001) Significant (유의한): H0가 alpha level of 0.05에서 reject 되었을 경우 Highly significant: H0가 alpha level of 0.01 (or less)에서 reject 되었을 경우 따라서 significant 라는 말은 통계처리를 한 후에만 사용할 수 있다!! (ex. significantly different: 통계적으로 차이가 있다는 뜻)
Important point about Type I and type II errors They are clearly different… They are distinctly different… They are obviously different… They are evidently different… They are significantly different…
Steps in testing a hypothesis (가설검정 단계) 답변하고자 하는 질문을 정확하게 나타낸다 질문 속의 variable과 sample의 특성을 인지한다 Nominal, ordinal, interval or ratio scale? Variable이 approximately normally distributed? 어떤 sampling distribution을 하는가? 적절한 statistical test는 무엇인가? 위의 답변을 바탕으로 null hypothesis와 alternative hypothesis를 정한다. One-tailed or two-tailed 어느 것이 적절한가?
Steps in testing a hypothesis 이 수준 이하일 경우 null hypothesis를 reject 하는 alpha level을 정한다. (일반적으로 α = 0.05) Test statistic을 계산한다 적절한 table을 이용하여 critical value를 찾고, p value (확률)를 결정한다 H0에 대한 결정을 내린다. 계산된 확률 값이 앞에서 결정된 alpha 이하일 경우 null hypothesis를 reject 하고 alternative hypothesis를 accept 한다 결론을 original question에 의거하여 해석한다 Hypothesis test와 더불어 descriptive statistics (mean, SD, or SE)의 table이나 graph를 첨부해야 한다 결론이 적절한지 눈으로 볼 수 있게 해준다