Week 13:가설검정(Hypothesis Testing) 13장_1 아이디어 (idea) 동영상 1,2,3,4,5,6 13장_2 오류(Error Probabilities and Power) 동영상 1 13장_3 모집단 비율 검정(Test for Population Proportion) 동영상 1,2,6 13장_4 모집단 평균 검정(Test for Population Mean) 동영상 1,3,9,13 13장_5 동영상 추가(More testing Videos) 동영상 1,2,3,4,5
통계적가설1(Statistical Hypothesis) 관심을 갖는 모집단의 미지의 특성(모수)에 대한 가정이나 주장. 귀무가설과 대립가설로 만들어짐. 귀무가설(Null Hypothesis: H0 ) – 현재 문제가 되고 있는 사안에 대해 확실한 증거가 없을 때 우리가 받아들여야 하는 일반적 관념(default possibility) 대립가설(Alternative Hypothesis: H1 혹은 Ha) - 연구조사에서 조사하고자 하는 내용이므로 연구가설(research hypothesis) 귀무가설 : “아무런 차이가 없다” ”효과가 없다” vs 대립가설 : “차이가 있다” “효과가 있다”
통계적가설2(예제) 식당주인이 설치한 음료수 기계의 미디움 사이즈 컵의 용량이 어떻게 되는지 관심이 있다. H0 : 𝜇=530𝑚𝐿 Ha: 𝜇>530𝑚𝑙 National Sleep Foundation는 청소년들이 최소 8시간 이상 수면을 취하는 것을 권장하고 있다. 그러나 고등학교 통계학반에서는 고등학생들이 8시간 미만의 수면을 취하고 있는 것으로 의심하고 있다. H0 : 𝜇 ≥8 hours Ha: 𝜇 <8 hours 가설은 모집단의 모수에 관해서임!!!
가설검정과정 1
가설검정과정 2 유의수준결정(Significance level) : 𝛼 1%, 5%, 10% 등등 P-value(probability-value) : 귀무가설이 설립하는 경우 표본평균(비율)이 관측치값을 가질 확률 <- 조건부 확률 P-value가 유의수준 𝛼보다 적어면 reject H0 (귀무가설을 기각, 대립가설을 수용)
Type I 과 Type II오류(Type I and Type II error)
모집단 비율 검정(Population Portion Test) #칸 비율검정 문제 마지막 동영상 p <- 0.5 n <- 200 phat<- 113/n z <- (phat -p)/sqrt(p*(1-p)/n) z pvalue <- 1-pnorm(z) pvalue #유의수준과 비교하여 귀무가설 기각혹은 기각할 수 없음
모집단 평균 검정1(Population Mean Test) #칸 TI 계산기를 이용해서 p-value 계산하는 문제 n<-7 t<--1.9 pvalue<- pt(t, df=n-1) pvalue
모집단 평균 검정2(Population Mean Test) #우유 패키지의 용량을 검정하기 위해서 12개 표본으로 가설 검정 n <- 12 xbar <-127.2 s <- 2.1 mu <- 128 t <- (xbar - mu ) / (s /sqrt(n) ) t pvalue <- pt(t,df=n-1) pvalue # pvalue 값이 유의수준 0.05보다 적어면 reject H0 아니면 H0기각할 수 없음
추가 검정 예제1 (two tailed test/one tailed test) mu <- 1.2 xbar <-1.05 s <- 0.5 z<- (xbar-mu)/(s/sqrt(n)) z pvalue <- pnorm(z) # one tailed test 단측검정pvalue # pvalue <- 2*pnorm(z) for two tailed test 양측검정 #유의수준 0.05이면 pvalue < alpha reject H0 #양쪽검정은 대립 가설 H1 이 𝜇≠ 𝜇0 인 경우로 pvalue 는 2*pnorm혹은 2*pt #단측검정은 대립 가설 Ha 가 𝜇< 𝜇0 혹은 𝜇> 𝜇0 인 경우로 pvalue는 pnorm 혹은 pt
추가 검정 예제2(z statistics vs t statistics)
추가 검정 예제3(Small Sample) #자동차 엔진 배기 가스 실험 결과 ppm data <- c(15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9) n <- length(data) xbar <- mean(data) s <- sd(data) mu<-20 t<- (xbar-mu)/(s/sqrt(n)) pvalue <- pt(t, df=n-1) pvalue # 한계치(critical value)이용하는 방법 critical_value <- qt(0.01, df=n-1) critical_value #유의수준과 pvalue 비교하는 대신에 유의수준에 해당하는 #한계치(critical value)를 계산하여 기각영역(region of rejection)을 # 정하고 z* t*값이 기각영역에 포함 여부에 따라 가설 검정도 가능하다. #t.test() 로 모든 작업 가는함. 시험에서는 사용하면 안됨!!! t.test(data, mu=mu, alternative="less")
추가 검정 예제4(Large Sample Proportion) phat <-57/n Phat z<- (phat-p)/sqrt(p*(1-p)/n) Z pvalue <- 1-pnorm(z) pvalue # compare pvalue to alpha # critical value로 푼다면??