ANOVA
생명표(life table), Kaplan-Meier 자료에 따른 통계분석 방법 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model
ANOVA: 세 집단 이상에서의 그룹간 평균비교 그룹에 따른 어떤 변수의 평균을 비교하고 싶다면 그룹에 해당되는 변수는 범주형(요인)이어야 하고, 평균을 비교하고 싶은 변수는 연속형이며 정규분포를 따라야 한다.
예) 의과대학 학생들의 각 학년별(예과1년-본과4년) 통계과목의 점수 평균을 비교하고 싶다. 학년변수: 요인 통계과목 점수: 연속형, 정규분포(평균 중심 좌우대칭)
지역별(live1)로 주민들의 연령(age)의 평균에 차이가 있는가? 귀무가설 : 모든 지역에서 주민들의 연령의 평균은 같다. 대립가설 : 모든 지역에서 주민들의 연령의 평균이 차이가 있다.
지역별(live1) : factor(범주형) 변수 연령(age) : 연속형 변수
전국 초등학생에 대한 혈중 수은 농도
p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 그룹별 평균과 표준편차를 구해줌 p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 즉, 유의수준 0.05하에서 각 지역별 주민들의 연령의 평균이 모두 같다고 할 수 없다.
다중비교(multiple comparison), 사후검정 P-value : 4개 지역 중 어느 하나라도 다른 지역과 연령에 차이가 있으면 차이가 있는 것으로 판정 구체적으로 어느 지역과 어느 지역의 연령에 차이가 있는지를 알려면??
다중비교(multiple comparison), 사후검정
귀무가설: 지역1과 지역2의 주민들의 연령 평균에는 차이가 없다. 각각의 신뢰구간이 0을 포함하는지 여부 확인 0을 포함: 귀무가설 기각할 수 없음 0을 포함하지 않음: 귀무가설 기각할 수 있음
유의수준 0.05하에서 지역1과 지역2의 주민 연령평균에는 차이가 없다고 할 수 있다. 유의수준 0.05하에서 지역1과 지역3, 지역1과 지역4, 지역2와 지역3, 지역2와 지역4, 지역3과 지역4 주민의 연령 평균에는 유의한 차이가 있다고 할 수 있다.
Excel에서 Table 만들기 기존 변수 새로 만든 변수 live live1 1과 2 1 3과 4 2 5, 6, 7 3 8 4 Table 1. Distribution of age according to living area N % Mean SD All 1197 100.0 44.9 20.7 Living area 1 and 2 411 34.3 49.0 19.4 3 and 4 203 17.0 49.9 20.0 5, 6, and 7 283 23.6 44.8 21.6 8 300 25.1 36.4 19.5 p-value <0.0001 SD: 기본이 되는 평균값에 최저, 최고값의 폭 지역별 연령 평균의 차이를 알아보기 위해 ANOVA 실시하고 Turky의 사후검정을 실시하였다. 그 결과 1과 2지역을 제외한 모든 지역에서 연령의 차이는 유의한 차이를 보였다(P<0.0001).
과 제 데이터 health.Rdata에서 생애주기 연령군별 키의 평균을 비교하시오. -가설(귀무,대립)을 세우고 -N(%), 평균(mean), 표준편차(SD), p-value까지 -Table로 나타낸 후 -결과 해석 하기 (가설 및 결과해석은 표 밑에 기입) -사후검정 후 plot복사하여 붙이기 *Mean과 SD는 소수점 첫번째자리까지만 표기 *출력은 엑셀에서 하세요!
Plot
감사합니다.