비모수 분석 및 복습.

Slides:



Advertisements
Similar presentations
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Advertisements

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
제13장 로지스틱회귀분석.
SPSS를 활용한 통계분석 김 덕 기 충북대학교 정보통계학과
R commander an introduction user-friendly and absolutely free
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
PASW 17.0 활용하기 일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
3일차 - 가설검정.
비모수 통계분석 목 적 비모수 통계분석은 t검정이나 분산분석을 사용할 수 있는 등간척도 이상으로 구성된 종속변수가 아닌 서열척도로 종속변수가 구성되어 있을 경우, 또는 등간성이 의심되거나 정규분포성을 얻지 못할 경우에 순위(Rank)를 통하여 변수간의 차이를 비교할 때.
의료의 질 평가 분석 기법 김 민 경.
추론통계.
자료분석 및 통계활용.
비모수통계.
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
실습 (using SPSS) Department of Biostatistics, Samsung Biomedical Research Institute Samsung Medical Center.
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
제 19 장 유의성 검정 가설검정의 원리 귀무가설과 대립가설 검정통계량과 유의수준 제1종 오류와 제2종 오류 유의성 검정절차
선형회귀분석.
모수 통계학과 비모수 통계학 Parametric Statistics, NonParametric Statistics
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
통계적 분석을 통한 Insulin의 정상참고치 설정
논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원.
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가?
SPSS 이용한 논문 통계 강좌 우송대학교 IT 경영학과 하임숙
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
로지스틱 회귀분석.
상관분석 (p , p ).
생존 분석 [Survival analysis]
자료처리 및 통계분석(2) 통계분석의 이해(2) - 가설검증 - 변수유형에 따른 통계분석방법 통계분석방법
Keller: Stats for Mgmt & Econ, 7th Ed
13장 카이제곱(χ2)분석 2019년 2월 24일 오전 3시 39분2019년 2월 24일 오전 3시 39분
Linear Mixed Model을 이용한 분석 결과
SPSS 강원대학교 생물학과 석사 과정생 김자경.
(independent variable)
10장 두 개의 모집단에 대한 추론 2019년 4월 5일 오후 4시 22분2019년 4월 5일 오후 4시 22분
9장 모집단이 한 개인 경우의 통계적 추론 2019년 4월 6일 오후 2시 22분2019년 4월 6일 오후 2시 22분
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
생산 분석을 위한 확률 및 통계 현대로템 직무능력 향상 교육 - 1주차
생활 습관과 학교 성적의 통계분석 조장: 이태훈 조원: 이진원.
연속변수간의 관계 검증 :상관분석 과 목 명 : 간호연구 및 통계 담당교수: 홍윤경.
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
단순회귀분석 (Simple Linear Regression Analysis)
Multiple regression analysis
논문작성을 위한 연구모형 설정 양동훈.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Sampling Distributions
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
자녀의 심리적 안정도에 미치는 부모요인 분석.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
추리통계학의 기본개념.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
문제의 답안 잘 생각해 보시기 바랍니다..
(Analysis of Variation, ANOVA)
알렌 인지 수준 판별검사와 한국판 간이 정신상태 판별검사의 상관관계
Survey Sampling Sangji University.
Presentation transcript:

비모수 분석 및 복습

생명표(life table), Kaplan-Meier 자료에 따른 통계분석 방법 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model

두 집단 평균치 분석

성별 강박 표준화 점수(t_obs)의 평균이 같을까? 대립가설: 성별 강박 표준화 점수(T_OBS)의 평균이 다르다. 먼저 독립된 두 집단의 분산이 같은지 다른지를 판단 =>분산동질성 검정을 실시

obsessive compulsive symptom 표 틀 만들고 채우기 Table 1. Distribution of standardized score of obsessive compulsive symptom according to gender Standardized score of obsessive compulsive symptom N % Mean SD All Gender Male Female p-value p-value calculated using t-test 수치적 요약 빈도 분포 반드시 먼저 성별변수(sex)를 요인으로 만든 후

성별변수(sex)를 요인으로 바꾸기

성별 빈도분포

분산 동질성 검정: 분산이 같은지 먼저 확인

p-value가 유의수준 0.05보다 크므로 귀무가설을 기각할 수 없다. (p=0.21) 따라서, 성별 강박표준화 점수의 분산에는 차이가 있다고 할 수 없다. 즉, 동등한 분산을 가졌다고 할 수 있다.

성별 강박 표준화 점수(T_OBS)의 평균이 같을까? 분산 동질성 검정을 하였으므로 독립된 두 집단의 평균에 차이가 있는지를 검정하기 위해 t-test 실시

분산동질성검정결과 분산이 다르다고 할 수 없으므로

결과 해석: p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 따라서, 성별 강박표준화 점수의 평균에는 차이가 있다고 할 수 있다.

Table 2. Distribution of standardized score of obsessive compulsive symptom according to gender Standardized score of obsessive compulsive symptom N % Mean SD All 1197 100.0 50.0 10.0 Gender Male 554 46.3 48.3 9.6 Female 643 53.7 51.4 10.1 p-value <0.0001 p-value calculated using t-test

생명표(life table), Kaplan-Meier 자료에 따른 통계분석 방법 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model

Wilcoxon rank sum test 비모수적 방법을 사용할 때! –표본수가 적어 모집단의 분포를 가정할 수 없는 경우 –순위 척도인 경우

비모수적 방법 (Wilcoxon test) 성별 강박 표준화 점수(T_OBS)의 평균이 같을까? 비모수적 방법에서는 평균비교가 아니라 실제로 중앙값을 비교하게 된다. 따라서 분산동질성 검정이 필요없다. 귀무가설: 성별 강박 표준화 점수(T_OBS)의 평균이 같다. 대립가설: 성별 강박 표준화 점수(T_OBS)의 평균이 다르다. 독립된 두 집단의 평균비교를 하는데 비모수적 방법을 사용하므로 Wilcoxon test를 사용한다.

p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 따라서, 성별 강박표준화 점수의 평균에는 차이가 있다고 할 수 있다.

세 집단이상의 평균치 분석

세 집단 이상에서의 그룹간 평균비교 : ANOVA 그룹에 따른 어떤 변수의 평균을 비교하고 싶다면 그룹에 해당되는 변수는 범주형(요인)이어야 하고, 평균을 비교하고 싶은 변수는 연속형이며 정규분포를 따라야 한다.

지역별로 주민들의 연령의 평균에 차이가 있는가? 귀무가설: 모든 지역에서 주민들의 연령의 평균은 같다. 대립가설: 모든 지역에서 주민들의 연령의 평균이 같은 것은 아니다.

지역별(live1) : factor(범주형) 변수 연령(age) : 연속형 변수

p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 그룹별 평균과 표준편차를 구해줌 p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 즉, 유의수준 0.05하에서 각 지역별 주민들의 연령의 평균이 모두 같다고 할 수 없다.

다중비교(multiple comparison), 사후검정 P-value : 4개 지역 중 어느 하나라도 다른 지역과 연령에 차이가 있으면 차이가 있는 것으로 판정 구체적으로 어느 지역과 어느 지역의 연령에 차이가 있는지를 알려면??

다중비교(multiple comparison), 사후검정

귀무가설: 지역1과 지역2의 주민들의 연령 평균에는 차이가 없다. 각각의 신뢰구간이 0을 포함하는지 여부 확인 0을 포함: 귀무가설 기각할 수 없음 0을 포함하지 않음: 귀무가설 기각할 수 있음

유의수준 0.05하에서 지역1과 지역2의 주민 연령평균에는 차이가 없다고 할 수 있다. 유의수준 0.05하에서 지역1과 지역3, 지역1과 지역4, 지역2와 지역3, 지역2와 지역4, 지역3과 지역4 주민의 연령 평균에는 유의한 차이가 있다고 할 수 있다.

Excel에서 Table 만들기 기존 변수 새로 만든 변수 live live1 1과 2 1 3과 4 2 5, 6, 7 3 8 4 Table 1. Distribution of age according to living area N % Mean SD All 1197 100.0 44.9 20.7 Living area 1 and 2 411 34.3 49.0 19.4 3 and 4 203 17.0 49.9 20.0 5, 6, and 7 283 23.6 44.8 21.6 8 300 25.1 36.4 19.5 p-value  <0.0001 SD: 기본이 되는 평균값에 최저, 최고값의 폭 지역별 연령 평균의 차이를 알아보기 위해 ANOVA 실시하고 Turky의 사후검정을 실시하였다. 그 결과 1과 2지역을 제외한 모든 지역에서 연령의 차이는 유의한 차이를 보였다(P<0.0001).

비모수분석: Kruskal-Wallis test

Kruskal-Wallis test 비모수적 방법을 사용할 때! –표본수가 적어 모집단의 분포를 가정할 수 없는 경우 –순위 척도인 경우

지역별로 주민들의 연령의 평균에 차이가 있는가? 귀무가설: 모든 지역에서 주민들의 연령의 평균은 같다. 대립가설: 모든 지역에서 주민들의 연령의 평균이 같은 것은 아니다.

앞의 모수적 방법(ANOVA)과 같은 변수 선택

p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 따라서, 유의수준 0.05하에서 지역별 주민들의 연령의 평균은 다르다고 할 수 있다.

반복측정된 세 집단이상의 평균치 분석

생명표(life table), Kaplan-Meier 자료에 따른 통계분석 방법 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model

비모수의 반복 측정치 (여러 집단 또는 여러 번) 평균 비교: Friedman rank-sum test (p. 192)

여섯 명의 용접공이 다섯 종류의 용접기를 번갈아 사용하여 그 성능 (10점 만점, 연속형점수)을 비교하였다 여섯 명의 용접공이 다섯 종류의 용접기를 번갈아 사용하여 그 성능 (10점 만점, 연속형점수)을 비교하였다. 이 용접기들의 성능이 같다고 할 수 있는가? (p.193 표 5-1) 용접공 용접기1 용접기2 용접기3 용접기4 용접기5 1 3.9 4.1 4.2 3.3 2 9.4 9.5 9.0 8.6 3 9.7 9.3 9.2 8.4 4 8.3 8.0 7.9 7.4 5 9.8 8.9 9.0 8.3 6 9.9 10.0 9.7 9.6 9.1 다른 예: 여섯 개의 항생제를 다섯 종류의 박테리아 배지에 떨어뜨렸을 때 살균력을 반지름으로 측정하였다. 항생제의 살균력이 같다고 할 수 있는가?

용접기1의 점수 중앙값이 가장 높다.->용접기 1의 성능이 가장 높다. 평균대신 중앙값 비교 (비모수) 용접기1의 점수 중앙값이 가장 높다.->용접기 1의 성능이 가장 높다. p-value가 유의수준 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p=0.009) 즉, 유의수준 0.05하에서 용접기의 성능에는 차이가 있다고 할 수 있다.

다음주 시험 OPEN BOOK 표에서 평균, 표준편차 채우기 가설 세우기 (귀무, 대립 모두 써야 함) 분석방법 쓰기 상관계수와 p-value 구하기 분석결과 쓰기 유의한지 아닌지, 유의하지 않다면 왜 그러한지 이유를 써야 하는 부분