모수 통계학과 비모수 통계학 Parametric Statistics, NonParametric Statistics 숭실대학교 김완섭 wskim92@ssu.ac.kr 2010년 2월 17일 ----- 데이터마이닝에서의 다중공선성에 관한 연구 ----- 다중공선성에 견고한 데이터마이닝 분석 기법 연구 데이터마이닝의 범위는 너무 넓으므로 <결정트리>에 한정하여 ----- 다중공선성에 견고한 결정트리에 관한 연구 ----- 다중공선성에 국한한 것이 아니라 그 외에도 존재하는 다양한 특성을 고려할 수 있으므로 ----- 입력 데이터의 상호관계에 견고한 결정트리 연구 -----
Nonparametric Statistics for Non-Statisticians 도서제목 Nonparametric Statistics for Non-Statisticians 본 도서의 전체적인 내용을 정리함. 특히 1장 p.1 - p.9 의 내용임 비모수적 분석이란? 통계학의 분석기법들은 크게 모수적 분석과 비모수적 분석 방법으로 분류됨 모수적 분석(Parametric Analysis) : 입력데이터의 특정한 특성(정규분포 등)을 가정함 비모수적 분석(Nonparametric Analysis) : 입력데이터의 특성을 가정하지 않음 왜 비모수적 분석이 필요한가? 우리가 보통 알고 있고 사용하는 분석방법은 대부분 모수적 분석방법들이다. 입력데이터가 모수적 분석방법이 가정한 특성(정규분포 등)을 만족하지 못할 때는 모수적 분석이 아니라 이에 해당하는 비모수적 방법을 적용해야 함 데이터 특성을 고려하지 못하고 그대로 적용하면 잘못된 결론을 내리게 됨 비모수적 분석의 의미 통계분석을 수행함에 앞서 데이터의 특성을 분석하고 적합한 방법을 적용해야 하는 필요성 데이터의 특성에 견고한 분석 방법을 연구할 때 참고자료가 될 수 있음
SPSS/PC+를 이용한 비모수통계학 도서제목 머리글 중 1.1 비모수적 방법이란? 비모수적 방법은 모집단의 분포형태에 대한 가정을 완화하여 이론을 전개하기 때문에 가정이 만족되지 않음으로써 생기는 오류의 가능성이 적고 또한 계산이 간편하고 직관적으로 이해하기 쉽다는 장점이 있다. 통계학에서 다루는 대부분의 추론방법들은 모집단이 특정한 분포를 따른다는 가정하에서 모르는 모수(parameter)에 대한 추정이나 검정 등을 생각하는데 이 방법을 모수적(parametric method)이라 하고, 반면에 모집단에 대한 분포형태를 가정할 수 없는 경우에는 모집단의 분포형태에 대한 가정을 완화하여 이론을 전개하는데 이와 같은 통계적 방법을 비모수적 방법(nonparametric method)이라고 말한다.
Parametric Equivalent 도서제목 Nonparametric Statistics for Non-Statisticians p.4 의 Parametric vs Nonparametric 분석방법 분류표 Type of Analysis Nonparametric Test Parametric Equivalent Comparing two related samples Wilcoxon signed ranks test T-test for dependent samples Comparing two unrelated samples Mann-Whitney U-test T-test for independent samples Comparing three or more related samples Friedman test Repeated measure ANOVA Comparing there or more unrelated samples Kruskal-Wallis H-test One-way ANOVA Comparing categorical data Chi-square test and Fisher exact test None Comparing two rank-ordered variables Spearman rank-order correlation Pearson product-moment correlation Comparing two variables when one variable is discrete dichotomous Point-biserial correlation Comparing two variables when one variable is continous dichotomous Biserial correlation Person product-moment correlation Examining a samples for randomness Runs Test
Kruskal-Wallis H-test 도서제목 Nonparametric Statistics for Non-Statisticians 앞 슬라이드의 표 중 몇 가지만 정리함 입력 데이터의 형태 비모수적 분석법 모수적 분석법 2개의 수치형 변수 간의 상관 관계 두 변수 모두 순위 변수일 경우 스피어만 순위 상관계수 피어슨 상관계수 한 변수는 수치형 다른 한 변수는 이산적 이진형 Point-Biserial 상관계수 다른 한 변수는 연속적 이진형 Biserial 상관계수 2개의 범주형 변수간의 상관관계 카이제곱 검정 없음 2개 집단의 평균 비교 Mann-Whitney U-test T검정 3개 이상 집단의 평균 비교 Kruskal-Wallis H-test ANOVA
Nonparametric Statistics for Non-Statisticians 도서제목 Nonparametric Statistics for Non-Statisticians P6. 모수적 방법의 간단한 적용 예 (필요성) 두 집단의 차이가 존재하는지 검정하고자 함 (독립표본 T검정) 아침식사 여부가 학생들의 성적에 영향을 미치는가? 아침식사를 한 학생 그룹과 아침식사를 하지 않는 학생 그룹 간에 성적의 차이가 존재하는가? 시험 성적은 일반적으로 정규분포를 따르기 때문에 이 분석은 T검정을 사용할 수 있다. T검정 수행 결과 Students Who Ate Breakfast Students Who Skipped Breakfast 87 96 92 84 93 83 79 73 유의확률이 0.179 (>0.05) 이므로 귀무가설 을 기각할 수 없다. (귀무가설: 평균차 없음) 즉, 두 그룹의 평균차는 없다. 아침식사는 성적에 영향을 주지 않는다. 독립표본 T검정을 수행하는 방법 (이훈영 교수의 SPSS) p.78-82. 참고함 위에서, <등분산이 가정됨> 과 <가정되지 않음> 두가지로 구분되는데 이 차이는 정확하게 모르겠다. 확인 필요함.
Nonparametric Statistics for Non-Statisticians 도서제목 Nonparametric Statistics for Non-Statisticians P6. 모수적 방법의 간단한 적용 예 (필요성) 입력 데이터가 순위로 변경해보자. 위 데이터는 정규분포의 가정을 만족하지 않으므로 비모수적 분석방법을 사용해야 함 Mann Whitney U-test 분석 (T검정에 대응되는 비모수적 분석법) Value Rank 73 79 83 84 87 92 93 96 1 2 3 4 5 6 7 8 Students Who Ate Breakfast Students Who Skipped Breakfast 5 8 6 4 7 3 2 1
Nonparametric Statistics for Non-Statisticians 도서제목 Nonparametric Statistics for Non-Statisticians P12-28 데이터의 정규성(정규분포) 점검과 분석방법의 선택 예 2. Testing Data for Normality 정규분포를 만족하기 위해서는 아래의 첨도, 왜도가 없어야 함 첨도, 왜도를 평가하는 수식 SPSS에서 첨도, 왜도를 측정하는 방법 정규분포 여부에 따른 분석방법 선택 Kurtosis (첨도) 같은 모수를 가진 정규분포보다 급하거나 완만한 경사를 갖는 분포 Skewness (왜도) 비대칭된 분포 (뒤틀어짐) 만족할 때 t-Test, One-way ANOVA 만족 못할 때 Kolmogorov-Smirnov One-sample Test
Applied Regression Modeling : A Business Approach 도서제목 Applied Regression Modeling : A Business Approach P173 -. 회귀분석의 위험 요소들 5.2 Regression Pitfalls 5.2.1 Autocorrelation : 자기상관성 5.2.2 Multicollinearity : 다중공선성 5.2.3 Excluding important predictor variables (중요 변수 제외) 5.2.4 Overfitting (과적합) 5.2.5 Extrapolation (외삽법, 보외법) 5.2.6 Missing data 위에서 제시된 6개의 내용 중에서 입력 변수들 간의 관계 때문에 발생하는 문제는 Autocorrelation 과 Multicollineartiy 라고 볼 수 있다. Autocorrelation (자기상관) 은 더빈왓슨 수식으로 진단되며, Multicollinearity (다중공선성)은 VIF (분산팽창계수) 수식으로 진단된다.