관련논문 : “Input Data for decision trees” 데이터의 특성이 의사결정트리 생성에 미치는 영향을 연구한 논문 숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어 - 상관분석에 대한 연구 상관관계는 통계학에서 전통적으로 이루어진 연구이다. 데이터에서 여러 가지 속성들 간의 관계를 분석하는 것이다. 변수들 간의 상관관계를 분석하는 방법은 아래와 같이 여러 가지 방법들이 있다. * 피어슨 상관계수 : 수치형 속성들 간의 상관정도를 분석한다. 피어슨 상관계수의 결과는 -1에서 1사이의 값을 갖는다. 0이면 상관이 없는 것이고, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계가 있는 것이다. * 카이스퀘어 분석 : 범주형 속성들 간의 상관정도를 분석한다. 자유도의 크기에 따라 유의성을 판단하는 값의 기준이 다르다. 카이스퀘어 표를 사용하여 상관정도를 판별한다. * 새로운 연구의 필요성 - 두 변수 간에는 상관관계가 발견되지 않으나 두 개 이상의 변수가 복합적으로 상관관계를 갖을 수 있다. (예1 : 수학점수, 체육점수, 총합점수 <수학과 체육은 무상관 가정>, <수학+체육>이 총합에 영향을 준다.) (예2 : - 수치형 속성과 범주형 속성 간의 상관관계 분석
논문의 출처 저자 : University of Florida, Selwyn Piramuthu* 저널 : Expert Systems with Applications 34 (2008) Available online at www.sciencedirect.com
논문의 소개 본 논문은 2008년 국제 저널 “Expert Systems with Applications” 34권 (pp. 1220-1226) 에 실린 논문이다. 데이터의 특성이 Regression 분석에 미치는 영향에 대한 연구는 많았으나 Decision Tree 에 대한 연구는 거의 없음을 지적하고 여러 가지 실험을 통하여 데이터의 특성이 Decision Tree에서의 효과를 연구하였다. 또한 이를 해결할 수 있는 몇 방법도 제시하였다. 데이터의 특성을 크게 4가지로 구분하여 실험하였다. Non-linearity / Outlier / Heteroschedasticity / Multicollinearity 추가연구의 필요성 : 알고리즘의 개선에 대한 추가 연구
연구의 목표 (1장의 내용 중) We consider some characteristics of input data and its effect on the learning performance of decision trees. Specifically, we consider the effects on non-linearity, outliers, heteroschedasticity, and multicollinearity in data. These have been shown to have significant effects on regression analysis. However, there has not been any published study that deals with these characteristics and their effects on the learning performance of decision trees.
연구의 목표 (2장의 내용 중) 본 논문에서는 Decision Tree 알고리즘에서 문제를 발생하는 4가지 데이터 특성을 설명하고 있다. (2.1-2.4) 모델 생성을 방해하는 4가지 데이터 특성 2.1 Non-linearity in input data 2.2 Presence of outliers in input data 2.3 Heteroschedtasticity in input data 2.4 Multicollinearity in input data
다중공선성의 문제 <발견> 다중공선성의 발견 We consider the pair-wise correlations among the independent variables. The resulting matrix is given below : 변수 x4는 다른 변수 x1, x2, X3와 모두 상관성이 높다. 즉, x4 변수로 인해 다중공선성이 있다고 볼 수 있다.
변수의 제거가 Decision Tree 의 성능 향상을 시키지 못했음을 볼 수 있다. 다중공선성의 문제 <해결> 다중공선성의 해결 (변수의 제거) Now, let us consider the same two sets of data, both before and after removing x4 from the data. Regression 실험 원 데이터 Adj-R2 : 0.381 , x4 제거 후 실험 : Adj-R2 : 0.3853 Decision Tree 실험 변수의 제거가 Decision Tree 의 성능 향상을 시키지 못했음을 볼 수 있다.
다중공선성의 문제 <해결: 제안방법> Data Reduction : Example reduction method Clustering We utilize clustering as a pre-processing step for learning applications. Specifically, we use (k-means) clustering for data reduction in the number of example dimension, and as a pre-processing step for decision trees.
실험 데이터 IRIS Plants database We chose this database to illustrate the proposed method. We chose this database simply because it is among the best known pattern recognition databases, its simplicity, and any results generated using this database can be readily compared with those generated through other methods. Data from one of the type is linearly separable form the other two, and the latter two are not linearly separable from each other.