숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구

Slides:



Advertisements
Similar presentations
Theory and Design for Mechanical Measurements Prof. Bumkyoo Choi Depart. of Mechanical Engineering.
Advertisements

영어의미론 단원 7 직시와 한정성 복습 발화 / 문장은 특정한 시간 및 장소와 관련되어 있는가 ? “A/The man from Dundee stole my wallet.” 라는 발화에서 화자는 청자가 그 사람을 아는 것으로 가정하는가 ? 담화세계는 부분적으로 허구일.
“ PPT WORLD PowerPoint template, you can become an expert. Your wishes for the successful presentation. Our company wishes to own a successful presentation.
김예슬 김원석 김세환. Info Northcutt Bikes Northcutt Bikes The Forecasting problem The Forecasting problem The solution 1~6 The.
언어의 자서전 소단원 (1) 단원. 언어의 특성 기호성 자의성 사회성 규칙성 창조성 역사성.
- 을까요 ? ① Sogang Korean 1B UNIT 5 “– 을까요① ?” 같이 춤 출까요 ? 네, 좋아요.
Spring in North Korea, a time for farmers to harvest their crops 농부들이 추수를 하는 봄의 계절이 왔다.
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
디지털 제어 Sun Moon University 1 of 19 목 차 9. Frequency response analysis Kyoung-Chul DIGITAL CONTROL.
우울증 스트레스 불면증.
번역관련 자격증 소개 및 시험 대비 안내 정 윤 희.
국제 저명인사 초청 멀티스케일 에너지 강좌 미래창조과학부 글로벌 프론티어 멀티스케일 에너지 시스템 연구단/서울대학교
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
Chapter 7 ARP and RARP.
Journals & Conferences
과목 홈페이지  전산학개론 이메일 숙제를 제출할 경우, 메일 제목은 반드시 ‘[전산학개론]’으로 시작.
7장 : 캐시와 메모리.
데이터마이닝의 소개 Data Mining Introduction
Chapter 2 OSI 모델과 TCP/IP 프로토콜.
On the computation of multidimensional Aggregates
이산수학(Discrete Mathematics) 수학적 귀납법 (Mathematical Induction)
좋은 공학논문 작성을 위해서는 무엇이 필요한가?
확장바코드(GS1-128) Q&A.
1 도시차원의 쇠퇴실태와 경향 Trends and Features of Urban Decline in Korea
Chapter 2. Finite Automata Exercises
제 3 장 신경회로망 (Neural Networks)
머신 러닝 2 ㈜ 퀀트랩.
Humanistic Language Learning Materials
계수와 응용 (Counting and Its Applications)
Honesty is the best policy.
Medical Instrumentation
4-1 Gaussian Distribution
PCA Lecture 9 주성분 분석 (PCA)
Structural Dynamics & Vibration Control Lab., KAIST
스케줄링 (Scheduling) 시스템 내부시간(time in the system): 스케줄링 문제
제 15 장 거시경제의 측정 PowerPoint® Slides by Can Erbil
Data Mining Final Project
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
Introduction to Programming Language
Inferences concerning two populations and paired comparisons
Course Guide - Algorithms and Practice -
감마선스펙트럼 방사능측정 불확도 Environmental Metrology Center
Progress Seminar 신희안.
: 부정(negative)의 의미를 나타내는 접두사
Machine Learning using Neural Networks
시스템 분석 및 설계 글로컬 IT 학과 김정기.
The normal distribution (정규분포)
Operating System Multiple Access Chatting Program using Multithread
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
Data Analytics for Healthcare
이산수학(Discrete Mathematics)
7. Quicksort.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
스케줄링 (Scheduling) 시스템 내부시간(time in the system): 스케줄링 문제
창 병 모 숙명여대 전산학과 자바 언어를 위한 CFA 창 병 모 숙명여대 전산학과
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
자동제어공학 4. 과도 응답 정 우 용.
• I was touched by my friends’ effort.
이산수학(Discrete Mathematics)
(Ⅰ) 독서와 언어의 본질 언어의 본질 1 2 [고등 국어] – 독서와 문법 독서의 본질 (1) 독서의 특성
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Peer-to-Peer SIP Network Using Distributed Hash Table
간식의 세계!!.
[CPA340] Algorithms and Practice Youn-Hee Han
다음 우리말에 해당하는 영어 문장을 찾아 써 봅시다.
Chapter 4. Energy and Potential
Progress Seminar 이준녕.
Chapter 7: Deadlocks.
ECMiner를 이용한 데이터마이닝 기본교육
Sawasdee ka.
Presentation transcript:

관련논문 : “Input Data for decision trees” 데이터의 특성이 의사결정트리 생성에 미치는 영향을 연구한 논문 숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구   상관관계는 통계학에서 전통적으로 이루어진 연구이다. 데이터에서 여러 가지 속성들 간의 관계를 분석하는 것이다. 변수들 간의 상관관계를 분석하는 방법은 아래와 같이 여러 가지 방법들이 있다. * 피어슨 상관계수 : 수치형 속성들 간의 상관정도를 분석한다. 피어슨 상관계수의 결과는 -1에서 1사이의 값을 갖는다. 0이면 상관이 없는 것이고, 1에 가까울수록 양의 상관관계, -1에 가까울수록 음의 상관관계가 있는 것이다. * 카이스퀘어 분석 : 범주형 속성들 간의 상관정도를 분석한다. 자유도의 크기에 따라 유의성을 판단하는 값의 기준이 다르다. 카이스퀘어 표를 사용하여 상관정도를 판별한다. *  새로운 연구의 필요성 - 두 변수 간에는 상관관계가 발견되지 않으나 두 개 이상의 변수가 복합적으로 상관관계를 갖을 수 있다. (예1 : 수학점수, 체육점수, 총합점수 <수학과 체육은 무상관 가정>, <수학+체육>이 총합에 영향을 준다.) (예2 : - 수치형 속성과 범주형 속성 간의 상관관계 분석

논문의 출처 저자 : University of Florida, Selwyn Piramuthu* 저널 : Expert Systems with Applications 34 (2008) Available online at www.sciencedirect.com

논문의 소개 본 논문은 2008년 국제 저널 “Expert Systems with Applications” 34권 (pp. 1220-1226) 에 실린 논문이다. 데이터의 특성이 Regression 분석에 미치는 영향에 대한 연구는 많았으나 Decision Tree 에 대한 연구는 거의 없음을 지적하고 여러 가지 실험을 통하여 데이터의 특성이 Decision Tree에서의 효과를 연구하였다. 또한 이를 해결할 수 있는 몇 방법도 제시하였다. 데이터의 특성을 크게 4가지로 구분하여 실험하였다. Non-linearity / Outlier / Heteroschedasticity / Multicollinearity 추가연구의 필요성 : 알고리즘의 개선에 대한 추가 연구

연구의 목표 (1장의 내용 중) We consider some characteristics of input data and its effect on the learning performance of decision trees. Specifically, we consider the effects on non-linearity, outliers, heteroschedasticity, and multicollinearity in data. These have been shown to have significant effects on regression analysis. However, there has not been any published study that deals with these characteristics and their effects on the learning performance of decision trees.

연구의 목표 (2장의 내용 중) 본 논문에서는 Decision Tree 알고리즘에서 문제를 발생하는 4가지 데이터 특성을 설명하고 있다. (2.1-2.4) 모델 생성을 방해하는 4가지 데이터 특성 2.1 Non-linearity in input data 2.2 Presence of outliers in input data 2.3 Heteroschedtasticity in input data 2.4 Multicollinearity in input data

다중공선성의 문제 <발견> 다중공선성의 발견 We consider the pair-wise correlations among the independent variables. The resulting matrix is given below : 변수 x4는 다른 변수 x1, x2, X3와 모두 상관성이 높다. 즉, x4 변수로 인해 다중공선성이 있다고 볼 수 있다.

변수의 제거가 Decision Tree 의 성능 향상을 시키지 못했음을 볼 수 있다. 다중공선성의 문제 <해결> 다중공선성의 해결 (변수의 제거) Now, let us consider the same two sets of data, both before and after removing x4 from the data. Regression 실험 원 데이터 Adj-R2 : 0.381 , x4 제거 후 실험 : Adj-R2 : 0.3853 Decision Tree 실험 변수의 제거가 Decision Tree 의 성능 향상을 시키지 못했음을 볼 수 있다.

다중공선성의 문제 <해결: 제안방법> Data Reduction : Example reduction method Clustering We utilize clustering as a pre-processing step for learning applications. Specifically, we use (k-means) clustering for data reduction in the number of example dimension, and as a pre-processing step for decision trees.

실험 데이터 IRIS Plants database We chose this database to illustrate the proposed method. We chose this database simply because it is among the best known pattern recognition databases, its simplicity, and any results generated using this database can be readily compared with those generated through other methods. Data from one of the type is linearly separable form the other two, and the latter two are not linearly separable from each other.