Decision Tree & Ensemble methods

Slides:



Advertisements
Similar presentations
1 구조체 윤 홍 란 컴퓨터 프로그래밍 2 구조체 정의  구조체란 ? o 서로 다른 형의 변수들을 하나로 묶어주는 mechanism. (cf. 배열 : 같은 형의 변수들을 하나로 묶어주는 mechanism) o 예 : 카드의.
Advertisements

언어의 자서전 소단원 (1) 단원. 언어의 특성 기호성 자의성 사회성 규칙성 창조성 역사성.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
ㅎㅎ 구조체 구조체 사용하기 함수 매개변수로서의 구조체 구조체 포인터와 레퍼런스 구조체 배열.
ㅎㅎ 구조체 C++ 프로그래밍 기초 : 객체지향의 시작 구조체 사용하기 함수 매개변수로서의 구조체 구조체 포인터와 레퍼런스
4.3 난괴법 (Randomized Block Design)
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
10장 랜덤 디지털 신호처리 1.
제12주 회귀분석 Regression Analysis
Learning Classifier using DNA Bagging
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사.
Homework #6 (1/3) 다음을 수행한 후, 화면(혹은 파일)을 출력하여 제출한다.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
디지털영상처리 및 실습 대구보건대학 방사선과.
컴퓨터 계측 및 실습 D/A-converter
8장 함수 함수의 필요성 라이브러리 함수와 사용자 정의 함수 함수의 정의, 원형, 호출 배열을 함수 인자로 전달 재귀호출.
제 11 장 서비스 수요 예측.
제 9 장 예측 이론.
23장. 구조체와 사용자 정의 자료형 2.
제 3 장 Memory - SRAM.
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
프로그래밍 개요
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
군집 분석.
CHAP 5. 레이아웃.
연구를 위한 준비 참고문헌 카드 만들기.
시뮬레이션 기반 가상 보조기구 알고리즘 최적화
논리회로 설계 및 실험 5주차.
2장. 변수와 타입.
뉴로 컴퓨터 개론 제 6 장.
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
Frequency distributions and Graphic presentation of data
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
논문작성을 위한 연구모형 설정 양동훈.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
주요 프로그램 고객 요청에 의거 품질/개발 분야 각 3개 과정으로 구분하여 교육 계획을 수립 하였으며,
Excel 일차 강사 : 박영민.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Word2Vec.
Word Embedding.
프렉탈 도형의 신비 양일중학교 2학년 김대현, 노동민.
Support Vector Machine
7장. 다양한 형태의 반복문. 7장. 다양한 형태의 반복문 7-1 반복문이란? 반복문의 기능 세 가지 형태의 반복문 특정 영역을 특정 조건이 만족하는 동안에 반복 실행하기 위한 문장 7-1 반복문이란? 반복문의 기능 특정 영역을 특정 조건이 만족하는 동안에 반복.
보험경영론 보험경영론 경일대학교 경영학과.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
K Nearest Neighbor.
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
목차 PMAC Tuning 2축 구동.
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
상관계수.
(Ⅰ) 독서와 언어의 본질 언어의 본질 1 2 [고등 국어] – 독서와 문법 독서의 본질 (1) 독서의 특성
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
Chapter 11 구조체.
텍스트 분석 ㈜ 퀀트랩.
실습과제 (변수와 자료형, ) 1. 다음 작업 (가), (나), (다)를 수행하는 프로그램 작성
실험의 목적 저울 사용법의 익힘 무게법 분석의 기초 일정무게로 건조하기. BaCl2 • 2H2O 의 수분함량 측정Determination of water in Barium Chloride Dihydrate.
제 4 장 Record.
RPTree 코드분석 (월) Dblab 김태훈.
Chapter 7. A3C Ho-Bin Choi A3C.
어서와 C언어는 처음이지 제21장.
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
Ch12. Deep Learning (Backpropagation)
강화학습: 기초.
Presentation transcript:

Decision Tree & Ensemble methods

Decision Tree

Decision Tree 장점 이해하기 쉽다 전처리가 단순 빠르다 다양한 종류의 변수를 다룰 수 있음 모형의 시각화 통계적 가정이 적음

Decision Tree 단점 과적합(overfitting) 결과의 불안정 최적화가 어려움 학습시키기 어려운 문제들이 있음(예: XOR) Imbalanced data에 취약

앙상블(Ensemble)

앙상블 하나의 모형은 under-/over-fitting 될 수 있음 앙상블: 여러 개의 모형을 만들어 다수결/평균을 사용 배깅(bagging 또는 bootstrap aggregation): 데이터에서 일부 변수의 샘플을 무작위로 뽑는다 샘플에 모형을 학습시킨다 1-2를 반복하여 여러 개의 모형을 만든다 위의 모형들의 예측의 다수결/평균으로 예측한다 Random Forest: DT + bagging

부스팅(boosting) 모든 데이터에 동일한 가중치 데이터로 모형1을 학습 모형1이 틀린 데이터의 가중치 높임 데이터로 모형2를 학습 3-4의 과정을 반복

경사 부스팅(Gradient Boosting) 데이터로 모형1을 학습 모형1의 예측과 실제의 오차 위의 오차를 모형2를 학습 3-4의 과정을 반복

경사 부스팅(Gradient Boosting) 실제값 = 모형1의 예측 + 모형1의 오차 모형1의 오차 = 모형2의 예측 + 모형2의 오차 모형2의 오차 = 모형3의 예측 + 모형3의 오차 실제값 = 모형1의 예측 + 모형2의 예측 + … + 아주 작은 오차