Machine Learning & Data Mining

Slides:



Advertisements
Similar presentations
-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원
Advertisements

제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Add Your Text 5. 지수함수와 로그함수 1. 지수함수 2. 로그함수 · 지수함수와 그 그래프 · 지수방정식과 지수부등식 · 로그 함수와 그 그래프 · 로그방정식과 로그부등식.
제13장 로지스틱회귀분석.
제 2 장 회귀분석 동아대학교 경영정보학과 이정형.
DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석.
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
(Numerical Analysis of Nonlinear Equation)
회귀분석(Regression).
회귀분석(Regression).
수치해석 6장 예제문제 환경공학과 천대길.
제12주 회귀분석 Regression Analysis
제 6 장. 수치미분과 수치적분.
Medical Instrumentation
단순(선형)회귀분석.
비모수 분석 및 복습.
제Ⅲ부 상미분 방정식의 근사해법과 유한요소해석
제 11 장 서비스 수요 예측.
CAS (Computer Algebra System) 소개
상관함수 correlation function
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
Keller: Stats for Mgmt & Econ, 7th Ed
Linear Mixed Model을 이용한 분석 결과
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
(independent variable)
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
회귀분석(Regression).
두 모집단에 대한 검정.
단순회귀분석 (Simple Linear Regression Analysis)
Decision Tree & Ensemble methods
MECHATRONICS 한경대학교 정보제어공학과 담당교수 : 조재훈.
Fitting / Matrix / Excel
1. 일반적인 지수.
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
CAS (Computer Algebra System) 소개
미분방정식.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
01 로그의 정의 ⑴ 일 때, 양수 에 대하여 을 만족시키는 실수 는 오직 하나 존재한다. 이때 를
자동제어공학 3. 물리적 시스템의 상태방정식 정 우 용.
Sampling Distributions
통계해석 및 오차의 제거.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
Support Vector Machine
1. 접선의 방정식 2010년 설악산.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
Chapter 7 – Curves Part - I
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 12장  원가추정 강사: 정재을 과목: 원가회계.
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
문제의 답안 잘 생각해 보시기 바랍니다..
Ch8.기본적인 RL, RC 회로 자연응답, 강제응답, 시정수, 계단입력과 스위치 회로
Survey Sampling Sangji University.
Presentation transcript:

Machine Learning & Data Mining Non-linear Regression & Logistic Regression Analysis 고 병 성 산업정보시스템공학과 1

순 서 Regression Analysis Non-linear Regression Polynomial Regression Logistic Regression 참고자료

Regression vs. classification Regression is similar to classification First, construct a model Second, use model to predict unknown value Regression methods Linear and multiple regression Non-linear regression Regression is different from classification Classification refers to predict categorical class label Regression models continuous-valued functions

Regression Analysis General Solution and its Limitations Find mathematical function f which describes this relationship: 1. Identify the unknown function f 2. Imitate or emulate the unknown function f

Regression Analysis ε : error in observed value z Generic Solution The effect of independent variables on the response is expressed mathematically be the regression or response function f : y : dependent variable a1, a2, ..., aq : regression parameters (unknown!) f : the form is usually assumed to be known Regression model for observed response variable: ε : error in observed value z

Regression Analysis Regression Types (1/2) Linear regression Simple Linear regression Multiple regression Many nonlinear functions can be transformed into the above Non-linear regression Other regression methods: Generalized linear model Logistic regression Log-linear models Regression trees

(Multiple Regression) Regression Analysis Regression Types (2/2) 입력변수 수 1개 2개 이상 단순회귀분석 (Simple Regression) 다중회귀분석 (Multiple Regression) 입력변수 선형성 입력변수 선형성 선형 비선형 선형 비선형 단순선형 회귀모형 단순비선형 회귀모형 다중선형 회귀모형 다중비선형 회귀모형

Regression Analysis 변수의 형태와 분석방법

Regression Analysis Linear vs. Non-linear(독립-종속 변수간) Non - Linear model L inear model Profit 7 Years Early Loan Paid Off

Regression Analysis b0, b1 ??  LSE, Simple Linear Regression Model with one predictor variable: Y Y = b0 + b1 X + e (residual) explained part (error) explained part of Y The fitted line is a straight line, since the model is of 1st order: X Ŷ = b0 + b1 X b0, b1 ??  LSE,

Transform to linear model with Regression Analysis Quadratic Regression(Non-linear) Quadratic Regression model: X Y Y = b0 + b1 X + b2 X2 Transform to linear model with

Transform to linear model with Regression Analysis Polynomial Regression(Non-linear) 3rd-order Regression model: X Y Y = b0 + b1 X + b2 X2 + b3 X3 Transform to linear model with

Regression Analysis Other Non-linear Regression Transform to linear model 비선형 함수 변환 선형 형태 (a) 지수 방정식 (b) 멱 방정식 (c) 포화 성장률 방정식

Polynomial Regression 비선형 관계식의 선형화 선형 회귀분석은 data에 최적의 직선을 접합 시키는 가장 좋은 기법 그러나, 종속 변수 & 독립 변수가 선형 관계를 가질 때만 그러함 data가 선형 모델에 적절한지 눈으로 확인(산점도 작성) 다항식 회귀분석 사용(옆 그림) 다항식 회귀분석 변환  선형 회귀 분석 (가능)

Polynomial Regression 다항식 회귀식 모수 추정방법 : 최소자승법(LSE) 행렬식 잔차의 최소화 ↓ 모든 모수에 대해 편미분=0

Polynomial Regression 모수 추정방법 : 최소자승법(LSE) 단순선형회귀, 다항식회귀, 다중회귀 등 모두 동일 적용이 가능한 일반화된 행렬식 역변환 모수행렬 추정 모형

Polynomial Regression 회귀식 적합도 추정의 표준편차(절대평가) 결정계수(상대평가) 여기서, Sr을 구하기 위해 (m+1)개의 계수 사용 (m+1)의 자유도를 잃음

Polynomial Regression Example-I (1/6)

Polynomial Regression Example-I (2/6) Manual (by Excel)

Polynomial Regression Example-I (3/6) Manual (by Excel)

Polynomial Regression Example-I (4/6) Manual (by Excel)

Polynomial Regression Example-I (5/6) MS-Excel Package

Polynomial Regression Example-I (6/6) Minitab 15 회귀모형 적합도(OK) 회귀모형 검증(OK)

Nonlinear Regression Model 회귀 모형에서 주어진 회귀식의 모수(parameter)들이 비선형 함수로 나타내어진 경우 이 경우 모형에 대한 통계적 분석은 회귀계수의 추정방법에서 선형 회귀모형과 큰 차이가 있으며 대부분 근사적 방법으로 결과 유도 이때 는 설명변수 x와 미지의 p차원 모수 벡터 의 함수로 주어지는 회귀식이며 이 회귀식이 들의 비선형 함수로 이루어진 모형 예)

Nonlinear Regression Model 모수 추정 비선형 회귀분석에서도 모수 의 추정은 최소자승법(LSE) 이용 선형 회귀분석에서와 같이 제곱합 y에 대해 편미분 계산 위 식으로부터 모수 에 대한 정규방정식(normal equation)도출 그러나, 정규방정식은 의 비선형 함수이므로 연립방정식(행렬)을 이용하여 직접 구하지 못하고, Gauss-Newton, Gradient Search 등과 같은 반복 추정방법을 사용

Logistic Regression “Logistic Regression”은 범주형(categorical) 종속변수(yi)를 위한 회귀분석 방법 yi가 범주형 일때(y = 0, 1) 선형회귀모형 y = a+bx+e 적용시 문제점 a + bx는 [0,1]을 벗어날 수 있음. 오차항 e의 분포가 정규분포가 아님. 대안 : P(Y = 1|x) = F(a + bx), 여기서 F(x)는 연속이고 증가하며 [0,1]사이에서 값을 갖는 함수 Logistic 모형 : F(x) = exp(x)/(1 + exp(x)) Gumbel 모형 : F(x) = exp(-exp(x)) Probit 모형 : F(x)가 표준정규분포의 분포함수 로지스틱 모형이 계산의 편이성으로 인하여 가장 널리 쓰임

Logistic Regression Logistic Response Function S-형태 곡선인 확률(p)와 변수(x) 사이의 관계 함수 위의 S-곡선은 확률을 다음과 같이 모형화하여 재표현 p x

Logistic Regression Logistic Regression Function 앞의 로지스틱 모형을 여러 개의 설명(종속) 변수가 있는 형태로 일반화 시킨 함수를 로지스틱 회귀함수라고 함. 이는 모수 β에 비선형이지만 로짓(Logit) 변환에 의해 선형화 가능 ODDs ratio(p/(1-p))를 이용 양쪽에 자연로그를 취하면, 어떤 사건이 일어날 확률(Y=1)

Logistic Regression ½ 1 + – Logit 변환의 의미 확률 Odds Logit 선형회귀에 더 적절한 함수를 도출 ½ 1 확률 Odds Logit + –

Logistic Regression Logistic Regression Function logit(P) = ln(P/(1-P))이 입력변수의 선형함수로 구성되어 있다고 가정 위 식의 양변에 exp 지수함수를 취해 주면, 이 값은 원래의 확률(P) 값을 계산하기 위해 역 변환(Inverse)을 취함 xi = i 번째 입력변수 pi = i 번째 출력변수 η

Logistic Regression 모수(i) 추정 방법 : 최대우도(maximum likelihood) 추정법 이용 우도함수(likelihood function) 우도함수를 최대화하는 최대우도추정법(MLE)을 이용하여 을 수치적(numerical) 방법으로 산출

Logistic Regression Example-II (1/5) 독립/입력변수 1 (categorical) 독립/입력변수 2 (continuous) 종속/출력변수 (categorical) 특정요일 여부(x1) 최고기온(x2) 스페셜 판매여부(y) 5일(월) 28 1 6일(화) 24 7일(수) 26 8일(목) 9일(금) 23 10일(토) 11일(일) 12일(월) 13일(화) 25 14일(수) 15일(목) 21 16일(금) 22 17일(토) 27 18일(일) 19일(월) 20일(화) 21일(수) 22일(목) 23일(금) 24일(토) 25일(일)

Logistic Regression Example-II (2/5) Manual (by Excel)

Logistic Regression Example-II (3/5) Manual (by Excel) 추정 모수값

Logistic Regression Example-II (4/5) Manual (by Excel) 로지스틱 회귀식 분류(classification) 예 X1=1, x2=23 → P=0.44, y=0 X1=0, x2=29 → P=0.64, y=1

Logistic Regression Example-II (5/5) Minitab 15 회귀계수 회귀모형 검증(OK)

참 고 자 료

회귀추정 방법 (1/3) 최소자승법(Least Squares Estimation, LSE) - 실제 관측치와 추정치와의 차이의 제곱 합을 최소화 하는 값을 추정 하는 방법 - LSE에 의한 추정량은 최량선형불편추정량(the Best Linear Unbiased Estimator, BLUE) - 1차 함수에 의한 선형모형을 추정 최우추정법(maximum likelihood Estimation, MLE) - 특정한 표본치의 확률이 최대가 되게 하는 모수값을 찾아내는 방법에 의해 추정치를 추정 - 대표본에서는 추정량이 좋은 성질을 가지지만, 소표본에서는 반드시 불편성이 확보되지는 못함 ※편차는 평균으로부터의 차이 ※오차는 근사값에서 참값을 뺀 차 ※표준오차는 미지의 모집단에 대한 통계적 추정과정에 있어서 미지의 모수에 대한 추정량의 표준편차를 말하며, 표본오차는 표본추출에 있어서의 오차를 말함

회귀추정 방법 (2/3) 최소자승법(Least Squares Estimation : LSE)

회귀추정 방법 (3/3) 최우추정법(maximum likelihood Estimation : MLE)

회귀식의 적합도 (1/4) 결정계수(coefficient of determination) : R2 Y Xi X 결정계수는 표본관측을 통하여 추정한 회귀선이 변수의 표본 관측에 얼마나 적합한가를 나타내는 계수로 상관계수의 제곱 Y Yi • Xi X

회귀식의 적합도 (2/4) 총 변동(SST : total sum of squares) 독립변수의 변화에 따라 종속변수가 평균을 기준으로 얼마나 변동되었는지를 나타냄 = 설명된 변동 + 설명 안된 변동 = 모형에 의한 부분 + 오차에 의한 부분 설명되는 변동(SSR : regression sum of squares) 회귀선의 추정으로 설명된 변동 설명되는 않는 변동(SSE : error sum of squares) 잔차의 자승합

회귀식의 적합도 (3/4) 결정계수(R2)

회귀식의 적합도 (4/4) 결정계수(R2) 특성 0 ≤ R2 ≤ 1이며, R2 값은 표본회귀모형의 적합도 또는 설명력이 큰 것을 의미 R2=1은 종속변수와 설명변수 간에 완벽한 선형관계가 존재하여 표본회귀선이 표본자료를 잘 적합하고 있음 R2=0은 종속변수와 설명변수 간에 선형관계가 없어 표본회귀선이 표본자료를 전혀 적합하지 못함을 의미 R2=0 R2=1

일반적인 회귀분석 절차 산포도를 그려서 자료변동의 대략적인 추세를 살핌 회귀모형의 형태를 결정 X Y 산포도를 그려서 자료변동의 대략적인 추세를 살핌 회귀모형의 형태를 결정 회귀모형의 계수와 회귀식의 적합도를 구함 회귀모형이 통계적으로 유의한가를 검정 X Y Ŷ = b0 + b1 X , R2 등

ODDs Ratio(승산비) ODDs Ratio 확률(p)이 0과 1 사이의 값을 가지는 반면 오즈비는 0에서 무한대 값을 가지며 임의의 사건의 상대적인 발생 가능성을 나타냄 도박의 기준 한국이 2010년 16강에 들어갈 확률(p) 0.1이면 ODDs=1/9 한국 승리에 1만원을 걸은 사람은 한국이 이길 경우 9만원을 받음 브라질이 2010년 16강에 들어갈 확률(p) 0.8이면 ODDs=4 브라질 승리에 4만원을 걸은 사람은 브라질이 이길 경우 1만원을 받음 p : 임의의 사건이 발생(성공)할 확률

Regression Tool Tool 비교 구분 Excel 2003 Minitab 15 주요 특징 사무용 S/W 선형 회귀  비선형 회귀 (로그, 다항식 등) 로지스틱 회귀  회귀성 검증 선형 회귀만 가능 (비선형인 경우 치환) 선형/비선형 가능