Machine Learning & Data Mining Non-linear Regression & Logistic Regression Analysis 고 병 성 산업정보시스템공학과 1
순 서 Regression Analysis Non-linear Regression Polynomial Regression Logistic Regression 참고자료
Regression vs. classification Regression is similar to classification First, construct a model Second, use model to predict unknown value Regression methods Linear and multiple regression Non-linear regression Regression is different from classification Classification refers to predict categorical class label Regression models continuous-valued functions
Regression Analysis General Solution and its Limitations Find mathematical function f which describes this relationship: 1. Identify the unknown function f 2. Imitate or emulate the unknown function f
Regression Analysis ε : error in observed value z Generic Solution The effect of independent variables on the response is expressed mathematically be the regression or response function f : y : dependent variable a1, a2, ..., aq : regression parameters (unknown!) f : the form is usually assumed to be known Regression model for observed response variable: ε : error in observed value z
Regression Analysis Regression Types (1/2) Linear regression Simple Linear regression Multiple regression Many nonlinear functions can be transformed into the above Non-linear regression Other regression methods: Generalized linear model Logistic regression Log-linear models Regression trees
(Multiple Regression) Regression Analysis Regression Types (2/2) 입력변수 수 1개 2개 이상 단순회귀분석 (Simple Regression) 다중회귀분석 (Multiple Regression) 입력변수 선형성 입력변수 선형성 선형 비선형 선형 비선형 단순선형 회귀모형 단순비선형 회귀모형 다중선형 회귀모형 다중비선형 회귀모형
Regression Analysis 변수의 형태와 분석방법
Regression Analysis Linear vs. Non-linear(독립-종속 변수간) Non - Linear model L inear model Profit 7 Years Early Loan Paid Off
Regression Analysis b0, b1 ?? LSE, Simple Linear Regression Model with one predictor variable: Y Y = b0 + b1 X + e (residual) explained part (error) explained part of Y The fitted line is a straight line, since the model is of 1st order: X Ŷ = b0 + b1 X b0, b1 ?? LSE,
Transform to linear model with Regression Analysis Quadratic Regression(Non-linear) Quadratic Regression model: X Y Y = b0 + b1 X + b2 X2 Transform to linear model with
Transform to linear model with Regression Analysis Polynomial Regression(Non-linear) 3rd-order Regression model: X Y Y = b0 + b1 X + b2 X2 + b3 X3 Transform to linear model with
Regression Analysis Other Non-linear Regression Transform to linear model 비선형 함수 변환 선형 형태 (a) 지수 방정식 (b) 멱 방정식 (c) 포화 성장률 방정식
Polynomial Regression 비선형 관계식의 선형화 선형 회귀분석은 data에 최적의 직선을 접합 시키는 가장 좋은 기법 그러나, 종속 변수 & 독립 변수가 선형 관계를 가질 때만 그러함 data가 선형 모델에 적절한지 눈으로 확인(산점도 작성) 다항식 회귀분석 사용(옆 그림) 다항식 회귀분석 변환 선형 회귀 분석 (가능)
Polynomial Regression 다항식 회귀식 모수 추정방법 : 최소자승법(LSE) 행렬식 잔차의 최소화 ↓ 모든 모수에 대해 편미분=0
Polynomial Regression 모수 추정방법 : 최소자승법(LSE) 단순선형회귀, 다항식회귀, 다중회귀 등 모두 동일 적용이 가능한 일반화된 행렬식 역변환 모수행렬 추정 모형
Polynomial Regression 회귀식 적합도 추정의 표준편차(절대평가) 결정계수(상대평가) 여기서, Sr을 구하기 위해 (m+1)개의 계수 사용 (m+1)의 자유도를 잃음
Polynomial Regression Example-I (1/6)
Polynomial Regression Example-I (2/6) Manual (by Excel)
Polynomial Regression Example-I (3/6) Manual (by Excel)
Polynomial Regression Example-I (4/6) Manual (by Excel)
Polynomial Regression Example-I (5/6) MS-Excel Package
Polynomial Regression Example-I (6/6) Minitab 15 회귀모형 적합도(OK) 회귀모형 검증(OK)
Nonlinear Regression Model 회귀 모형에서 주어진 회귀식의 모수(parameter)들이 비선형 함수로 나타내어진 경우 이 경우 모형에 대한 통계적 분석은 회귀계수의 추정방법에서 선형 회귀모형과 큰 차이가 있으며 대부분 근사적 방법으로 결과 유도 이때 는 설명변수 x와 미지의 p차원 모수 벡터 의 함수로 주어지는 회귀식이며 이 회귀식이 들의 비선형 함수로 이루어진 모형 예)
Nonlinear Regression Model 모수 추정 비선형 회귀분석에서도 모수 의 추정은 최소자승법(LSE) 이용 선형 회귀분석에서와 같이 제곱합 y에 대해 편미분 계산 위 식으로부터 모수 에 대한 정규방정식(normal equation)도출 그러나, 정규방정식은 의 비선형 함수이므로 연립방정식(행렬)을 이용하여 직접 구하지 못하고, Gauss-Newton, Gradient Search 등과 같은 반복 추정방법을 사용
Logistic Regression “Logistic Regression”은 범주형(categorical) 종속변수(yi)를 위한 회귀분석 방법 yi가 범주형 일때(y = 0, 1) 선형회귀모형 y = a+bx+e 적용시 문제점 a + bx는 [0,1]을 벗어날 수 있음. 오차항 e의 분포가 정규분포가 아님. 대안 : P(Y = 1|x) = F(a + bx), 여기서 F(x)는 연속이고 증가하며 [0,1]사이에서 값을 갖는 함수 Logistic 모형 : F(x) = exp(x)/(1 + exp(x)) Gumbel 모형 : F(x) = exp(-exp(x)) Probit 모형 : F(x)가 표준정규분포의 분포함수 로지스틱 모형이 계산의 편이성으로 인하여 가장 널리 쓰임
Logistic Regression Logistic Response Function S-형태 곡선인 확률(p)와 변수(x) 사이의 관계 함수 위의 S-곡선은 확률을 다음과 같이 모형화하여 재표현 p x
Logistic Regression Logistic Regression Function 앞의 로지스틱 모형을 여러 개의 설명(종속) 변수가 있는 형태로 일반화 시킨 함수를 로지스틱 회귀함수라고 함. 이는 모수 β에 비선형이지만 로짓(Logit) 변환에 의해 선형화 가능 ODDs ratio(p/(1-p))를 이용 양쪽에 자연로그를 취하면, 어떤 사건이 일어날 확률(Y=1)
Logistic Regression ½ 1 + – Logit 변환의 의미 확률 Odds Logit 선형회귀에 더 적절한 함수를 도출 ½ 1 확률 Odds Logit + –
Logistic Regression Logistic Regression Function logit(P) = ln(P/(1-P))이 입력변수의 선형함수로 구성되어 있다고 가정 위 식의 양변에 exp 지수함수를 취해 주면, 이 값은 원래의 확률(P) 값을 계산하기 위해 역 변환(Inverse)을 취함 xi = i 번째 입력변수 pi = i 번째 출력변수 η
Logistic Regression 모수(i) 추정 방법 : 최대우도(maximum likelihood) 추정법 이용 우도함수(likelihood function) 우도함수를 최대화하는 최대우도추정법(MLE)을 이용하여 을 수치적(numerical) 방법으로 산출
Logistic Regression Example-II (1/5) 독립/입력변수 1 (categorical) 독립/입력변수 2 (continuous) 종속/출력변수 (categorical) 특정요일 여부(x1) 최고기온(x2) 스페셜 판매여부(y) 5일(월) 28 1 6일(화) 24 7일(수) 26 8일(목) 9일(금) 23 10일(토) 11일(일) 12일(월) 13일(화) 25 14일(수) 15일(목) 21 16일(금) 22 17일(토) 27 18일(일) 19일(월) 20일(화) 21일(수) 22일(목) 23일(금) 24일(토) 25일(일)
Logistic Regression Example-II (2/5) Manual (by Excel)
Logistic Regression Example-II (3/5) Manual (by Excel) 추정 모수값
Logistic Regression Example-II (4/5) Manual (by Excel) 로지스틱 회귀식 분류(classification) 예 X1=1, x2=23 → P=0.44, y=0 X1=0, x2=29 → P=0.64, y=1
Logistic Regression Example-II (5/5) Minitab 15 회귀계수 회귀모형 검증(OK)
참 고 자 료
회귀추정 방법 (1/3) 최소자승법(Least Squares Estimation, LSE) - 실제 관측치와 추정치와의 차이의 제곱 합을 최소화 하는 값을 추정 하는 방법 - LSE에 의한 추정량은 최량선형불편추정량(the Best Linear Unbiased Estimator, BLUE) - 1차 함수에 의한 선형모형을 추정 최우추정법(maximum likelihood Estimation, MLE) - 특정한 표본치의 확률이 최대가 되게 하는 모수값을 찾아내는 방법에 의해 추정치를 추정 - 대표본에서는 추정량이 좋은 성질을 가지지만, 소표본에서는 반드시 불편성이 확보되지는 못함 ※편차는 평균으로부터의 차이 ※오차는 근사값에서 참값을 뺀 차 ※표준오차는 미지의 모집단에 대한 통계적 추정과정에 있어서 미지의 모수에 대한 추정량의 표준편차를 말하며, 표본오차는 표본추출에 있어서의 오차를 말함
회귀추정 방법 (2/3) 최소자승법(Least Squares Estimation : LSE)
회귀추정 방법 (3/3) 최우추정법(maximum likelihood Estimation : MLE)
회귀식의 적합도 (1/4) 결정계수(coefficient of determination) : R2 Y Xi X 결정계수는 표본관측을 통하여 추정한 회귀선이 변수의 표본 관측에 얼마나 적합한가를 나타내는 계수로 상관계수의 제곱 Y Yi • Xi X
회귀식의 적합도 (2/4) 총 변동(SST : total sum of squares) 독립변수의 변화에 따라 종속변수가 평균을 기준으로 얼마나 변동되었는지를 나타냄 = 설명된 변동 + 설명 안된 변동 = 모형에 의한 부분 + 오차에 의한 부분 설명되는 변동(SSR : regression sum of squares) 회귀선의 추정으로 설명된 변동 설명되는 않는 변동(SSE : error sum of squares) 잔차의 자승합
회귀식의 적합도 (3/4) 결정계수(R2)
회귀식의 적합도 (4/4) 결정계수(R2) 특성 0 ≤ R2 ≤ 1이며, R2 값은 표본회귀모형의 적합도 또는 설명력이 큰 것을 의미 R2=1은 종속변수와 설명변수 간에 완벽한 선형관계가 존재하여 표본회귀선이 표본자료를 잘 적합하고 있음 R2=0은 종속변수와 설명변수 간에 선형관계가 없어 표본회귀선이 표본자료를 전혀 적합하지 못함을 의미 R2=0 R2=1
일반적인 회귀분석 절차 산포도를 그려서 자료변동의 대략적인 추세를 살핌 회귀모형의 형태를 결정 X Y 산포도를 그려서 자료변동의 대략적인 추세를 살핌 회귀모형의 형태를 결정 회귀모형의 계수와 회귀식의 적합도를 구함 회귀모형이 통계적으로 유의한가를 검정 X Y Ŷ = b0 + b1 X , R2 등
ODDs Ratio(승산비) ODDs Ratio 확률(p)이 0과 1 사이의 값을 가지는 반면 오즈비는 0에서 무한대 값을 가지며 임의의 사건의 상대적인 발생 가능성을 나타냄 도박의 기준 한국이 2010년 16강에 들어갈 확률(p) 0.1이면 ODDs=1/9 한국 승리에 1만원을 걸은 사람은 한국이 이길 경우 9만원을 받음 브라질이 2010년 16강에 들어갈 확률(p) 0.8이면 ODDs=4 브라질 승리에 4만원을 걸은 사람은 브라질이 이길 경우 1만원을 받음 p : 임의의 사건이 발생(성공)할 확률
Regression Tool Tool 비교 구분 Excel 2003 Minitab 15 주요 특징 사무용 S/W 선형 회귀 비선형 회귀 (로그, 다항식 등) 로지스틱 회귀 회귀성 검증 선형 회귀만 가능 (비선형인 경우 치환) 선형/비선형 가능