제 7장 회귀분석 회귀분석의 목적 여러변수사이의 관계를 알아본기 위함 단순회귀모형과 다항회귀모형 한 변수의 값으로 부터 다른변수를 예측 예) 아버지의 키와 아들의 키의 관계 반응변수(종속변수), 설명변수(독립변수) 설명변수는 연속형이거나 범주형변수도 가능 예제 7.1) 진통제의 투여량과 진통지속시간에 관한 분석 변수의 변환이 필요하면 변환을 이용 단순회귀모형과 다항회귀모형
단순회귀모형(simple regression model) 단순선형회귀모형 반응변수와 설명변수가 각각 하나 반응변수와 설명변수의 변환을 통해 직선에 가까운 형태 단순선형회귀모형식 및 가정 최소제곱법을 이용 최소제곱추정량(LSE)을 계산 분산분석 회귀계수의 추론 잔차분석 1. 독립성 검정 2. 등분산성 검정 3. 정규성 검정
REG 절차 예제 7.1) DATA SIMPLE ; INPUT DOSE HR @@ ; LDOSE=LOG(DOSE) ; CARDS ; 2 60 2 58 4 63 4 62 8 67 8 65 16 70 16 70 32 74 32 73 ; RUN ; SYMBOL I=NONE V=DOT H=0.2; PROC GPLOT DATA=SIMPLE ; PLOT HR*DOSE=‘x’ ; PLOT HR*LDOSE=‘x’ ; RUN ; QUIT ; PROC REG ; MODEL HR=DOSE ; OUTPUT OUT=NEW P=PRED R=RESID ; RUN; PROC GPLOT DATA=NEW ; PLOT HR*DOSE=‘X’ PRED*DOSE=‘P’ / OVERLAY LEGEND ; PLOT RESID*DOSE=‘R’ / VREF=0 ; RUN; QUIT ;
중회귀모형 중회귀모형 설명변수가 두개이상인 모형 중회귀의 분산분석표 다항회귀 설명변수 x가 반응변수 y 사이의 관계가 직선관계가 아닌경우 즉, k차 모형인 경우 REG절차 PROC REG<options. ; <label> : MODEL dependents=<regressors> </options> ; ID variable ; VAR variables ; WEIGHTS variables ; ADD variables ; DELETE variables ;
예제 6.2) DATA LOSS ; INPUT OBS AIR TEMP ACID LOSS @@ ; CARDS ; 1 80 27 89 42 2 80 27 88 37 3 75 25 90 37 ; RUN ; PROC REG ; MODEL LOSS=AIR TEMP ACID / R DW ; RUN ; PROC REG ; MODEL LOSS=AIR TEMP / R DW ; RUN ; PAINT OBS.=21 / SYMBOL =‘H’ ; PLOT R.*P. ; PLOT R.*OBS. ; RUN;
회귀진단 회귀진단이란? 중회귀모형에서 회귀계수의 유의성을 검토하고, 이상점, 영향관측점, 다중공선성등의 존재 여부를 검토 잔차분석 회귀모수의 유의성 다중공선성(multicollinearity) 설명변수들간의 선형관계 또는 선형관계에 가까운 관계가 존재하는 경우
1) VIF>10 다중공선성 존재 2) 고유값이 1보다 심하게 작은 경우 다중공선성 존재 3) 상태지수가 크면 다중공선성 존재 4) Cook의 통계량 예제 7.2) PROC REG ; MODEL LOSS=AIR TEMP / VIF COLLIN INFLUENCE PARTIAL ; RUN ;
변수 선택법 이론적 배경 1. 반응변수를 설명하는 설명변수가 많으면 다중공선성의 문제가 발생 2. 반응변수를 설명해주지 못 하는 설명변수도 존재 3. 설명변수가 많으면 해석의 어려움이 존재 해결 방법 1. 모든 가능한 회귀 2. 변수 추가법 또는 전진 선택법(forward selection) 3. 변수 제거법 또는 후진 선택법(backward elimination) 4. 변수 증감법 또는 단계적 선택법(stepwise selection)
PROC REG<opyions> ; 변수 선택 기준 1. R-square(결정계수) 2. MSE 3. adjusted R-square(수정 결정계수) 4. Malows의 Cp 5. Akaike Information Criterion(AIC) 6. Bayesian Information Criterion(BIC) REG 절차 PROC REG<opyions> ; MODEL dependents = <regressors> </options> ;
예제 7.3) DATA HALD ; INPUT OBS X1 X2 X3 X4 Y @@ ; CARDS ; 1 7 26 6 60 78.5 2 1 29 15 52 74.3 ….. ; RUN ; PROC REG CORR ; MODEL Y=X1 X2 X3 X4 / SELECTION=FORWARD ; MODEL Y=X1 X2 X3 X4 / SELECTION=BACKWARD ; MODEL Y=X1 X2 X3 X4 / SELECTION=STEPWISE ; MODEL Y=X1 X2 X3 X4 / SELECTION=RSQUARE CP ;