Keller: Stats for Mgmt & Econ, 7th Ed 다중회귀분석 Multiple Regression April 21, 2019 켈러의 경영경제통계학 제16장 다중회귀분석 Multiple Regression Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
다중회귀모형과 필요조건… -다중회귀모형은 종속변수(y)가 k개의 독립변수들(x1, x2,…,xk )과 어떻게 관련되어 있는지를 분석하기 위해 사용되는 모형이다. ->y = f(x1, x2,…,xk ) + -제16장에서 다중회귀모형은 f(x1, x2,…,xk ) 가 다음과 같은 선형의 형태를 가지는 것으로 정형화된다. ->회귀식은 반응표면 (response surface)이다 (<그림 16.1> 참조)
오차항의 필요조건… 오차항의 확률분포는 정규분포이다. 오차항의 평균은 0이다. 오차항의 표준편차는 로 일정하다. 오차항의 표준편차는 로 일정하다. 오차항들은 독립이다.
16.2 회귀계수의 추정과 다중회귀모형의 평가… -최소자승법에 의해 추정되는 다중회귀식의 일반적인 형태는… -다중회귀모형의 평가… ->데이터의 적합도 ->오차항에 대한 필요조건들의 충족여부 -다중회귀모형의 사용… ->회귀계수들의 해석 ->y와 y의 기대치에 대한 예측
회귀모형의 평가… - 회귀모형은 3가지의 통계량에 의해 평가된다. (1) 추정치의 표준오차(standard error of estimate) (2) 결정계수(coefficient of determination) (3) 분산분석을 위한 F-검정 (F-test of the analysis of variance)
(1) 추정치의 표준오차 -추정치의 표준오차는 다음과 같이 정의된다. n =표본크기, k =독립변수의 수 -추정치의 표준오차(=5.51)와 y의 표본평균 (=45.739)을 비교한다. ->추정치의 표준오차는 y의 표본평균과 비교하여 상대적으로 작지 않은 것으로 보인다.->모형적합도가 상대적으로 양호하다고 평가하는데 유보적이다.
(2) 결정계수(Coefficient of Determination… -결정계수는 다음과 같이 정의된다… -운영수익비율 변동의 52.51%는 6개의 독립변수들에 의해 설명되고 나머지 47.49%는 설명되지 않는다.
조정결정계수(Adjusted R2 Value)… -조정결정계수는 다음과 같이 정의된다. -조정결정계수는 독립변수 수(k)가 표본크기(n)에 비해 상당히 크면 결정계수가 큰 값을 가지는 경향을 조정하기위한 통계량이다.
(3)회귀모형의 타당성 검정 (F-검정)… -다중회귀모형의 전반적인 타당성을 검정하기 위해 분산분석을 사용한다. 이 경우 가설은 … H0: H1: 적어도 하나의 회귀계수 는 0이 아니다. ->귀무가설이 옳으면, 독립변수들 중 어느 것도 종속변수 y와 선형관계를 가지지 않는다.->따라서 회귀모형은 타당하지 않다. ->만일 적어도 하나의 회귀계수 이 0이 아니면, 회귀모형은 타당성을 가진다.
회귀모형의 타당성 검정… 회귀모형의 타당성을 검정하기 위한 ANOVA table… Source of Variation degrees of freedom Sums of Squares Mean Squares F-Statistic Regression k SSR MSR = SSR/k F=MSR/MSE Residual(Error) n–k–1 SSE MSE = SSE/(n–k-1) Total n–1 ->F의 값이 크다는 것은 y 변동의 대부분은 회귀식에의해 설명되고 따라서 회귀모형은 타당하다는 것을 의미한다. ->F의 값이 작다는 것은 y변동의 대부분은 설명되지 않는다는 것을 의미한다.
회귀모형의 평가(<표16.2>)… Summary SSE R2 F 회귀모형의 평가 1 완전 작다 1에 가깝다 크다 1 완전 작다 1에 가깝다 크다 양호 0에 가깝다 불량 무용 ->회귀모형이 데이터를 잘 적합시키고 필요조건들이 충족되면, 개별회귀계수들에 대하여 해석과 검정을 할 수 있고 추정과 예측을 위해 추정된 회귀모형을 사용할 수 있다.
회귀계수의 검정… -각 개별 독립변수와 종속변수간에 선형관계가 존재하는지를 검정할 수 있다. 이 경우 가설은…회귀계수 에 대하여… -검정통계량은…
16.3 회귀모형의 진단 -잔차분석… - 오차항은 정규분포를 따르는가? -관측들 중에 이상치들과 영향치들이 존재하는가? - 오차항은 정규분포를 따르는가? ->잔차들의 히스토그램이 평균이 0에 가깝고 종모양인지를 확인한다. -오차항의 분산은 일정한가? ->y의 추정치와 잔차의 산포도를 그려서 잔차의 분포가 일정하게 흩어져 있는지를 확인한다. -오차항들은 독립인가? ->시간과 잔차의 산포도를 그려서 잔차의 동태적 패턴을 확인한다. -관측들 중에 이상치들과 영향치들이 존재하는가? ->회귀분석결과에 영향을 주는 이상치들과 영향치들을 데이터에서 제거한다.
회귀분석의 진단2… -다중공선성(multicollinearity )의 존재여부 확인… ->다중회귀모형에서 독립변수들이 높은 상관관계를 가지는 것을 다중공선성이라고 한다. -다중공선성의 존재는 상관관계가 높은 독립변수들의 회귀계수들의 표본오차를 크게 만드는 경향을 가진다. ->따라서 추정회귀계수가 해당되는 모수로부터 멀리 떨어질 가능성이 있고 / 추정회귀계수의 t-통계량의 값을 작게 만들어 해당되는 독립변수와 종속변수간 에 선형관계가 존재하지 않는다고 추론되는 가능성 을 높게 만든다.
16.4 회귀모형의 진단 3… -시계열데이터의 경우 인접한 잔차들인 ei-1 와 ei 간에 제1계 자기상관(first-order autocorrelation ), 즉 이 존재하는지에 대한 검정을 Durbin-Watson 검정통계량을 사용하면서 수행할 수 있다. -Durbin-Watson 검정통계량은 다음과 같이 정의된다.