Keller: Stats for Mgmt & Econ, 7th Ed February 24, 2019 켈러의 경영경제통계학 제15장 단순선형회귀분석과 상관관계분석 Simple Linear Regression and Correlation Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
회귀분석(Regression Analysis)… -회귀분석은 구간변수들 간의 관계를 분석하기 위한 통계기 법 이다. -회귀분석은 다른 변수들 (독립변수들/independent variables - >종속변수와 관련되어 있다고 여겨지는 변수들)에 기초하여 한 변수(종속변수 /dependent variable ->관심있는 변수)의 값 을 예측하기 위해 사용된다. “일반적으로 종속변수는 Y 로 나타내고 독립변수들은 X1, X2, …, Xk 로 나타낸다.” ->제15장에서는 Y와 X의 선형관계 (종속변수가 1개이고 독립변수가 1개인 경우의 두 변수간 선형관계) , 즉 단순선형회귀모형에 대하여 논 의한다.
15.1 확정적 모형과 확률적 모형… >종속변수와 독립변수들 간의 관계를 수학적으로 표현한 식 을 모형(model)이라고 한다. 확정적 모형(Deterministic Model) : 독립변수들의 값들이 종속변수의 값을 완전히 결정하는 모형. (2) 확률적 모형(Probabilistic Model): 독립변수들의 값 들과 임의성(randomness)이 종속변수의 값을 결정하는 모형.
단순선형회귀모형 -독립변수가 1개이고 종속변수와 선형관계를 가지는 회귀모형을 단순선형회귀모형(simple linear regression model. )이라고 부르고 다음과 같이 나타 낸다…. independent Variable(독립변수 dependent Variable(종속변수) y-intercept y-절편 slope of the line 직선의 기울기 error term 오차항
단순선형회귀모형 -회귀계수 와 은 모수(population parameters )로 일 반적으로 알려져 있지 않고 데이터로부터 추정된다 … y rise run =slope (=rise/run) =y-intercept x
15.2 회귀계수의 추정… -단순선형회귀모형의 모수 와 는 각각 표본데이터 를 통과하는 직선의 절편과 기울기에 의해서 추정된다. 표본데이터를 통과하는 직선의 절편 과 기울기 는 표본의 점과 직선 간의 차이를 제곱하여 합한 값을 최소 화하는 직선을 구하는 최소자승법(least squares method)에 의해 구해진다. -최소자승법에 의해 구해진 직선의 식을 다음과 같이 나타 낸다.
15.2 회귀계수의 추정… -최소자승법에 의해 구해진 직선의 식 ( ) 은 최소자승선 또는 회귀선이라고 부른다. -> 와 은 가 최소가 되도록 계산된 다.
15.3 오차항의 필요조건… -회귀분석이 타당하기 위해 오차항은 다음과 같은 조 건을 충족해야 한다. 오차항의 확률분포는 정규분포이다. 2. 오차항의 기대치는 0이다. 3. 오차항의 표준편차는 이고 는 x의 값에 관 계없이 일정한 상수이다. 4. 임의의 특정한 y값과 관련된 오차항의 값은 다른 y 값과 관련된 오차항의 값과 독립이다.
15.4 선형회귀모형의 평가… -최소자승법은 변수들간에 관계가 존재하기 않거나 또 는 비선형관계를 가지고 있는 경우에도 항상 직선식 을 제공한다. -따라서 최소자승선의 회귀계수를 구하는 것에 더하여 최소자승선이 데이터를 얼마나 잘 나타내고 있는지를 평가할 필요가 있다. 선형회귀모형의 추정결과에 대한 평가는 추정치의 표준오차, 기울기의 t- 검정, 결정계 수 에 의하여 이루어진다. 이와 같은 평가방법은 오차제곱합(Sum of Squares for Errors (SSE))에 기 초하여 이루어진다.
추정치의 표준오차(Standard Error of Estimate) -오차항은 평균이 0이고 표준편차가 인 정규분포를 따 른다. 만일 이 크면 일부 오차항은 클 것이고 이것은 회 귀모형의 적합도가 불량하다는 것을 의미한다. -추정치의 표준오차는 데이터로부터 구해지는 의 추정 치이고 다음과 같이 구해진다. -> 의 값이 작다는 것은 SSE가 작다는 것을 의미하며 이것은 회귀모형의 적합도가 양호하다는 것을 의미한다.
추정치의 표준오차(Standard Error of Estimate) -추정치의 표준오차는 종속변수의 표본평균과 비교하 여 상대적으로 작으면 회귀모형은 비교적 양호한 것으 로 평가된다. ->추정치의 표준오차가 ” 또는 “크다”는 절대기준은 없다. 따라서 추정치의 표준오차는 회귀모형의 타당성을 평가하 는 절대척도로 사용될 수 없다.
(2) 기울기의 검정(Testing the Slope)… -두 변수간에 선형관계가 존재하지 않으면, 회귀선의 기 울기가 0이라고 기대된다. -따라서 두 변수간에 선형관계가 존재하는지를 검토하 기 원하면, 회귀선의 기울기(β1)이 0이 아닌지를 검정하 여야 한다. -따라서 기울기의 검정을 위한 가설은 다음과 같이 설정 된다.
기울기의 검정(Testing the Slope)… <기울기의 검정을 위한 검정통계량> ->오차항의 필요조건들이 충족되면 확률변수 은 평균이 이고 표준편차 인 정규분포를 따른다. ->따라서 의 표준오차 추정량은 이므로
기울기의 검정(Testing the Slope)… ->따라서 귀무가설이 옳다는 전제 하에서 기울기의 검 정을 위한 검정통계량은… -기각역은… - 에 대한 신뢰구간추정량은…
(3) 결정계수(Coefficient of Determination)…
결정계수(Coefficient of Determination)… -y의 변동은 회귀선에 의해 설명되는 변동과 오차에 기인하 여 설명되지 않는 변동으로 분해된다. y의 변동(TSS) = SSE + SSR ->SSE= Sum of Squares for Error ->오차에 기인하여 설명되지 않은 y의 변동을 측정한다. ->SSR= Sum of Squares for Regression ->독립변수 X의 변동에 의해 설명되는 y의 변동을 측정한다. -따라서 ->결정계수는 y의 변동 중에서 회귀선에 의해 설명되는 변동의 비율이다.
결정계수(Coefficient of Determination)… 예제15.5 Toyota Camry 중고차 가격과 주행거리 간의 선형강도 측정..결정 계수의 계산
결정계수(Coefficient of Determination)… -R2 의 값=0.6483. -> 중고차 판매가격(y) 변동의 64.83% 는 주행거리(x)의 변동에 의해 설명된다는 것을 의미. 나 머지 중고차 판매가격(y) 변동의 35.17%는 오차에 기인 하며 설명되지 않는다. -일반적으로 R2 ,의 값이 1에 가까울수록 모형은 더 양호 하게 데이터를 적합시킨다. R2 = 1: x와 y간에 완벽한 선형관계 존재 (->모든 데이터가 회귀선상에 존재) R2 = 0: x와 y간에 선형관계가 존재하지 않음
상관계수(Coefficient of Correlation)의 검정 -상관계수는 두 변수간의 선형관계를 검정하기 위해 사용되 는 통계량이다. -모상관계수는 로 나타낸다. 모상관계수는 알려져 있지 않 기 때문에 표본데이터로부터 계산되는 표본상관계수 에 의 해 추정된다. -표본상관계수는 모상관계수가 0인지, 즉 를 검정하기 위해 사용된다.
상관계수(Coefficient of Correlation)의 검정 -모상관계수에 대한 가설은 다음과 같이 설정된다… -검정통계량은… (두 변수가 이변량 정규분포를 따르면..t-통계량은 자유도가 n-2인 Student t 분포를 따른다)
15.6 회귀모형의 진단 -회귀분석을 수행하기 위한 3가지 필요조건들은… • 오차항(오차변수)은 정규분포를 따른다. • 오차항(오차변수)는 일정한 분산을 가진다. • 오차항들은 서로 독립이다. -이와 같은 조건들의 위배 여부를 어떻게 진단할 수 있 는가? Residual Analysis에 의해 진단 잔차분석은 실제 종속변수 값과 회귀식에 의해 추정되는 종 속변수 값간의 차이 (잔차)를 검토하면서 필요조건의 위배 여부를 진단한다….
잔차분석(Residual Analysis)… Excel은 회귀분석의 한 부분으로 잔차들을 계산한다. (Excel을 이용한 회귀분석수행시 잔차와 표준잔차를 선택) -이와 같은 잔차들을 사용하여 오차변수가 정규분포를 따르는지, 오차변수의 분산이 일정한지, 오차들이 서 로 독립인지를 검토한다.
(1) 비정규분포(Nonnormality)… - 잔차들의 히스토그램을 그리고 평균이 0에 가깝고 종 모양의 모습을 가지는지를 확인…
(2) 이분산(Heteroscedasticity)… 를 x축으로 나타내고 잔차를 y축에 나타내면서 (y의 추정치, 잔차)= 들의 산포도를 그리고 의 값에 대하여 잔차들이 일정하게 분포되어 있는 지를 확인한다. 이분산을 나타내는 잔차의 산포도 ->
이분산(Heteroscedasticity)… 동분산을 나타내는 잔차의 산포도 ->
(3) 오차항의 비독립성… -시계열데이터의 경우 오차항들이 동태적으로 상관관 계를 가지면 오차항들은 자기상관 (autocorrelation) 또 는 계열상관(serial correlation) 을 가진다고 말한다. -시간에 대하여 잔차들을 그래프로 그려봄으로써 자기 상관을 진단할 수 있다. 이와 같은 그래프에 일정한 패 턴이 나타나면 오차항의 독립성 조건이 위배되어 있 다고 진단한다.
오차항의 비독립성… 양의 잔차들이 일정한 기간동안 나타나고 이어서 음의 잔차들이 일정한 기간동안 나타난다(오차항의 독립성) 양의 잔차와 음의 잔차가 0주위에서 교대로 나타난다(자기상관존재)
회귀모형의 진단순서… 이론적 기반에 기초한 회귀모형의 개발 -> 종속변수와 독립변수의 선택. 2. 변수들에 대한 데이터 수집 3. 산포도를 그려서 선형모형의 적정성 검토 -> 이상치의 탐색. 4. 회귀식의 결정. 5. 잔차의 계산과 필요조건의 확인. 6. 선형회귀모형의 적합도 평가. 7. 선형회귀모형의 적합도 평가에 기초하여 종속변수에 대한 예측.