· 제 14 장 상관관계분석과 회귀분석 상관관계분석 상관관계의 개념 : 어떤 두 변수들간의 관계(relationship)를 안다면 한 변수의 값에 대한 지식을 가질 때 다른 변수의 값을 추정할 수 있다. < 두 변수의 관계로서 전형적인 유형 > y x x가 커질수록 y가 커지는 경향이 있음 → 두 변수 간에는 正(positive)의 선형관계(linear relationship)가 있다. x가 커질수록 y가 작아지는 경향이 있음 → 두 변수 간에는 負(negative)의 선형관계가 있다. 한 변수 값의 변화로부터 다른 변수 값의 변화방향을 예측할 수 없음 → 두 변수 간에는 관계가 전혀 없거나 거의 없다고 할 수 있다. x의 증가에 따라 y는 증가하다가 어느 수준부터는 감소함 → 전체적으로 두 변수의 관계는 곡선관계(curvilinear relationship)를 가지며, 곡선관계의 경우 나타날 수 있는 곡선의 형태는 매우 다양. ·
일반적으로 선형관계에 초점을 두고 두 변수가 ⑴ 선형관계를 갖는지⑵ 선형관계를 갖는다면 어느 방향인지 ⑶ 그 관계는 얼마나 큰지를 분석. 상관관계계수(correlation coefficient) : 상관관계의 크기는 나타내며, –1부터 +1 사이의 값을 갖고 두 변수의 상관관계가 正 혹은 負의 방향으로 클수록 +1 또는 –1에 가깝게 나타나고 두 변수간에 상관관계가 전혀 없으면 상관관계계수는 0이다. 상관관계계수의 계산과 유의성 검증 : Pearson 상관관계계수(Pearson product-moment correlation coefficient)가 보편적이며 모집단의 상관관계계수는 ρ(rho)로 나타내며 표본의 상관관계계수는 r로 나타낸다. 상관관계계수 : 검증통계량 : 상관관계분석과 단순회귀분석을 위한 자료 : 광고비 지출과 매출액간의 관계를 조사하기 위하여 최근 10개월의 자료를 수집한 결과는 다음과 같다. 표본상관관계계수의 계산과정. 유의성 검증(또는 가설검증) 절차.
광고비지출과 매출에 관한 산포도(scatter diagram) 광고비와 매출액 자료 (단위 : 억원) 월 광고비 매출 1 1.2 101 2 .8 92 3 1.0 110 4 1.3 120 5 .7 90 6 82 7 93 8 .6 75 9 .9 91 10 1.1 105 매출 y 광고비지출과 매출에 관한 산포도(scatter diagram) 광고비 지출 x 120 110 100 90 80 .6 .7 .8 .9 1.0 1.1 1.2 1.3 ·
따라서 α=.05에서 H0는 기각되며, 광고비와 매출액간에는 상관관계가 있다는 결론을 내릴 수 있다. 자료의 계산 (단위 : 억원) Yi Xi 101 1.2 5.1 .26 1.326 92 .8 - 3.9 - .14 .546 110 1.0 14.1 .06 .846 120 1.3 24.1 .36 8.676 90 .7 - 5.9 - .24 1.416 82 - 13.9 1.946 93 - 2.9 - 1.74 75 .6 -20.9 - .34 7.106 91 .9 -4.9 - .04 .196 105 1.1 9.1 .16 1.456 평균 95.9 .94 합계 : 23.34 상관관계계수의 유의성 검증 : 표본 상관관계계수 .8754로부터 두 변수간에는 실제로 상관관계가 있다고 할 수 있는가 ? α=.05 H0 : ρ=0, H1 : ρ≠0 따라서 α=.05에서 H0는 기각되며, 광고비와 매출액간에는 상관관계가 있다는 결론을 내릴 수 있다.
:ρ>0 이면, 우측검정 / ρ<0 이면, 좌측검정이 된다. → 단측검증일 경우 연구자의 가설이 지지되기 쉽다. < 참고 > :ρ>0 이면, 우측검정 / ρ<0 이면, 좌측검정이 된다. → 단측검증일 경우 연구자의 가설이 지지되기 쉽다. 통계적 유의성과 실제적 유의성 : 표본으로부터 계산한 r 로써 유의성 검증(또는 가설검증)을 하면 r 이 상당히 작더라도 통계적으로 유의적으로(statistically significant) 나타나는 경우가 있다. 예 : 이 .05이며 통계적으로 유의적으로 나타난 경우 두 변수 간에 正의 상관관계가 있다고 할 수 있는가 ? → 통계적으로 유의적이지만 실제적 유의성(substantive significance)을 판단하는 기준이 필요하며 다음과 같다. 상관관계의 실제적 유의성 상관관계계수의 범위 상관관계크기에 대한 기술 ± .81 ~ ± 1.00 매우 강함 ± .61 ~ ± .80 강함 ± .41 ~ ± .60 어느 정도 있음 ± .21 ~ ± .40 약함 ± .00 ~ ± .20 없음 지금까지의 상관관계계수 : 측정도구가 간격척도 또는 비율척도로 측정한 경우를 전제로 한 것.
통계학에서는 sample의 크기가 클수록 유의성이 높아지는 경향이 있다. 서열 상관관계계수 : 변수나 construct에 대한 측정이 서열척도로 이루어진 자료의 경우 Pearson 상관관계계수 대신 Spearman 서열 상관관계계수(Spearman rank order correlation coefficient)를 계산해야 한다. 소비자 두 사람이 청량음료 8개 브랜드의 선호도를 서열로 평가하였다(가장 선호 = 1). 두 사람의 선호도에 대한 서열 상관관계계수를 계산하고 유의성을 검증하라(α=.05). 8개 브랜드에 대한 두 소비자의 선호순위 브랜드 소비자 A 소비자 B 1 7 2 4 5 3 6 8 서열 상관관계계수 : ( 여기서, di = Xi – Yi ) 통계학에서는 sample의 크기가 클수록 유의성이 높아지는 경향이 있다.
단순선형회귀분석(simple linear regression) 브랜드 A B 서열 di di2 1 7 6 36 2 4 5 - 1 3 8 - 7 49 - 4 16 144 유의성 검증을 위한 가설 : H0 : ρs=0, H1 : ρs≠0 임계치(critical value)는 α=.025에서 .738로서 관측치 rs 의 절대값은 .714로서 임계치 .738보다 작으므로 H0는 기각되지 않는다. 둘 이상의 대상에 대한 서열이 같은 경우 가운데 서열을 부여한다. 예를 들어 1, 2위를 부여한 다음 두 가지 대상에 동등한 서열을 주고자 하면 3.5를 부여(Pearson 상관관계계수를 계산하는 공식을 이용해도 거의 비슷한 값을 얻을 수 있음.). 단순선형회귀분석(simple linear regression) 단순회귀분석의 개념 : 두 변수간의 인과관계(causal relationship)을 조사하는 방법. 독립변수(예측변수 ; predictor variable) : 영향을 미칠 것으로 생각되는 변수. 종속변수(기준변수 ; criterion variable) : 영향을 받을 것으로 생각되는 변수. 두 변수간의 관계에서 독립변수와 종속변수의 설정 : 논리적 타당성을 토대로 하며, 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정.
논리적 근거없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 추정할 수는 없다. 최소자승법 : 단순회귀분석에서 가장 기본적인 작업 → 회귀식(회귀방정식 ; regression equation)을 추정하는 것. 단순회귀식 : Y=β0 + β1X (Y : 종속변수, β0와 β1은 회귀식의 계수로서 각각 절편과 기울기를 나타냄) 표본의 회귀식 : ( 과 은 각각 추정회귀계수이며, 은 회귀식으로부터 추정되는 종속변수를 나타냄) 표본의 회귀식은 최소자승법(least square method)에 의해 발견됨. x y · 네 점의 위치에 대한 경향을 나타내는 여러 개의 직선들 중 경향을 가장 잘 나타내는 직선이 표본의 회귀식이 된다.
x y · 네 점의 위치는 각각(x1, y1), (x2, y2), (x3, y3), (x4, y4)이며, 회귀식을 발견한 경우 각각의 y값에 대응하는 값을 회귀식으로부터 계산하는 것이 가능 → 각각의 실제값과 이에 대응하는 추정값의 차이 : 추정오차 최소자승법에 의한 최적의 회귀식 : 추정오차의 제곱의 합계를 최소화해주는 선이 되며, 합계값은 SSE(sum 0f squares due to error)가 된다. 단순회귀분석 단순회귀식의 발견(최소자승법에 의한 회귀계수의 추정)
독립변수의 유의성 검증 : 위 식을 통해 발견한 회귀식의 독립변수의 계수( )는 모집단의 (실제)기울기의 추정치이며, 유의성 검증이 필요하며, 이를 가설검증형태로 나타내면, H0 :β1=0, H1 :β1≠0(혹은β1>0,β1<0) 대립가설을 설정하는 방식에는 세 가지가 있는데, 어느 방식을 사용하는가는 연구자의 견해(연구가설)에 달려 있다. 독립변수의 유의성 검증을 위한 검증통계량 광고비 지출은 매출액에 영향을 미친다고 할 수 있는가 ? 즉 독립변수, 광고비 지출의 유의성 검증을 하라(α=.05). H0 :β1=0, H1 :β1≠0
α=.05에서 H0는 기각되며, 광고비 지출은 매출액에 영향을 미친다는 결론을 내릴 수 있는데, 만약 연구자가 “광고비 지출이 많을수록 매출 향상될 것이다”라는 연구가설을 설정한다면 H0 : β1=0, H1 : β1>0이며 tcrit = t(α ; n-2) = t(.05 ; 8) = 1.86으로 H0는 기각되고 연구가설은 지지된다. 회귀식을 이용한 종속변수값의 추정 : 회귀식의 독립변수가 유의적이면, x값이 주어진 경우 y값을 추정할 수 있으나, 독립변수가 비유의적이면 x는 y에 영향을 미친다고 할 수 없으므로 x값으로부터 y값을 추정해서는 안 된다. 회귀식에 의하여 y값을 추정할 때 원래 사용한 x의 범위 내에서만 가능 ; 원래 그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 가능성이 크기 때문. 독립변수의 설명력 : 독립변수가 종속변수의 분산을 설명하는 정도는 r2로 나타내며, 이를 결정계수(coefficient of determination)라고 부르고 0 에서 1 사이의 값을 갖는다.
· y x 전체분산 설명되는 분산 xi r2↑→ 설명력↑/ 매우 좋은 추정선 xi에 대응하는 y값은 yi인데 x값에 무관하게 yi값을 추정한다면 그 추정치는 가 되며 이 경우 오차는 이다. 그런데 회귀식을 이용하여 yi값을 추정하면 추정치는 이며, 이 경우 오차는 이 된다. 결국 회귀식을 이용하여 추정함으로써 원래의 오차에서 만큼의 오차가 줄어들게 된다. 결정계수 : 결정계수가 클수록 그 독립변수는 종속변수를 설명하고 예측하는데 적절한 변수라고 할 수 있다.
단순회귀분석의 분산표와 독립변수의 유의성 검증 SSy(전체분산) = SSR(회귀식에 의해 설명되는 분산) + SSE(설명되지 않는 분산) Total SS = SSR + SSE 분산분석표 광고비와 매출액 예에서의 분산분석표를 이용하여 독립변수의 유의성을 검증하면, SSR = Total SS – SSE = 1,600.9 – 373.97 =1,226.93 H0 :β1=0, H1 :β1≠0 Fobs = 26.25 Fcrit = F(α ; 독립변수의 수, n - 독립변수의 수 - 1) = F(.05 : 1, 8) = 5.32 원천 제곱합(SS) 자유도 평균제곱(MS) Fobs 회귀식 SSR 1 MSR = SSR MSR/MSE 오차 SSE n – 2 MSE = SSE/(n-2) 합계 Total SS n – 1 원천 제곱합(SS) 자유도 평균제곱(MS) Fobs 회귀식 SSR = 1,226.93 1 MSR = 1,226.93 1,226.93/46.75 = 26.25 오차 SSE = 373.97 8 MSE = 373.97/8 = 46.75 합계 Total SS 9
· 다중회귀분석(multiple regression analysis) Fobs = 26.25 > Fcrit = 5.32이므로 H0는 기각되므로 α=.05에서 회귀식의 독립변수는 유의적이며, 결국 광고비 지출은 매출액에 영향을 미친다고 할 수 있다. t 값과 F 값간의 관계 : t2(α/2 ; d.f.) = F(α ; 1, d.f.) 상관관계와 기울기 : 상관관계와 기울기를 혼동하지 말아야 하며, 상관관계의 크기와 기울기의 크기는 완전히 독립적임. 다중회귀분석(multiple regression analysis) 다중회귀식의 개념 : 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법으로 단순회귀분석을 확장한 것으로, 가장 기본적인 작업은 다중회귀식(multiple regression equation)을 추정하는 것이다. 다중회귀식 : (X : 독립변수, Y : 종속변수, β : 회귀계수, β0 : Y 절편, β1 ~ βk는 각각 독립변수의 기울기임) y x · 우측에 비해 기울기는 크지만 상관관계는 낮다.
표본의 회귀식 : ( : 추정회귀계수, : 회귀식으로부터 추정되는 종속변수) 다중회귀분석의 가정 독립변수와 종속변수 간의 선형적 관계 : 독립변수 값의 변화에 따른 종속변수 값의 변화가 일정해야 함을 의미. 오차항의 정규분포 오차항(error term) : 종속변수의 관측치와 예측치 간의 차이. 기대값 = 0, 일정한 분산(constant variance)을 갖는 정규분포를 이룬다고 가정. 오차항의 독립성 : 예측의 오차값들은 서로 독립적 → 의 변화에 따라 오차항이 어떤 패턴(pattern)을 가져서는 안 된다. 다중회귀식의 추정방정식 동시입력방식(enter) : 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석하는 방법(다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력과 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있으며, 이 방식은 보통 연구자가 생각하는 각각의 독립변수가 다른 변수들이 회귀식에 모두 포함되는 경우 유의적인지를 보고자 하는 경우에 사용).
다중회귀분석의 computer output의 설명 단계입력방식(stepwise) : 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키는 방식으로 설명력이 높은 변수의 순으로 회귀식에 포함된다. 그런데 전단계에서 회귀식에 포함된 독립변수도 나중에 들어오는 변수때문에 설명력이 매우 낮아지면 회귀식에서 제거된다. 이 방식은 종속변수를 설명하는데 설명력이 어느 정도 이상되는 변수들로만 구성되는 회귀식을 발견하는 데 유효. 다중회귀분석의 computer output의 설명 한 방송국에서 65세 이상 시청자들을 위한 TV 프로그램을 개발하기로 하였다. 이를 위한 기초정보를 획득하기 위해 25명의 시청자들을 대상으로 설문조사를 하여 다음의 네 가지 변수에 관한 자료를 수집하였다. y = 일일 평균 TV 시청시간 x1 = 배우자와 동거여부(만약 배우자와 동거중이면 x1 = 1, 그렇지 않으면 x1 = 0) x2 = 연령 x3 =교육기간(년수) 추정방정식 동식입력방식 단계입력방식 ( 다중회귀식의 대표적 추정방식 ) 비율척도 회귀분석에서는 변수를 간격/비율척도를 이용하는 것이 일반적이며, 명목척도를 사용하는 경우도 있다.
TV 시청과 관련하여 65세 이상 시청자로부터 수집한 자료 TV 시청과 관련하여 65세 이상 시청자로부터 수집한 자료 개인 시청시간 동거여부 연령 교육수준 1 .5 73 14 2 66 16 3 .7 65 15 4 .8 5 68 9 6 .9 69 10 7 1.1 82 12 8 1.6 83 81 2.0 72 11 2.5 2.8 71 13 3.0 80 TV 시청과 관련하여 65세 이상 시청자로부터 수집한 자료 개인 시청시간 동거여부 연령 교육수준 15 3.0 73 6 16 75 17 3.2 76 10 18 78 19 3.3 1 79 20 4 21 3.4 22 3.5 9 23 3.6 65 12 24 3.7 72 25 80
범주의 수가 두 개인 경우(남/여, yes/no) 더미변수의 수는 한 개이며, 한 범주를 1 다른 범주를 0으로 입력. ( 더미변수의 입력 ) 회귀분서의 입력자료는 대개의 경우 간격척도 또는 비율척도로 측정되어 있으나, 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있다. 이 경우 이러한 변수를 더미변수(dummy variable)라 하며 더미변수의 수와 입력방식은 다음과 같다. 더미변수의 수 = 범주의 수 – 1 범주의 수가 두 개인 경우(남/여, yes/no) 더미변수의 수는 한 개이며, 한 범주를 1 다른 범주를 0으로 입력. 만약 범주의 수가 세 개인 경우(세단형 승용차, 해취백, 웨곤형) 더미변수의 수는 두 개이며 다음과 같이 입력된다. TV 시청관련 자료의 SPSS 분석결과(다중회귀분석) 범주 더미변수 1 더미변수 2 세단형 해취백 1 웨곤형 종속변수의 경우에는 더미변수를 사용하지 않는다. 모형요약 모형 R R 제곱 수정된 R 제곱 추정값의 표준오차 1 .791 (a) .626 .572 .7536 a 예측값 : (상수), 교육기간, 동거여부, 연령
분산분석(b) 제곱합 자유도 평균제곱 F 유의확률 1 선형회귀분석 19.933 3 6.644 11.698 .000(a) 잔차 n-k-1 = 25-3-1 분산분석(b) 제곱합 자유도 평균제곱 F 유의확률 1 선형회귀분석 19.933 3 6.644 11.698 .000(a) 잔차 11.927 21 .568 합계 31.860 24 a 예측값 : (상수), 교육기간, 동거여부, 연령 b 종속변수 : 시청시간 회귀식의 유용성 검정 = n-1 단위 포함. 어떤 변수가 가장 많은 영향을 미치는가를 볼 때(표준화시킨 값 ; 동거여부>교육기간>연령) 계수(a) 모형 비표준화계수 표준화계수 t 유의확률 B 표준오차 베타 1 (상수) 1.495 2.637 .567 .577 동거여부 -1.176 .316 -.510 -3.726 .001 연령 3.876E-02 .032 .191 1.214 .238 교육기간 -1.52 .050 -.476 -3.039 .006 a 종속변수 : 시청시간 -.152/.05 동거를 하는 경우 동거를 하지 않는 사람보다 하루에 –1.176만큼 TV보는 시간이 적다. 개별독립변수의 유의성 검정 교육기간이 1년 길면 TV보는 시간이 -.152만큼 적다.
동거여부 : 연령과 교육기간이 있을 때 유의적이다. 연령 : 동거여부와 교육기간이 있을 때 비유의적이다. → 개별 변수 하나만으로는 유의적일 수 있으나 상관관계가 높은 변수와 함께 있을 경우 설명력이 비유의적이다. 회귀식의 발견 : 회귀식의 설명력과 통계적 유의성 검증(R2를 통해 조사) R2 : 다중회귀분석의 결정계수로서 0과 1 사이의 값을 가지며, 종속변수의 분산 중 독립변수들(혹은 회귀식)에 의해 설명되는 비율. 독립변수가 추가됨으로써 점차 커짐. R2가 클수록 그 회귀식은 보다 높은 설명력을 가지나, R2를 약간 증가시키기 위해 독립변수가 추가되는 것은 낭비 → 이를 위해 Radj를 이용. Radj : R2를 독립변수의 수와 표본의 수로써 조정한 것으로 R2보다 작으며, 새로이 추가되는 변수의 추가적 설명력이 매우 작은 R2는 조금이라도 증가하나 Radj는 오히려 감소하므로 이러한 변수를 독립변수에 포함시키는 것은 부적절. R2보다 반드시 작다.
H1 : 모든 βi가 0은 아니다(즉, 적어도 하나의 독립변수는 종속변수에 영향을 미친다). 분산분석표 원천 제곱합(SS) 자유도 평균제곱(MS) Fobs 회귀식 SSR 독립변수의 수 MSR = SSR/독립변수의 수 MSR/MSE 오차 SSE n – 독립변수의 수 – 1 MSE = SSE/(n – 독립변수의 수 – 1) 전체 Total SS n – 1 독립변수의 수 추가적으로 회귀식의 유의성을 검증해야 함. Ho : β1= β2 =…= βk =0 H1 : 모든 βi가 0은 아니다(즉, 적어도 하나의 독립변수는 종속변수에 영향을 미친다). Fobs = MSR/MSE Fcrit = F(α ; 독립변수의 수, n – 독립변수의 수 – 1) 만약 Fobs > Fcrit이면 H0는 기각된다. 설명력이 약한 변수가 들어갈 경우 R2는 약간이나마 증가하나 Radj는 감소한다. ∴ 경제적인 독립변수의 수를 결정할 수 있다.
H0 : β1=β2=β3=0, H1 : β1,β2,β3 중 적어도 하나는 0 이 아니다. Fobs = 11.698 유의확률(p-value) = .000이며, p-value < α=.05(또는 .01)이므로 H0는 기각된다. 즉 세 개의 독립변수들 중 적어도 한 개는 종속변수에 영향을 미치며, 발견한 회귀식은 종속변수(TV 시청시간)을 설명하고 예측하는데 유용하며, 이때 종속변수 분산의 62.6%는 회귀식(혹은 세 개의 독립변수)에 의해 설명되면 R2adj를 사용하면 57.2%가 된다. 개별 독립변수의 통계적 유의성 검증 : 회귀식이 유용한 것으로 판단되면 각각의 독립변수가 종속변수에 영향을 미치는지를 조사. Ho : βi = 0, H1 : βi ≠ 0(βi >0, βi <0) tcrit = t(α/2, n – 독립변수 – 1) ← 양측검증 tcrit = t(α, n – 독립변수 – 1) ← 단측검증 만약 이면 H0는 기각된다. 동거여부의 유의성 검증 Ho : βi = 0, H1 : βi ≠ 0 tobs = - 3.726 p-value = .001 < α=.05(또는 .01)이므로 H0는 기각되며 동거여부는 시청시간에 영향을 미치며, TV 시청시간을 설명 혹은 예측하는데 유용한 변수라는 결론을 내릴 수 있음.
연령과 교육기간의 유의성 검증 : 연령의 p-value =. 238, 교육기간의 p-value = 해석 시 유의사항 : < 회귀식에 다른 독립변수(들)가 존재하는 경우에 유의적인지의 여부로 해석해야 한다.> 그러므로 다른 두 변수가 회귀식에 존재할 때 동거여부는 유의적이다. 다른 두 변수가 회귀식에 존재할 때 연령은 유의적이지 않다. 다른 두 변수가 회귀식에 존재할 때 교육기간은 유의적이다. < p-value에 대한 해석(SPSS는 기본적으로 양측검증으로 보고) > 만약 연구가설이 단측검증이라면 p-value는 SPSS output에 나타난 값의 정확하게 ½이다. 단측검증의 경우 : p-value뿐만 아니라 회귀계수의 방향이 연구가설(대립가설)과 같은지를 봐야 한다. : 교육기간과 관련된 연구가설을 “교육기간이 길수록 TV 시청시간이 적어진다.”로 설정했다면 H0 : β3 = 0, H1 : β3 < 0 이며, 로 나타나 대립가설과 방향이 같고 p-value = .003이므로 H0는 기각되고 연구가설은 지지됨. 유의적 독립변수의 구체적 해석 : 교육기간(x3)의 회귀계수 추정치는 - .152이므로 교육기간이 1년 길면 TV 시청시간은 평균 .152시간 적을 것으로 예측 / 동거여부(x1)의 회귀계수 추정치는 -1.176으로 나타났다. x3의 값 입력 시 배우자와 동거시 = 1, 비동거시 = 0으로 입력했으므로 동거의 경우 TV 시청시간이 평균 1.176시간 적을 것으로 예측.
독립변수들의 상대적 영향력 크기 비교 : 어느 독립변수가 종속변수에 대하여 보다 영향력이 큰지 혹은 작은지에 관한 것(주의 독립변수들의 상대적 영향력 크기 비교 : 어느 독립변수가 종속변수에 대하여 보다 영향력이 큰지 혹은 작은지에 관한 것(주의 ! 회귀계수 를 비교하면 안 된다.). 다중회귀분석시 유의할 문제들 다중공선성(multicollinearity) : 단순회귀분석을 하는 경우 유의적으로 나타날 수 있는 독립변수가 다중회귀분석을 하는 경우 비유의적으로 나타나는 현상 → 그 독립변수가 다중회귀분석에서 다른 독립변수들과 높은 상관관계를 갖기 때문에 발생(둘 간의 상관관계가 높아 다른 한 변수가 비유의적으로 나올 수 있으므로, 단순히 다중회귀분석에서 비유의적으로 나타났다고 그냥 비유의적으로 해석해서는 안 된다). 다중회귀분석을 위해 동시에 투입되는 독립변수들 간에 상관관계가 0인 경우는 사실상 없다고 할 수 있으므로 한 독립변수의 유의성이 다른 변수 때문에 약화될 가능성은 언제나 있어 다중회귀분석 결과를 해석할 때 어떤 독립변수(들)가 비유의적으로 나타나는 경우 다중공선성 때문인지를 점검해야 함. 독립변수들의 단위가 다르며, 각 회귀계수는 단위를 반영하기 때문이다. ∴ 회귀계수 값들 자체를 비교해서는 안되며, 표준화된 회귀계수(standard beta coefficient ; 입력자료를 표준화시켜<평균 = 0, 표준편차 = 1> 분석한 것.)를 비교해야 한다. → 세 개의 독립변수 중 TV 시청시간에 가장 영향력이 큰 변수는 동거여부이며, 그 다음은 교육기간, 그리고 연령의 순이다.
TV 시청관련자료(세 개의 독립변수들 중 연령만을 독립변수로 하여 단순회귀분석) 회귀분석의 목적이 어떤 변수가 종속변수에 어떤 방향으로 어느 정도 영향을 미치는지를 조사하는데 있다면 다중공선성에 유의해야 하나, 다중회귀식을 발견하여 종속변수의 값을 예측하는 데 유일한 목적이 있다면, 다중공선성은 전혀 문제되지 않는다. TV 시청관련자료(세 개의 독립변수들 중 연령만을 독립변수로 하여 단순회귀분석) 모형요약 모형 R R제곱 수정된 R제곱 추정값의 표준오차 1 .358(a) .128 .090 1.0989 a 예측값 (상수), 연령 분산분석(b) 모형 제곱합 자유도 평균제곱 F 유의확률 선형회귀분석 4.086 1 3.384 .079(a) 잔차 27.774 23 1.208 합계 31.860 24 a 예측값 : (상수), 연령 b 종속변수 : 시청시간
계수(a) 모형 비표준화계수 표준화계수 t 유의확률 B 표준오차 베타 1 (상수) -3.014 2.919 -1.033 .313 연령 7.250E-02 .039 .358 1.840 .079 a 종속변수 : 시청시간 연령의 p-value : 다중회귀분석의 경우 .238이었으나 단순회귀분석 결과 .079로, 훨씬 유의적이며, 단측검정을 한다면 p-value = .0395로서 α = .05에서 연령은 TV 시청시간을 설명하는데 유의적인 변수로 나타남. 세 변수의 상관관계 matrix : 연령은 교육기간과 높은 負(-)의 상관관계를 가지며, 다중회귀분석에서 연령이 비유의적으로 나타나는데 중요한 원인이 됨. 회귀식을 이용한 종속변수값 추정 TV 시청관련 자료로써 발견한 회귀식 를 이용하여 y를 추정하고자 할 때 x2는 65 ~ 83, x3는 6 ~ 16 범위의 값이어야 한다. 표본의 크기 : R2는 독립변수들이 종속변수의 분산을 설명하는 정도를 나타내는 것으로 그 값이 클수록 회귀식은 유용하다고 할 수 있으며, R2가 크다는 것은 곧 추정오차가 작다는 것을 의미. 표본의 크기가 작은 경우 r2 또는 R2는 큰 값으로 나타날 수 있으며, 이와 같은 것은 과다적합(overfitting)이라고 하며, 특히 독립변수의 수가 많은데 표본이 작은 경우 문제가 심각 → 이러한 문제 방지를 위해 가급적 표본의 크기를 크게 해야 하며, 최소한 독립변수 수의 4배가 되어야 함(n ≥ 4k)