Download presentation
Presentation is loading. Please wait.
Published byCarin Haupt Modified 6년 전
1
단순회귀분석 단순회귀분석의 개요 개념 : 상관관계분석은 두 변수간의 선형관계를 조사하는 것이지만, 단순선형회귀분석(simple linear regression; 이하 단순회귀분석)은 두 변수간의 인과관계(casual relationship)를 조사하는 방법임. 독립변수(예측변수) : 영향을 미칠 것으로 생각되는 변수. 종속변수(기준변수) : 영향을 받을 것으로 생각되는 변수. → 두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당성을 토대로 해야 하며, 논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정할 수 있으나, 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 주장할 수는 없는 것임(회귀분석의 결과 만으로는 결코 인과관계를 규명할 수 없음). 단순회귀분석의 가장 기본적인 과업은 과 을 구하는 것이며, 기본식은 다음과 같다.
2
자료 종속변수 : 간격/비율척도로 측정된 계량적 자료(quantitative data). 독립변수 : 간격/비율척도로 측정되지만 경우에 따라 명목척도로 측정된 자료를 사용할 수 있으며, 이 경우 독립변수를 더미변수(dummy variable)라고 함. 가정 독립변수와 종속변수간의 선형적 관계 :독립변수값의 변화에 따른 종속변수값의 변화가 일정해야 함을 의미. 상관관계 : 두 변수간의 선형관계에 토대를 둠. 회귀분석 : 독립변수와 종속변수간의 선형관계를 가정할 수 있어야 함. 오차항의 정규뷴포 : 오차항의 기대값 0, 일정한 분산(constant variance)을 갖는 정규분포를 이룬다고 가정할 수 있어야 함. 오차항(error term) : 종속변수의 관측치와 예측치간의 차이. 오차항의 독립성 : 의 변화에 따라 오차항이 어떤 패턴(pattern)을 가져서는 안 된다. 예를 들어, 이 커짐에 따라 오차값이 커지면 가정에 위배되는 것임. SPSS 10.0을 이용한 단순회귀분석 제 11 장에서 예로든 [예 11.]을 이용하여 광고비를 독립변수로, 매출액을 종속변수로 하는 단순회귀분석을 실행해 보기로 함.
3
연구문제 : 광고비 지출은 매출에 영향을 미치는가 ?
메뉴 바에서 『분석(A) → 회귀분석(R) → 선형(L)』를 선택하면…
4
[ 방법(M) ] 입력 : 모든 독립변수들이 동시에 투입됨(기본설정). 그 밖의 단계선택(stepwise), 제거(remove), 전진(forward), 및 후진(backward) → 단순회기분석에서는 입력방만이 적용되므로 이외의 방법은 다중회귀분석에서 설명
5
회귀계수 추정값(E) : 회귀계수 추정치를 표시(회귀계수/베타/표준오차/t-value/유의수준 등; 기본설정). 신뢰구간(N) : 회귀계수에 대한 95% 신뢰구간 표시. 공분산행렬(V) : 공분산 및 상관행렬을 표시(대각선에는 분산이 표시되고 대각선의 위와 아래에는 공분산이 표시됨). 모형적합(M) : 다중 R, R2, 수정된 R2, 표준오차 등을 표시(분산분석표에는 자유도, 제곱합, 평균제곱, F 값 등이 표시됨; 기본설정). R 제곱 변화량(S) : 변수를 추가하거나 삭제하는데 따르는 R2 변화정도를 의미하며, 단순회귀분석에서는 별 의미가 없으므로 다중회귀분석의 단계선택방식에서 보다 자세히 설명할 것임. 기술통계(D) : 각 변수의 평균/표준편차/모든 입력변수들간의 상관관계.
6
공선성진단(L) : 개별 변수에 대한 공차한계(tolerance)와 그 밖에 공선성 문제 진단을 위한 다양한 통계량을 표시.
선택법 기준 F-확률 사용(O)\진입(E) .05 제거(M) .10 (기본설정) : 다중회귀분석을 하는 경우 단계선택법을 사용할 때 어떤 변수가 회귀식에 들어갈 것인가를 결정하는데 사용되는 값. 방정식에 상수항 포함(I) : (기본설정) 목록별 결측값 제외(L) : (기본설정)
8
R2(R square로 읽음)는 결정계수(coefficient of determination)라고 불리는데, 종속변수의 분산 중 몇 %가 독립변수에 의해 설명되는가를 나타내며 0과 1 사이의 값을 갖는다. 위 표에 따르면 R2는 .766으로서 광고비와 매출액의 상관계수 제곱과 같은 값임. (SSE)은 종속변수를 회귀식으로 추정하는 경우 설명되지 않는 분산을 의미. 합계의 제곱합(Total SS)은 종속변수를 평균값으로 추정하는 경우의 전체분산을 나타내며, 선형회귀분석의 제곱합(SSR)은 종속변수를 회귀식으로 추정하는 경우에 설명되는 분산을 나타내고, 잔차의 제곱
9
R2는 종속변수의 전체 분산 중 회귀식(혹은 독립변수)에 의해 설명되는 비율을 나타내므로 다음과 같다.
y X xi ● Total SS SSE SSR R2는 종속변수의 전체 분산 중 회귀식(혹은 독립변수)에 의해 설명되는 비율을 나타내므로 다음과 같다. 선형회귀분석의 자유도 = 독립변수의 수 =1 잔차의 자유도 = 표본의 크기 – 독립변수의 수 – 1 = 10 – 1 – 1 = 8 합계의 자유도 = 표본의 크기 – 1 = 10 – 1 = 9
10
광고비에 대한 회귀계수는 정(正)으로 나타났으며 매우 유의적이므로(t = 5. 123; p-value =
회귀식을 이용한 종속변수 값의 추정 : 위 과정을 거쳐 독립변수가 유의적이면, x값이 주어진 경우 y의 값을 추정할 수 있으나, 독립변수가 유의적이지 않으면 x는 y에 영향을 미친다고 할 수 없으므로 x값으로부터 y값을 추정해서는 안됨. 위 회귀식의 경우 독립변수가 유의적으로 나타났으므로 다음 달에 1억원에 광고비 지출을 하는 경우 Y = X = × 1 = 99.06, 따라서 이 경우 99.06억원의 매출이 예상됨. 주의 : 발견한 회귀식에 의하여 y값을 추정할 때 원래 사용한 x의 범위 내에서만 가능하다. (Why) 원래 그 범위를 넘어서 다른 값들이 있었다면 회귀식이 다르게 나타날 가능성이 크기 때문임.
11
다중회귀분석 다중회귀분석의 개요 다중회귀분석의 개념과 추정방식 : 현실적으로 종속변수에 영향을 미치는 독립변수를 두 개 이상 고려해야 되는 경우가 빈번하며, 다중회귀분석(multiple regression analysis)은 두 개 이상의 독립변수들과 하나의 종속변수의 관계를 분석하는 기법으로 단순회귀분석을 확장한 것임. 다중회귀식을 추정하는 방식 동시입력방식(enter) : 연구자가 고려하는 모든 독립변수들을 한꺼번에 포함하여 분석하는 방법으로 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력을 알 수 있으며, 또한 연구자가 고려하는 모든 독립변수들이 동시에 종속변수를 설명하는 정도를 알 수 있음. 단계입력방식(stepwise) : 다른 변수들이 회귀식에 존재할 때 종속변수에 영향력이 있는 변수들만을 회귀식에 포함시키는 방식으로, 설명력이 높은 변수의 순으로 회귀식에 포함되게 되며, 전 단계에서 회귀식에 포함된 독립변수들도 나중에 들어오는 변수때문에 설명력이 매우 낮아지면 회귀식에서 제거되며, 종속변수를 설명하는 데 있어서 설명력이 어느 정도 이상되는 변수들로만 구성된 회귀식을 발견하는 데 유용. 다중회귀분석의 가장 기본적인 과업은 각 계수들을 구하는 것이다.
12
SPSS 10.0을 이용한 다중회귀분석(입력방식)
자료와 가정 : 단순회귀분석의 자료 및 가정과 동일. SPSS 10.0을 이용한 다중회귀분석(입력방식) 한 방송국에서는 65세 이상 시청자들을 위한 TV 프로그램을 개발하기로 하였다. 이를 위한 기초정보를 획득하기 위해 25명의 시청자들을 대상으로 설문조사를 하여 다음의 네 가지 변수에 관한 자료를 수집한 결과 <표 12.5>와 같이 나타났다. y = 일일 평균 TV 시청시간 x1 = 배우자와 동거여부(만약 배우자와 동거중이면 x1 = 1, 그렇지 않으면 x1 = 0) x2 = 연령 x3 = 교육기간(연수) 표 TV 시청시관과 관련하여 65세 이상 시청자로부터 수집한 자료 개인 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 시청시간 .5 .7 .8 .9 1.1 1.6 2.0 2.5 2.8 3.0 3.2 3.3 3.4 3.5 3.6 3.7 동거여부 연령 73 66 65 68 69 82 83 81 72 71 80 75 76 78 79 교육수준
13
더미변수의 입력 : 회귀분석의 입력자료는 대개의 경우 간격척도 혹은 비율척도로 측정되나 경우에 따라 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 필요가 있으며, 이 경우 이러한 변수를 더미변수(dummy variable)라고 부르며, 더미변수의 수와 입력방식은 다음과 같음. 범주의 수가 두 개인 경우(남/여, yes/no) 더미변수의 수는 한 개이며, 한 범주를 1, 다른 범주를 0으로 입력. 만약 범주의 수가 세 개인 경우(세단 승용차, 해취백, 웨곤형) 더미변수의 수는 두개이며 다음과 같이 입력됨. 더미변수의 수 = 범주의 수 – 1 범주 더미변수 1 더미변수 2 세단형 해취백 1 웨곤형
14
연구문제 : 동거여부, 연령, 그리고/혹은 교육기간은 TV시청시간에 영향을 미치는가 ?
세 독립변수는 결합적으로 종속변수의 분산을 설명하는 데 유용한가 ? 각 독립변수는 다른 두 독립변수가 회귀식에 포함된 경우 종속변수의 분산을 설명하는 데 유용한가 ? 메뉴 바에서 『분석(A) → 회귀분석(R) → 선형(L)』를 선택하면…
15
방법 입력(Enter) : 모든 독립변수들이 동시에 투입됨(기본설정).
16
단계선택(Stepwise) : 여러 개의 독립변수들 중에서 설명력이 어느 정도 높은 변수들로만 회귀모델을 구성하기 위한 것으로, 첫 단계에서는 종속변수와 상관관계가 가장 높은 변수가 회귀식에 들어가며, 두 번째 단계(그리고 그 후의 단계)에서는 전 단계에서 들어가지 않은 변수들 중 종속변수와 가장 높은 편상관관계(partial correlation)를 갖는 변수가 들어감(각 단계에서는 기존에 진입한 각 변수의 유의성 검증이 이루어지며, 비유의적인 변수는 제거됨). 단계선택방식에서 진입조건 : F값 혹은 p-value 지정 → 진입조건을 충족시키는 변수가 더 이상 없는 단계에서 분석 종료. 전진(Forward) : 단계선택과 마찬가지로 상관관계(혹은 편상관관계)가 높은 독립변수의 순서로 회귀식에 진입하며, 다만 단계선택과는 달리 기존에 진입한 변수는 제거되지 않음. 후진(Backward) : 모든 독립변수들이 한꺼번에 들어가서 각 단계에서 종속변수에 대한 설명력이 낮은 순서로 제거되며, 기준은 F값 혹은 p-value로 지정되며, 이 기준에 달하는 변수가 더 이상 없으면 종료됨.
17
R 제곱 변화량(S) : 변수를 추가하거나 삭제하는데 따르는 R2 변화정도를 의미하며, 이는 다중회귀분석에서 입력방식에는 적용되지 않음.
공선성진단(L) : 개별 변수에 대한 공차한계(tolerance)와 공선성 문제 진단을 위한 다양한 통계량을 표시하며, 이는 다중회귀분석을 실행할 때 지정하는 기능으로서 한 독립변수가 다른 독립변수(들)와 선형관계를 갖고 있을 때 발생하는 공선성(다중 공선성)의 문제를 검증하기 위한 것임. 잔차 Durbin-Waston(U) : 시계열자료(time series data)를 회귀분석한 경우 오차항(error term)의 값들이 서로 상관관계가 있는지를 조사하는 데 사용되는 값이며, 종속변수를 설명하는데 중요한 변수(들)가 포함되지 않은 경우에 오차항의 값들간에 상관관계가 높게 나타날 수 있다. 분석결과 도출되는 Durbin-Waston값이 Durbin-Waston 검증영역표의 어디에 해당하는지에 따라 상관관계 유무를 결론지으며, 시계열자료를 회귀분석하는 경우가 아니라면 반드시 체크할 필요 없음.
18
케이스별 진단(C) : 분석대상 케이스들의 회귀식에 의한 예측값, 예측값과 실제값의 차이(잔차) 값들을 나타내며, 전체 케이스에 대하여 나타낼 수도 있고, 이상값(outlier), 예를 들어 예측값이 “실제값의 3×표준편차”를 벗어난 케이스에 대하여 나타낼 수 있음. 선택법 기준 F-확률 사용(O)\진입(E) .05 제거(M) .10 (기본설정) : 단계선택방식에서만 의미를 가짐. 방정식에 상수항 포함(I) : 기본설정 목록별 결측값 제외(L) : 기본설정
20
각각의 독립변수는 종속변수와 모두 유의적인 상관관계가 있는 것으로 나타났으며(p <
각각의 독립변수는 종속변수와 모두 유의적인 상관관계가 있는 것으로 나타났으며(p < .05), 또한 연령과 교육기간간에는 유의적인 負의 상관관계가 있는 것으로 나타났다(r = -.501; p-value = .005) 이 결과는 연령과 교육기관 간에 약간의 공선성이 존재할 가능성이 있음을 알게 해주는 부분임. R2는 .626으로서 종속변수(시청시간)를 62.6% 설명하고 있음을 알 수 있으며, 자유도를 반영한 Radj2(adjusted R2로 읽음)는 .572로 나타남. R2 : 다중회귀식의 결정계수(coefficient of determination)로서 종속변수의 분산 중 독립변수들(혹은 회귀식)에 의해 설명되는 비율로서 회귀식에 독립변수가 추가됨으로써 점차 커짐.
21
Radj2 : R2를 약간 증가시키기 위해 독립변수가 추가되는 낭비를 막기위해 R2를 독립변수의 수와 표본의 수로써 조정한 것으로, R2 보다 작으며, 새로이 추가되는 어떤 변수의 추가적 설명력이 매우 작은 경우 R2는 조금이라도 증가하나 Radj2는 오히려 감속하므로 이 변수를 독립변수에 포함시키는 것을 부적절하다고 할 수 있음. n ↑ Radj2 R2 k ↓Radj R2 표 분산분석표 원천 제곱합(SS) 자유도 평균제곱(MS) Fobs 회귀식 SSR 독립변수의 수 –1 MSR = SSR/독립변수의 수 MSR/MSE 오차 SSE n – 독립변수의 수 – 1 MSE = SSE/(n – 독립변수의 수 –1) 전체 Total SS n – 1 n = ∞, Radj2 = R2 k = 1(가장 작은 값), Radj2 = R2이므로 독립변수(k) 수에 비해 n이 작을수록 R2보다 Radj2는 작아진다(독립변수의 수가 클수록 n의 크기는 상대적으로 매우 커야만 함).
22
본 분석결과 다중회귀식은 비표준화계수(B)에 의해 다음과 같이 표시됨.
“회귀식의 설명력(R2)이 0이라는 귀무가설(H0 : β1 = β2 = = βk = 0)”을 기각하게 되므로 회귀식이 종속변수를 설명하는 데 유용하다고 할 수 있음. 상대적 영향력의 크기를 나타내 줌(동거여부 >교육기간 >연령 본 분석결과 다중회귀식은 비표준화계수(B)에 의해 다음과 같이 표시됨.
23
각 독립변수의 유의성 검증 “동거여부”는 다른 두 변수(연령, 교육기간)가 회귀식에 포함되어 있는 경우 유의적이다(p-value = .001) → 동거여부의 부호가 負(–)로 나타났으므로, 입력자료에 따라 동거(X1 = 1)를 하는 경우 동거를 하지 않는 경우(X1 = 0)에 비하여 값이 1.176만큼 작아지므로 배우자와 동거하는 사람의 경우 그렇지 않은 사람에 비하여 TV시청시간이 보다 짧다고 해석할 수 있음. 연령은 다른 두 변수가 회귀식에 포함되어 있는 경우 비유의적이다(p-value = .238). 교육기간은 다른 두 변수가 회귀식에 포함되어 있는 경우 유의적이다(p-value = .006) → 부호가 負(–)로 나타났으므로 교육기간이 길수록 TV시청시간이 적다고 할 수 있음. 독립변수 영향력의 상대적 크기 : 회귀계수의 경우는 단위를 반영하고 있기 때문에 이를 비교해서는 안되며, 표준화된 회귀계수(standardized beta coefficient; 입력자료를 표준화시켜(평균 = 0. 표준편차 = 1) 분석한 것)를 비교해야 함.
24
공선성(collinearity; 하나의 독립변수가 다른 독립변수에 의해서 설명되는 것)통계량.
공선성 통계량의 공차한계와 분산팽창요인 : 독립변수들간의 다중공선성을 판단하기 위한 지표. 공성선(collinearity) : 두 개의 독립변수들간의 관계를 의미하는데, 예를 들어 두 개의 독립변수간의 상관관계 계수가 1이면 완전한 공선성(complete collinearity)을 보인다고 하고, 계수가 0이면 전혀 공선성이 없음(complete lack of collinearity)을 의미하며, 특히 세 개 이상의 변수들간의 관계를 다중공선성(multicollinearity)이라 하고, 한 독립변수가 종속변수에 대한 설명력이 높더라도 다중공선성이 높다면 설명력은 낮은 것처럼 나타남. 다중공선성을 알아보기 위한 가장 간단한 방법 : 독립변수들간의 상관관계 조사하며, 보다 엄격하게 공선성을 점검하려면 공차한계와 분산팽창요인을 보면됨 → 이 두 가지 지표들은 한 독립변수가 다른 모든 독립변수들에 의해서 설명되는 정도를 알려줌(상관관계의 제곱값은 한 독립변수가 다른 한 독립변수에 의해 설명되는 정도만을 알려줌). 공차한계(tolerance) : 공성선을 점검하기 위해 가장 많이 사용되는 지표로서 변수 i의 공차한계(TOLi)는 (1-Ri2)로 표시되며, 여기서 Ri2는 독립변수 i가 다른 독립변수들에 의해 설명되는 정도를 의미하며, 즉 독립변수 i를 종속변수로 설정하고 다른 독립변수들을 이용하여 회귀분석한 경우의 R2에 해당 → 한 독립변수가 다른 독립변수들에 의해서 설명되지 않는 부분을 의미 : Ri2값이 클수록 공차한계 값이 작아지는데, 공차한계 값이 작을수록 그 독립변수가 다른 독립변수들에 의해 설명되는 정도가 크다는 의미로 다중공선성이 높다.
25
(참고) ∑eigenvalue = 변수의 수
분산팽창요인(variance inflation factors; VIF) : 공차한계의 역수로 표시되며(VIFi = 1/TOLi), VIF값이 클수록 독립변수들간의 공선성 정도가 높음을 의미. 공차한계의 최대값은 1(한 독립변수가 다른 독립변수들에 의해 설명되는 정도 = 0)이며, 공선성 판단을 위한 일반적인 기준은 공차한계 .10이하, 분산팽창요인 10이상이나, 공선성 존재여부는 연구자들이 적절한 수준에서 판단하여야 함. 공선성을 낮추기 위해서는 상관관계 높은 독립변수들 중에서 한 변수를 제거하고 회귀모형을 구성하거나, 독립변수 입력방식을 단계입력방식으로 설정하여 설명력이 높은 독립변수만을 회귀모형에 삽입시키는 방법이용 가능. 공선성진단을 위한 다른 값들로서 고유값(eigenvalue)은 독립변수들의 곱셈값의 행렬을 요인분석함으로써 얻어지며, 각 차원의 상태지수는 가장 큰 고유값을 그 차원 의 고유값으로 나눈 값의 제곱근 값임. (참고) ∑eigenvalue = 변수의 수
26
상태지수(condition index)값이 15보다 크면(30을 기준으로 하는 경우도 있음) 공선성이 문제될 수 있음.
분산비율 : 추정치의 분산 중 각각의 차원에 의해 설명되는 비율로서, 높은 상태지수를 갖는 차원에서 두 개 이상의 변수들의 분산비율이 상당히 높으면 공선성이 존재할 가능성이 존재(위 표 중 차원 4와 연령 → ∴ 연령과 교육기간간에는 공선성이 존재할 가능성이 존재할 가능성이 있다고 할 수 있음).
27
SPSS 10.0을 이용한 다중회귀분석(단계입력방식)
메뉴 바에서 『분석(A) → 회귀분석(R) → 선형(L)』를 선택하면…
29
R 제곱 변화량(S) : R2의 변화량으로서 독립변수가 추가됨으로써 R2가 얼마나 커지는지를 나타내며, 한 변수와 관련하여 R2 변화량이 크다는 것은 그 변수가 종속변수에 대한 설명력이 높음을 의미하며, R2 변화량은 다중회귀분석에서 단계선택 방식에서만 의미를 가짐.
30
선택법 기준 F-확률 사용(O)\진입(E) .05 제거(M) .10 (기본설정) : 단계선택의 경우 적용되는 것으로서 회귀식에 포함되지 않은 독립변수들 중 .05보다 유의적인 변수는 포함되며, 기존에 포함된 독립변수라도 새로운 독립변수의 진입에 따라 유의성이 .10보다 떨어지면 회귀식에서 다시 제거됨을 의미하며, 보다 설명력이 높은 변수들로만 구성된 회귀식을 도출하기를 원할수록 두 값을 보다 낮게 설정하면 됨. F-값 사용(V) : 3.84와 2.71이 활성화되며, 이는 자유도 1, ∞에서 각각 α= .05와 α=.10의 경우의 F-값임.
31
입력방식에 비하여 자유도가 달라지면서 값이 변화
종속변수는 시청시간이고 모델개발을 위한 독립변수 투입방식은 단계선택방식으로서 1단계에서는 교육기간만이 독립변수로서 투입되었고, 2단계에서는 동거여부가 추가적인 독립변수로 투입되었음을 알 수 있으며, 변수의 진입 및 제거기준은 각각 p-value .05와 .1임이 나타나 있음. 입력방식에 비하여 자유도가 달라지면서 값이 변화 1단계에서 교육기간만 투입되어 회귀분석 한 결과 R2가 .375로 나타났으며, 2단계에서 동거여부가 추가적으로 투입된 결과 R2는 .599로서 .255만큼 증가하였으며, R2의 증가량은 유의적인 것으로 나타났음(F 변화량 = , p-value = .002).
32
각 단계별 회귀식의 유의성을 보여주고 있으며, 교육기간만을 투입한 회귀모형 1과 동거여부를 추가적으로 투입한 회귀모형 2는 모두 유의적인 것으로 나타났으며, 회귀모형 1에 비하여 회귀모형 2가 보다 유의적임을 알 수 있음(회귀모형 : F-value = , p-value = .001; 회귀모형 2 : F-value = , p-value = .000) 동거여부가 통제되었을 때 교육기간이 통제되었을 때
33
회귀식의 발견과 독립변수의 유의성 : 단계선택방식에 의해 독립변수들을 입력한 결과 얻어진 최종 회귀모형은 Y(시청시간) = 4
회귀식의 발견과 독립변수의 유의성 : 단계선택방식에 의해 독립변수들을 입력한 결과 얻어진 최종 회귀모형은 Y(시청시간) = X1(교육기간) – 1.096X2(동거여부)이며, 각 계수값은 모두 유의적인 것으로 나타남(p < .01). 상관관계계수 도해 0차 상관계수(zero-order correlation) : 두 변수간의 상관계수, 즉 Pearson 상관계수 값으로, 아래 그림에서 파란색 부분은 각각 교육기간과 동거여부가 y를 설명하는 정도로서 <표 12.17>에 있는 0차 상관계수를 제곱하면 다음과 같음. (– .612)2 = .3745; 교육기간은 y의 분산을 37.45% 설명. (– .521)2 = .2714; 동거여부는 y의 분산을 27.14% 설명. TV 시청시간(y) 교육기간 동거여부
34
회귀식의 설명력(두 변수에 의해 설명되는 y의 분산) : 파란색 부분은 교육기간과 동거여부가 결합하여 y를 설명하는 정도로서 <표 12.15>에 있는 R2 .599이다.
TV 시청시간(y) 교육기간 동거여부
35
교육기간에 의해 설명되지 않는 y의 분산 : 파란색 부분은 교육기간에 의해 설명되지 않는 분산으로서 1 –. 3745 =
TV 시청시간(y) 교육기간 동거여부
36
편상관계수(partial correlation) : 동거여부가 진입함으로써 설명하는 부분으로 다른 독립변수의 효과를 제거한 후(혹은 통제된 상태에서) 한 독립변수와 종속변수의 상관관계이다. 즉, 교육기간에 의해 설명되지 않는 y의 분산 중 35.88%는 동거여부에 의해 설명된다. TV 시청시간(y) 교육기간 동거여부
37
부분상관계수(part correlation) : y의 전체 분산 중 특정변수의 순수한 설명력을 제곱근한 값으로, 교육기간에 의해 설명되지 않는 부분은 .6255이며, 이 중 동거여부가 설명하는 부분은 편상관계수값 35.88%이므로, .6255×.3588 =.244이며 이는 y의 전체 분산 중 22.44%가 동거여부에 의해 설명됨을 의미하며, 이 값을 제곱근한 값 ±.4737이 동거여부의 부분상관계수가 됨. TV 시청시간(y) 교육기간 동거여부
38
각 단계별 모형에서 제외된 변수들에 대한 통계량이 제시되고 있으며, 단계선택 방식이 입력방식과 다른 점 중의 하나는 바로 이렇게 분석에서 제외된 변수들에 대한 통계량이 제시된다는 것임. 교육기간만을 투입한 회귀모형 1에서 제외된 변수인 동거여부와 연령에 대한 통계량이 제시되어 있으며, 여기서 진입베타, t값 및 유의확률은 그 변수가 회귀모형에 추가적으로 투입되는 경우에 해당하는 베타값, t값, 및 유의확률을 의미. 회귀모형 1에서 동거여부가 추가적으로 투입되는 경우에 그 계수값이 유의적이므로 이를 추가적으로 투입하여 회귀모형 2를 구성하게 되며, 이 경우 연령에 대한 통계량은 비유의적이므로 추가투입되지 않으며, 만약 유의적이었다면 동거여부와 연령 중에서 편상관계수가 큰 변수가 우선적으로 투입됨. 동거여부가 추가적으로 투입된 회귀모형 2에서 제외된 변수인 연령에 대한 통계량이 비유의적이므로 더 이상 단계적 투입이 진행되지 않고 교육기간과 동거여부만을 가지고 최종 회귀모형이 구성됨.
39
상태지수는 15보다 작으므로 공선성문제는 존재하지 않는 것으로 판단되며, 교육기간과 연령간에 약간의 공선성이 의심되며, 입력방식과 비교해 볼 때 공선성이 의심되는 두 독립변수(교육기간과 연령) 중 설명력이 약한 연령이라는 변수가 단계선택방식을 통하여 제외됨으로써 공선성의 문제가 해결되었음을 알 수 있음. 입력방식과 단계선택방식에 의한 분석결과의 비교 입력방식 : 회귀분석결과 세 개의 독립변수로 구성된 회귀식을 발견하였으며,R2 는 .626이었음. 단계선택방식 : 회귀분석결과, 종속변수에 대한 설명력이 낮은 “연령”은 제외된 두 개의 독립변수로 구성된 회귀식을 발견하였으며 R2는 .599이었으며, 단계선택방식에 의한 분석의 경우 독립변수의 수가 한 개 적으므로 R2값이 더 작음.
Similar presentations