2007 겨울 통계강좌 중급과정 제7강 중다회귀분석에 대한 이해
등간척도로 측정된 한 개의 독립변인이 등간척도(또는 비율척도)로 측정된 한 개의 종속변인에게 미치는 영향력에 대한 분석 단순 회귀분석 언제 하나? 등간척도로 측정된 한 개의 독립변인이 등간척도(또는 비율척도)로 측정된 한 개의 종속변인에게 미치는 영향력에 대한 분석 독립변인의 척도가 명명 척도시 -> 가변수(dummy variable) 회귀분석으로 분석 독립변인의 개수가 한 개 이상일 때 -> 다중회귀분석 독립변인 척도가 다수의 등간 이상이고 종속변수의 척도가 둘 이상의 집단으로 구분되는 범주형(명목) 변수 -> 판별분석으로 분석실시 독립변인은 범주형 자료이고 종속변인은 연속형 자료일 때 독립변인의 처치효과를 보고자 할 때 마노바(MANOVA)-> 단변량 분석인 아노바 분석의 확장 : 마노바는두 개 이상의 종속변인을 활용하여 서로 상관이 있다고 가정될 때 이들의 조합된 효과(메인이펙트, 교호작용:인터액션효과등)를 동시에 분석이 가능 -> 공변량을 포함하여 분석하는 만코바(MANCOVA) 분석으로 확장
단순회귀분석 결과치의 산출 : 독립변인과 종속변인을 회귀분석 창에 넣고 옵션 등을 선택한 후 실행 기술통계치 도출 상관관계 분석 값 도출 : 독립과 종속변인의 관계에 대한 상관관계 계수 도출 회귀모델의 변량분석 : 구해진 상관계수값을 기반으로 변량분석(ANOVA) 돌려 연구가설 검증 -> 상관관계 계수 r을 제곱하면 R2(설명변량-결정계수 : 코이피션트값)이 된다. ※ Adjusted R2 은 표본의 사례수가 적을 때 해석한다. 또한 회귀모델의 변량분석은 아노바 모델을 이용한 유의도 검증을 통해 독립변수가 종속변수에 영향을 미치는지 아닌지만 분석해주지 방향성이나 관계성 까지는 알 수 없다. 따라서 독립변수가 종속변수에 미치는 영향력을 파악하기 위해서는 회귀계수의 유의도를 검증해야 한다. ☆ 단순회귀분석방법과 일원변량분석의 방법은 기본적으로 동일하게 변량분석을 통해 가설을 검증한다. 단 차이점으로는 독립변수의 척도에서 아노바는 명목수준이고, 단순회귀는 등간 이상이라는 점 에서 차이가 존재 따라서 아노바는 각각의 명목수준에 따른 종속변수의 평균값에 의한 차이를 보는 것이고 단순회귀분석은 독립변수와 종속변수간의 상관관계 계수를 통해서 변량분석을 한다는 점만 차이가 난다. ☆ 최소자승의 원리 : 독립변수의 원점수로 만들 수 있는 1원 1차 방정식(Y=A+BX)을 종속변인의 예측점수를 구할 수 있는 예측회귀방정식으로 산출하고 둘간의 점수에서 나타나는 차이가 오차(E)이기에 이 오차를 자승한 값이 가장 최소가 되는 점들 간의 직선 방정식의 산출이 바로 최소자승의 원리를 적용한 단순선형회귀분석법
▣ 특히 여러 IV들을 통해 DV를 예측하고자 할 때 유용 중다회귀분석 언제 하나? 중다회귀분석은 독립변인과 종속변인의 예측적 관계성 검증시 사용 ▣ 특히 여러 IV들을 통해 DV를 예측하고자 할 때 유용 변인간의 인과관계를 파악하는데 사용 따라서 회귀계수의 크기 비교로 인과관계를 설명 종속변인에 대한 각 독립변인의 설명변량을 세분화(변량을 고유기여도와 공유 기여도로 구분하여)함으로써 독립변인이 종속변인에 미치는 직접 효과와 간접 효과를 대략적으로 파악가능 하지만 대부분 중다회귀분석을 통한 직접효과와 간접효과를 분석하는 경우가 어렵기 때문에 이를 응용한 경로분석(path analysis:구조방정식 모델)이 적합 ▣ 독립변인들이 종속변인들을 설명하는 정도(비율)를 알 수 있다 각 각의 독립변인이 종속변인을 설명하는 고유기여도와 공유기여도를 합한 설명량을 통해서 독립변인들이 종속변인들을 설명하는 중요도 별로 줄 세우기가 가능
▣ 회귀모형의 적합도 분석 : 변인간의 관계성 검증 ▣ 회귀분석은 회귀모형이 얼마나 좋은가, 즉, 독립변인들이 종속변인을 설명하는 것이 우연적인가를 검증함으로써 회귀모형의 적합성을 검증 통계적으로 ‘독립변인들의 설명량(R2)=0인가?’, 또는 영가설 H0 : R2=0’을 설정하고 회귀모형의 예측력 검증 만일 설명량(R2:결정계수)이 유의미하게 0이 아니면 영가설 기각되므로 종속변인의 변화는 독립변인에 의해 설명할 수 있다고 결론 종속변인의 변화가 독립변인에 의해 설명되기 때문에 설정된 회귀모형이 적합하다고 말할 수 있다. 직장에서의 성취도는 대학성적, 성취동기, 직장만족도, 직장명성에 의해 예측될 수 있는가? 독립변인은? ( ) 종속변인은? ( ) 2) 제품성능, 브랜드 이미지, 광고이미지는 소비자의 제품태도를 적절히 설명하는가? 3) 개인의 외모, 성격, 능력, 경제력은 대인매력을 예측하는 회귀모형으로 적합한가? 독립변인은? ( ) 종속변인은? ( )
▣ 종속변인에 대한 독립변인들의 상대적인 기여도(설명력) 을 파악할 수 있다. 즉 개별 독립변인들의 효과를 검증 ▣ β계수 해석으로 독립변인의 상대적 중요도와 기여도를 파악할 수 있다 통계적으로 독립변인들의 β계수가 0인지를 검증하기 위해 영가설 H0 : B1=B2 =…Bi=0을 설정하고, 만일 독립변인의 β계수 중 하나라도 0이 아닌 경우 영가설을 기각 하고 상대적 기여도가 다르다고 해석한다. 영가설에 사용된 β계수는 비표준화 회귀계수로 직접적인 비교가 불가능하기 때문에 독립변인간의 상대적 기여도를 비교하기 위해서는 표준화된 회귀계수를 사용하여야 한다. 이는 변량분석에서 실시한 가설검증과 비슷한 논리로 변량분석에서의 주효과 검증과 동일하다. 단지 변량분석에서는 집단내 변량과 집단간 변량으로 주효과의 크기를 결정하지만 회귀분석에서는 β계수의 크기로 결정한다는 차이가 있다. 1) 대학성적, 성취동기, 직장만족도, 직장명성은 직장에서의 성취도를 예측하는데 차이 가 있을 것이다. 독립변인은? ( ) 종속변인은? ( ) 2) 제품성능, 브랜드 이미지, 광고이미지는 소비자의 제품태도에 다르게 영향을 줄 것이다 3) 연령, 지역, 가계수입에 따라 현 정부에 대한 정치적 지지도에서 차이가 있을 것이다.
▣ 독립변인을 통제한 효과를 검증 : 공변량 분석의 대안 ▣ 몇 개의 독립변인의 효과를 통제하고 연구자가 선택한 변인의 효과를 볼 수 있다. 이때 상대적 기여도를 검증하는 경우와 동일하게 설정하며 통제된 독립변인은 통계적으로 상수(회귀식에서의 상수는 독립변인의 효과가 없다고 생각될 때 나타나는 종속변인의 기본 값)의 의미를 갖는다. ANCOVA에서 독립변인을 통제한 상태에서 특정 독립변인의 효과를 검증하는 것과 동일. 특히 ANCOVA에서는 통제변인이 많아지면 연구자가 알고자 하는 특정 독립변인의 효과가 불분명 해지지만 중다회귀분석에서는 여러 변인이 통제된다고 하더라도 해석에 큰 문제가 되지 않는다는 장점이 있다. 1) 광고에 대한 노출경험을 통제한 상태에서 광고에 대한 호감적 태도가 광고를 기억하는데 영향 을 줄 것이다. 독립변인은? ( ) 종속변인은? ( ) 통제변인은?( ) 2) 지능변인을 통제하고 수업태도, 학습동기, 성실성은 학업성적에 따른 효과를 나타낼 것이다. 독립변인은? ( ) 종속변인은? ( ) 통제변인은?( ) 3) 환자들이 병원을 방문하는 주요 원인이 신체질병, 스트레스라는 것이 일반적으로 알려진 사실 이라면, 이들 신체질병과 스트레스를 통제하였을 경우 정신질병이 병원을 방문하는 주요한 원인이 될 것인가? 독립변인은? ( ) 종속변인은? ( ) 통제변인은?( ) 4) (생산라인에서 특정 교육훈련의 효과를 알고자 할 때) 개인의 근무 년수와 연령을 통제한다면 교육훈련이 직무에 대한 이해능력을 향상 시킬 것 인가? 독립변인은? ( ) 종속변인은? ( ) 통제변인은?( )
▣ 새로운 독립변인을 추가하여 그 효과를 검증한다 ▣ 중요 독립변인 투입한 중다회귀식을 만들고 상대적 기여도를 결정한 후, 회귀식을 개선시키고 더 나은 예측을 위해 새로운 독립변수의 추가가 가능 대학성적, 성취동기, 직장만족도, 직장명성은 직장에서의 성취도를 예측하는데 차이가 있을 것이다. + 인간관계 추가 이때 변수투입 순서는 이미 검증된 모형에 추가로 변수를 투입하는 것이기에 회기식에 가장 나중에 투입시킨다. 특히 휘귀분석은 변인간의 중다상관에 의해 중요도가 결정되므로 독립변인의 투입 순서에 따라 상대적 기여도가 달라진다. 1) 대학성적, 성취동기, 직장만족도, 직장명성은 직장에서의 성취도를 예측하는데 차이가 있을 것이다. + 인간관계 독립변인은? ( ) 종속변인은? ( ) 회귀식은? 2) 직무스트레스 모델(과제요구, 역할요구, 인간관계가 직무스트레스를 결정하는 요인, 여기에 리더십 포함할 경우) 3) 전통적 태도 모델(행동에 대한 태도[신념, 평가]와 주관적 규범이 행동에 영향을 주는 요인 -> 광고효과 추가
▣ 독립변인간의 상호작용효과를 검증한다(독립변인들의 중재효과 검증) ▣ 독립변인들의 예측력을 향상시키기 위해 비선형적 관계(특히 곡선적 관계)를 검증한다. 변량분석에서 둘 이상 독립변인간의 상적(相積:변인들의 곱)을 통해 상호작용 효과를 검증하듯이 회귀에서도 종속변인과 곡선적 관계에 있는 변인을 다른 변인과 상적하여 상호작용 항으로 만들어 회귀식에 투입할 수 있다. 초등학생의 일기능력 : 부모의 관심도에 따라 일정 정도 직선적 관계를 보이다 그 수준을 넘어가면 감소하게 된다. 따라서 이 경우 종속(읽기능력) = 학습흥미도 + 부모관심도 + (학습흥미 * 부모관심) 한편 연구의 주 관심이 주효과 보다는 상호작용 효과에 있다면 통제변인(공변인)으로 별도로 계산하여 변수를 만든 후 회귀식에 투입함으로써 순수한 상호작용 효과를 설명가능 -> 최소한의 상호작용 항 사용할 것 이때 상호작용을 주로 연구할 경우는 독립변인들간의 상호작용 효과가 있을때 종속변인에 대한 중재효과가 있다고 해석한다. 1) 학습흥미도와 부모 관심도는 아이의 읽기능력에 상호작용효과를 보일 것이다. [이 경우 두 독립변인의 주 효과와 함께 상호작용 효과를 분석할 수 있으며, 주 효과를 통제하고 상호작용 효과만 분석하는 것도 가능해진다] 2) 변량분석에서 처럼 주효과와 상호작용 효과로 나누어 연구문제 설정이 가능 가설1-1.학습흥미도는 아이의 읽기능력에 영향을 미칠것이다. 가설1-2.부모의 관심도는 아이의 읽기능력에 영향을 미칠 것이다. 가설1-3.학습흥미도와 부모의 관심도는 아이의 읽기 능력에 있어 상호작용 효과를 보일 것이다. 가설1-4.(회귀모형을 검증하고자 할 때) 학습흥미도와 부모의 관심도, 그리고 이들의 상호작용은 아이의 읽기능력을 예측하는 적합한 회귀모형이 될 것이다.
▣ 여러 회귀 모델간의 비교가 가능하다 : 독립변인의 매개효과 검증 ▣ 이론적 명확한 근거들을 배경으로 다양한 회귀모형을 세워 가장 최적의 모형을 검증해 낸다. ▣ 몇 개의 회귀모델을 설정하고 각 회귀계수간의 변화를 검증 : 독립변인의 매개효과를 밝히는 연구에서 자주 활용. 교통사고를 예측하는 타당한 모델은 무엇인가? (연구자는 위와 같이 가정되는 회귀모델을 여러 개 설정하고 설명량 R2의 차이를 검증한다) 2) 근로자들의 생산성을 예측하는 다음의 두 모델중 어떤 모델이 더 적합한가? 모델 1 : 생산성 = 직무동기 + 개인의 성격 + 집단 리더십 모델 2 : 생산성 = 근무경력 + 조직풍토 + 인간관계 이때도 두 모델간의 R2비교하고 그 차이가 0인지 검증한다 3) (매개효과를 밝히기 위한 연구모델) 지능이 학업성취에 영향을 준다고 가정할 때 학습동기가 이들 효과를 매개하는 역할을 할 것인가? 모델 1 : 학습동기(Y’) = B0 + B1(지능) 모델 2 : 학업성취(Y’) = B0 + B1(지능) 모델 3 : 학습성취(Y’) = B0 + B1(지능) + B2(학습동기) => 이런 경우는 모델 2에서의 ‘지능-> 학업성취’에 대한 회귀계수(B)와 모델 3의 ‘지능-> 학업성취’에 대한 회귀계수(B)를 비교한다. 만일 모델3의 회귀계수가 모델2의 회귀계수에 비해 작은 값을 가지면 학습동기의 매개효과가 있는 것으로 해석한다. 즉, 지능만으로 구성된 단순회귀의 경우에 비해 학습동기를 포함한 중다회귀에서의 ‘지능 -> 학업성취’의 영향력이 감소하였다는 것은 학습동기 변인이 이들 효과를 매개하는 역할을 하는 것으로 해석한다.
▣ 새로운 표집을 통해 회귀모형의 예측력을 검증한다. ▣ 도출된 회귀모델에 다른 표본 대입으로 그 모델이 예측력을 가지고 있는지 검증 ▣ 한 표본을 둘로 나눠 두 집단에게 동이란 회귀모델을 설정하여 얼마나 비슷한 결 과가 나오는지 => 교차타당화의 검증 1) 삼성그룹의 인사선발을 위한 회귀모델 면접성공률 = 상수항 + 학력 + 상식+ 인성+적성이라고 할 때 다른 기업, 예를 들어 XX무역의 표본에서도 적합한 회귀모델이 되는가? 2) (마케팅 상황에서) A맥주의 판매량을 예측하는 회귀모델이 맥주 판매량 = 상수항 + 소비자선호도 + 유통 + 광고 + 가격인데 B맥주를 예측하는 데도 적합한 모형인가? 혹은 소주 A나 소주 B를 예측하는데도 적합한 모델인가? ▣ 변인간의 인과관계를 설명한다. ▣ 회귀계수의 크기를 비교함으로써 인과관계 설명 ▣ 종속변인에 대한 각 독립변인의 설명변량을 세분화(변량은 고유기여도와 공유기여도로 구성)하여 독립변인이 종속변인에 미치는 직접효과와 간접효과를 대략적으로 파악가능
▣ 중다회귀분석의 실제 분석 사례 : 사례 1) 생산직 근로자의 생산성(DV)은 근로자들의 직장에 대한 만족도(IV1), 임금(IV2), 스트레스(IV3)에 의해 예측될 수 있다. 중다회귀분석을 통해 독립변인인 직장만족도, 임금, 스트레스가 종속변인인 생산성을 예측 하는 정도(또는 설명력)을 파악하고 어떤 독립변인이 가장 많은 영향을 주는지를 파악할 수 있다. 또한 이렇게 만든 회귀모형이 얼마나 적절한지를 평가할 수 있다. 사례2) 소비자들의 브랜드에 대한 태도(DV)는 브랜드 충성도(IV1), 광고호감도(IV2), 제품이미지(IV3)에 의해 예측될 수 있다. 이 경우에도 브랜드 태도를 예측하는 독립변인들의 예측력(설명력)과 상대적 중요도를 파악할 수 있다.
▣ 중다회귀분석과 변량분석의 차이 : 변량분석 상관분석 회귀분석 사용목적 두 집단 이상의 평균간 차이를 검증 변인간 관계성 정도(r)와 방향(+/-)을 검증 회귀모형의 적합도 검증 개별 IV의 효과검증 원 리 집단간 변량의 크기가 집단간 차이를 의미함 집단간변량 F=--------- 집단내변량 으로 F값의 통계적 유의도 결정 변인간의 공통변량의 크기가 상관의 정도를 의미함 결정계수 r2으로 해석 최소자승의 원리를 통한 관찰된 Y와 예측된 Y’간의 차이를 최소화하는 회귀식을 산출하고 해석 기본가정 모집단 분포의 정상성 집단간 변량의 동질성 표본의 상호독립성 모수통계의 기본가정 잔차의 정상성, 선형성, 동변량성, 독립성 독립변인간의 무상관 적합한 자료 독립변인 : 범주형 자료 종속변인 : 연속형 자료 연속형 자료 독립변인과 종속변인 모두 연속형 자료 검증 통계치 F값 상관계수 r 과 결정계수 r2 결정계수 R2과 β계수 종 류 일원변량분석 N-Way 변량분석 다원변량분석 단순회귀분석 중다회귀분석 가변수 회귀분석 등 적 용 례 (일원) A,B,C의 세가지 치료방법이 건강회복에 미치는 영향 수능성적과 대학성적간의 관계성 앞선 사례들