Download presentation
Presentation is loading. Please wait.
1
2007 겨울 통계강좌 중급과정 제9강 중다회귀분석의 해석 및 응용
2
두 방법 모두 가능하나 해석적 복잡성 때문에 대안적인 경로분석이나 리스셀, 아모스 사용이 권장
▣ 중다회귀분석의 종류에 따른 분석의 차이 : 연구의 목적 표준회귀분석 위계적 회귀분석 단계적 회귀분석 회귀모형 검증 ○ X 개별 독립변인의 효과검증 가설검증 ○ 탐색적 연구 X 가설검증 X 탐색적 연구 ○ 독립변인의 통제효과 새로운 독립변인의 추가 효과 독립변인간의 상호작용효과 여러 회귀모델간의 비교 이들의 응용인 스텝와이즈 사용 새로운 표집을 통한 회귀모형 예측 변인간의 인과관계설명 두 방법 모두 가능하나 해석적 복잡성 때문에 대안적인 경로분석이나 리스셀, 아모스 사용이 권장 표준회귀분석은 한꺼번에 변수 투입 -> 모든 개별 독립변인의 설명변량을 다 합해도 전체 R2의 값과 같아 지지 않는다. 위계적 회귀분석은 연구자가 변인 투입의 순서를 정해준 방식대로(모형대로) 투입 단계적 회귀분석은 컴퓨터의 계산에 의해 가장 설명력 높은 변수부터 투입
3
중다회귀분석의 실행 1 ▣ 회귀분석의 Linear를 선택한 후 옵션 설정 및 지수를 조정하여 Run
실제사례 : regr_3.sav -> open / 중다회귀1.SPO / SYNTAX * 외모평가, 유머능력, 성격, 지능에 따라 대인매력의 정도를 파악할 수 있는가? 광고모델 선정을 위해 => 표준중다회귀분석, 위계적 중다회귀분석, 단계적 중다회귀분석 순으로 돌림 ① 표준중다회귀분석은 독립변인이 회귀식에 동시에 투입되는 특징을 가짐 => 각 독립변인들은 종속 변인을 설명하는 방식에서 다른 독립변인과 공통으로 설명하는 부분(공통변량)을 제외하고 각각의 고유한 기여정도(고유기여도) 만으로 설명변량을 갖게 된다. ② 위계적 중다회귀분석은 투입되는 독립변인의 순서가 연구자에 의해 생성되기에 이는 연구자가 경험적 근거(선행연구의 이론적 혹은 논리적 근거)를 바탕으로 정하는 것이 일반적이다. 따라서 회귀식은 독립변인이 하나씩 첨가되면서 구성되고 하나씩 첨가될 때의 회귀모형을 평가한다. 즉, 모델 1) 매력 = 외모평가 모델 2) 매력 = 외모평가+유머능력 모델 3) 매력 = 외모평가+유머능력+성격 모델 4) 매력 = 외모평가+유머능력+성격+지능, ③ 단계적 중다회귀분석은 회귀모형의 설명량(R2)이나 개별 독립변인의 상대적기여도(β계수, R2 변화량, 각 유의도 검증)에 대한 평가는 위계적 회귀분석과 동일하나, 결정적 차이는 위계적 회귀분석에서는 회귀모형을 오로지 통계적 계산에 기초하여 컴퓨터가 투입될 순서를 정하는 것이다.
4
중다회귀분석의 해석 1 ▣ ① 기술통계치 출력 : 각 변수에 대한 평균, 표준편차, 사례수 등이 출력
▣ ① 기술통계치 출력 : 각 변수에 대한 평균, 표준편차, 사례수 등이 출력 평균과 표준편차를 검토한 후 데이터에 대한 윤곽을 파악한다. ② 상관관계계수 출력 : 독립변인과 종속변인간의 상관관계계수를 구한 후 이를 이용, 변량 분석실시 독립변인들간의 상관관계를 보면 다중공선성의 분위기를 파악 할 수 있다. ③ 회귀모델의 변량분석 : 독립변인간의 상관관계가 낮다고 판단된다면 : 앞서 3)의 각 독립 변인과 종속변인의 상관관계계수(r)를 자승한 값을 구해서 합하면(개별 설명변량을 합하면) 독립변인의 설명변량인 R2값이 된다. 이렇게 합한 R2값은 연구자가 알고 싶어하는 독립변수들을 통한 종속변수를 설명하는 양, 즉 설명변량의 총량이 된다. ▣ 만일 독립변인간의 상관관계가 존재한다고 하면 회귀모델의 유의도 검증 : 회귀분석의 변량분석이 끝난 후 도출되는 회귀모델의 유의도 검증은 아노바 테이블을 활용한다. 따라서 F값을 활용하며 이 F값은 선형회귀분석의 아노바 테이블의 설명변량을 의미하는 선형회귀분석의 평균제곱(Mean Square)값을 설명할 수 없는 변량인 잔차의 평균제곱(Mean Square) 값으로 나눈 값이다. 이때 유의도를 참조하여 연구가설에 따른 회귀모형이 적합한지를 검증한다. 단 주의할 점은 다중회귀의 유의도 검증은 변인간의 관계가 있는지 없는지 만을 판단해 주기 때문에 변인간의 관계가 정적인지 부적인 관계인지는 알지 못하고 이를 알기 위해서는 개별 회귀계수의 유의도를 검증해야 만 가능하다.
5
중다회귀분석의 해석 2 ▣ 회귀모델의 변량분석 : ▣ 회귀계수의 유의도 검증: ① 중다회귀분석에서 회귀선과 회귀계수 구하기 :
▣ 회귀모델의 변량분석 : 개별 독립변인과 종속변인과의 상관관계를 제곱해서 합하면 된다. 왜냐면 독립변인간의 겹치는 설명변량[공유기여도] 때문이다(즉, 이렇게 해석하면 과도하게 오버하는 해석이 될 수 있다). 따라서 이 경우는 개별 독립변인과 종속변인간의 상관관계를 제곱해서 모두 합한 값에서 독립변인 과 독립변인간의 상관관계 값을 제곱한 값을 추가로 빼줘야지만 정확한 설명변량을 구해낼 수 있는 것이다. 또한 다중회귀분석에서의 Multiple R값은 여러 개의 독립변인을 합하여 이것을 하나의 독립변인으로 취급, 종속변인과의 상관관계계수를 구한 값의 절대값이다. 설명변량 R2값은 이 Multiple R값을 자승(제곱)한 값이다. 반대로 설명변량 R2값을 제곱근(√ 를 씌운값)한 값이다. ▣ 회귀계수의 유의도 검증: ① 중다회귀분석에서 회귀선과 회귀계수 구하기 : Y= 비표준화 회귀계수의 상수 + (비표준화 회귀계수 독립변수1 * X1)+ (비표준화 회귀계수 독립변수2 * X2) Y’= 표준화 회귀계수의 상수 + (표준화 회귀계수 독립변수1 * X1’) + (표준화 회귀계수 독립변수2 * X2’) 이렇게 회귀계수의 유의도를 검증하는 이유는 회귀분석이 제대로 이뤄졌는지 확인하기 위한 재검증 과정이자 본인의 연구모델이 적합한지에 대한 검증 절차이며, 더 나아가 연구에 따른 모델을 통해 회귀분석 본연의 임무인 현상에 대한 예측이 가능한지를 알기 위함이다. 모수치 추정 : 신뢰구간은 표본연구에서 얻은 비표준 회귀계수로부터 95% 확률을 가진 모수치의 최소값과 최대값을 말한다.
6
중다회귀분석의 해석 3 : 표준중다회귀분석 표준중다회귀분석은 독립변인이 회귀식에 동시에 투입되는 특징을 가짐 => 각 독립변인들은 종속변인을 설명하는 방식에서 다른 독립변인과 공통으로 설명하는 부분(공통변량)을 제외하고 각각의 고유한 기여정도(고유기여도) 만으로 설명변량을 갖게 된다. ▣ 본격 분석 들어가기 전 사전 수행 : 다양한 방법을 통해 극단치와 잔차의 정상성, 동변량성, 등분산성 및 다중공선선의 유무를 파악한 후 데이터를 처리하기 좋은 상태로 만든다. ▣ 일차적 분석 수행 : ① 기술통계수치 출력 : 평균 표준편차 ② 모델에 투입된 변인들간의 상관관계 계수 출력 ③ 변수투입순서 표시 : 표준에서는 의미없음, 동시에 모든 변수 투입됨 ④ 회귀모델의 요약 및 변량분석 테이블 출력 : R, 설명변량인 R2, Adj R 2값, R 2 체인지 값들이 출력되고, 아노바 테이블의 모델 내용을 확인 ⑤ 코이피션트 테이블에서 비표준화된 β표준화된 β계수를 보고 유의도 측정(다중공선성 지수도 함께 있음) / 준여과상관제곱의 값이 표준중다회귀분석에서 설명되는 전체 설명 총변량값 -> R2과 비교해 볼것 ⑥ 코이피션트 코릴레이션 테이블 : 상관관계와 공변량 관계가 도출 ▣ 따라서 표준중다회귀분석은 전체적인 회귀모형을 설명하고 적합성을 판단하는 데는 큰 무리가 없으나 개별 독립변인들의 정확한 설명변량을 구하고자 할때는 무리수가 있다. 특히 독립변인들간의 상관이 높아질 수록 공통변량이 커지기 때문에 개별 변인의 효과를 설명하기가 더욱 어려워진다. 결국 표준중다회귀분석은 전체적인 회귀모형의 검증이나 여러 개의 회귀모형을 비교하는 목적을 제외하고는 사용하지 않는 것이 바람직하다
7
중다회귀분석의 해석 4 : 위계적중다회귀분석 위계적 중다회귀분석은 투입되는 독립변인의 순서가 연구자에 의해 생성되기에 이는 연구자가 경험적 근거(선행연구의 이론적 혹은 논리적 근거)를 바탕으로 정하는 것이 일반적. 따라서 회귀식은 독립변인이 하나씩 첨가되면서 구성되고 하나씩 첨가될 때의 회귀모형을 평가한다. 즉, 모델 1) 매력 = 외모평가 / 모델 2) 매력 = 외모평가+유머능력 모델 3) 매력 = 외모평가+유머능력+성격 / 모델 4) 매력 = 외모평가+유머능력+성격+지능, ▣ 본격 분석 들어가기 전 사전 수행 : 상동 ▣ 일차적 분석 수행 : 상동 다만 준여과상관제곱의 값은 전체 설명 총변량 값 -> R2과 비교해보면 정확히 일치 즉, 모델 1) 매력( )=상수( )+( )외모평가 모델 2) 매력( )=상수( )+( ) 외모평가+( ) 유머능력 모델 3) 매력( )=상수( )+( ) 외모평가+( ) 유머능력+( )성격 모델 4) 매력( )=상수( )+( ) 외모평가+( ) 유머능력+( )성격+( ) 지능, 특히 각 단계별로 변화되는 설명량(R2)의 변화와 단계별 모형검증 값인 F값의 변화를 유의 깊게 살펴볼 것(만일 F값이 낮아 진다는 것은 그만큼 새로운 독립변인이 추가됨으로 인해서 통계적으로 유의미한 결과를 가지기는 하지만 회귀모형의 개선이 이루어 지지는 않는다는 점이다) ▣ 위계적 회귀분석에서는 가장 먼저 투입되는 변량의 설명량이 두번째로 투입될 변량과의 공유기여도를 포함하고 있다. 따라서 전체의 설명량과 각 독립변인의 개별 설명량을 비교할 경우 정확하게 일치하게 된다는 장점은 있으나 마지막에 투입되는 변량의 경우는 상대적으로 미미한 영향력만을 알 수 있다는 단점도 존재한다. 따라서 개별 변인의 효과를 검증하기에 좋은 방법이며, 독립변인 들의 상대적 효과를 밝히기 위한 가설검증 연구에 적합한 방법이다.
8
중다회귀분석의 해석 4-1 : 위계적중다회귀분석의 응용
위계적 중다회귀분석의 한가지 중요한 응용이 공변량 분석이다. 절차는 동일하나 해석적 관점만 달리하는 것으로 앞선 사례에서 ‘외모변인이 설명력이 약해 뺄 수도 있지만 외모가 대인매력을 설명하는 정도를 제외한다면 나머지 변인인 유머, 성격, 지능이 얼마나 대인매력을 설명할 것인가?에 대한 회귀모형을 검증할 수 있다. ▣ 이때의 모형설정 즉, 모델 1) 매력( )=상수( )+( ) 유머능력 모델 2) 매력( )=상수( )+( ) 유머능력+( )성격 모델 3) 매력( )=상수( )+( ) 유머능력+( )성격+( ) 지능, 이때 해석은 원래 외모변수가 포함된 전체모형(앞의 모형4)에서 69.5%에서 외모의 설명량 57.2%를 뺀 12.3%만 을 연구자가 알고자 하는 실제 설명변량으로 간주함으로써 외모를 통제한 상태에서 나머지 변인들의 효과를 파악한다. 여기서는 외모의 효과가 통제 되었을 때 각 독립변인의 설명량(R2) 변화량과 그에 대한 유의검증(F값)을 통해 개별 변인의 상대적 변량 크기를 알 수 도 있다. -> (통제할 변인의 우선순위가 정해진 경우) ‘지능’을 통제할 경우 : 지능은 0.7%의 설명량이 알고자 하는 부분인데 통계적으로 유의미하지 않으므로 외모, 유머, 성격변인을 통제할때 지능은 대인매력을 설명력을 예측하지 못한다고 해석 -> (통제할 변인의 우선순위가 정해지지 않거나 부분적으로 정해진 경우) 우선순위가 결정된 변인은 순서적으로 투입하고 그렇지 않은 변인은 한꺼번에 투입한다, 즉, 위계적 회귀+표준 중다회귀의 결합방식 :외모는 우선순위가 정해진 반면 유머와 성격은 안정해질 경우 1) 외모 2) 외모+성격+유머 3) 모두 -> 다만 공변량 분석이 아닌 경우 위계 + 표준으로 설정해서 표준중다의 결과에서 순위를 정한 다음 순위가 정해진 순서대로 위계적 회귀분석을 다시 돌린다. ▣ 독립변인간의 다중공선성 주의 : 공차가 1에 접근해야 다중공선성이 없다는 것의미 따라서 외모, 유머, 지능은 다중공선성이 있음을 말해준다. 이때는 별도로 재차 다른 요인을 중심으로 모형돌리기를 수행하여 최적의 결과를 선택하는 것이 중요하다
9
중다회귀분석의 해석 5 : 단계적중다회귀분석 단계적 중다회귀분석은 회귀모형의 설명량(R2)이나 개별 독립변인의 상대적기여도(β계수, R2 변화량, 각 유의도 검증)에 대한 평가는 위계적 회귀분석과 동일하나, 결정적 차이는 위계적 회귀분석에서는 회귀모형을 오로지 통계적 계산에 기초하여 컴퓨터가 투입될 순서를 정하는 것이다. ▣ 본격 분석 들어가기 전 사전 수행 : 상동 ▣ 일차적 분석 수행 : 위계적 회귀분석과 상동 순서가 위계적 회귀분석과 같기에 먼저 투입되는 변인이 공통변량을 가져가서 나머지 투입될 변인의 순서가 바뀔 수 있다. 이러한 근거는 위계적은 연구자가 가설을 설정하는 것이지만 단계적은 컴퓨터 가 사전에 투입된 변연의 설명량에 귀속된 부분을 제하고 나머지 독립변인 중 종속변인에 대한 설명 량을 비교하여 많은 변인을 투입하기에 그러한 현상이 나타난다. 이때 다음단계에서 투입될 변인의 모형이 통계적으로 유의미 하지 않다면 분석은 거기서 종결된다. ▣ 따라서 단계적 회귀분석은 일반적으로 사용하는 방법으로 가능한 모든 변인을 회귀식에 투입하고, 설명력과 개별 독립변인의 효과를 파악한다(방법1). 두 번째로는 단계적 회귀분석을 응용한 집합적 회귀분석을 사용하는 것으로 독립변인 하나씩을 하나의 회귀식으로 만들어 각 세트의 설명변량과 기여도를 비교한다. 이는 주로 상관이 높은 독립변수들에 대해 수행해 볼 만한 방법이다. 또한 모든 가능한 독립변인들의 조합을 비교해 보기도 하고 세개씩 묶은 목립변인의 쌍으로 구성된 회귀모형을 비교하는 것도 가능하다.
11
1. 가변인 회귀분석이란 ? 명명척도로 측정된 한개 이상의 독립변인 그리고 등간척도나 비율척도로 측정된 한개이상의 또 다른 독립변인과 등간척도 이상으로 측정된 한 개 이상의 종속변인과의 인과관계를 분석하는 통계방법을 가변인 회귀분석이라고 한다. 즉 명명척도로 측정된 독립변인과 등간척도 이상으로 측정된 독립변인이 같이 있을 경우 변량분석으로 분석할 수 없고, 가변인 회귀분석으로만 분석이 가능하다. 명명척도로 측정된 독립변인을 요인(factor)이라고 부르며, 등간척도(연속변수)로 측정된 변인을 공변인(covariate)이라고 부른다.
12
2. 가변인 회귀분석의 종류 1)독립변인의 주 효과만 검증 명명척도로 측정된 독립변인과 등간척도로 측정된 독립변인이 등간척도로 측정된 종속변인에게 미치는 개별적 영향력만 존재한다고 전제할 경우 독립변인의 주 효과만 검증하고 상호작용효과는 분석하지 않는다. 2)독립변인의 주 효과와 상호작용효과가 존재할 경우 명명척도로 측정된 독립변인과 등간척도로 측정된 독립변인이 등간척도로 측정된 종속변인에게 미치는 개별적 영향력뿐 아니라 상호작용효과도 존재한다고 전제할 경우에는 먼저 상호작용 효과를 분석한다. 만일 상호작용효과가 통계적으로 유의미하면 분석을 마치지만, 상호작용 효과가 통계적으로 의미가 없으면 주 효과를 분석한다.
13
여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 남성의 경우 : Y'=(A+B2)+B1X1(D1이 1이기 때문에)
3. 예 연구가설 : 성별과 연령이 음주에 대한 태도에 영향을 줄 것이다. □ 독립변인 : 성별, 연령 □ 종속변인 : 음주에 대한 태도 성별은 남성, 여성으로 측정하였고(명명변인), 연령은 실제나이(등간척도)로 측정하였다. 종속변인인 음주에 대한 태도의 경우 5점 척도(등간척도)로 측정하였다. 1)독립변인의 주 효과만 존재할 경우 여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 남성의 경우 : Y'=(A+B2)+B1X1(D1이 1이기 때문에)
14
여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0)
2) 독립변인의 주 효과와 상호작용 효과 검증 여성 집단의 회귀방정식 : Y'=A+B1X1(D1이 0) 남성의 경우 : Y'=(A+B2)+(B1+B3)X1(D1이 1이기 때문에)
15
4. 가변인(Dummy Variable)의 코딩방법
<명명 척도의 세가지 코딩법> 명명 척도로 측정된 독립변인의 각 유목에 특정 응답자가 속해 있는지의 여부에 따라 새로운 수치를 부여하는 것이다. 가변인 코딩 (Dummy coding) 효과코딩 (effect coding) 독립코딩 (Orthogonal coding) 기독교 천주교 D1 D2 E1 E2 O1 O2 응답자1(기독교) 1 -1 응답자2(기독교) 응답자3(천주교) 응답자4(천주교) 응답자5(불교) -2 응답자6(불교) 코딩방법에 따라 계산한 상수(또는 절편)와 비표준화된 회귀계수(B)값에는 차이가 있다. 하지만 세가지 방법에 관계없이 설명변랑(R2)과 자승합(sum of square), F값, 추정값의 표준오차, 예측점수 결과는 동일하다. Y=A+B1D1+B2D2 불교집단의 경우 : Y=A (D1이 0이고, D2도 0이기 때문) 기독교 집단 : Y=A+B1 (D1이 1이고, D2가 0이기 때문) 천주교 집단 : Y=A+B2 (D2이 1이고, D1이 0이기 때문)
16
<참 고> 1. 가변인 코딩의 경우 상관관계 분석도 가능 : 한 변인이 등간척도이고 다른 변인이 명명척도로 측정되었을 때 명명척도를 가변인 (이원변인 : binary variables)으로 변환(리코딩)시켜서 상관관계를 분석할 수 있다.1) 2. 가변인 분석(dummy variable)은 예측변인(predictor variable)으로 사용한다. 아울러 가변인 분석의 경우 단순회귀분석에서보다는 다변인 회귀분석에서 많이 사용된다. 3. 로짓(logit), 프로빗(probit) 회귀분석2) : 로지스틱(logisitic)회귀분석은 y가 명명변수일때(남녀, yes/no, 성공/실패, 방송사 선택 등) 즉, y가 불연속 변수이며, 어떠한 결정을 내리는 의미를 담고 있을 때 로짓 혹은 프로빗을 사용한다. 하지만 로지스틱 회귀분석은 변인간의 선형적 관계성을 고려하지 않는다. y의 가능한 값이 2개면 binary logit 3개 이상이면 multinomial logit
17
위 그림과 같이 X=a를 전후로 급격히 y가 0혹은 1로 급격히 변하는 함수를 로짓이라고 하며, 불연속변수 y를 이러한 함수를 이용해 연속변수로 바꾸어 회귀분석하는 것을 로짓 회귀분석이라고 한다. 이와 유사한 함수로 프로빗(probit)이 있는데 로짓과 거의 유사하다. 따라서 프로빗 회귀분석은 로짓 회귀분석과 거의 동일한 결과를 갖는다.
Similar presentations