Download presentation
Presentation is loading. Please wait.
1
2007 겨울 통계강좌 중급과정 제6강 다변량 분석에 대한 이해
2
▣ 다변량 자료분석의 이해 다변량 분석을 사용하는 핵심적인 목적은 변인에 대한 통제와
여러 현상이나 사건에 대한 측정치(데이터)를 동시에 분석하는 통계적 기법. 다시 말해 여러 변인들 간의 관계성을 동시에 고려하여 그 효과를 밝히는 통계적 방법이다. 따라서 여러 개의 변인이 동시에 고려되기에 다변량 분포는 평면상의 면적이 아니라 공간상의 체적으로 표현 : 다변량 정규분포를 따른다. 결국 다변량 분석은 여러 변인들의 효과를 동시에 분석하기에 종속변인에 대한 효과가 개별평균(혹은 변량)이 아니라 여러 변인들간의 선형조합[평균벡터]로 해석된다는 점이 단변량 분석과는 차이점이다. 다변량 분석을 사용하는 핵심적인 목적은 변인에 대한 통제와 변인들간에 발생하는 복합적인 효과에 대해서 구분해서 파악하기 위한 방법이다.
3
▣ 다변량 자료분석의 선택 연구자는 연구에 들어가기 전 연구주제에 관련된 깊은 고찰을 통해 미리 연구설계와 구성될 문항 그리고 거기에 따른 분석방법에 대해 통찰력을가지고 접근해야 한다. 변인을 독립변인과 종속변인으로 구분할 수 있는가? -> 구분할 수 있는 경우(independent method) 와 구분할 수 없는 경우(dependent method) 종속변인의 수는 몇 개인가? -> 하나 또는 그 이상? 측정의 척도가 연속형인가? 범주형인가?
4
다변량자료분석 구조방정식모형 프로파일분석 중다변량분석 중다판별분석 컨조인트 분석 중다회귀분석 다차원척도법 상응분석 연속형자료
IV, DV 구분할 수 없는 경우 (dependent method) IV, DV 구분할 수 있는 경우 (independent method) IV, DV 여러 개 구조분석 DV 2개 이상 DV 1개 연속형 자료 범주형 자료 연속형자료 범주형자료 연속형자료 군집분석 요인분석 구조방정식모형 프로파일분석 중다변량분석 중다판별분석 컨조인트 분석 중다회귀분석 다차원척도법 상응분석 범주형 다차원척도법
5
▣ 다변량 자료분석의 적용례 변인간의 관계성 검증 집단 차이에 대한 유의성 검증 잠재적 구조분석 중다회귀분석 판별함수 분석
중다변량분석 요인분석 구조방정식모형 공변인 사용 가변인 사용 공변인 사용가능 Anova 일반화된 모형 요인의 이론적 구조 파악 경로분석
6
▣ 분석방법 별 사례: 중다회귀분석 중다회귀분석은 독립변인과 종속변인의 예측적 관계성을 검증하는데 사용.
여러 독립변인들을 통해 종속변인들을 예측하고자 할 때 유용하게 사용 연구자는 중다회귀분석을 통해 1) 회귀모형의 적합도를 분석 2) 독립변인들이 종속변인들을 설명하는 정도(비율)를 알수 있고 3) 종속변인에 대한 독립변인들의 상대적 기여도를 파악 <사례 1> 생산직 근로자의 생산성(DV)은 근로자들의 직장에 대한 만족도, 임금, 스트레스(IV)에 의해 예측될 수 있다. => 독립변인인 직장만족도, 임금, 스트레스가 종속변인인 생산성을 예측 하는 정도(혹은 설명력)을 파악하고 어떤 독립변인이 가장 많은 영향 을 주는지 파악할 수 있다. 이때 설정될 수 있는 회귀모형이 얼마나 적절한지, 즉, 회귀모형이 얼마나 상황에 대해서 정확하게 설명해주 고 변화를 줄 수 있는지 해답을 알 수 있는 것이다. <사례2> 소비자들의 브랜드에 대한 태도(DV)는 브랜드 충성도, 광고호감도, 제품 이미지(IV) 에 의해 예측될 수 있다. => 브랜드 태도를 예측하는 독립변수들의 예측력(설명력)과 독립변인들의 상대적 중요도를 파악할 수 있다.
7
▣ 분석방법 별 사례: 요인분석 요인분석(Factor analysis)은 전통적으로 측정된 변인이 갖고 있는 잠재적인 구조를 밝히는데 사용. 많은 측정변인들을 공통적인 요인(잠재구조)으로 묶어 자료의 복잡성을 줄이고[자료의 요약]측정된 변인들이 동일한 구성개념을 측정하고 있는지를 파악할 수 있는 분석방법. 따라서 요인분석은 주로 검사나 측정척도의 개발과정에서 측정도구의 타당성을 파악하기 위한 방법으로 많이 사용된다. 요인분석은 두 가지 접근방법이 있는데 1) 연구자가 가설적인 요인을 설정하지 않고 얻어진 자료에 근거하여 경험적으로 요인의 구조를 파악하는 탐색적 요인분석(Exploratory Factor Analysis)와 2) 연구자가 사전에 요인의 구조를 가설적으로 설정하고 이를 검증하는 확인적 요인분석(confirmatory factor analysis)이 있다. <사례> 기업체에서 종업원의 직장만족은 여러 가지 하위요인들에 의해서 측정된다고 가정된 다. -> 예를 들어, 임금에 대한 만족, 복지제도에 대한 만족, 동료 및 상사에 대한 만족, 일 자체에 대한 만족 등의 요인이 전반적인 직장 만족도를 나타낸다고 할 때, 이처럼 여러 가지 하위요인들이 타당하게 종업원의 직장만족을 측정하고 있는지를 알고자 할 때 요인분석을 사용한다. <사례> 마케터가 자사 제품이나 서비스에 대한 고객만족을 측정하는 검사도구를 만들때. => 고객만족을 측정하는 많은 문항들이 있고, 이들 문항에 고객만족의 하위요인으로 어떻게 묶이는 지를 파악하고 추출된 하위요인을 분류한다.
8
▣ 분석방법 별 사례: 중다변량 변량분석(manova) 1
단변량 ANOVA의 확장이다. 즉, 아노바에서처럼 독립(범주형)과 종속(연속형)이 있을때 독립변인의 처치효과(treatment effect)를 파악하는데 사용 마노바는 두 개이상의 종속변인을 사용하면서 서로 상관이 있다고 가정될 때 이들의 조합된 효과를 동시에 분석 따라서 상관된 두 개 이상의 종속변인 측정치를 동시 분석하기에 각 종속변인을 독립적으로 아노바 할 때에 비해 통계적 결론을 내리는데 제 1종 오류를 범할 가능성이 낮아진다. 따라서 마노바는 복잡한 관계성을 갖고 있는 종속변인들의 효과를 동시에 고려하여 분석할 때 효과적이다. 또한 마노바는 공변인을 사용한 중다공변량(mancova)를 포함하고 있는데, 보통 종속변인에 유의미하게 영향을 준다고 가정하지만 실험 혹은 연구에서 통제할 수 없는 변인을 공변인으로 설정하여 사용한다. 가설이 참일 때 관측된 표본값이 기각되는 확률을 제1종 오류라 하고 가설이 거짓일 때 관측된 표본값이 채택되는 확률을 제2종 오류 확률이라 한다 <사례> 가족의 지지도(높고/낮음), 교우관계(좋음/나쁨)에 따라 청소년의 폭력과 약물복용에 미치는 영향을 동시에 분석하고자 할 때 사용 -> 이론적인 선행연구나 경험적인 상관이 동반될 때 청소년의 폭력과 약물복용은 서로 상관이 높아 조합된 효과를 갖는다는 가정하에 분석
9
▣ 분석방법별 사례: 중다변량 변량분석(manova) 2
< MANCOVA 사례> 지능을 통제한 상태에서 아동의 수학성적과 과학성적(상관이 높은 두 DV) 이 두 가지 교수방법(강의/참여학습)에 따라 차이가 있을 것인지 알고 싶을 때. -> 지능을 공변인으로 설정하여야지만 올바른 분석 결과가 산출 < 반복측정사례> 약물치료 후 환자의 회복 정도가 호전되는지를 알아보기 위해 환자의 회복 상태를 일주일 간격으로 3회 측정한 결과를 알고 싶을 때. -> 회복측정치는 동일한 측정방 법에 의해 반복 측정된 변인으로 집단 내 변인(within subjects variable)이라 한다. 한편 이 경우는 회복의 자연증가분(치료를 통하지 않은 자연 회복 정도)를 파악할 수 없기에 통제 집단을 사용하거나 다른 치료방법과 비교 하는 게 올바르다 -> 통제변수나 또는 추가적인 독립변수 : 환자의 회복을 3회씩 반복측정 하되 독립조건으로 치료의 유형을 약물치료 / 정신분석치료 / 혹은 통제집단을 사용하여 반복측정치의 변화가 치료유형에 따라 다르게 나타나는 지를 검증할 수 있다. manova에서는 anova처럼 독립변인간의 상호작용 효과를 검증할 수 있으며, 이 경우 개별 종속변인에 대한 상호작용 효과와 종속변인의 조합된 점수에 대한 상호작용 효과를 모두 파악할 수 있다. manova는 실험설계에 충실한 방법으로 가설검증에 적합한 분석방법이기에 독립변인 이외에 종속변인에 영향을 주는 외생변인을 적절히 통제하는 것이 중요하다.
10
▣ 분석방법별 사례: 판별함수 분석 판별함수분석(discriminant function analysis)은 중다회귀분석과 같이 변인간의 관계성을 검증시 사용하나 종속변인(DV)이 연속형 자료가 아니고 범주형 자료 시 적합 따라서 판별분석은 종속변인이 두 개(또는 그 이상)의 집단으로 구성되었을 때 독립변인들이 해당집단의 구성요소를 얼마나 잘 구분해 주는가 하는 점을 알고자 할 때 사용 판별분석에서 집단의 구성원들을 구분해 내는 독립변인들의 능력을 판별력이라 하며 이것은 곧 중다회귀분석에서 살펴본 독립변인의 종속변인에 대한 예측력(설명력)과 동일한 개념이다. 특히 중다회귀분석과 같이 1) 집단을 구분하는 독립변인들의 상대적 기여도를 파악할 수 있고, 2) 설정된 판별함수 모형의 적합성을 검증할 수 있다. <사례> 신용카드 회사에서 고객을 우수고객과 불량고객(DV)으로 구분하기 위해 지불연체율, 월급수준, 연령, 계좌 잔고(IV)를 조사하였다. -> 이들 예측요인들(즉, 독립 변수 3가지)가 고객집단(우수고객/불량고객)을 얼마나 잘 판별해 주는지를 알고자 할때 사용한다. <사례> 보험회사에서 보험설계사의 성별, 연령, 직무동기, 사회적 성격(IVs)을 통해 이직여부 (DV : 이직한다 / 이직하지 않는다)를 예측하고자 할 때 사용. => 독립변수에 따라 이직여부에 대한 판별력을 분석하고 이직에 원인을 미치는 독립변인들의 상대적 기여도를 알 수 있다. 판별분석에서 종속변수는 범주형 자료여야 하지만 독립변수는 연속형과 범주형 두가지 모두를 사용가능하다. 특히 DV의 집단수가 둘 이상(예: 우수, 불량, 신용정지고객 등)일 경우도 분석이 가능하다.
11
▣ 분석방법별 사례: 구조방정식 모델링(LISREL 중심) 1
구조방정식 모델링은(structure equation modeling)은 잠재적인 요인의 구조를 밝혀줄 뿐만 아니라 요인 혹은 변인간의 인과관계를 설명하는 기법이다. 크게 측정모델(measurement model)과 구조모델(structural model)의 두 부분으로 나뉘고, 측정모델은 요인분석과 유사한 개념적 목적을 가지고 있으나 구조모델은 변인간의 인과관계를 예측하기 위한 여러 개의 회귀모형이 결합된 형태라고 볼 수 있다. 특히 구조방정식 모델은 회귀분석보다 변인간의 예측적 관계성을 검증하는데 있어 더욱 강력한데, 이는 LISREL이 측정의 오차가 없음을 가정하고 여러 종속변인을 사용할 수 있고, 직접적으로 측정되지 않은 잠재변인(요인분석에서 말하는 요인)간의 예측적 관계성을 검증하는 등 포괄적인 융통성을 가지고 있다. 따라서 연구자가 요인분석처럼 이론적인 요인의 구조를 파악하고자 하는 경우와 거기에 더불어서 동시에 그 관찰변인이나 잠재변인들 간의 관계성을 검증하고자 할 때 매우 강력한 분석도구 -> 결국 확인적 요인분석을 거쳐 중다회귀분석을 실시하는 것과 같은 효율성을 보여준다.
12
▣ 분석방법별 사례: 구조방정식 모델링(LISREL 중심) 2
구조방정식 모델은 이론적으로 구성된 구조관계를 분석하기에 보통 다이어그램으로 변인들의 관계를 미리 설정하고 이를 분석한다. 예를 들어 소비자들의 구매행동을 예측하기 위해 다음과 같은 관계를 설정하였다고 하자 브랜드 태도 구매의도 구매행동 광고 태도 제품이미지 <사례> 브랜드 태도와 광고태도, 제품 이미지가 구매 의도에 어떤 영향을 주고 구매의도는 다시 구매행동에 영향을 준다는 이론적인 모델을 검증하고자 하는 경로도식이다. => LISREL을 통해 도식에서 화살표를 따라 추정되는 각 경로계수(path coefficient) 를 비교하여 영향력의 크기를 파악하고(회귀계수처럼 해석) 별도로 산출되는 적합 도 지수(goodness of fit index)를 근거로 모델의 적합성을 판단한다 => LISREL에서는 위처럼 원으로 변인이 표시되면 잠재변인을 나타내는 것이고 사각형으로 표시되면 측정변인을 나타낸다. => 따라서 위 모델은 잠재변인간의 관계성을 분석하는 구조모델이지만 만일 측정 변인(사각형)과 잠재변인의 관계성을 분석한다면 측정모델로서 확인적 요인분석 을 시행하는 것이 된다.
13
등간척도로 측정된 한 개의 독립변인이 등간척도(또는 비율척도)로 측정된 한 개의 종속변인에게 미치는 영향력에 대한 분석
단순 회귀분석 언제 하나? 등간척도로 측정된 한 개의 독립변인이 등간척도(또는 비율척도)로 측정된 한 개의 종속변인에게 미치는 영향력에 대한 분석 독립변인의 척도가 명명 척도시 -> 가변수(dummy variable) 회귀분석으로 분석 독립변인의 개수가 한 개 이상일 때 -> 다중회귀분석 독립변인 척도가 다수의 등간 이상이고 종속변수의 척도가 둘 이상의 집단으로 구분되는 범주형(명목) 변수 -> 판별분석으로 분석실시 독립변인은 범주형 자료이고 종속변인은 연속형 자료일 때 독립변인의 처치효과를 보고자 할 때 마노바(MANOVA)-> 단변량 분석인 아노바 분석의 확장 : 마노바는두 개 이상의 종속변인을 활용하여 서로 상관이 있다고 가정될 때 이들의 조합된 효과(메인이펙트, 교호작용:인터액션효과등)를 동시에 분석이 가능 -> 공변량을 포함하여 분석하는 만코바(MANCOVA) 분석으로 확장
14
단순회귀분석 결과치의 산출 : 독립변인과 종속변인을 회귀분석 창에 넣고 옵션 등을 선택한 후 실행 기술통계치 도출
상관관계 분석 값 도출 : 독립과 종속변인의 관계에 대한 상관관계 계수 도출 회귀모델의 변량분석 : 구해진 상관계수값을 기반으로 변량분석(ANOVA) 돌려 연구가설 검증 -> 상관관계 계수 r을 제곱하면 R2(설명변량-결정계수 : 코이피션트값)이 된다. ※ Adjusted R2 은 표본의 사례수가 적을 때 해석한다. 또한 회귀모델의 변량분석은 아노바 모델을 이용한 유의도 검증을 통해 독립변수가 종속변수에 영향을 미치는지 아닌지만 분석해주지 방향성이나 관계성 까지는 알 수 없다. 따라서 독립변수가 종속변수에 미치는 영향력을 파악하기 위해서는 회귀계수의 유의도를 검증해야 한다. ☆ 단순회귀분석방법과 일원변량분석의 방법은 기본적으로 동일하게 변량분석을 통해 가설을 검증한다. 단 차이점으로는 독립변수의 척도에서 아노바는 명목수준이고, 단순회귀는 등간 이상이라는 점 에서 차이가 존재 따라서 아노바는 각각의 명목수준에 따른 종속변수의 평균값에 의한 차이를 보는 것이고 단순회귀분석은 독립변수와 종속변수간의 상관관계 계수를 통해서 변량분석을 한다는 점만 차이가 난다. ☆ 최소자승의 원리 : 독립변수의 원점수로 만들 수 있는 1원 1차 방정식(Y=A+BX)을 종속변인의 예측점수를 구할 수 있는 예측회귀방정식으로 산출하고 둘간의 점수에서 나타나는 차이가 오차(E)이기에 이 오차를 자승한 값이 가장 최소가 되는 점들 간의 직선 방정식의 산출이 바로 최소자승의 원리를 적용한 단순선형회귀분석법
15
▣ 특히 여러 IV들을 통해 DV를 예측하고자 할 때 유용
중다회귀분석 언제 하나? 중다회귀분석은 독립변인과 종속변인의 예측적 관계성 검증시 사용 ▣ 특히 여러 IV들을 통해 DV를 예측하고자 할 때 유용 변인간의 인과관계를 파악하는데 사용 따라서 회귀계수의 크기 비교로 인과관계를 설명 종속변인에 대한 각 독립변인의 설명변량을 세분화(변량을 고유기여도와 공유 기여도로 구분하여)함으로써 독립변인이 종속변인에 미치는 직접 효과와 간접 효과를 대략적으로 파악가능 하지만 대부분 중다회귀분석을 통한 직접효과와 간접효과를 분석하는 경우가 어렵기 때문에 이를 응용한 경로분석(path analysis:구조방정식 모델)이 적합 ▣ 독립변인들이 종속변인들을 설명하는 정도(비율)를 알 수 있다 각 각의 독립변인이 종속변인을 설명하는 고유기여도와 공유기여도를 합한 설명량을 통해서 독립변인들이 종속변인들을 설명하는 중요도 별로 줄 세우기가 가능
16
▣ 회귀모형의 적합도 분석 : 변인간의 관계성 검증
직장에서의 성취도는 대학성적, 성취동기, 직장만족도, 직장명성에 의해 예측될 수 있는가? 독립변인은? ( ) 종속변인은? ( ) B. 제품성능, 브랜드 이미지, 광고이미지는 소비자의 제품태도를 적절히 설명하는가? C. 개인의 외모, 성격, 능력, 경제력은 대인매력을 예측하는 회귀모형으로 적합한가?
17
▣ 종속변인에 대한 독립변인들의 상대적인 기여도(설명력)
을 파악할 수 있다. 즉 개별 독립변인들의 효과를 검증 대학성적, 성취동기, 직장만족도, 직장명성은 직장에서의 성취도를 예측하는데 차이가 있을 것이다. 독립변인은? ( ) 종속변인은? ( ) B. 제품성능, 브랜드 이미지, 광고이미지는 소비자의 제품태도 에 다르게 영향을 줄 것이다 C. 연령, 지역, 가계수입에 따라 현 정부에 대한 정치적 지지도 에서 차이가 있을 것이다.
18
▣ 독립변인을 통제한 효과를 검증 : 공변량 분석의 대안
광고에 대한 노출경험을 통제한 상태에서 광고에 대한 호감적 태도가 광고를 기억하는데 영향을 줄 것이다. 독립변인은? ( ) 종속변인은? ( ) 통제변인은?( ) B. 지능변인을 통제하였을 때 수업태도, 학습동기, 성실성은 학업성적에 따른 효과를 나타낼 것이다. 독립변인은? ( ) 종속변인은? ( ) 통제변인은?( ) C. 환자들이 병원을 방문하는 주요 원인이 신체질병, 스트레스라는 것이 일반적 으로 알려진 사실이라면, 이들 신체질병과 스트레스를 통제하였을 경우 정신 질병이 병원을 방문하는 주요한 원인이 될 것인가? D. (생산라인에서 특정 교육훈련의 효과를 알고자 할 때) 개인의 근무 년수와 연령을 통제한다면 교육훈련이 직무에 대한 이해능력을 향상 시킬 것 인가?
Similar presentations