Presentation is loading. Please wait.

Presentation is loading. Please wait.

제 15 장 요인분석 요인분석의 개념 요인분석(factor analysis) : 다수 변수들간의 관계(상관관계)를 분석하여 변수들의 바탕을 이루는 공통차원들(common underlying dimensions)로써 이 변수들을 설명하는 통계기법 목적 : 다수의 변수들을.

Similar presentations


Presentation on theme: "제 15 장 요인분석 요인분석의 개념 요인분석(factor analysis) : 다수 변수들간의 관계(상관관계)를 분석하여 변수들의 바탕을 이루는 공통차원들(common underlying dimensions)로써 이 변수들을 설명하는 통계기법 목적 : 다수의 변수들을."— Presentation transcript:

1 제 15 장 요인분석 요인분석의 개념 요인분석(factor analysis) : 다수 변수들간의 관계(상관관계)를 분석하여 변수들의 바탕을 이루는 공통차원들(common underlying dimensions)로써 이 변수들을 설명하는 통계기법 목적 : 다수의 변수들을 정보손실을 최소화하면서 소수의 요인들(factors)로 축약하는 것. 독립변수와 종속변수가 없으며, 모든 변수들간의 관계를 분석함으로써 변수들의 토대를 이루는 요인을 발견하는 것으로 주어진 자체를 분석하는 것으로 분석결과로부터 모집단의 특성에 관한 추정을 하지 않음 → 추계통계기법이 아닌 기술통계기법으로 모수와 통계량, 가설검증 등의 개념은 요인분석에 적용되지 않는다. 종류 탐색적 요인분석(exploratory factor analysis) : 다수의 변수들에 대한 자료를 소수의 요인에 대한 자료로 변환시키는 과정에서 사전에 어떤 변수들끼리 그룹핑 되어야 한다는 전제를 두지 않는다 → 일반적 요인분석. 확인적 요인분석(confirmatory factor analysis) : 몇 개의 constructs를 측정하기 위해 construct별로 다수의 항목들을 개발하여 측정한 자료들을 요인분석하여 동일한 construct를 측정하기 위한 항목들끼리 그룹핑 되는지를 조사하는 것.

2 5명의 소비자에 의한 fast-food점의 평가
대기시간 청결 종업원 음식 맛 음식온도 음식신선도 A 2 1 6 5 B 4 C D E 3 서비스품질 음식품질 “그 fast-food점은 음식의 질은 높으나 서비스는 나쁘다”라고 해석할 수 있다. 요인분석을 위한 자료 변수가 간격척도/비율척도에 의해 측정되어야 하며, 표본의 크기(관측치의 수)는 100개 이상이 바람직(최소 50개 이상). 변수의 수보다 관측치의 수가 10배 이상이 바람직(최소한 5배) → 변수의 수에 비해 관측치의 수가 부족하면 과다적합(overfitting)의 문제가 발생할 수 있다. 원자료로부터 상관관계 행렬이 만들어지며, 이 상관관계 행렬이 요인분석을 위한 입력자료(input data)가 된다. 변수들간의 상관관계가 전반적으로 매우 낮다면(± 0.3이하), 요인분석에 부적합.

3 요인의 추출 전체분산(total variance) : 공통분산(common variance : 모든 변수들간에 공유되는 분산); 특정분산(specific variance : 특정변수에만 관련되는 분산); 오차분산(error variance : 측정오차 등 자료수집과정에서 발생하는 분산). ( 요인추출방법 ) 요인분석 주성분분석 공통요인분석 요인분석의 목적/ 변수들의 분산에 대한 사전지식 을 고려해 두 방법 중 선택 원래의 변수들의 분산 중 가급적 많은 부분을 설명하는 소수의 요인을 추출하는데 목적이 있으며, 공통분산이 크다는 사실을 아는 경우 주성분분석(principle component analysis)이 적절하다. 원래 변수들의 토대가 되는 잠재적 차원들을 찾아내고, 분산의 구성에 대한 사전지식이 별로 없다면 공통요인분석(common factor analysis)이 적절하다. 변수가 30개 이상이거나 공통요인분석을 위해 입력 communalities가 대부분의 변수에 있어 .60이 넘으면 두 가지 방법이 거의 같은 결과를 가져옴.

4 공통요인분석의 실행상 몇 가지 문제 때문에, 주성분분석이 보다 널리 사용됨.
요인의 수는 최대한 변수의 수만큼 추출할 수 있으나 요인분석의 목적이 원래 자료를 축약하는데 있으므로 요인의 수가 변수의 수와 같거나 너무 많다면 요인부석의 의미는 사라지고, 반대로 요인의 수가 너무 적게 되면 변수들의 분산에 대한 요인의 설명력이 너무 낮아진다. 추출할 요인의 수를 결정하는 방법 Eigenvalue : 한 요인의 설명력을 나타내는데 한 요인에 대한 “요인적재값의 제곱의 합”을 나타내며, eigenvalue가 크다는 것은 그 요인이 변수들의 분산을 잘 설명한다는 것을 의미. Eigenvalue 1 이상을 갖는 요인의 수만큼 추출하며, 원칙적으로 변수의 수가 20개를 넘는 경우 이 방법이 적절. 요인의 수를 사전에 결정 : 연구자가 몇 개의 요인이 적절하다는 것을 사전에 알거나 다른 연구자가 수행한 연구를 반복하면서 그 연구에서 추출된 요인의 개수만큼 요인을 추출하고자 할 때 사용. 전체 요인들의 설명력 기준 : 요인들의 설명력의 합이 어느 정도는 되어야 한다는 것을 사전에 정하고 그 수준의 설명력을 가져오는 요인들을 추출하는 것으로, 절대적인 기준은 없으나 사회과학에서는 60% 내외로 결정하는 경향이 있음.

5 한계점 : 모든 스크리 도표의 각도가 반드시 어느 지점에서 급격히 꺾이지 않는다.
스크리 도표(scree table) : 각 요인의 eigenvalue를 그림으로 보여주는데 첫 번째요인부터 eigenvalue는 점차 작아진다. 한계점 : 모든 스크리 도표의 각도가 반드시 어느 지점에서 급격히 꺾이지 않는다. 종합 : 자료분석의 결과에 따라 요인의 수를 결정하는 방법으로 조사자 혹은 분석자 판단에 따라 방법을 결정하는 것으로 eigenvalue를 이용하는 경우가 가장 많으며 기준은 보통 eigenvalue 1 이 된다. eigenvalue 요인의 수 1 2 3 4 5 6 7 8 9 10 54321 꺾이는 부문 : 설명력이 낮아지는 부분이므로 여기에서 요인의 수를 결정. 각 요인의 설명력이 처음 몇 개 요인까지는 큰 폭으로 감소하다가 어느 위치부터는 감소폭이 매우 체감하는 경향을 보여주며, 감소폭이 체감하기 직전까지의 요인의 수를 기준으로 요인을 추출할 수 있다.

6 요인의 회전 통계패키지에 의한 요인분석 : 비회전 요인행렬이 구해지며, 요인의 수를 결정하는 방법이 사전에 지정되면 이에 맞도록 요인의 수가 도출되고, 이때 도출되는 요인은 원래 변수들의 선형결합이다. 요인적재값(factor loading) : 각 변수와 해당 요인간의 상관관계계수. 요인행렬 : 기초자료를 축소시켜 보여주기는 하지만 이로부터 어떤 변수들이 어떤 요인에 높게 관계되는지 명확히 알기 어려워 추출된 요인을 회전하게 되는데 회전에 의하여 요인구조(factor structure)를 명확히 알 수 있다(요인을 회전함으로써 어떤 변수가 어떤 요인에 높게 관계되는지 알 수 있다). ( 요인회전방법 ) 요인회전방법 직각회전 사각회전 VARIMAX QUARTIMAX EQUIMAX OBLIMIN (SPSS) PROMAX (SAS)

7 직각요인회전(orthogonal factor rotation) : 직각을 유지하면서(즉, 요인간에 독립성을 유지하면서) 요인구조가 가장 뚜렷할 때가지 요인을 회전시키는 방법.
사각요인회전(oblique factor rotation) : 직각을 유지하지 않은 채 요인구조가 가장 뚜렷할 때까지 요인을 회전시키는 것. 요인회전 시 직각을 유지한다는 것 : 요인들간의 상관관계가 “0”임을 가정하는 것으로 사각회전은 직각을 유지하지 않고 요인구조가 가장 뚜렷할 때까지 각각의 요인을 회전하는데, 요인들간에 “0”의 상관관계를 가정하지 않으므로 보다 실제적(realistic)임. 해석을 용이하기 위해 회전이전 요인적재값과 회전된 요인적재값 변수 회전이전 요인적재값 회전된 요인적재값 1 .50 .80 .03 .94 2 .60 .70 .16 .90 3 - .25 .95 .24 4 - .30 .84 .15 5 - .50 .76 - .13 직각요인회전 VARIMAX 방식

8 각도가 직각보다 작을수록 正의 상관관계, 직각이 보다 클수록 負의 상관관계가 있음을 보여줌.
사각회전이 직각회전에 비해 변수들이 회전된 요인에 보다 가깝게 군집하는 결과를 가져 다 주며, 요인들이 서로간에 얼마나 관계가 있는지에 대한 정보를 제공. 각도가 직각보다 작을수록 正의 상관관계, 직각이 보다 클수록 負의 상관관계가 있음을 보여줌. 이론적으로 사각회전방식이 우수한 면이 있으나 사각회전 수행절차가 그다지 잘 개발되어 있지 않고 또한 논쟁의 여지가 있어 직각회전방식이 보다 자주 사용됨. +1.0 -1.0 +.50 -.50 Unrotated factor Ⅱ Unrotated factor Ⅰ V1 V2 V3 V4 V5 ( 사각요인회전 ) Orthogonal rotation factor Ⅱ Orthogonal rotation factor Ⅰ Oblique rotation factor Ⅱ Oblique rotation factor Ⅰ +1.0 -1.0 +.50 -.50 Unrotated factor Ⅱ Unrotated factor Ⅰ grouping Rotated factor Ⅱ Rotated factor Ⅰ V1 V2 V3 V4 V5 ( 직각요인회전 )

9 요인적재값(각 변수와 요인간의 상관관계 값)의 유의성 판단기준
직각회전방식 VARIMAX 방식 : 요인행렬의 열(column)의 분산의 합계를 최대화함으로써 열을 단순화하는 방식(maximize the sum of variances). QUARTIMAX 방식 : 행(row)을 중심으로 한 변수가 한 요인에는 가급적 높게 그리고 다른 요인들에는 가급적 낮게 적재되도록 함으로써 행을 단순화하는 방식. EQUIMAX 방식 : 두 가지를 절충한 방식. 요인구조를 단순화(명확화)하고 해석이 가장 용이한 방법은 VARIMAX 방법으로 가장 많이 쓰인다. 요인적재값(각 변수와 요인간의 상관관계 값)의 유의성 판단기준 +1과 –1 사이의 값을 갖음. 요인분석결과를 해석할 때 일반적 상관관계계수의 통계적 유의성 대신 실제적 유의성(practical significance)에 관심을 갖는데, 흔히 요인적재값이 ±.50 이상일 때 실제적 유의성을 갖는 것으로 받아들인다. 보다 엄격한 측면에서 표본의 크기와 변수의 수가 고려되어야 하는데, 표본의 크기가 작을수록, 변수의 수가 적을수록 요인적재값은 커야 한다. 적재값을 가급적 +1, - 1, 0에 가깝게 함으로써 가능.

10 요인행렬의 해석 각 변수의 적재값을 여러 요인에 걸쳐 비교하여 가장 높은 적재값에 밑줄을 긋는다(대부분 ±.50 이상이자만 경우에 따라 조금 낮더라도<특히 표본의 크기가 크고 변수가 많을수록> 수용가능). 각 변수의 communality를 검토(한 변수의 communality는 그 변수의 분산이 추출된 요인들에 의해 설명되는 정도를 가리키며 0과 1 사이의 값을 갖는다) . 위 예에서 회전이후 변수 1의 communality = (.03)2 + (.94)2 = .8845가 된다. Communality가 .50보다 작은 경우 취할 수 있는 방법 그 변수를 무시하고 나머지 변수들을 중심으로 해석. 그 변수를 제거하고 요인분석을 다시 실시하는 것으로 그 변수를 제거하더라도 연구목적에 별로 위배되지 않는 경우에 택해야 함. 각 요인의 명칭을 부여. 각 요인(열)에 있는 적재값들 중 밑줄을 그은 값들의 해당변수와 부호를 면밀히 검토. 같은 요인에 높게 적재된 변수들은 모두 그 요인과의 상관관계가 높으므로 당연히 그 변수들의 상관관계도 높을 것으로 기대. 연구자 : 해당 변수들의 공통적인 특성으로부터 주관적으로 요인의 명칭부여(공통적 특성이 없는 경우 – 불확정 요인으로 할 수 있음). 일부변수 특성이 다른 변수들과 공통적 성격을 갖지 못하는 경우 제거하고 다시 분석 가능.

11 요인분석결과의 사용 VARIMAX방식에 의한 요인분석의 예
요인분석에 따라 다수 변수들을 소수의 요인으로 축약하여 원자료의 특성 해석. 다수 변수들에 대한 자료로부터 축약된 정보를 획득하는데 그칠 수도 있으나, 분석결과를 회귀분석이나 판별분석 같은 추가적 분석에 사용할 수 있다. 이를 위해 요인점수(factor score)를 계산해야 하며, 이 요인점수가 회귀분석이나 판별분석을 위한 독립변수로 사용될 수 있다(요인점수 : 개별응답자별로 계산됨). VARIMAX방식에 의한 요인분석의 예 다음은 cable TV 쇼핑을 이용하여 구매를 하는데 대한 귀하의 의견을 질문하는 설문지입니다. 해당하는 란에 ∨표 해 주십시오(각 진술의 끝에는 다음의 척도가 제시됨 : 전혀 동의하지 않는다 ⑴ ~ 전적으로 동의한다 ⑸). ← 리커트 척도 나는 앞으로 cable TV 쇼핑을 이용하여 구매를 하겠다. 일반적으로 cable TV 쇼핑에서 판매하는 제품을 품질이 높다. cable TV 쇼핑에서 판매하는 제품은 대부분 유명브랜드 제품이다. cable TV 쇼핑에서 판매하는 제품을 대체로 값어치가 없다. cable TV 쇼핑에서 구매하면 분실염려가 없다. cable TV 쇼핑에서 구매하면 배달되는 제품은 광고에서 제시된 제품과 동일하다. cable TV 쇼핑에서 구매한 제품은 내가 원하면 광고에서 제시된 방법으로 쉽게 환불할 수 있다. cable TV 쇼핑을 이용하면 시간을 절약할 수 있다. cable TV 쇼핑을 통한 구매는 매우 간편하다. cable TV 쇼핑을 통하여 구매한 제품은 내가 원하는 장소에 배달된다.

12 상관관계계수 행렬 고품질 유명 상표 값어치 있음 분실염려 없음 광고 제품과 동일 환불이 용이 시간 절약 구매가 간편함
유명 상표 값어치 있음 분실염려 없음 광고 제품과 동일 환불이 용이 시간 절약 구매가 간편함 원하는 장소 배달 상관계수 1.000 .671 .535 .154 .228 -.094 -.011 .106 .312 유명상표 .761 .100 .187 .034 .125 .263 .020 .084 .027 .184 .146 .224 .531 .579 .189 .143 .108 광고제품과 동일 .573 .148 .196 .019 .214 .095 -.084 시간절약 .490 .240 .612 원하는 장소배달

13 공통성(communality) 모두 .50 이상이므로 drop시킬 것이 없다. 초기 추출 고품질 1.000 .736 유명상표
.847 값어치 있음 .718 분실염려 없음 .678 광고제품과 동일 .702 환불용이 .761 시간절약 .544 구매가 간편함 .814 원하는 장소배달 .662 추출방법 : 주성분 분석 고품질의 communality = (.855)2 + (.06185)2 + (.02516)2

14 Eigenvalue : 그 요인에 속한 요인적재값 제곱의 합계.
초기 고유값 추출 제곱합 적재값 회전 제곱합 적재값 성분 전체 %분산 %누적 1 2.930 32.561 2.385 26.502 2 2.038 22.639 55.200 2.162 24.023 50.524 3 1.493 16.585 71.784 1.913 21.260 4 .826 9.182 80.966 5 .500 5.556 86.523 6 .481 5.340 91.863 7 .298 3.309 95.172 8 .254 2.826 97.999 9 .180 2.001 추출방법 : 주성분 분석 회전이후 eigenvalue와 설명력 회전이전 eigenvalue와 설명력

15 설명력(%분산) : 그 요인이 전체분산 중 몇 %를 설명하는가를 나타냄.
요인 1의 설명력 : (.855)2 + (.902)2 + (.840)2 + (.0593)2 + (.169)2 + ( )2 + (.09256)2 + (.293)2 = 2.385 %분산 = 2.385/9 = % %누적 : 추출된 요인들이 전체분산의 몇 %를 설명하는가를 나타냄. 요인행렬(factor matrix) 성분행렬(a) 성분 1 2 3 고품질 .657 -.389 -.391 유명상표 .773 -.403 -.296 값어치 있음 .672 -.424 -.295 분실염려 없음 .459 .665 -.158 광고제품과 동일 .507 .614 -.262 환불용이 .333 .787 -.174 시간절약 .451 .210 .544 구매가 간편함 .589 3.169E-02 .683 원하는 장소에 배달 .568 -.246 .528 요인추출 방법 : 주성분 분석 a 추출된 3 성분

16 회전방법 : Kaiser 정규화가 있는 베리멕스
성분(= 요인) 1 2 3 고품질 .855 6.185E-02 2.516E-02 유명상표 .902 7.382E-02 .168 값어치 있음 .840 1.169E-02 .114 분실염려 없음 5.936E-02 .813 .118 광고제품과 동일 .169 .819 5.541E-02 환불용이 -8.657E-02 .867 3.620E-02 시간절약 -3.499E-02 .222 .702 구매가 간편함 9.256E-02 8.985E-02 .893 원하는 장소에 배달 .293 -.113 .750 요인추출 방법 : 주성분 분석 회전방법 : Kaiser 정규화가 있는 베리멕스 a 5 반복계산에서 요인회전이 수렴되었습니다. 품질 각 cell : 요인적재값(factor loading) ☞ 각 변수와 요인간의 상관관계값. 신뢰성 편의성 VARIMAX 방식으로 5회 반복 회전하여 얻어진 결과.

17 회전방법 : Kaiser 정규화가 있는 베리멕스.
요인점수 계수행렬(factor score coefficient matrix) 성분점수 계수행렬 성분 1 2 3 고품질 .381 .008 -.100 유명상표 .384 .001 -.025 값어치 없음 .364 -.023 -.043 분실염려 없음 -.007 .377 -.003 광고제품과 동일 .050 .382 -.053 환불용이 -.064 .413 -.035 시간절약 -.111 .052 .390 구매가 간편함 -.075 -.029 .493 원하는 장소에 배달 .039 -.119 .402 요인추출방법 : 주성분 분석. 회전방법 : Kaiser 정규화가 있는 베리멕스. 요인점수. 요인 1 점수 = .381 × (품질에 대한 응답의 표준화값) × (유명상표에 대한 응답의 표준화값) + … × (원하는 장소배달에 대한 응닶의 표준화 값) 각 응답자별로 다수 변수들에 대한 응답을 소수의 요인으로 축약한 것.

18 요인점수를 이용한 회귀분석 모형요약 모형 R R 제곱 수정된 R 제곱 추정값의 표준오차 1 .629(a) .369 .372 .65 a 예측값 : (상수), 품질, 신뢰성, 편의성 요인점수는 회귀분석/판별분석을 위한 독립변수로 사용가능 → 설문지항목 1은 구매의도에 관한 것으로 3개의 요인점수를 독립변수로 구매의도를 종속변수로 하여 회귀분석한 결과. 분산분석(b) 모형 제곱합 자유도 평균제곱 F 유의확률 1 선형회귀분석 21.360 3 7.120 16.604 .000(a) 잔차 32.590 76 .429 합계 53.950 79 a 예측값 : (상수), 품질, 신뢰성, 편의성 b 종속변수 : 구매의도 계수(a) 모형 비표준화 계수 표준화 계수 t 유의확률 B 표준오차 베타 1 (상수) 3.475 .073 47.464 .000 품질 .361 .074 .437 4.904 신뢰성 .272 .329 3.692 편의성 .257 .311 3.483 .001 a 종속변수 : 구매의도

19 회귀식 : (x1 : 품질, x2 : 신뢰성, x3 : 편의성) 회귀식은 전체적으로 유용 : R2 = .629, F = , p-value = .000) 세 개의 독립변수 모두 구매의도에 正의 방향으로 영향을 미친다고 해석가능. 표준화계수 : 세 개의 독립변수 중 품질이 가장 영향력이 크며, 다음으로 신뢰성, 그리고 편의성의 순으로 구매의도에 영향을 미치는 것으로 나타남. 변수가 10개밖에 없고, 표본의 크기가 20일 때 직접 회귀분석을 하는 것은 부적절하다. 그러므로 요인분석을 통해 요인 3개로 축약해 해석하는 경우에 요인분석이 유용할 수 있다.


Download ppt "제 15 장 요인분석 요인분석의 개념 요인분석(factor analysis) : 다수 변수들간의 관계(상관관계)를 분석하여 변수들의 바탕을 이루는 공통차원들(common underlying dimensions)로써 이 변수들을 설명하는 통계기법 목적 : 다수의 변수들을."

Similar presentations


Ads by Google