요인 분석 신뢰도 분석 Copyright © 2012 by Lee, Jae-Hee
요인분석(factor analysis)이란? 전체 변수에 공통적인 요인이 있다고 가정하고 이 요인을 찾아내어 각 변수가 어느 정도 영향을 받고 있는지 그 정도를 산출하기도 하고(R타입) 그 집단의 특성이 무엇인가를 기술하려는(Q타입) 통계분석 방법 요인분석의 목적 자료의 요약 : 여러 개의 변수들을 몇 개의 공통된 집단(요인)으로 묶어줌으로써 자료의 복잡성을 줄이고 몇 개의 요인으로 정보를 요약 변수의 구조 파악 : 여러 개의 변수들을 동질적인 몇 개의 요인으로 묶어줌으로써 변수들내에 존재하는 상호독립적인 특성(차원)을 발견 불필요한 변수의 제거 : 요인군으로 묶이지 않는 변수들을 제거함으로써 중요하지 않은 변수(신뢰도가 낮은 변수)들을 선별/제거
요인분석(factor analysis)이란? 측정도구(설문지)의 타당성 검증 - 동일한 개념을 측정하기 위한 변수들간에는 상관관계가 높아야 하므로 동일한 개념을 측정한 변수들이 동일한 요인으로 묶이는지의 여부를 확인함으로써 측정도구(설문지)의 타당성 검증 추가적인 분석방법에 요인점수 이용 - 다수의 변수들을 도입하여 회귀분석이나 판별분석을 하는 경우 변수의 수가 많으면 시간, 비용, 분석의 복잡성이 증가된다. 따라서 요인분석을 통해 얻어진 요인들을 변수로 도입하여 분석하게 되면 변수의 수를 줄일 수 있는 장점은 있으나 정보의 손실이 발생할 수 있다. 대상을 묶는 데 이용 - 요인분석은 Q-type과 R-type 2가지 방식이 있는데, 보통 요인분석이라고 하면 변수를 묶는 R-type을 말한다. 대상(subjects)을 묶는 Q-type은 군집분석과 같이 동질적인 집단으로 대상을 묶는다는 점에서 그 목적과 분석 방법이 다르다. R-type : 변수를 묶는데 이용 vs. Q-type : 대상을 묶는데 이용
요인분석 용어 요인(factor) : 서로 상관계수가 높은 변수들끼리 모아서 작은 수의 변수집단으로 나눈 것 요인적재값 (factor loadings) : 변수들과 요인 사이의 상관계수로서, 요인적재값의 제곱은 해당변수가 요인에 의해서 설명되는 분산의 비율 요인행렬(factor matrix) : 각 요인들에 대한 모든 변수들의 요인적재값을 모아놓은 행렬 공통성(communality) : 여러 요인에 의하여 설명되어질 수 있는 한 변수의 분산 양을 백분율로 나타낸 것으로, 어떤 변수에 대하여 추출된 요인들에 의하여 그 변수에 담겨진 정보(분산)을 얼마나 표현할 수 있는가를 나타냄 고유값(eigen value) : 각각의 요인으로 설명할 수 있는 변수들의 분산의 총합으로 각 요인별로 모든 변수의 요인적재값을 제곱하여 더한 값이다. 즉, 변수 속에 담겨진 정보(분산)가 어떤 요인에 의해 어느 정도 표현될 수 있는가를 나타냄
요인분석 과정 요인분석을 실시할 5가지 변수 투입 1) 변수의 선정 연구문제와 관련된 변수는 측정이 가능하면 가능한 모든 변수를 분석에 포함시킨다. 그러나 변수의 수가 많아지면 그에 따라 표본의 수도 증가시켜야 하며 분석시간과 비용도 증가된다. 일반적으로 50개 내외의 변수를 사용하는 것이 좋다. 2) 척도의 형태(자료의 형태) 요인분석은 상관관계를 바탕으로 이루어지므로 상관관계 계산이 가능한 척도 즉, 매트릭스 자료가 필요하다. 3) 표본수의 결정 일반적으로 표본의 수가 50개 이하인 경우에는 요인분석을 실시할 수 없으며 최소한 100개 이상이 되는 것이 바람직하다. 또한 변수의 수에 4∼5배 정도의 사례가 요구되는 것이 일반적이다. 따라서 40개의 변수를 이용한 요인분석을 실시하려면 최소한 160∼200명의 사례를 확보하는 것이 바람직하다.
요인분석 과정 4) 자료의 표준화 입력된 자료는 측정단위가 다른 경우가 있으므로 이를 표준화하는 과정을 거치게 된다. 즉, 평균이 0이며 표준편차가 1인 정규분포로 바꿔줌으로써 측정단위가 미치는 영향을 제거한다. 5) 변수간의 상관관계 계산 변수들간의 상관관계 행렬(correlation matrix)을 산출함으로써 변수간의 상호관련성을 파악한다.
요인분석 과정 6) 요인추출 모델의 결정 가장 많이 쓰는 요인추출 모델로는 주성분분석(PAC: Principle Component Analysis), 최대우도분석(Maximum Likelihood), 주인자분석(CFA: Common Factor Analysis) 등이 있다. PAC방식은 요인수를 최소화하면서 정보의 손실을 최소화하고자 할 때 사용되며, CFA방식은 변수들 사이에 존재하는 차원을 규명함으로써 변수들간의 구조를 파악하는데 주로 사용된다. 요인추출모델 결정
요인분석 과정 7) 요인추출(요인수의 결정) ① 고유치(eigen value)를 기준으로 결정하는 방법 - 고유치란 요인이 설명해 주는 분산의 양을 말하는데, 1이상이라는 의미는 하나의 요인이 변수1개 이상의 분산을 설명해 줌을 의미, eigen value가 1 이하가 되면 1개의 요인이 1개의 변수에 해당하는 분산도 설명하지 못하기때문에 요인의 의미가 없음 ② 총분산 중에서 요인이 설명해 주는 비율을 기준으로 정하는 방법 - 사회과학에서는 일반적으로 총분산의 60% 정도를 설명해 주는 요인까지 선정. 분산의 일정 비율 이상을 설명할 수 있도록 요인의 수를 결정하는 이유는 변수의 축약과정에서 정보의 손실이 일정수준 이상으로 커서는 않된다는 데 있다. 만약 10개의 변수에서 1개의 요인만을 선정하였을 때 설명되는 분산이 총분산의 40% 정도라면 60%의 정보의 손실이 발생한다. 이 경우 요인의 수를 늘림으로써 설명되는 분산의 비율을 높이고 정보의 손실을 줄여야 한다. 따라서 60%를 기준으로 할 때는 변수를 축약하는 대신 40%의 정보손실은 감수하겠다는 의미를 지니고 있는 것이다. ③ 연구자가 사전에 요인의 수 결정 - 스크리 검사(factor scree plot)
요인분석 과정 2개 요인이 총분산의 약84%를 설명하고 있음 2.751 Eigen값이 1이상인 2개 요인 추출 1.452 .507
요인분석 과정 8) 요인 적재값 산출 요인 적재값(factor loading)은 각 변수와 요인간의 상관관계의 정도를 나타낸 것이다. 따라서 각 변수들은 요인적재량이 가장 높은 요인에 속하게 된다. 보통 요인적재값이 ±0.3 이상이라면 유의성이 있다고 할 수 있으며, 보수적인 기준으로는 ±0.4 이상으로 잡는 경우도 많다. ±0.5 이상이면 매우 높은 적재값이라고 할 수 있다. ※ 핵심 point : 상관관계를 나타내는 요인적재값의 제곱값은 회귀분석에서 결정계수(R2)의 의미를 갖기 때문에 이는 요인이 해당변수를 설명해 주는 정도를 의미한다. 적재값이 높은 변수가 해당요인에서 중요한 변수라고 할 수 있다.
공통성(communality)과 고유치(eigen value) 계산법 요인분석 과정 공통성(communality)과 고유치(eigen value) 계산법 공통성(communality)이란? 특정 변수의 모든 요인 적재값을 제곱하여 합한 값으로 이는 분석결과 추출된 요인들에 의해서 설명되는 특정 변수의 분산이다. 한편, 특정 요인에 적재된 모든 변수의 적재값을 제곱하여 합한 값을 고유치(eigen value)이라고 하는데 이는 특정 요인이 설명해주는 총분산을 의미한다. 이 값이 클수록 해당 요인의 설명력이 큰 것이다. 만약 변수가 10개이면 총분산은 10이 되며 이때 요인1의 아이겐 값이 5.6이라면 전체 중에서 56%의 분산은 요인 1이 설명해주고 있으며 이는 요인 1이 5.6개의 변수에 해당하는 분산을 대표하고 있는 것을 의미한다.
요인분석 과정 공통성(communality) 계산법 가격(변수1)의 공통성 스타일(변수2)의 공통성 계산 방법 요인 1의 고유치(eigen value) 계산 방법
요인분석 과정 9) 요인 회전 변수들의 요인적재량이 어느 특정한 요인에 높이 걸리지 않고 분산되어 있다면 해당변수가 어느 요인에 걸리는 것인지 판단하기 어려울 것이다. 따라서 이러한 경우에는 하나의 요인에 높이 적재되게 하고 나머지 요인들에는 낮게 적재되도록 하여 요인의 구조를 보다 명확히 할 필요가 있다. 그림에서 보듯이 회전하기 전에는 4개 변수가 모두 요인 1, 2의 중간정도 위치에 포지션(적재)되어 있다. 그러나 요인축을 회전시킴으로써 X1과 X2는 요인 1에, X3과 X4는 요인 2에 높이 적재되게 되었다.
요인 회전 방법 회전방정식에는 회전축을 직각을 유지하면서 회전하는 Othogonal 회전 방식과 직각을 유지하지 않는 Oblique 회전 방식이 있다. 2개의 요인이 존재할 때 서로 독립적이어야만 요인으로서의 의미가 있는 것이지 서로 상관관계가 높다면 2개의 요인이라기 보다는 1개의 요인으로 간주되어야 할 것이다. 이와 같이 요인들간에는 상호 독립적(무상관관계)인 관계를 유지하면서 요인축을 회전시킨다는 것이, 요인축의 각도를 90도를 유지하면서 회전시키는 직각회전인 것이다. 그러나 사회과학에서 어느 다른 두 개의 요인(개념)이 완전히 독립적이지 못한 경우가 많아 직각을 유지하지 못하는 경우도 많기 때문에 비직각회전방식인 Oblique 회전방식을 적용하는 것이 보다 현실적일 수도 있다. ☞ 추가적인 분석을 위해 요인점수를 이용하기 위해서는 직각회전 방식을 취해야만 요인점수들간의 상관관계, 즉 다중공선성(multicollinearity)을 방지할 수 있다.
요인분석 과정 - 가격, 배기량, 연비 ‘경제성’으로 명명 - 색상, 스타일 ‘디자인’으로 명명 10) 요인의 해석 요인이 추출되면 같은 요인으로 묶여진 변수들의 공통된 특성을 조사하여 연구자가 주관적으로 붙이거나 요인점수를 이용하여 추가적인 연결분석을 통하여 규명할 수 있다. 요인의 해석은 연구자마다 상이하며 과연 요인이 의미있게 추출되었는지에 대한 해석도 매우 주관적인 판단에 의존하게 된다. 그러나 주지해야 할 사항은 추출된 요인이 보편적인 지식과 어느 정도 일치해야 한다는 점이다. - 가격, 배기량, 연비 ‘경제성’으로 명명 - 색상, 스타일 ‘디자인’으로 명명
신뢰도 평가 신뢰도(reliability) or 신뢰성이란 연구 대상에 대해 반복적으로 측정을 했을 때 그 결과가 얼마나 일관성 있게 나타나느냐를 판단하는 개념 만일 구성개념(construct) 자체에 변화가 없는데도 불구하고 측정할 때마다 일관성 없이 크게 변화한다면 측정 척도(지표)의 신뢰도는 떨어지게 된다. 신뢰성이 낮은 측정 척도는 그것이 측정하고자 하는 개념 이외의 오차(error)를 많이 포함하고 있다는 것을 의미 이는 곧 측정 척도의 타당성을 낮추는 주요원인 하지만 신뢰성이 매우 높다고 하더라도 반드시 측정의 타당성이 높은 것은 아니다. 1g까지 측정이 가능한 정밀한 체중계를 사용해서 체중을 측정해서 이를 그 사람의 체력을 측정하는 척도로 사용할 수 있을까?
신뢰도 측정방법a 1) 반복측정 신뢰도(test-retest reliability) 반복측정 신뢰도는 한 construct에 대한 측정을 2회 실시하여 측정값들간의 상관관계 값으로 평가하는데 척도의 안전성(stability)에 관련 단, 이때 재측정 기간이 너무 길면 실제 값 자체가 변할 수 있다. 예를 들어 어떤 시점에서 브랜드태도를 측정하고 3개월 후 재측정했다면 그 사이에 그 소비자의 브랜드태도 자체가 변할 수 있다. 또한, 너무 짧으면 주시험효과(main testing effect)가 발생하여 재측정시 첫 번째 응답을 기업하여 답할 수 있다. 일반적으로 2주 간격 권장 2) 대안항목 신뢰성(alternative form reliability) 대안항목 신뢰성은 주시험효과를 방지하기 위하여 두 번째 측정할 때 첫 번째 사용한 척도와 매우 유사하지만 다른 척도를 사용하는 방법이다. 이 방법의 한계점은 두 시점의 응답에 상당한 차이가 있는 경우 그 이유는 신뢰성이 낮기 때문일 수도 있지만 대안항목과 기존항목의 동등성(equivalency)이 낮기 때문일 수도 있다는 점이다. 또한, 현실적으로 매우 유사하면서도 다른 척도를 개발한다는 것이 결코 쉽지 않다. a. 이학식. (2005). 마케팅조사. 법문사. p.1888
신뢰도 측정방법 3) 내적일관성(internal consistency) 내적일관성은 한 construct를 다항목(multi-item)으로 측정했을 때 항목들이 일관성(consistency) 혹은 동질성(homogeneity)을 갖는가를 검정하는 방법 내적일관성은 항목들 간의 상관관계로써 평가되는데, 항목들 간의 상관관계가 높을 수록 내적일관성이 높다. 주로 Cronbach’s α 계수를 이용한다. Cronbach’s α 계수는 0~1의 값을 가지며, 일반적으로 0.8~0.9 이상이면 바람직하고 0.6~0.7이면 수용할 만한 것으로 여겨진다. 그러나 0.6보다 작으면 내적일관성을 결여한 것으로 받아들여진다. 또는 = 항목들의 수 = 항목 i 의 분산값 = 항목의 전체 분산값 = 항목간 평균상관계수
SPSS를 이용한 Cronbach’s α 계산 앞서 요인분석 결과를 바탕으로 경제성(요인1)과 디자인(요인2) 2개 구성개념에 대한 신뢰도 검정
SPSS를 이용한 Cronbach’s α 계산 신뢰도 검정 결과 Cronbach’s α= .933으로 디자인 요인 측정 척도의 신뢰도가 매우 높다
SPSS를 이용한 Cronbach’s α 계산 예제) 경제성 요인에 대한 신뢰도 검정 결과는?