제14장 요인분석
요인분석 요인분석 요인분석(factor analysis)은 관련성이 많은 변수나 유사한 케이스들을 묶어 자료의 구조를 요약하고 압축하는 통계기법이다. R형 요인분석(R type factor analysis) 관련성이 많은 변수를 묶는 요인분석 Q형 요인분석(Q type factor analysis) 관련성이 많은 케이스를 묶는 요인분석 cf) Q형 요인분석보다는 군집분석을 더 많이 사용함
변수들 중에는 직접 측정하여 그 값을 구할 수 있는 변수도 있고, 그럴 수 없는 변수도 있음 [예] 체중, 신장 – 직접 측정하여 그 값을 구할 수 있는 변수 소비자 만족 – 직접 측정하여 그 값을 구할 수 없는 변수 제품의 품질, 가격, 디자인, 애프터서비스 등 제품과 소비자를 연결하는 요소들이 총체적으로 결합된 개념적인 변수
분석자료의 적합성 변수 한두 개의 변수에서 한 요인이 도출되는 현상은 자료의 압축이 목적인 요인분석의 효과가 적으므로 5개 이상 다수의 변수에서 한 요인이 도출되는 것이 바람직함 표본 일반적으로 표본의 수는 변수의 수의 최소 5배 이상의 기준을 적용하고 있으나 이 비율은 높을수록 좋음 표본은 또한 분석대상의 변수와 관련해서 동질적이어야 함
상관관계 검토 바트렛의 구형성 검정 KMO표본적합성
바트렛의 구형성 검정 바트렛(Bartlett)이 제시한 구형성 검정(Bartlett test of sphericity) 변수가 다변량정규분포를 이룬다는 가정하에 변수간의 상관계수행렬이 항등행렬(identity matrix)인지를 검정하는 기법 상관계수 행렬을 검토하여 0.3이상이 되는 상관계수의 비율이 높지 않으면 요인분석의 사용을 재검토해야 함
KMO표본적합성 Kaiser-Meyer-Olkin이 제시한 표본적합성 분석대상의 변수가 요인분석에 적합하려면 변수간의 상관계수는 크고, 편상관계수는 작아야 함 KMO값이 1에 가까울수록 요인분석에 적합한 변수들로 구성되어 있다고 할 수 있으며, 0에 가까울수록 부적합하다고 할 수 있다. 요인분석의 효과가 나타나려면 이 값이 최소한 0.6이상은 되어야 한다.
요인분석 모형 변수는 다른 변수와 공유하고 있는 공통요인과 그 변수만이 가지고 있는 고유요인으로 구성되어 있다 Uj는 그 변수만이 가진 고유요인이므로 다른 변수의 고유요인뿐만 아니라 다른 변수와 공유하고 있는 공통요인과도 상관관계가 없어야 함
요인의 도출 요인도출 방법 주성분분석(principal component analysis) 공통요인분석(common factor analysis) 고유값(latent root 또는eigenvalue) 요인이 전체 변수의 총 분산을 설명하는 양 cf) 공통성(communality) 공통요인에 의해 설명된 분산의 정도 요인은 고유값의 크기 순서로 도출 고유값이 가장 큰 요인이 첫 번째로 도출되고, 두 번째 요인으로는 먼저 도출된 요인이 설명하지 못한 분산을 가장 많이 설명하는 요인이 도출되고, 같은 방식으로 차례로 요인이 도출됨.
요인수의 결정 고유값 기준 설명된 분산비율 기준 스크리 도표
고유값 기준 고유값이 1보다 큰 요인만을 선택하는 것 요인분석에서는 모든 변수를 표준화하여 사용하고 있으므로 각 변수의 분산은 1이 된다. 고유값이 1보다 작으면 변수의 분산을 설명하는 데 그 요인의 공헌도가 변수 하나보다 못하다는 것이 이 기준의 논리
설명된 분산비율 기준 선택된 요인들이 설명하는 분산 비율의 합이 일정한 수준을 초과해야 한다는 것으로, 일반적으로 사회과학에서는 0.6을 적용 스크리 도표(scree plot 또는 산비탈그림) 요인의 수를 횡축으로, 고유값을 종축으로 한 꺾은선그래프 경사의 변화가 거의 없는 점이 선택할 수 있는 최대한의 요인의 수
요인행렬 요인패턴행렬(factor pattern matrix) 요인구조행렬(factor structure matrix)
요인패턴행렬 요인적재값(factor loading) 요인적재값은 원래의 변수를 종속변수로, 도출된 요인을 독립변수로 하여 회귀분석한 베타계수
요인구조행렬(factor structure matrix) 요인과 변수 간의 상관계수로 구성된 행렬 도출된 요인간에 상관관계가 없으면 요인패턴행렬과 요인구조행렬은 동일 요인분석에서는 먼저 상관관계가 없는 요인을 도출하므로 요인을 회전하기 전의 두 행렬은 동일 요인의 해석을 용이하게 하기 위하여 요인을 회전(요인의 회전에 대해서는 뒤에 설명함)할 때 직교회전(orthogonal rotation)하는 경우에도 요인간에 상관관계가 없으므로 두 행렬은 동일하다. 그러나 상관관계가 있을 것으로 가정하여 사각회전(oblique rotation)을 하는 경우 두 행렬의 원소는 다르다. 두 행렬이 동일한 경우 분석결과에는 요인행렬(factor matrix)이라는 이름으로 하나만 제시
변수의 공통성과 요인적재값간의 관계 변수j의 공통성은 공통요인에 의해 설명된 분산의 정도 cf) 변수j의 고유성(uniqueness) : 1 - 공통성 고유값과 요인적재값간의 관계
상관계수와 요인적재값 도출된 요인이 변수를 설명하는데 적합하다면 추정한 상관계수가 관측된 상관계수와 비슷해야 할 것임. 차이가 많이 난다면 요인의 적합도가 낮다는 의미.
요인회전의 목적 요인의 구조를 단순하게 하기 위함 요인의 구조를 단순하게 한다는 것은 변수가 하나의 요인에 높게 적재되 도록 한다는 의미.
요인을 회전하면 요인의 고유값은 변한다. 그러나 변수의 공통성은 변하지 않는다. 요인회전 직교회전(orthogonal rotation) 사각회전(oblique rotation)
요인점수