기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석 기초통계학 제 7장 연관성 분석 1. 상관분석 2. 교차분석 담당 교수님 김동건 교수님 20090111 화장품 과학과 노준영
연관성 분석 연관성분석은 2개의 변수가 독립적인가 아니면 이들 간에 어떤 연관성이 있는가를 분석하는 방법이다. 연관성분석은 척도의 변수에 따라서 상관분석과 교차분석으로 구분한다. 상관분석을 통해서 등간이나 비율척도로 측정된 변수의 연관성 정도를 파악한다. 변수가 명목척도나 서열척도로 측정된 변수일 경우에는 교차분석으로 변수 간의 독립성 여부를 파악한다.
상관분석(Correlation Analysis) 두 변수 간에 상관관계가 존재하는지를 파악하고, 상관관계의 정도를 측정하는 것이다. 이것은 변수간의 선형관계 정도를 분석하는 통계 기법이다. 통계학적인 측면에서 상관도란 선형적 상관도를 말하는 것으로,이는 두변수의 변수값이 산점도상의 직선을 중심으로 분포되어 있는 정도를 나타낸다. 즉, 상관계수의 절대값이 ‘1’이면 모든 관측값이 정확하게 직선상에 나타내며 ‘0’에 가까울수록 직선상에서 이탈하여 원형의 형태로 퍼지게 된다. 두 변수 사이의 관계를 알아보고자 할 때 가장 먼저 해볼 수 있는 일은 산점도를 그려보는 것이다. 산점도를 이용하면 여러 형태의 두 변수간의 상관관계를 파악할 수 있다. 이것은 공분산 분석으로 시작되는데, 공분산이란 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 지표이다.
산점도란 점들로 표시된 통계 그래프의 일종이다 예를 들어, 키와 몸무게의 관계에 대한 조사 160 78 163 65 168 69 173 68 176 72 178 83 94 180 71 183 184 80 188 85 190 90 191 91 193 95
상관분석(Correlation Analysis) 상관계수의 종류는 등간척도 이상으로 측정된 두 변수들간의 상관관계를 측정하는 데 사용되는 피어슨 상관계수(Pearson correlation)와 서열척도로 측정된 두 변수들간의 상관관계를 측정하는데 사용되는 스피어만 상관계수(Spearman correlation)로 나누어진다. 일반적으로 상관계수라 할 때는 피어슨 상관관계를 지칭하며, r 로 표시한다. 상관관계의 정도를 지수(index)로 나타내는데 이 지수를 상관계수라 한다. 공분산이 척도 크기에 의한 영향을 받지 않도록 각 변수를 그 변수의 표준편차로 나누어 표준화시킨 변수값을 사용하여 공분산을 구할 수 있는데, 이 값이 상관계수이다. 상관계수 r은 -1에서 +1까지의 값을 갖는다. r= +1.0 : 완전한 정의 상관관계 r= +0.0 : 전혀 관련성이 없음 r= -1.0 : 완전한 부의 상관관계
상관분석(Correlation Analysis) 피어슨 상관계수(Pearson correlation) 두 변수간의 관련성을 구하기 위해 보편적으로 이용되는 척도. 상관계수 r은 -1<=r<=1의 값을 갖고 측정된 자료가 좌표 상에 양의 기울기를 갖는 직선에 가깝다면 X가 증가할때 Y도 증가하면 그때의 상관계수는 양(+)이고 음의 기울기를 갖는 직선에 가깝다면 음(-)의 상관계수를 갖는다고 할 수 있다. 그리고 선형의 상관관계를 갖지 않는 경우 상관계수는 0에 가까워지게 된다. 여기서 상관계수가 0이라는 것은 '선형의 상관관계가 없다'는 것뿐이지 두 변수 간에 관계가 전혀 없다는 뜻은 아니므로 주의하여야 한다. 일반적으로 상관계수가 0.70~0.80이면 강한 양의 상관관계, 0.50~0.60이면 보통 정도의 양의 상관관계,0.40이하면 약한 양의 상관관계가 있다고 할 수 있다.
상관분석(Correlation Analysis) 스피어만 상관계수(Spearman correlation) 자료가 서열척도로 구성된 경우 자료의 원래 값 대신 순위를 이용하여 계산하는 상관계수로서, 비모수 통계학에서 연관도의 측도로 많이 쓰인다. 즉, 자료 값을 작은 것부터 차례로 순위를 매겨 서열 식으로 바꾼 뒤 순위를 이용해 상관계수를 구하는 것이다. 순위를 사용하는 까닭에 두 변수 간의 연관 관계가 선형이든 비선형이든 상관없이 연관 관계를 밝혀주며 자료에 이상점이 있거나 자료의 크기가 작을때 많이 사용된다. 스피어만 상관계수의 값 역시 -1과 1사이의 값을 갖게 되는데, 두 변수에 대한 데이터 값들의 순위가 완전히 일치하면 그 값은 1이고, 반대로 두 변수의 순위가 완전히 거꾸로 이면 -1이 된다.
공분산을 이용한 상관관계 두 변수 간의 공통된 분포를 나타내는 분상을 공분산이라 하며, 이러한 공분산은 관측치들이 평균으로부터 산포되어 있는 정도를 나타내는 값으로 두 변수 간의 선형적 연관성을 나타내는 대표적인 지표가 된다. 공분산이란 기본적으로 하나의 변수가 변함에 따라 다른 변수가 어떤 방향으로 얼마나 변화하는가를 보여주는 도구이다. 그런데 표본크기가 증가할수록∑(Xi – X바)(Yi – Y바)의 값도 커지므로 이 값을 표본의 크기 N으로 나누어서 표본의 크기에 영향을 받지 않는 두 변수의 동반변화폭을 알려주는 도구가 바로 공분산이다. 공분산(=COV xy)= ∑(Xi의 편차)(Yi의 편차)(표본크기 -1) = ∑(Xi – X바)(Yi – Y바) / (N-1)
공분산을 이용한 상관관계 일반적으로 분산은 하나의 변수에 대하여 측정한 관측치가 변수의 평균으로부터 떨어져 있는 정도를 나타내는 편차를 제곱한 값의 평균이다. 이와 대조적으로 공분산은 하나가 아닌 2개의 변수값을 동시에 갖는 관측치의 각 변수에 대한 평균과의 편차를 구한 다음 이들을 서로 곱한 편차곱의 평균이다. 공분산이 양수로서 매우 클 경우 두 변수는 양(+)의 선형관계가 있고, 반대로 음수로서 매우 작을 경우 두 변수는 음(-)의 선형관계가 있다. 피어슨 상관계수는 두 변수의 표준화된 편차곱의 평균으로 구한 상관계수를 뜻한다. 측정단위에 따라 변하지 않는 두 변수 간의 선형관계를 파악할 수 있는 표준화된 공분산을 도출 할 수 있는데, 이를 상관계수라고 한다. 공분산이 클수록 표준화된 공분산인 상관 계수도 커지고, 반대로 공분산이 작을수록 상관계수도 작아진다.
공분산을 이용한 상관관계 상관계수는 -1에서 +1 사이의 값을 가지며, 부호에 관계없이 상관계수의 절대값 크기가 변수들 간의 연관성 정도를 판단하는 기준이 된다. 상관계수의 절대값이 클수록 상관관계가 강하다고 해석된다. 일반적으로 사회과학분야에서 설문으로 수집된 자료의 경우에는 상관계수값이 0.3이상이 되어야만 변수들 간에 상관관계가 존재한다고 평가한다. 등간 혹은 비율척도로 측정된 현상들간의 상관관계분석에는 피어슨이 개발한 피어슨 상관계수가 사용되고 있는데, 일반적으로 상관계수라고 할 때는 피어슨 상관계수를 지칭한다. 즉, 표본의 크기가 30 이상인 경우에는 등간척도 이상으로 측정된 두 변수가 정규분포를 따르게 되므로 피어슨 상관계수를 구해서 두 변수간의 상관관계를 판단할 수 있게 된다.
공분산을 이용한 상관관계 분산과 공분산은 자료의 통계분석에 있어서 매우 중요한 도구이다. 이러한 이유는 크게 두 가지로 요약할 수 있다. 첫째, 분산과 공분산은 현상(변수)의 변화폭 혹은 현상(변수)들간의 관계를 요약해 준다. 사회과학연구의 대부분은 사실 현상들간의 공통변화여부 및 변화의 폭을 분석하는 것이다. 둘째, 분산과 공분산은 많은 통계분석기법의 척추와 같은 역할을 수행하고 있다. 이를테면 분산분석이란 기본적으로 분산의 원인을 분석하는 기법이고, 요인분석이란 변수간의 공분산을 분석하는 것이다.
서열척도에 의한 상관관계 서열척도로 측정된 변수 간의 상관관계는 스피어만의 서열상관계수나 켄달의 타우(Kendall’s Tau)기법으로 산출하는 서열상관계수를 이용하여 분석할 수 있다. 서열척도로 측정된 결과인 순위를 표시하는 수는 가감승제의 의미가 없는수이다. 스피어만의 서열상관계수는 관심대상이 되는 개별 구성원이나 개체들을 두개의 서로 다른 특성이나 관점에 대해 평가하여 순위를 매긴 순위변수들간의 선형관계를 나타내는 계수이며, 서열척도로 측정된 두 개의 변수들간의 상관관계를 구하는 방법이다. 스피어만 서열상관계수를 계산하기 위해 두 변수의 서열의 차를 구하는 것은 서열의 차이 자체를 이용하려는 목적에서 진행되는 것이 아니다. 서열척도는 가감승제가 의미가 없기 때문에 이러한 차이정보 자체는 실질적인 의미가 없다. 다만 이러한 차이정보를 가공해서 서열상관계수를 구하는 것이다.
서열척도에 의한 상관관계 스피어만 서열상관계수는 서열척도로 측정된 두 개의 변수들간에 존재하는 상관관계를 분석하는 기능을 수행하지만, 서열척도로 측정된 3개 이상의 변수들간의 상관관계를 파악하는 데에는 부적합하게 된다. 켄달의 일치계수는 서열변수로 측정된 3개 이상의 변수들, 즉n개의 변수들간의 존재하는 상관관계를 파악하는데 사용된다. 그런데 켄달의 일치계수를 계산하는 경우에는 스피어만 서열상관계수의 계산원리와 같이 변수간 서열의 차이를 이용하는 것이 아니라, 변수간의 서열의 합을 이용한다. 켄달의 일치계수는 부(-)의 값을 갖지 않는다. 물론 켄달은 두 개의 서열변수간의 상관관계를 계산해 내는 방법도 개발했는데 이를 켄달의 서열상관계수 혹은 켄달 타우라고 한다.
교차분석 범주형 자료 (명목 혹은 순서척도)인 두 개 혹은 그 이상의 변수에 대한 변수들의 관련성을 알아보기 위해, 결합분포를 나타내는 분할표를 작성함으로써 변수 상호 간의 독립성과 관련성 존재 여부를 분석하는 것을 교차분석이라고 한다. 또한 교차분석에 사용되는 변수는 변수값이 10미만이고 순서척도이어야 합니다. 비율척도인 경우는'코딩변경'을 해서 사용해야 한다. 예를들면 연령인 경우 20세 미만을 1, 30세 미만을 2등의 순서척도로 바꾸어야 한다.
교차분석 예컨대 성별(1. 남자, 2.여자), 학력(1. 10대 ,2. 20대 ,3. 30대, 4. 40대) 학력(1. 고졸, 2. 대졸, 3. 대학원졸), 직무만족도(1. 불만족, 2. 보통, 3. 만족). 이동 통신서비스사(1. SKT, 2. KTF, 3. LGT)와 같이 명목척도로 측정된 두 변수 간의 관계를 분석하기 위해서 교차분석을 실시한다. 연령수준에 따라 직무만족도가 다른가? 연령수준에 따라 사용하고 있는 이동통신 서비스가 다른가? 학력수준에 따라 직무만족도가 다른가?
요점 정리 연관성분석 은 2개의 변수가 독립적인가 아니면 이들 간에 어떤 연관성이 있는가를 분석하는 방법이다. 연관성분석은 척도의 변수에 따라서 상관분석과 교차분석으로 구분한다. 상관분석을 통해서 등간이나 비율철도로 측정된 변수의 연관성 정도를 파악한다. 공분산이란 동시에 2개의 변수값들을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 산포되어 있는가를 나타내는 지표이다. 상관계수의 종류는 등간척도 이상으로 측정된 두 변수들간의 상관관계를 측정하는 데 사용되는 피어슨 상관계수와 서열척도로 측정된 두 변수들간의 상관관계를 측정하는데 사용되는 스피어만 상관 계수로 나누어진다. 교차 분석은 명목척도나 서열척도로 측정된 범주형 변수간의 상호 연관성을 알아보기 위한 분석방법이다.