서울아산병원 의학통계학과 울산의대 예방의학교실 이무송 비모수 검정 서울아산병원 의학통계학과 울산의대 예방의학교실 이무송
순서 모수 검정과 비모수 검정 단일 표본 독립된 두 표본 종속적인 두 표본 독립적인 세 개 이상 표본 콜로고로프-스머노프 검정 윌콕슨 순위 합 검정 맨 휘트니 검정 중앙값 검정 종속적인 두 표본 독립적인 세 개 이상 표본 부호 검정 Kruskal-Walis 검정 윌콕슨 부호화 순위 검정
모수적 검정의 가정 연구자료는 모집단에서 추출된 하나의 표본 모집단의 성격 및 분포에 대한 가정 가정이 타당하지 않은 경우 연속변수의 경우: 정규분포하는 모집단 두 표본과 연속변수: 두 모집단의 분산이 동일 가정이 타당하지 않은 경우 예: 좌우대칭이 아닌 편이된 분포
비모수 검정의 특징 모수(parameter)에 대한 가정이 필요 없음 검정통계량의 분포는 모집단 분포와 무관 모수에 대한 분석이 아니라 분포 형태 자체에 대한 분석 검정통계량의 분포는 모집단 분포와 무관 distribution-free 관찰치 자체를 이용하지 않고, 부호나 순위를 이용 비모수적 검정의 가정: 관찰은 독립적
비모수 검정의 특징 상당히 안전(conservative and valid) 모수적 검정의 가정이 충족되는 경우에 … 모집단 분포에 관계없이 비교적 정확 계산이 쉽고, 간단, 이용범위가 넓음 모수적 검정의 가정이 충족되는 경우에 … 검정력: 모수적 방법 > 비모수적 방법 1945년 Wilcoxon 활용 분야: 모든 영역 가설 검정, 신뢰구간 추정, 분산 및 회귀분석, 생존자료 분 석 등 …
비모수 검정이 필요한 경우 모수적 방법의 가정이 충족되지 않는 경우 표본 크기가 적어 분포를 알 수 없는 경우 자료가 명백히 정규분포를 따르지 않는 경우 자료가 명칭 척도나 순위 척도 분포의 성격(분산 등)이 다른 모집단에서 추출된 표본들 표본 크기가 적어 분포를 알 수 없는 경우 한 집단 표본 크기가 10개 전후 두 집단 표본 크기가 합하여 20개 전후 표본 크기가 6 이하인 경우 불가피 절대적인 기준은 아니다.
모수적 방법과 비모수적 방법 비모수적 방법은 자료의 (정규성) 분포가정을 하지 않는다. 자료의 평균과 분산이 아닌 순위를 이용한 방법을 사용한다. 자료의 분포가정(정규성 등)이 만족되면 효율이 떨어진다. 강건(Robust)한 결과를 준다. (Outlier에 둔감) 중앙값(median)은 평균에 비하여 이상치에 대해서 둔감(Robust)하다. 자료 평균 중앙값 1,2,3,4,5 3 3 1,2,3,4,5,100 19 3.5 자료의 정규성 분포 가정을 하면 평균과 분산을 통하여 모집단의 성질을 완전히 파악할 수 있다. (모수적 방법)
평균비교에 있어 통계기법 적용과정 종속변수(연속형) Kruskal Wallis Test 세 집단 이상의 비교 두 집단의 비교 모수적 방법 비모수적 Paired T-test 짝지은 자료 독립 표본 Wilcoxon’s Signed rank test Student Mann Whitney U ANOVA 다중비교 모수적 방법 모수적 방법
I. 단일 표본
단일 표본 콜모고로프-스머노프 검정 명칭척도 순위 척도 일치도: 관찰된 표본 분포 vs. 가정한 모집단 분포 적합도(goodness of fit) 검정 명칭척도 이항 분포를 이용한 이항 검정 카이제곱 검정 순위 척도 콜로고로프-스머노프 검정, 런 검정
A. 콜모고로프-스머노프 검정 적합도 검정 귀무가설에서 이론적으로 기대되는 누적도수 분포 vs. 관찰된 누적도수 분포 표본 값의 분포와 규정된 이론적 분포 간의 일치 정도 귀무가설에서 이론적으로 기대되는 누적도수 분포 vs. 관찰된 누적도수 분포 차이가 작을수록 귀무가설에 부합 두 분포에서 가장 큰 차이를 보이는 것을 찾음 그 값이 귀무가설과 부합되는 정도 해당 통계표 또는 패키지 → p-value
예제: KS단일표본 A 병원, ‘가’ 질병의 진단 당시 병기: 10명 기존 보고: 각 병기의 분포가 20%씩 병기 I-V: 각각 0, 1, 1, 5, 3명 기존 보고: 각 병기의 분포가 20%씩 관찰 누적 도수 분포 병기 I-V: 0, 0.1, 0.2, 0.7, 1.0 이론적 누적 도수 분포: 이전 보고에 의할 때 병기 I-V: 0.2, 0.4, 0.6, 0.8, 1.0 병기별 차이가 가장 큰 경우: 병기 III – 0.4 환자 수 10명에서 0.05에 해당하는 값=0.41 표본 크기가 35명 이상일 때: 0.05에 해당하는 값= 0.01에 해당하는 값=
B. Runs 검정 표준 값보다 높게 나온 경우: + / 낮게 나온 경우: - 임상병리 검사결과의 오차를 검토: 표준 시료를 반복 검사 표준 값보다 높게 나온 경우: + / 낮게 나온 경우: - 표준 값보다 높게(또는 낮게) 나오는 경향이 있는가? runs(r): 같은 결과가 연속으로 나온 횟수(몇 번 바뀌는지) → r=5 +가 6번, -가 7번 → n1=6, n2=7 표에서 유의수준 5% n1=6, n2=7이면 r=3 이하, 또는 r=12 이상이면 유의 따라서 이 결과는 유의하지 않음 횟수 1 2 3 4 5 6 7 8 9 10 11 12 13 결과 + -
II. 두 독립표본
모수 검정 t 검정 적어도 간격척도 이상으로 측정 두 집단은 서로 독립적, 동일한 분산을 가지며 정규분 포를 가지는 모집단
A. 콜모고로브-스머노프 검정 콜로고로프-스머노프 두 독립표본 검정 두 표본에서 각각 Sn1(x), Sn2(x)를 계산 두 개 모집단의 누적분포가 동일한지 검정 최소한 순위척도 이상의 관측치 두 표본에서 각각 Sn1(x), Sn2(x)를 계산 D=max|Sn1(x)-Sn2(x)|를 계산 표를 이용하여 검정 단 n1=n2
예제: KS두표본 소음이 심한 공장 A와 B: 40대 남자 12명씩 혈압 측정 두 집단간 혈압 차이가 있는가? 143 130 125 132 140 121 118 134 137 129 148 138 112 132 118 126 135 120 123 131 115 124 130 121 혈압 범주에 따라 누적도수 분포표 작성: 가능하면 많은 범주 -115 -120 -125 -130 -135 -140 -145 -150 A 도수 1 2 3 누적도수 5 7 10 11 12 B 도수 4 9 |Sn1(x)-Sn2(x)|
예제 n1+n2>40, n1, n2>20, n1≠n2일 때 최대치 D=5 n=12, α=0.05, 양측 검정이므로, KD=7 p>0.05 두 집단간의 혈압 차이는 없다. n1+n2>40, n1, n2>20, n1≠n2일 때 양측 검정시 유의성의 기준이 되는 D의 값 5% 유의수준에서 1% 유의수준에서
B. 윌콕슨 순위 합 검정 두 집단 관찰치를 섞음 → 크기 순으로 배열 → 순위를 부여 Combined sample rank 두 집단 관찰치를 섞음 → 크기 순으로 배열 → 순위를 부여 Combined sample rank X: A 집단, Y: B 집단 (1) X Y X Y Y X Y X X (2) Y Y Y X Y X X X X 순위 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 두 집단 순위가 잘 섞임 A의 순위가 높은 경우 두 집단간 차이가 없다면 순위가 잘 섞여 있어야 함 차이가 있다면 특정 집단의 순위가 높게(또는 낮게) 나옴 집단별로 순위의 합을 구함: rank sum (1): A의 순위 합=1+3+6+8+9=27 (2): A의 순위 합=4+6+7+8+9=34
윌콕슨 순위 합 검정 순위 합의 값에 따라 두 군간 차이를 검정 윌콕슨 순위 합: WA, WB 표본 크기가 적은 표본의 순위 합: WS WS 분포의 상단과 하단의 확률: P(WS≥x) 또는 P(WS≤x*) 의 값: 표 nA=3, nB=7, P(WS≥25)=0.033= P(WS≤8) 즉 WA가 25 이상이거나 8 이하일 때 p<0.05
윌콕슨 순위 합 검정 표본 크기가 크면(nA+nB>30), 근사식 이용 귀무가설 하에서 E(WA) 또는 E(WB)는 근사적 정규분포
윌콕슨 순위 합 검정 관측 값에 동점(ties)가 있을 때 사용하는 근사법 표본 크기가 작으면, 평균 순위를 사용하지 않은 것으로 간주 표본 크기가 크면 다음의 근사식을 사용 E는 동일하지만, Var에 약간 차이 단 qi는 j번째 동점을 이룬 관찰치의 개수
예제 A, B 두 식이요법의 차이 증세가 비슷한 10명의 환자를 각 군에 5명씩 무작위 배정 각 식이요법 6주 시행 후 체중의 증가량에 차이가 있는가 A 5.7 7.3 7.6 6.0 6.5 B 4.9 7.4 5.3 4.6 6.2 표본 크기가 같으므로 두 집단 중 하나의 순위 합만 계산 혼합 표본 순위 4.6 4.9 5.3 5.7 6.0 6.2 6.2 7.3 7.4 7.6 1 2 3 4 5 6.5 6.5 8 9 10 요법 A의 순위 합 Ws=4+5+6.5+8+10=33.5
예제 요법 A의 순위 합 Ws=4+5+6.5+8+10=33.5 양측 검정이므로 p<0.05되는 값을 표에서 찾으면 P(WS≥38)=0.028=P(WS≤18) 0.028*2=0.056에서 기각역이 38 이상, 18 이하 Ws=34이므로, p>0.05 두 요법 간에 차이가 없다.
C. 맨-휘트니 U 검정 두 개의 서로 독립된 표본 크기가 각각 nA, nB 윌콕슨 법과 동일하게 순위 합 계산 RA, RB RA+RB=0.5*(nA+nB)(nA+nB+1) 검정 통계량 U UA=nAnB+[nA(nA+1)/2)-RA UB=nAnB+[nB(nB+1)/2)-RB UA+ UB=nAnB UA 또는 UB를 구하여, 그 중 (nAnB/2)보다 작은 값을 U로 결정 두 표본 크기에 따라 표에서 해당 U를 사용
맨-휘트니 U 검정 정규 근사: 한 집단이라도 표본 크기가 20 이상인 경우 두 표본 크기가 서로 상당히 다른 경우 다음으로 수정
예제: MannWhitney A, B 두 학교 학생의 수학 성적 A 18.3 16.8 20.1 16.6 결과를 혼합하여 작은 순서로 순위를 매김 16.6 16.8 17.3 18.3 20.1 20.7 23.6 24.2 27.2 1 2 3 4 5 6 7 8 9 A A B A A B B B B 각 학교의 순위 합 RA=1+2+4+5=12, RB=3+6+7+8+9=33 RA+RB=12+33=45=0.5*9*10 각 학교의 검정통계량 UA=4*5*[4*5/2]-12=18, UB=4*5*[5*6/2]-33=2, UA+UB=18+2=20=4*5=두 집단의 표본 크기를 곱한 값 둘 중 작은 값을 U로 하여, 표에서 찾으면, p=0.032 양측 검정이므로, p=0.032*2=0.064
맨-휘트니 U 검정과 윌콕슨 검정 SAS는 윌콕슨 순위 합 검정 SPSS는 맨 휘트니 U 검정 계산 방법은 약간 다르지만 순위 합을 사용한다는 점은 공통 결과에도 큰 차이가 없음
전신성 홍반성 낭창 환자의 활동성 지표로서 ferritin의 유용성을 평가 하기 위하여 128명의 환자를 대상으로 염증반응 지표들을 측정하였다. 성별로 ferritin에 차이가 유의한 있는가?
D. 중앙값 검정 표본이 추출된 두 모집단의 중앙값이 동일한지 검정 관찰치를 혼합한 후, 중앙값을 구함 중앙값을 기준으로, 각 표본에서 중앙값 이하, 중앙치보다 큰 관찰치의 개수를 구함 2*2 분할표를 만들어 카이제곱 검정을 수행 구분 표본 1 표본 2 계 중앙값보다 큰 개수 a b a+b 중앙값 이하인 개수 c d c+d 계 a+c b+d N
예제 도시, 농촌 지역 고등학생의 정신건강 점수를 조사 두 지역에 차이가 있는가? 도시 지역 (16명) 35 21 25 38 25 45 46 41 26 27 23 27 27 33 46 26 농촌 지역(12명) 43 29 22 32 35 31 50 42 47 42 50 34 두 표본을 혼합한 후, 중앙값=(33+34)/2=33.5 이를 기준으로 분할표 작성 구분 도시 지역 농촌 지역 계 >33.5 6 8 14 ≤33.5 10 4 14 계 16 12 28 카이제곱=1.3<3.84, 유의한 차이가 없음
III. 두 종속표본 모수적 검정: 짝지은 t 검정 부호(sign) 검정 가정: 짝 이룬 관찰치의 ‘차이’가 독립적이고 정규분포를 따름 부호(sign) 검정 쌍별로 차이(difference)를 계산 차이가 양수인 경우와 음수인 경우를 각각 셈 차이가 0인 경우는 자료에서 제외 귀무가설: 양수일 확률과 음수일 확률이 0.5로 동일 표 또는 통계 패키지를 이용하여 p-value 계산 관측치 차이의 부호만 활용 약제 투여 전후의 통증 비교, 감각 차이 등 차이의 정량화가 쉽지 않은 경우에 활용
A. 부호 검정: 예제 15명의 위궤양 환자 치료 전후의 위내시경 검사: 경중도를 0-5로 판정 숫자가 작을수록 경증 치료 후 상태가 호전되었는가 환자 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 치료 전 3 2 2 3 2 1 3 3 4 5 1 4 5 3 4 치료 후 4 2 1 2 1 2 3 2 2 4 0 2 3 2 2 차이 - 0 + + + - 0 + + + + + + + + 변화가 없으면 표본 크기에서 제외하므로, n=13 음수 부호가 2개이므로, x=2 표에서 p=0.011, 양측 검정이므로 p=0.022<0.05
B. 윌콕슨 부호화 순위 검정 부호 검정: 차이의 크기는 무시, 부호만 사용 부호와 차이를 동시에 사용 검정력이 감소 부호와 차이를 동시에 사용 짝 이룬 쌍에서 ‘차이’를 계산하여, 음수인 차이와 양수인 차 이를 구분 차이의 절대값을 이용, 평균 순위 합을 계산 음수인 경우와 양수인 경우에서 각각 계산 차이가 0이라는 귀무가설이 맞다면 양수군의 평균 순위 합과 음수군의 평균 순위 합이 동일 차이가 많을수록 두 평균 순위 합에 큰 차이
예제: 부호화순위 8명의 고혈압 환자 혈압 강하제 투여 전후 혈압 측정 투여 후 혈압이 감소하였다고 할 수 있는가? 환자 전 후 차이 절대값 순위 양수의 순위 1 160 152 - 8 8 2 2 162 175 +13 13 5 5 3 168 150 -18 18 7 4 165 179 +14 14 6 6 5 170 160 -10 10 3 6 167 155 -12 12 4 7 176 149 -27 27 8 8 163 156 - 7 7 1 순위 합 36 11
예제 양수의 순위 합, T(+)=11 / T(-)=25 n=8인 표를 참조하면, (3, 33) T(+), T(-)중 작은 값이 3 이하, 또는 큰 값이 33 이상인 경우 p<0.05 이 예제의 11, 25는 두 조건을 모두 충족하지 않음, p>0.05 N>20인 경우 근사식 사용
IV. 세 개 이상의 독립적 표본
세 개 이상의 독립적 표본 모수적 검정: 일원 분산 분석(one-way ANOVA) 비모수적 검정 가정 정규분포를 하는 모집단에서 독립적으로 표본 추출 각 집단의 분산이 동일 비모수적 검정 카이제곱 검정: 중앙치 검정의 확장 전체의 중앙값을 구한 후, k*2 표에서 대한 카이제곱 검정 Kruskal-Walis 순위 합 검정
분산분석의 두 가지 가정 자료가 정규분포를 따라야 한다. 각 집단이 추출된 모집단의 표준편차가 모두 동일하다. 정규분포에서 약간 벗어나는 정도는 무방하다. 각 집단이 추출된 모집단의 표준편차가 모두 동일하다. 군내 평균 제곱합의 제곱근을 취한 값으로 판단한다. 분산동질성 검정 간단히 분산의 동질성 파악하는 방법이다. cf. 그래프 → 오차막대도표 변수: Hb, 범주축: SS타입 표준편차가 다른 경우 결과에 심각한 오류가 발생한다. 변수의 전환이 도움이 될 수 있다.
A. 크러스칼-왈리스 순위 일원분산분석 독립적 k 표본이 동일 모집단에서 추출되었는가? 윌콕슨 순위 합 검정의 확장 전체 관찰치를 크기 순으로 배열 후, 순위를 매김 각 표본별로 순위 합을 계산 p-value를 추정 표본 크기가 너무 적지 않고 귀무가설이 맞다면 H는 자유도 k-1인 카이제곱 분포에 근사 Nj: j번째 표본의 크기, Rj: j번째 표본의 순위 합
크러스칼-왈리스 관측치에 동점이 있으면 평균 순위 사용 l: 동점인 경우의 횟수 qi: i번째 동점에서 관측치 개수 K=3이고 각 표본 관측치가 5개 이하면 표를 이용, 정확한 확률을 구함
예제: 크러스칼 왈리스 세 가지 식이 요법의 효과를 비교 동종 쥐를 세 군의 식이요법군으로 처치한 후 지방량 측정 집단 요법1(순위) 요법 2(순위) 요법 3(순위) 120 (22) 96 (17) 98 (19) 93 (12.5) 62 (2) 92 (11) 95 (15) 84 (8) 81 (7) 96 (17) 86 (9) 93 (12.5) 105 (20) 69 (3) 75 (5) 96 (17) 74 (4) 61 (1) 110 (21) 78 (6) 94 (14) 87 (10) 표본 크기 7 7 8 순위 합 124.5 49.0 79.5
예제 검정통계량 H 동 순위 보정(12.5의 동 순위가 2개, 17의 동 순위가 3개) 자유도 2인 카이제곱 분포에서 χ20.05(2)=5.99이므로 p<0.05
다중 분석의 문제: Bonferroni 법 p value가 0.05 미만: 집단간 차이가 있음 구체적으로 어느 집단간 차이 윌콕슨 순위 합 검정을 2Ck번 반복 다중 비교의 문제가 발생: 1종 오류가 증가 현재 통계 패키지 중 비모수적 검정의 다중비교 문제 는 해결되지 않음 Bonferroni 보정을 활용 세 번 검정한 경우 유의수준=0.05/3
다중 분석의 문제: Dunn의 방법 전체적 검정 오류를 일정 수준으로 유지하면서 다 중 비교하는 방법 : i번 째 군의 평균 순위 합 우측 값이 좌측보다 클 경우 유의한 차이로 판정 예) 전체적 오류, α=0.15, k=3, α/k(k-1)=0.025(우측 부분의 확률), z=1.96
일원 분산분석 vs. 크러스칼 왈리스 집단 변수: group 독립 변수: wbc 일원 분산분석결과 중 집단 1과 4의 차이 Bonferroni나 Tukey B 방법 p>0.05 윌콕슨 순위 합 검정결과: 집단 1과 4의 차이 p<0.05
V. 종속적인 k 표본
종속적인 k 표본 동일 규모의 k개 표본의 관측치 각각이 모수적 검정 관측치에 영향을 주는 요인에 따라 짝짓기 되어 선정 된 경우 조건이 동일한 관측치끼리 짝을 지운 경우 동일 대상에 대해, k개 조건에 따라 각각 측정한 경우 모수적 검정
A. 코크랜 Q 검정 자료 귀무가설 행의 수가 너무 적지 않으면 검정통계량 Q n개의 행과 k개의 열로 구성된 two-way table 귀무가설 특정 반응의 분율은 각 열마다 동일하다. 행의 수가 너무 적지 않으면 검정통계량 Q Tj: j번째 열의 성공의 총 수 Ui: i번째 행의 성공의 총 수 Q: 근사적으로 자유도 k-1인 카이제곱 분포
코크랜 Q 검정 이분성 자료 점수를 n행과 k열의 n*k 분할표에 배치 위 식에서 Q를 계산 성공에는 1, 실패에는 0의 점수를 부여 점수를 n행과 k열의 n*k 분할표에 배치 위 식에서 Q를 계산 Q의 유의성은 카이제곱 분포를 이용하여 추정
예제 20명의 의대 졸업생 각각 3명의 정신과 전문의가 평가 정신과 의사로서의 적성: 있으면 1, 없으면 0 전문의간 평가에 차이가 있는가? 학생 전문의 가 나 다 계(Ui) 1 1 1 1 3 2 1 1 1 3 3 0 1 1 2 … 20 0 1 1 2 계(Tj) 10 14 17 41 평균(Pj) 0.5 0.7 0.85 2.05
예제 귀무가설: 전문의 간 평가에 차이가 없다. 각 학생별 점수의 합계: Ui 각 전문의별 점수의 합계: Tj χ0.052 (2)=5.99이므로, p>0.05 전문의 간 평가에 유의한 차이가 없다.
B. 프리드만 순위 이원 분산분석 종속적인 k개 표본 순위 척도 이상의 관측치를 비교 관측치를 n행과 k열의 n*k 분할표에 배치 행: 동일 대상의 k개 관측치 = block 열: 각 조건 또는 상태 = treatment 각 행별로 순위를 부여 4개 조건 하에서 3명의 점수를 관찰: k=4, n=3 At least one treatment tends to yield larger values than at least one other treatment.
프리드만 순위 이원 분산분석 대상자 조건(k) I II III IV A 9.1(4) 4.5(2) 1.5(1) 7.2(3) B 6.2(3) 5.4(2) 2.7(1) 8.6(4) C 9.3(4) 1.4(1) 2.6(2) 6.1(3) 순위 합 11 5 4 10 귀무가설이 맞다면 각 열의 순위 분포가 동질적 열에 따라 다르다면 귀무가설이 기각 행, 열의 숫자가 너무 적지 않으면 r2은 근사적으로 자유도 k-1인 카이제곱 분포
프리드만 순위 이원 분산분석 n: 행의 숫자, k: 열의 숫자, Ti: i번째 열의 순위 합 이 경우 같이, 대상자 숫자 등이 적을 때 k=3, n=2-9 또는 k=4, n=2-4일 경우는 표를 사용
예제: 프리드만 네 명의 환자를 대상으로 치료 시기별로 생물학적 지표를 측정 환자 치료 전 1개월 치료 직전 치료 1주 후 2주 후 A 180(3) 178(1) 182(4) 179(2) B 170(1) 176(2) 178(3.5) 178(3.5) C 115(4) 114(3) 112(1.5) 110(1.5) D 53(4) 50(1) 51(2.5) 51(2.5) 순위 합 T1=12 T2=7 T3=11.5 T4=9.5 귀무가설: 지표의 값은 치료 시기에 따른 차이가 없다. 자유도 (k-1=)3인 카이제곱 분포의 기각역(7.815)보다 작음 표에서도 p=0.052일 때 r2 =7.5이므로 p>0.05
VI. 상관 분석
상관 분석 모수적 상관계수: 선형, 피어슨 상관계수 비모수적 상관계수 두 변수 모두 정규 분포 두 변수 모두 정규 분포 변수간의 관계가 선형적(linear) 간격 척도 이상 비모수적 상관계수 명칭 척도: 분할 계수(contingency coefficient) 순위 척도 이상인 경우 Spearman 상관계수, Kendall 순위 상관계수, Kendall 편 순위 상관계수, Kendall 일치도 계수
A. 스피어맨 순위 상관계수 rs n명의 개인별 순위가 두 가지로 매겨진 경우 예: 각 학생의 대학입학 성적, 1학년말 성적 각각의 순위를 매김 전자의 순위가 각각 X1, X2, …, Xn 후자의 순위가 각각 Y1, Y2, …, Yn 모든 학생 i에서 X1=Y1라면 두 성적 간에는 완벽한 상관관계 di=Xi-Yi의 값이 다양할 수록, 즉 Σdi2의 값이 클수록 상관성이 적음 차이 제곱의 합을 이용하여 상관계수 계산
스피어맨 순위 상관계수 rs 동점자 비율이 큰 경우 상관계수의 유의성 검정 t: 특정 순위에서 동점을 이룬 관측치의 숫자 n이 4에서 30 사이: 표 단측 검정 n>10일 때 근사식: 다음 t를 이용 n=표본 크기, rs=상관계수
예제: 스피어만 10명의 환자에서 A 지표와 B 지표의 상관성 지역 1 2 3 4 5 6 7 8 9 10 지역 1 2 3 4 5 6 7 8 9 10 A 9.1 12.3 15.7 21.3 21.3 24.0 29.2 31.7 38.5 42.6 A순위 1 2 3 4.5 4.5 6 7 8 9 10 B 10.5 17.5 17.5 12.1 15.4 21.9 23.6 25.8 30.7 37.2 B순위 1 4.5 4.5 2 3 6 7 8 9 10 di 0 -2.5 -1.5 2.5 1.5 0 0 0 0 0 Di2 0 6.25 2.25 6.25 2.25 0 0 0 0 0
예제 동 순위가 있으므로, 두 번째 식으로 상관계수 계산 유의성 검정 따라서 p<0.01
B. 켄달 순위상관계수, 켄달 타우 τ 스피어맨과 달리 편 상관계수(partial correlation)로 일 반화가 가능 6명을 대상으로 식이 섭취 조사: 일기형, 설문형 지방 섭취량의 상대 순위 각 대상자간 순위관계: 일기형과 설문형에서 그대로 유지 1의 값을 부여 각 대상자 간 순위 관계: 뒤바뀌는 경우 -1의 값을 부여
켄달 순위 상관계수, 켄달 타우 τ 지방 섭취량의 상대 순위 A B C D E F 일기형 1 2 3 4 5 6 일기형 1 2 3 4 5 6 설문형 3 5 1 6 2 4 A/B(유지) A/C A/D A/E A/F B/C B/D B/E B/F C/D C/E C/F D/E D/F(뒤 바뀜) E/F
켄달 순위 상관계수, 켄달 타우 τ 이상의 순위 관계는 nC2[=(1/2)*n(n-1)] 개가 있음 1, -1의 점수를 모두 더한 값: S, 위의 예에서는 1 S는 순위가 완전히 일치할 때 최대값을 가진다. 유의성: SPSS 데모 - 켄달의타우 표 - n=6, S=1이면 p=0.5 표본 크기가 10 이상이면 정규근사가 가능 동 순위가 있으면 평균 순위 사용하여 식을 보정 Tx, Ty: x, y 값 중 동 순위를 이룬 갯수
C. 켄달의 일치도 계수, W (Kendall’s coefficient of concordanace) n명의 대상자, k 관측자 간 측정 결과의 순위 일치도 관측자 간 판정의 일치성 세 개 이상 변수 간의 관련성 k 관측 결과 간 일치성이 전혀 없는 경우 vs. 완전한 일치성이 있는 경우 실제 관측된 일치성과 최대 가능한(완전한) 일치성을 비교 즉 k개 관측 결과에 가능한 모든 조합 간에 스피어만 상관계수를 계산하고, 그 평균을 취한다.
켄달의 일치도 계수 n*k 분할표 각 열의 순위 합 Rj를 계산한다. Rj의 평균(Rj를 모두 더한 후 n로 나눈 값)을 구한다. Rj와 Rj 평균 간의 편차를 제곱하여 모두 합한 후, 다 음 식에서 W를 추정한다. 편차 자승 합의 최대 값 ← 순위 간에 완전한 일치
켄달의 일치도 계수 동점 빈도가 클 때의 보정 t: 특정 순위에서 동점을 이룬 관측치의 수 T를 각 k 관측치에 대해 계산한 후, 그 합을 구하여 보정
켄달의 일치도 계수 W의 유의성 검정 구해진 S값 이상의 값에 대한 0.05, 0.01 유의수준에서의 기각치 표 n=3에서 7까지의 경우 S가 기각치 이상이면 귀무가설을 기각 n이 7 이상이면 근사적인 χ2분포를 이용
켄달의 일치도 계수 rs average와 W의 관계 전자를 계산하려면 kC2개의 상관계수를 구해야 하므로 번 거롭다.
예제: 캔달의일치도 10명 당뇨병 환자의 안저 사진 상 당뇨병성 변화 3명의 안과 전문의가 각각 순위를 매김 전문의간 판정 결과가 일치하는가? 유의수준 0.01 환자 1 2 3 4 5 6 7 8 9 10 계 전문의 A 1 4 2 4 4 6 7.5 7.5 9 10 전문의 B 2.5 1 2.5 9 4 8 5 7 6 10 전문의 C 2 1 3 4.5 6 4.5 8 8 8 10 순위 합 Rj 5.5 6 7.5 17.5 14 18.5 20.5 22.5 23 30 16 순위 합 제곱 30.25 36 56.25 306.25 196 342.25 420.25 506.25 529 900 3322.5
예제 동 순위를 감안한 T(각 전문의에 따라)를 계산 2(0.01)(9)=21.7이므로, p<0.01 귀무가설 기각: 전문의 간 판정 결과가 일치하지 않는다. * 자료 입력 방법에 주의
참고자료 http://sphweb.bumc.bu.edu/otlt/MPH- Modules/BS/BS704_Nonparametric/index.html http://statpages.info/ non-parametric