Presentation is loading. Please wait.

Presentation is loading. Please wait.

논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원.

Similar presentations


Presentation on theme: "논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원."— Presentation transcript:

1 논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원

2 상관관계 I 상관관계 (correlation)
변동의 연관성 (association between changes of two variables) 한 변수가 변동함에 따라 다른 변수가 변동하는 정도 (degree)와 방향 (direction) The strength and direction of a linear relationship between two random variables 상관관계의 범위 (range) - 1.0 ≤ Correlation ≤ + 1.0 상관관계의 부호 (sign) 변동의 방향성이 같으면 양수 (+) 변동의 방향성이 다르면 음수 (-)

3 상관관계 II 상관관계 (correlation)의 도식화 I 상관관계 없음 (no correlation) y x y x y x

4 상관관계 III 상관관계 (correlation)의 도식화 II 상관관계 없음 낮은 정의 상관관계 높은 정의 상관관계
(no correlation) 낮은 정의 상관관계 (low positive correlation) 높은 정의 상관관계 (high positive correlation) y x y x y x

5 상관관계 IV 상관관계 (correlation)의 도식화 III <SP-3 Corr_예제_기울기.sav> 참고
(perfect positive correlation) 완벽한 부의 상관관계 r = -1 (perfect negative correlation) y y x x

6 상관관계 V 상관관계 (correlation)의 도식화 IV 상관관계 없음 (no correlation) y x

7 상관관계 VI 상관관계 (correlation)의 수식 √ √ Pearson correlation Cov(x, y)
STD(x) * STD(y) Sxy Sy Sx rxy = = ∑i=1n (xi - )(yi - ) x y n-1 = ∑i=1n (xi - )2 x n-1 ∑i=1n (yi - )2 y n-1 ∑i=1n (xi - )(yi - ) x y = √ ∑i=1n (xi - )2 x √ ∑i=1n (yi - )2 y t = rxy n - 2 1 - rxy2 degree of freedom = n - 2

8 상관관계 VII r = 182 / ( √230 * √150 ) = 0.980 편차(deviation)
응답자 친절 만족 (xi - ) x (yi - ) y (xi - )2 x (yi - )2 y (xi - )(yi - ) x y 1 7 6 -3 -3 9 9 9 2 18 16 8 7 64 49 56 3 15 12 5 3 25 9 15 4 9 8 -1 -1 1 1 1 5 10 10 -0 1 1 6 5 6 -5 -3 25 9 15 7 4 3 -6 -6 36 36 36 8 4 5 -6 -4 36 16 24 9 13 11 3 2 9 4 6 10 15 13 5 4 25 16 20 합계 100 90 230 150 182 평균 10.0 9.0 25.556 16.667 20.222 x의 분산 (variance of x) y의 분산 (variance of y) 공분산 (covariance) <SP-3 Corr_예제_자유도.sav> 참고

9 상관관계 VIII 상관관계 (correlation)의 특성
인과관계 (causal relationship)가 아닌 관련성 (association) 을 의미함 특정한 조건이 추가되면 인과관계일 수는 있음 관계의 정도 (degree)는 확률적 표현임 두 변수 관계의 상관성에 대한 예측 (prediction)의 정확도 기울기 (degree of slope)를 의미하지 않음 상관관계들 간의 가감승제 (+ - * ÷)는 불가능함 Corr(X, aY+b) = Corr(X, Y) ≠ a * Corr(X, Y) + b Corr(X, aY1+bY2) ≠ Corr(X, aY1) + Corr(X, bY2) <SP-3 Corr_예제_기울기>로 실습 설명력 (R2) = r * r

10 상관관계 IX 상관관계 (correlation)의 종류 변수의 측정수준 (level of measurement)에 따른 분류
Pearson correlation r 등간측정 (interval) 또는 비율측정 (ratio measurement) does not require the data to be either marginally or jointly normally distributed Exception: Cauchy distribution, Heavy-tailed distribution Outliers => not robust r Large sample size => asymptotic distribution SPSS, 기술통계량-데이터 탐색: 정규성 및 Outlier 검토 SPSS, 상관분석-이변량상관계수: Pearson Spearman’s rank order correlation, rho (ρ) 서열측정 (ordinal measurement) 등 Pearson r 부적절한 경우 SPSS, 상관분석-이변량상관계수: Spearman, Kendall’s tau b SPSS, 기술통계량-교차분석(cross-tabulation): Kendall’s tau b, tau c, Gamma, Somer’s d, etc.

11 상관관계 X 상관관계 (correlation)의 수식 Spearman rank order correlation
Special case with no tied rank where Ri = rank of xi = mean rank of x Si = rank of yi = mean rank of y If Ri or Si has tied ranks, use mean of ranks R S ∑i=1n (Ri - )(Si - ) R S δxy = √ ∑i=1n (Ri - )2 R √ ∑i=1n (Si - )2 S 6 ∑i=1n di2 δxy = 1 - Where di = rank difference of ith pair n ( n2 - 1 ) t = δxy n - 2 1 - δxy2 degree of freedom = n - 2

12 상관관계 XI Kendall’s tau τxy = τxy =
Kendall’s tau a: no adjustment for ties Kendall’s tau c adjustment for ties, most suitable for rectangular table Kendall’s tau b adjustment for ties, most suitable for square table nc – n d nc = the number of concordant pairs nd = the number of disconcordant pairs τxy = where n (n – 1) 2 ∑i<j sgn(xi – xj) sgn(yi – yj) τxy = n (n – 1) 2 - ∑i=1n ti(ti-1) n (n – 1) 2 - ∑i=1n ui(ui-1) sgn(k) : +1 (positive k), 0, -1 (negative k) ti , ui : 각각 x와 y의 i번째 쌍에 대해 동등한 값을 갖는 경우의 개수 (?) where

13 상관관계 XII c.f. Kendall’s W W =
Kendall의 일치계수 (coefficient of concordance) For n < 7, Kendall 일치계수 표 (채서일, p. 514) For n ≥ 7, K(n-1)W ~ χ2 (d.f. n-1) SPSS, 비모수통계-대응 K-표본 S W = K2 (n3 – n) 12 S = Ri : sum of ranks of K raters for ith person n : the number of rated person ∑i=1n (Ri - )2 R where

14 상관관계 XIII 상관관계 분석의 순서 No Nominal Metric ? Yes (Interval or Ratio)
Ordinal 교차분석 (cross- tabulation) Yes Outlier ? SPSS, 기술통계량-데이터 탐색 Normality & Outlier Check No Pearson Correlation Spearman’s rho Kendall’s Tau b or Tau c SPSS, 상관분석-이변량상관계수 SPSS, 상관분석-이변량상관계수 기술통계량-교차분석

15 상관관계 XIV 변수의 수에 따른 분류 단순 상관관계 (simple correlation)
부분 상관관계 (partial correlation) 통제변수 (control variable) 포함 e.g. 인테리어 시설 우수성 독립변수 X, 종속변수 Y를 통제변수 C가 같은 수준일 때의 값으로 변환한 값인 Xc와 Yc간의 상관계수 SPSS, 상관분석-편상관계수 <지역조사 데이터.sav>로 실습 다중 상관관계 (multiple correlation) ‘두 개 이상의 여러 변수들’과 다른 변수와의 상관관계

16 교차분석 I Chi-square (χ2) independence test (독립성 검정) H0 : 성별과 학력은 관련이 없다.
Ha : 성별과 학력은 관련이 없지 않다. 남자 여자 합계 중학교 20 20% 100 50% 120 40% 고등학교 40 40% 50 25% 90 30% 대학교 40 40% 50 25% 90 30% 합계 100 33.3% 200 66.7% 300 100 %

17 교차분석 II Chi-square (χ2) independence test (독립성 검정)
χ2 = ∑i=1r∑j=1c [ (Oij – Eij)2/Eij ] 남자 여자 합계 Oij Eij Dij Dij2/Eij Oij Eij Dij Dij2/Eij 중학교 20 40 (= 100*120 /300) -20 400 /40 10 100 80 (= 200*120 /300) 20 400 /80 5 120 고등학교 40 30 (= 100*90 /300) 10 100 /30 3.33 50 60 (= 200*90 /300) -10 100 /60 1.66 90 대학교 40 30 (= 100*90 /300) 10 100 /30 3.33 50 60 (= 200*90 /300) -10 100 /60 1.66 90 합계 100 16.66 200 8.32 300 24.98

18 교차분석 III 자유도 (degree of freedom; d.f.) χ2 table (우수명, 2013: p. 522 )
(r-1) * (c-1) e.g. (3-1) * (2-1) = 2 χ2 table (우수명, 2013: p. 522 ) χ2 (d.f.=2, α=0.001) = 13.8 χ2 (d.f.=2, α=0.001) = 13.8 < = Calculated χ2 Reject H0 i.e. ‘성별과 학력은 관련이 없지 않다.’ not ‘성별과 학력은 관련이 있다.’

19 교차분석 IV 교차분석 (cross-tabulation)
<지역조사 데이터.sav>로 실습, <SP-3 교차분석.xls> 참고 Chi-square (χ2) independence test (독립성 검정) n ≥ 30 ‘자유도 (degree of freedom) = 1’ & ‘각 셀 빈도 ≥ 5’ ‘자유도 > 1’ ‘기대빈도 (expected count) < 5’ 인 셀이 20% 이하 이고 ‘기대빈도 < 1’ 인 셀이 없어야 함 n < 30 ( 2 x 2 유관표로 코딩변경 후 ), Fisher’s Exact Test 명목 (nominal) 또는 서열 (ordinal)에 있는 독립성 검정 각 셀이 ‘기대빈도 < 5’ Binomial Test SPSS, 기술통계량-교차분석

20 교차분석 V Fisher’s Exact Test
e.g. 2 x 2 contingency table (general case of m x n) ∑i Pi Pi = = e.g. Problem case More extreme cases

21 교차분석 VI Binomial test Binomial probability difference test
주사위 235회 시행 중 ‘면6’이 51회 H0 : Prob. (면6) = 1/6 X ~ B (235, 1/6) [i.e. B (n, p) ] Prob. (X ≥ 51) = Binomial probability difference test <SP-3 교차분석> 참고 n1 = a + c p1 = a / (a + c) n2 = b + d p2 = b / (b + d) Z =

22 교차분석 VII 교차분석의 순서 Chi-Square No Assumptions Yes Recoding OK! 독립성 검정
SPSS, 기술통계량-교차분석 No Assumptions Yes Recoding OK! 독립성 검정 (명목, 서열) Chi-Square Fisher’s Exact Test Binomial Test SPSS, 기술통계량-교차분석

23 교차분석 VIII c.f. Chi-square (χ2) 단일표본분석
Chi-square 적합성 검정 (goodness-of-fit test) H0 : 예상치와 관찰치는 차이가 없다 r (i.e. cell의 수) = 2, 모든 셀이 ‘기대빈도 ≥ 5’ r ≥ 3 ‘기대빈도 (expected count) < 5’ 인 셀이 20% 이하 이고 ‘기대빈도 < 1’ 인 셀이 없어야 함 SPSS, 비모수검정-카이제곱검정 c.f. Kolmogorov-Smirnov 단일표본분석 H0 : 관찰된 빈도수와 이론적 빈도수는 동일하다 e.g. 분포의 정규성 (normal distribution) 검정 SPSS, 비모수검정-일표본K-S검정

24 Summary 상관계수 측정수준에 따른 상관계수의 종류 변수 수에 따른 상관계수의 종류 교차분석 변동의 연관성, 관계의 강도
기울기가 아님 측정수준에 따른 상관계수의 종류 Pearson correlation r Spearman’s rank order correlation, rho (ρ) Kendall’s tau b 변수 수에 따른 상관계수의 종류 단순 상관계수, 부분 상관계수, 다중 상관계수 교차분석 Chi-square (χ2) independence test Fisher’s Exact Test 명목 (nominal) 또는 서열 (ordinal)에 있는 독립성 검정 Binomial probability difference test


Download ppt "논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원."

Similar presentations


Ads by Google