Association between two measurement variables Correlation Chapter 13
Correlation analysis (상관분석) Two variables이 서로 상관되어 있는지를 알고자 할때 Ex. 1. 혈압을 측정하는 두 방법이 유사한 결과를 보이는가? 2. 회색곰의 두 형태적 특성이 얼마나 강하게 상관되어 있는가? 3. 오염된 하천에서 두 toxic metals의 농도가 서로 상관되어 있는가? Correlation analysis에서 알고자 하는 two questions 1. 두 measurement variables가 서로 관련되어 있는가? 있다면 어떤 방향으로? (정상관 or 역상관?) 2. Relationship의 strength는?
The Pearson correlation coefficient 두 variables 사이의 relationship strength의 측정 Correlation coefficient (상관계수) Formally Pearson correlation coefficient Population (모집단)의 correlation coefficient: ρ (rho) True value of this parameter는 일반적으로 알 수 없다 따라서 population의 random sample로부터 추정 Sample correlation coefficient: r Correlation coefficient의 range +1: perfect positive correlation 0: no correlation -1: perfect negative correlation
Figure 13.1 두 variables 사이의 다른 수준의 association을 보여줌 First row: relationship의 strength Second row: relationship의 방향
The Pearson correlation coefficient Ex. Iguana의 체중과 알의 수와의 관계
The Pearson correlation coefficient Pearson correlation coefficient (r) 0.952는 1.00에 매우 가까우므로 두 variables 사이에 strong relationship을 의미한다
Testing the significance of r Null hypothesis of correlation analysis H0: ρ = 0 귀무가설이 reject 되면 두 variables 사이에 correlation이 존재 Assumption of the test 1. random sample 2. interval or ratio scale 3. normal distribution 4. 두 variables 사이에 relationship이 존재한다면 linear relationship 가정 2, 3, 4를 만족하지 못할 경우 nonparametric correlation test를 사용
Testing the significance of r Sample correlation coefficient는 t-distribution (df = n – 2)을 한다 (r 검정을 위한 자유도) Sample value로부터 r을 먼저계산, 따라서 (df = n – 2) t는 다음 식으로 계산 t = 0.952√9/(1 – 0.906) = 9.315 Critical t value (df=9, 0.05) in table A.2 2.262 Calculated t value가 critical t value보다 크므로 귀무가설을 reject 결론: 두 variables이 서로 상관되어 있다
Testing the significance of r Table A.8 Null hypothesis를 reject할 수 있는 minimum value 계산된 r 값이 table의 critical value와 같거나 클 경우 null hypothesis를 reject df = n -2 Table A.8 (df = 9): critical value = 0.602 Calculated r value (0.952) > critical value (0.602) 따라서 상관이 없다는 귀무가설을 reject 결론: 두 variables은 서로 상관되어 있다
Nonparametric correlation analysis Spearman’s r Ordinal scale로 측정되었거나 가정을 만족하지 못할 경우 nonparametric test를 사용 Spearman rank correlation test Ex. Male 도마뱀 13마리의 size와 territory를 측정 Size와 territory의 크기가 관련이 있는가? 도마뱀의 크기는 normal distribution을 하지만 territory는 normal distribution을 하지 않음 따라서 nonparametric test를 사용
Table 13.3
Nonparametric correlation analysis 임의로 도마뱀 size를 x variable로, territory를 y variable로 놓음 1. x variable을 from smallest to largest로 rank 2. y variable을 from smallest to largest로 rank 3. d = rank x – rank y, 그리고 d2을 계산 4. Σd2을 계산 (in this case 60) 5. 다음 식으로 rs를 계산
Nonparametric correlation analysis rs= 1 – {6×60/13×(169 – 1)} = 0.835 rs 값의 test는 parametric test와 같다 t = 0.835√13 – 2/1 – (0.835)2 = 4.89 Critical t value (df=11, 0.05): 2.201 Calculated t value 가 critical t value 보다 크다 따라서 귀무가설을 reject 결론: size가 큰 도마뱀이 더 큰 territory를 가진다
Testing the significance of rs Table A.9 Null hypothesis를 reject할 수 있는 minimum value 계산된 r 값이 table의 critical value와 같거나 클 경우 null hypothesis를 reject df = n - 2 Table A.9 (df = 11): critical value = 0.564 (df=10) Calculated rs value (0.835) > critical value (0.564) 따라서 상관이 없다는 귀무가설을 reject 결론: 두 variables은 서로 상관되어 있다