Download presentation
Presentation is loading. Please wait.
1
Analysis of frequencies
Chapter 14
2
Analysis of frequencies
In biological and medical research, attributes (nominal scale; 명목척도)로 측정된 사건이나 대상이 나타날 빈도 (frequency)에 관심 이 경우 interval or ratio scale, 또는 ordinal scale로 측정된 data에 사용된 parametric or non-parametric tests를 사용할 수 없다 Ex. 1. In genetics, 관찰된 phenotypes의 frequencies가 특정 유전 mode에서 예측되는 distribution에 부합되는가? Ex. 2. A형 간염의 발병빈도가 Chicago와 St. Louis에 거주하는 사람들 사이에 차이가 있는가? In this chapter, frequency data를 분석하는 statistical tests를 다룸
3
Analysis of frequencies
이 chapter에서 다룰 two types of problems Checking for goodness-of-fit (적합도) Checking for differences between groups Chi-square test를 주로 사용
4
The chi-square goodness-of-fit test
‘Sample의 frequency distribution이 Poisson, binomial, or normal distributions 등에서 예측되는 분포에 부합하는가?’를 알고자 할 때 예상치 (expected values)와 측정치 (observed)가 같은가? Goodness-of-fit tests를 이용함 Null hypothesis Observed frequency distribution이 expected frequency distribution과 다르지 않다 두 frequency distributions 사이의 차이는 chance 만에 의해서 발생함
5
The chi-square goodness-of-fit test
Assumptions of the test (가정) 1. 적어도 nominal scale로 측정되어야 함. 2. Groups의 categories는 mutually exclusive (상호 배타적) 3. Observations은 independent 4. Expected frequency가 5 이하인 category는 없어야 함 Category가 많을 경우, expected frequency가 5 이하인 category는 20% 이하
6
The chi-square goodness-of-fit test
Ex. 14.1 꽃의 색을 나타내는 유전자가 heterozygous한 자주색 완두콩 2개체를 교배 (Pp × Pp) 78 개체의 자주색, 22 개체의 흰색 꽃을 가진 자손 Purple-flowered to white flowered offsprings이 3:1을 나타낸다고 할 수 있는가?
7
The chi-square goodness-of-fit test
꽃의 색은 한 쌍의 대립유전자 (allele)에 의해 결정 Purple이 white에 비해 우성 (dominant) Binomial probability에 의해 purple과 white 가 3:1로 예측됨 따라서 75의 자주색 꽃을 가진 식물과 25의 흰색 꽃을 가진 식물을 예측할 수 있다 (null hypothesis) 그러나 chance에 의해 실제 측정치와 예상되는 결과 사이에 차이가 있을 수 있다. Goodness-of-fit test는 이 차이가 chance 만에 의해 나타날 수 있는지를 결정해 줄 수 있다 차이가 significant한지를 알 수 있다
8
The chi-square goodness-of fit-test
Test statistic: chi-square Computation steps 1. 측정치 (o)에서 예상치 (e)를 뺀다 (o – e) 2. 차이를 제곱한다 (o – e)2 3. 제곱한 차이를 예상치로 나눈다 (o – e)2/e 4. 위의 값을 모두 더하여 chi-square statistic을 구한다 5. Chi-square goodness-of fit test의 자유도는 상호배타적인 groups의 수에서 1을 뺀 수 (2 – 1 = 1)
9
The chi-square goodness-of-fit test
Table A.3에서 critical chi-square 값을 찾는다 Alpha=0.05, df = 1: critical chi-square value = 3.84 계산된 통계치가 (0.48)가 critical value보다 작다 따라서 측정치와 예상치가 같다는 null hypothesis를 reject 할 수 없다 결론: observed frequency와 expected frequency가 다르지 않다 꽃의 색의 3:1의 법칙을 따른다
10
The chi-square goodness-of-fit test
Ex. 14.2 Quadrat (방형구) 내 단풍나무 seedling의 수 Section 5.2 (Poisson distribution) 단풍나무 seedling은 random distribution하는가? Random distribution을 한다면 Poisson distribution Poisson distribution으로 expected values를 계산할 수 있다 Null hypothesis: seedlings의 분포는 Poisson distribution을 따른다 Alternative hypothesis: seedlings는 random distribution을 하지 않는다
11
The chi-square goodness-of-fit test
Quadrat (방형구) 내 단풍나무 seedling의 수 Expected value가 5이하인 category가 20% 이상 마지막 3값을 합함 자유도: = 4??? Expected value를 구하기 위해 평균값 (1.41)을 사용 따라서 자유도: 5–2 = 3 Mean을 계산한 후 expected value를 구했으므로 (2번 계산)
12
The chi-square goodness-of-fit test
Critical chi-square value (α=0.05; df=3): 7.82 Calculated chi-square value: 17.26 p value: < p < 0.001 Null hypothesis를 reject Observed distribution은 Poisson 분포를 따르지 않는다 결론: maple seedlings는 조사장소에서 random distribution을 하지 않는다
13
The chi-square test for association
Nominal scale로 측정된 두 variables이 서로 관련되어 있는지를 결정할 때 사용 Heterogeneity chi-square test or chi-square tests of independence로 불림 Nominal variables 사이의 correlation을 test
14
The chi-square test for association
Ex. 14.3 Africa에 malaria가 널리 퍼져있음 Hemoglobin의 mutant form인 sickle-cell hemoglobin (or hemoglobin-S) 가 있음 Homozygous hemoglobin-S 대립유전자를 가진 사람은 sickle-cell anemia (빈혈)라는 질병을 앓음 Heterozygous allele을 가진 사람은 약한 빈혈증상을 보이나 malaria parasite에 매우 높은 저항력을 가짐 Homozygous normal hemoglobin allele을 가진 사람은 malaria에 걸리기 쉬움 죄수들을 대상으로 반인륜적인 실험을 수행
15
The chi-square test for association
15명의 heterozygous hemoglobin-S를 가진 죄수 15명의 homozygous normal hemoglobin allele을 가진 죄수 30명 모두 같은 population으로부터 옴, 따라서 유전적으로 동일하다고 볼 수 있음 30명에게 malaria parasite를 감염시킴 정상 유전자를 가진 죄수 중 13명이 malaria에 걸림; 2명은 정상 heterozygous hemoglobin-S를 가진 죄수 중 1명이 병에 걸림; 14명은 정상 두 nominal variables인 genotype과 malaria에 대한 민감도 사이의 관계를 알고자 함 Contingency table (분할표)를 작성
16
The chi-square test for association
두 변수 사이에 관계가 있는가를 결정 Genotype (measured on a nominal scale) Susceptibility to malaria (also measured on a nominal scale) Null hypothesis 두 variables 사이에 관계가 없다 (서로 독립적이다)
17
The chi-square test for association
Assumption of the test 1. data는 frequencies 2. samples are independent (같은 개체가 분할표의 둘 이상의 cell에 나타나지 않아야 함) 3. expected value가 5이하인 cells이 20%를 초과하지 않아야 함. expected value가 1이하인 cell이 없어야 함. 2×2 contingency table에서는 모든 expected values가 5 이상이어야 함 두 변수 사이에 관계가 있는가를 결정 Genotype (measured on a nominal scale) Susceptibiity to malaria (also measured on a nominal scale) Null hypothesis 두 variables 사이에 관계가 없다 (서로 독립적이다)
18
The chi-square test for association
Calculation of expected values P(A×B) = P(A) × P(B): when the component probabilities are independent Ex. For heterozygotes contracting malaria: 15*14/30 = 7 p(hetero) = 15/30; p(contracted) = 14/30
19
The chi-square test for association
Calculation of chi-square χ2 = (1-7)2/7 + (14-8)2/8 + (13-7)2/7 + (2-8)2/8 = Degree of freedom: (rows – 1) × (columns – 1) In this case: (2 – 1) × (2 – 1) = 1 Table A.3: critical value of chi-square (α=0.05, df = 1) =3.84 (p < ) 따라서 null hypothesis를 reject 결론: sickle cell gene과 malaria에 대한 저항성 사이에는 뚜렷한 관계가 있다
20
The chi-square test for association
Initial question: heterozygous genotype이 malaria에 저항성을 가지는가? The chi-square test for association은 genotype과 resistance가 상관되어 있다는 것만 결정해줌 방향성을 알려주지는 않음 그러나 분할표 (contingency table)로부터 heterozygosity가 저항성을 높여준다는 것을 확인할 수 있다
21
The chi-square test for association
The chi-square test for association이 2×2 contingency table에 한정되지 않음 각 rows나 columns이 mutually exclusive category일 경우 다수의 rows나 columns을 가질 수 있다 Ex. 14.4 숫소가 가임기와 비가임기 암소에 대해 3가지 형태의 후각적인 행동 (A, B, C)을 한다
22
The chi-square test for association
Ex. 14.4 Expected values는 위의 방법으로 계산 Calculation of chi-square χ2 = ( )2/ ( )2/ ( )2/ ( )2/ ( )2/ ( )2/18.42 = 자유도: (r – 1) × (c – 1) = (2 - 1) × (3 - 1) = 2
23
The chi-square test for association
Ex. 14.4 Table A.3: critical value (alpha=0.05, df=2) = 5.99 Calculated χ2 = 0.001 < p < 0.01 따라서 null hypothesis를 reject 결론: 암소의 reproductive stage와 숫소의 후각적 행동은 관련이 있다 통계 program 결과 Table 14.6
24
The chi-square test for association
25
The Fisher exact probability test (피셔의 정검정)
Expected value가 5 이하의 값이 없어야 한다는 가정을 만족시키지 못할 경우 사용 Ex. 14.5 줄무늬뱀은 눈앞과 눈 위쪽 자극에 방어적인 반응 줄무늬뱀이 자극의 위치에 따라 반응을 달리하는지 알고자 함 7마리 뱀 중 overhead 자극에 6마리 반응, 나머지 1마리는 반응하지 않음 7마리 뱀 중 lateral 자극에 1마리 반응, 나머지 6마리는 반응하지 않음
26
The Fisher exact probability test (피셔의 정검정)
2 independent variables Overhead stimulus and lateral stimulus (mutually exclusive) Response and no response (mutually exclusive) Measurement is nominal Sample size가 적으므로 chi-square test for association을 사용할 수 없다 (expected value = 3.5)
27
The Fisher exact probability test (피셔의 정검정)
Calculation of probability 두 variables이 서로 상관이 없다는 null hypothesis가 true인 확률 n = A+B+C+D
28
The Fisher exact probability test
이 확률은 위와 같은 분포를 보일 확률, 우리는 반응이 더 차이를 보이는 결과에 대한 확률을 알고자 함 위의 경우보다 더 극단적인 결과
29
The Fisher exact probability test (피셔의 정검정)
위와 같은 결과가 나타날 확률 p = 7!*7!*7!*7!/14!*7!*0!*0!*7! = 두 확률의 합 = 따라서 뱀이 자극의 위치에 따라 반응이 다르지 않다는 귀무가설을 reject 결론: 줄무늬뱀은 자극의 위치에 따라 반응이 달라진다
30
The McNemar test for the significance of changes
Data가 independent하지 않을 경우 Paired t-test, repeated measures ANOVA 처럼 하나의 실험개체를 두 treatments로 처리한 후 responses를 nominal scale로 측정한 경우 개체들 사이의 변이에 의한 영향을 줄일 수 있다 Before-and-after treatments의 경우 이러한 경우 McNemar test를 사용한다 Assumption of the McNemar test 1. Data는 적어도 nominal scale 2. 각 개체는 두 번 측정 됨
31
The McNemar test for the significance of changes
Ex. 방울뱀은 먹이를 잡을 때, 독을 주입한 후 바로 prey를 붙잡는 경우와 놓아준 후 죽을 때까지 기다리는 경우가 있다 이러한 결정은 prey의 size와 관련이 있다고 가정 Prey가 클 경우 뱀이 prey를 붙잡고 있을 경우 prey가 죽는 동안 뱀에게 상처를 줄 가능성이 있다 따라서 prey가 클 경우 독을 주입한 후 놓아주어 죽을 때까지 기다림: large prey-struck and released Prey가 작을 경우는 바로 붙잡음: small prey-struck and held 15마리의 방울뱀에 각각 mouse (small prey)와 rat (large prey)를 먹이로 줌
32
The McNemar test for the significance of changes
Treatments에 따라 반응을 바꾼뱀 In cells b and c Large prey을 held하고 small prey를 released: b (0) Small prey를 held하고 large prey를 released: c (10) Cells a and d에 속한 뱀들은 prey의 크기에 따라 반응을 바꾸지 않음 McNemar test에서는 changers 에 만 관심이 있음 Test statistic for the McNemar test: Chi-square
33
The McNemar test for the significance of changes
Test statistic Null hypothesis prey의 크기에 따라 반응의 차이가 없다 χ2 = 100/10 = 10.0 자유도: (r-1)×(c-1) = 1 Table A.3: critical value (alpha=0.05, df=1): 3.84 calculated chi-square가 critical value보다 크다 따라서 null hypothesis를 reject 결론: prey의 size에 따라 반응에 차이가 있다
34
The McNemar test for the significance of changes
Frequency가 작을 경우 (c + b)/2 <5 이 경우는 binomial probability로 계산 k = c + b, x = b와 c 중 작은 frequency p = 0.5 위의 경우 (c + b)/2 = 4.5, 따라서 chi-square는 적절하지 않음 Binomial probability를 계산해야 함
35
The McNemar test for the significance of changes
k = c + b = 9 , x = 0, p = 0.5 p(0) = (9!/0!×9!)×(0.50)×(0.59) = 따라서 prey의 size에 따라 뱀의 반응에 차이가 없다는 귀무가설을 reject 결론: prey의 크기에 따라 뱀의 반응에 차이가 있다
Similar presentations