Analysis of frequencies

Slides:



Advertisements
Similar presentations
2. 속력이 일정하게 증가하는 운동 Ⅲ.힘과 운동 2.여러 가지 운동. 도입 Ⅲ.힘과 운동 2. 여러 가지 운동 2. 속력이 일정하게 증가하는 운동.
Advertisements

Marketing Research 1  두 모집단 평균차이 검증 (t) : 두 개의 독립모집단 평균차이 검증에는 두 모집단이 정규분포를 이루며 분산이 같다는 가정 하에 (σ 1 2 =σ 2 2 ) t-test 를 사용하나 각각의 모 집단 크기가 크면 (n 1 ≥30,
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
영화초등학교 5-3 최단비. 목 차 1. 실험 동기 2. 실험 방법 3. 가설 4. 실험 과정 5. 실험 1~8 6. 실험결과 7. 결론 8. 더 알고 싶은 점.
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
과학 과제물 양파실험 5학년1반 박채빈.
Eliminating noise and other sources of error
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
의료의 질 평가 분석 기법 김 민 경.
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
제1장 과학과 사회조사방법 과학적 지식(scientific knowledge): 과학적 방법에 의해 얻어진 지식, 즉 논리적, 체계적, 경험적, 객관적 절차를 통해 얻어진 지식 과학적 지식의 특성 1) 재생가능성(reproducibility) 2) 경험가능성(empiricism)
선형회귀분석.
비모수 분석 및 복습.
CHAPTER 21 UNIVARIATE STATISTICS
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
논문을 위한 통계 이변량 단순 관계 분석 하성욱 한성대학교 대학원.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SPSS를 활용한 통계분석 김 덕 기 충북대학교 정보통계학과
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
상관분석 (p , p ).
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
제7장 추정과 가설 검정.
Inferences concerning multiple populations ANOVA
4-1 Gaussian Distribution
Statistical inference II
13장 카이제곱(χ2)분석 2019년 2월 24일 오전 3시 39분2019년 2월 24일 오전 3시 39분
문제 2명의 사형수가 있다. 둘에게는 검정색 모자와 흰색 모자를 임의로 씌우는데, 자기가 쓴 모자의 색은 절대로 알 수가 없다. 서로 상대의 모자색만을 볼 수 있고, 이들이 살기 위해선 자신의 쓴 색의 모자를 맞춰야 한다. 단, 둘 중 한명만이라도 자신이 쓴 모자의 색을.
Hypothesis Testing 가설 검정
Linear Mixed Model을 이용한 분석 결과
Other ANOVA designs Two-way ANOVA
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
(independent variable)
Descriptive statistics
경제통계학 개요 사공 용 서강대학교 경제학과.
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Inferences concerning two populations and paired comparisons
Association between two measurement variables Correlation
: Two Sample Test - paired t-test - t-test - modified t-test
Statistical inference I (통계적 추론)
두 모집단에 대한 검정.
Probability and discrete probability distributions (확률과 이산확률분포)
Frequency distributions and Graphic presentation of data
독립성금증(χ2)-교차표 분석 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계를 조사하는 통계기법으로 χ2독립성 검증(chi-square independence test)이 있다. 예를 들어, 특정 속성에 대하여 집단별로 어떤 차이가 있는지를 알아보기 위해서 사용하는.
생활 속의 밀도 (1) 뜨고 싶니? 내게 연락해 ! 물질의 뜨고 가라앉음 여러 가지 물질의 밀도.
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
논문작성을 위한 연구모형 설정 양동훈.
Chapter Ⅱ. 연구 설계.
당뇨병에서의 C-peptide와 Insulin, Glucagon의 ratio 상관성
Chapter 4: 통계적 추정과 검정 Pilsung Kang
Sampling Distributions
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
에어 PHP 입문.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
Week 13:가설검정(Hypothesis Testing)
Ⅵ. 확 률 1. 확 률 2. 확률의 계산.
동아리: Bio Holic 조원: 추헌오,박재형,정재엽,김제권
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
제3장 사회조사방법의 기본개념 변수(variable): 사람, 물건, 사건 등의 특성이나 속성이 두 가지 이상의 가치(value)를 가질 때 변수라고 함. 즉 상호배타적인 속성들의 집합 1) 속성에 따른 분류 -. 명목변수(Nominal Variable): 분류에 기초를.
비교분석 보고서 Template 2015.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
상관계수.
기체상태와 기체분자 운동론!!!.
가설검정의 기본원리 Introduction to Hypothesis Testing
전류의 세기와 거리에 따른 도선 주변 자기장 세기 변화에 대한 실험적 고찰
Presentation transcript:

Analysis of frequencies Chapter 14

Analysis of frequencies In biological and medical research, attributes (nominal scale; 명목척도)로 측정된 사건이나 대상이 나타날 빈도 (frequency)에 관심 이 경우 interval or ratio scale, 또는 ordinal scale로 측정된 data에 사용된 parametric or non-parametric tests를 사용할 수 없다 Ex. 1. In genetics, 관찰된 phenotypes의 frequencies가 특정 유전 mode에서 예측되는 distribution에 부합되는가? Ex. 2. A형 간염의 발병빈도가 Chicago와 St. Louis에 거주하는 사람들 사이에 차이가 있는가? In this chapter, frequency data를 분석하는 statistical tests를 다룸

Analysis of frequencies 이 chapter에서 다룰 two types of problems Checking for goodness-of-fit (적합도) Checking for differences between groups Chi-square test를 주로 사용

The chi-square goodness-of-fit test ‘Sample의 frequency distribution이 Poisson, binomial, or normal distributions 등에서 예측되는 분포에 부합하는가?’를 알고자 할 때 예상치 (expected values)와 측정치 (observed)가 같은가? Goodness-of-fit tests를 이용함 Null hypothesis Observed frequency distribution이 expected frequency distribution과 다르지 않다 두 frequency distributions 사이의 차이는 chance 만에 의해서 발생함

The chi-square goodness-of-fit test Assumptions of the test (가정) 1. 적어도 nominal scale로 측정되어야 함. 2. Groups의 categories는 mutually exclusive (상호 배타적) 3. Observations은 independent 4. Expected frequency가 5 이하인 category는 없어야 함 Category가 많을 경우, expected frequency가 5 이하인 category는 20% 이하

The chi-square goodness-of-fit test Ex. 14.1 꽃의 색을 나타내는 유전자가 heterozygous한 자주색 완두콩 2개체를 교배 (Pp × Pp) 78 개체의 자주색, 22 개체의 흰색 꽃을 가진 자손 Purple-flowered to white flowered offsprings이 3:1을 나타낸다고 할 수 있는가?

The chi-square goodness-of-fit test 꽃의 색은 한 쌍의 대립유전자 (allele)에 의해 결정 Purple이 white에 비해 우성 (dominant) Binomial probability에 의해 purple과 white 가 3:1로 예측됨 따라서 75의 자주색 꽃을 가진 식물과 25의 흰색 꽃을 가진 식물을 예측할 수 있다 (null hypothesis) 그러나 chance에 의해 실제 측정치와 예상되는 결과 사이에 차이가 있을 수 있다. Goodness-of-fit test는 이 차이가 chance 만에 의해 나타날 수 있는지를 결정해 줄 수 있다 차이가 significant한지를 알 수 있다

The chi-square goodness-of fit-test Test statistic: chi-square Computation steps 1. 측정치 (o)에서 예상치 (e)를 뺀다 (o – e) 2. 차이를 제곱한다 (o – e)2 3. 제곱한 차이를 예상치로 나눈다 (o – e)2/e 4. 위의 값을 모두 더하여 chi-square statistic을 구한다 5. Chi-square goodness-of fit test의 자유도는 상호배타적인 groups의 수에서 1을 뺀 수 (2 – 1 = 1)

The chi-square goodness-of-fit test Table A.3에서 critical chi-square 값을 찾는다 Alpha=0.05, df = 1: critical chi-square value = 3.84 계산된 통계치가 (0.48)가 critical value보다 작다 따라서 측정치와 예상치가 같다는 null hypothesis를 reject 할 수 없다 결론: observed frequency와 expected frequency가 다르지 않다 꽃의 색의 3:1의 법칙을 따른다

The chi-square goodness-of-fit test Ex. 14.2 Quadrat (방형구) 내 단풍나무 seedling의 수 Section 5.2 (Poisson distribution) 단풍나무 seedling은 random distribution하는가? Random distribution을 한다면 Poisson distribution Poisson distribution으로 expected values를 계산할 수 있다 Null hypothesis: seedlings의 분포는 Poisson distribution을 따른다 Alternative hypothesis: seedlings는 random distribution을 하지 않는다

The chi-square goodness-of-fit test Quadrat (방형구) 내 단풍나무 seedling의 수 Expected value가 5이하인 category가 20% 이상 마지막 3값을 합함 자유도: 5 - 1 = 4??? Expected value를 구하기 위해 평균값 (1.41)을 사용 따라서 자유도: 5–2 = 3 Mean을 계산한 후 expected value를 구했으므로 (2번 계산)

The chi-square goodness-of-fit test Critical chi-square value (α=0.05; df=3): 7.82 Calculated chi-square value: 17.26 p value: 0.0001 < p < 0.001 Null hypothesis를 reject Observed distribution은 Poisson 분포를 따르지 않는다 결론: maple seedlings는 조사장소에서 random distribution을 하지 않는다

The chi-square test for association Nominal scale로 측정된 두 variables이 서로 관련되어 있는지를 결정할 때 사용 Heterogeneity chi-square test or chi-square tests of independence로 불림 Nominal variables 사이의 correlation을 test

The chi-square test for association Ex. 14.3 Africa에 malaria가 널리 퍼져있음 Hemoglobin의 mutant form인 sickle-cell hemoglobin (or hemoglobin-S) 가 있음 Homozygous hemoglobin-S 대립유전자를 가진 사람은 sickle-cell anemia (빈혈)라는 질병을 앓음 Heterozygous allele을 가진 사람은 약한 빈혈증상을 보이나 malaria parasite에 매우 높은 저항력을 가짐 Homozygous normal hemoglobin allele을 가진 사람은 malaria에 걸리기 쉬움 죄수들을 대상으로 반인륜적인 실험을 수행

The chi-square test for association 15명의 heterozygous hemoglobin-S를 가진 죄수 15명의 homozygous normal hemoglobin allele을 가진 죄수 30명 모두 같은 population으로부터 옴, 따라서 유전적으로 동일하다고 볼 수 있음 30명에게 malaria parasite를 감염시킴 정상 유전자를 가진 죄수 중 13명이 malaria에 걸림; 2명은 정상 heterozygous hemoglobin-S를 가진 죄수 중 1명이 병에 걸림; 14명은 정상 두 nominal variables인 genotype과 malaria에 대한 민감도 사이의 관계를 알고자 함 Contingency table (분할표)를 작성

The chi-square test for association 두 변수 사이에 관계가 있는가를 결정 Genotype (measured on a nominal scale) Susceptibility to malaria (also measured on a nominal scale) Null hypothesis 두 variables 사이에 관계가 없다 (서로 독립적이다)

The chi-square test for association Assumption of the test 1. data는 frequencies 2. samples are independent (같은 개체가 분할표의 둘 이상의 cell에 나타나지 않아야 함) 3. expected value가 5이하인 cells이 20%를 초과하지 않아야 함. expected value가 1이하인 cell이 없어야 함. 2×2 contingency table에서는 모든 expected values가 5 이상이어야 함 두 변수 사이에 관계가 있는가를 결정 Genotype (measured on a nominal scale) Susceptibiity to malaria (also measured on a nominal scale) Null hypothesis 두 variables 사이에 관계가 없다 (서로 독립적이다)

The chi-square test for association Calculation of expected values P(A×B) = P(A) × P(B): when the component probabilities are independent Ex. For heterozygotes contracting malaria: 15*14/30 = 7 p(hetero) = 15/30; p(contracted) = 14/30

The chi-square test for association Calculation of chi-square χ2 = (1-7)2/7 + (14-8)2/8 + (13-7)2/7 + (2-8)2/8 = 19.286 Degree of freedom: (rows – 1) × (columns – 1) In this case: (2 – 1) × (2 – 1) = 1 Table A.3: critical value of chi-square (α=0.05, df = 1) =3.84 (p < 0.0001) 따라서 null hypothesis를 reject 결론: sickle cell gene과 malaria에 대한 저항성 사이에는 뚜렷한 관계가 있다

The chi-square test for association Initial question: heterozygous genotype이 malaria에 저항성을 가지는가? The chi-square test for association은 genotype과 resistance가 상관되어 있다는 것만 결정해줌 방향성을 알려주지는 않음 그러나 분할표 (contingency table)로부터 heterozygosity가 저항성을 높여준다는 것을 확인할 수 있다

The chi-square test for association The chi-square test for association이 2×2 contingency table에 한정되지 않음 각 rows나 columns이 mutually exclusive category일 경우 다수의 rows나 columns을 가질 수 있다 Ex. 14.4 숫소가 가임기와 비가임기 암소에 대해 3가지 형태의 후각적인 행동 (A, B, C)을 한다

The chi-square test for association Ex. 14.4 Expected values는 위의 방법으로 계산 Calculation of chi-square χ2 = (29-29.78)2/29.78 + (48-56.64)2/56.64 + (27-17.58)2/17.58 + (32-31.22)2/31.22 + (68-59.36)2/59.36 + (9-18.42)2/18.42 = 12.485 자유도: (r – 1) × (c – 1) = (2 - 1) × (3 - 1) = 2

The chi-square test for association Ex. 14.4 Table A.3: critical value (alpha=0.05, df=2) = 5.99 Calculated χ2 = 12.485 0.001 < p < 0.01 따라서 null hypothesis를 reject 결론: 암소의 reproductive stage와 숫소의 후각적 행동은 관련이 있다 통계 program 결과 Table 14.6

The chi-square test for association

The Fisher exact probability test (피셔의 정검정) Expected value가 5 이하의 값이 없어야 한다는 가정을 만족시키지 못할 경우 사용 Ex. 14.5 줄무늬뱀은 눈앞과 눈 위쪽 자극에 방어적인 반응 줄무늬뱀이 자극의 위치에 따라 반응을 달리하는지 알고자 함 7마리 뱀 중 overhead 자극에 6마리 반응, 나머지 1마리는 반응하지 않음 7마리 뱀 중 lateral 자극에 1마리 반응, 나머지 6마리는 반응하지 않음

The Fisher exact probability test (피셔의 정검정) 2 independent variables Overhead stimulus and lateral stimulus (mutually exclusive) Response and no response (mutually exclusive) Measurement is nominal Sample size가 적으므로 chi-square test for association을 사용할 수 없다 (expected value = 3.5)

The Fisher exact probability test (피셔의 정검정) Calculation of probability 두 variables이 서로 상관이 없다는 null hypothesis가 true인 확률 n = A+B+C+D

The Fisher exact probability test 이 확률은 위와 같은 분포를 보일 확률, 우리는 반응이 더 차이를 보이는 결과에 대한 확률을 알고자 함 위의 경우보다 더 극단적인 결과

The Fisher exact probability test (피셔의 정검정) 위와 같은 결과가 나타날 확률 p = 7!*7!*7!*7!/14!*7!*0!*0!*7! = 0.00029 두 확률의 합 0.01428 + 0.00029 = 0.01457 따라서 뱀이 자극의 위치에 따라 반응이 다르지 않다는 귀무가설을 reject 결론: 줄무늬뱀은 자극의 위치에 따라 반응이 달라진다

The McNemar test for the significance of changes Data가 independent하지 않을 경우 Paired t-test, repeated measures ANOVA 처럼 하나의 실험개체를 두 treatments로 처리한 후 responses를 nominal scale로 측정한 경우 개체들 사이의 변이에 의한 영향을 줄일 수 있다 Before-and-after treatments의 경우 이러한 경우 McNemar test를 사용한다 Assumption of the McNemar test 1. Data는 적어도 nominal scale 2. 각 개체는 두 번 측정 됨

The McNemar test for the significance of changes Ex. 방울뱀은 먹이를 잡을 때, 독을 주입한 후 바로 prey를 붙잡는 경우와 놓아준 후 죽을 때까지 기다리는 경우가 있다 이러한 결정은 prey의 size와 관련이 있다고 가정 Prey가 클 경우 뱀이 prey를 붙잡고 있을 경우 prey가 죽는 동안 뱀에게 상처를 줄 가능성이 있다 따라서 prey가 클 경우 독을 주입한 후 놓아주어 죽을 때까지 기다림: large prey-struck and released Prey가 작을 경우는 바로 붙잡음: small prey-struck and held 15마리의 방울뱀에 각각 mouse (small prey)와 rat (large prey)를 먹이로 줌

The McNemar test for the significance of changes Treatments에 따라 반응을 바꾼뱀 In cells b and c Large prey을 held하고 small prey를 released: b (0) Small prey를 held하고 large prey를 released: c (10) Cells a and d에 속한 뱀들은 prey의 크기에 따라 반응을 바꾸지 않음 McNemar test에서는 changers 에 만 관심이 있음 Test statistic for the McNemar test: Chi-square

The McNemar test for the significance of changes Test statistic Null hypothesis prey의 크기에 따라 반응의 차이가 없다 χ2 = 100/10 = 10.0 자유도: (r-1)×(c-1) = 1 Table A.3: critical value (alpha=0.05, df=1): 3.84 calculated chi-square가 critical value보다 크다 따라서 null hypothesis를 reject 결론: prey의 size에 따라 반응에 차이가 있다

The McNemar test for the significance of changes Frequency가 작을 경우 (c + b)/2 <5 이 경우는 binomial probability로 계산 k = c + b, x = b와 c 중 작은 frequency p = 0.5 위의 경우 (c + b)/2 = 4.5, 따라서 chi-square는 적절하지 않음 Binomial probability를 계산해야 함

The McNemar test for the significance of changes k = c + b = 9 , x = 0, p = 0.5 p(0) = (9!/0!×9!)×(0.50)×(0.59) = 0.00195 따라서 prey의 size에 따라 뱀의 반응에 차이가 없다는 귀무가설을 reject 결론: prey의 크기에 따라 뱀의 반응에 차이가 있다