The normal distribution (정규분포)
Normal distribution Normal distribution (정규분포) Continuous probability distribution (연속확률분포) Heights, weights, 생산량 등의 continuous variables (연속변수)이 이러한 분포를 보임 값의 범위가 충분히 클 경우 많은 discrete variables (불연속변수,이산변수)도 정규분포를 따른다 많은 경우 확률을 쉽게 결정하기 위해 normal distribution을 이용한다 따라서 normal distribution은 많은 통계처리 (t-test, ANOVA, regression analysis) 의 기초가 된다
Normal distribution and its properties Continuous measurement variables에서는 특정 범위 내의 어떤 값이든 추정할 수 있다 따라서 sample size가 아주 커질 경우 histogram은 smooth curve가 된다 이러한 곡선을 나타내는 probability distribution을 normal probability distribution (정규확률분포)라 한다 좌우대칭의 종모양의 곡선 Population mean: μ 좌우 무한대 (±∞)로 뻗어나가면 x축에 접근
Properties of the normal distribution 1. The distribution은 mean (μ)과 standard deviation (σ)로 정의된다 x 축 상의 위치는 mean (μ) 에 의해, 곡선의 퍼짐은 standard deviation (σ)에 의해 결정된다 이러한 parameters의 값은 무한하므로 무한한 종류의 normal distribution이 존재한다 A, B: different means, same variance B, C: same mean, different variances
Properties of the normal distribution 2. 연속확률변수의 경우 값 x를 취할 확률은 정의될 수 없다 Ex. 신생아의 체중이 동일할 경우는 불가능, 따라서 모집단은 무한모집단을 형성하고 무한한 값들 중에서 특정 값 x를 취할 확률은 1/∞ (= 0) y 축의 값은 probability density function (확률밀도함수), f(x)로 나타낼 수 있다: μ 와 σ로 결정 (π = 3.1416, e = 2.7183) y 값이 확률이 아님 (no dimension and no width) 값 x에 대한 확률 (probability): x에 매우 가까운 두 값 사이에 놓인 곡선의 면적으로 값 x의 확률을 구한다 (using integral calculus)
Properties of the normal distribution 3. 곡선은 mean 값을 중심으로 완벽하게 좌우 대칭이다 따라서 mean과 median (중앙값)이 같다 4. One standard deviation above the mean이 모집단의 속한 모든 개체의 34.13%를 포함하며, one standard deviation below the mean이 또한 모든 개체의 34.13%를 포함한다 따라서 mean ± 1SD가 모집단에 속한 모든 개체의 68.26%를 포함한다 Random sample된 어떤 x 값이 means ± 1SD에 속할 확률은 0.6826이다
Properties of the normal distribution 4. mean± 2SD는 95.46%를 the mean ± 3SD는 99.73%를 포함한다 Normal curve가 차지하는 총면적은 1이다
The standard normal distribution and z scores (표준정규분포) 무한한 종류의 means와 standard deviation이 존재하므로 무한한 종류의 normal distributions이 존재한다 따라서 정규분포를 하는 변수에 대한 확률은 평균과 표준편차에 따라 개별적으로 추정될 수 밖에 없다 (확률밀도함수) 이러한 번거로움을 모든 정규분포를 하나의 표준형으로 변형시켜 극복 Standard normal distribution (표준정규분포): 모든 정규 분포를 동일한 평균과 분산을 가진 분포로 표준화한 정규분포 Mean = 0; Standard deviation = 1 Table A. 1 in the appendix: standard normal curve의 proportion (면적 비)을 보여준다
The standard normal distribution and z scores 정규분포를 하는 확률변수 x의 확률분포는 확률변수 x를 확률변수 z로 변환함으로써 표준화됨 따라서 표준정규분포에서 확률을 추정할 수 있어 각 정규분포의 평균과 표준편차에 따라 각각의 확률분포를 추정하는 번거로움을 피할 수 있다 확률변수 x가 평균이 μ, 분산이 σ2 인 정규분포를 한다면 새로운 확률변수 z: z = (x – μ)/ σ 확률변수 z의 평균은 0, standard deviation은 1로 표준화된다 z score는 표준정규분포에서 mean값에서 얼마나 떨어져 있는지를 의미한다 정규분포의 표준편차와 같은 의미 Table A. 1 in the appendix: standard normal curve의 proportion (면적 비)을 보여준다
The standard normal distribution and Z scores Ex. 6.1: 특정 대학의 일반생물학을 수강하는 학생의 키를 조사 (n = 414) 전체학생의 키를 측정 Mean height = 166.8 cm, standard deviation = 6.4 cm This mean과 standard deviation은 parameters (모수) or statistics (통계치)?? Parameters Question 1: 키가 170 cm 인 학생의 z score는? z = (x – μ)/σ = (170 – 166.8)/6.4 = 0.5 Question 2: 170 cm 이하의 키를 가진 학생은 몇 %인가? (Table A. 1을 이용)
The standard normal distribution and Z scores The shaded area of the curve는 mean 과 z value 사이에 해당하는 standard normal distribution의 proportion을 의미한다 In Table A.1, z score 0.50에 해당하는 값: 0.1915 Mean과 z score 0.5 사이에 해당하는 proportion이 0.1915라는 의미 166.8 cm – 170 cm: 전체학생의 19.15% 정규분포는 완전한 좌우대칭, 따라서 mean 이하에 해당하는 proportion 이 0.5 (166.8 cm 이하인 학생은 전체의 50%) 따라서 170 cm 이하의 학생의 proportion? 0.1915 + 0.5 = 0.6915 (69.15%)
The standard normal distribution and z scores Question 3: 163.6 cm 보다 작은 학생들의 비율은?
The standard normal distribution and z scores Question 4: 160 cm – 170 cm 사이의 학생들의 비율은?
The standard normal distribution and Z scores Question 5: 모집단의 0.95 (95%)에 해당하는 키의 범위를 구하라.
Exercises Question 1: 송사리의 크기 The mean length of the population: 34.29 mm The standard deviation: 5.49 mm 1. 이 population에서 50 mm 이상의 개체가 채집될 확률은?
Homework 1. 이 population에서 25 mm 이하의 개체가 채집될 확률은? 2. 이 population에서 30 mm 에서 40 mm 사이의 개체가 채집될 확률은? 3. 이 population의 95%를 포함하는 length의 범위는?
Testing for normality 대부분의 statistical tests는 variables (변수)이 normal distribution을 하고 있다는 것을 가정한다 적어도 approximately (근사적) normally distributed 많은 biological variables는 normally distributed 그러나 normal distribution을 하고 있다는 것을 객관적인 방법으로 보여주어야 한다 한가지 방법: frequency distribution을 분석함으로써 normal distribution을 하고 있다는 것을 보여줄 수 있다
Testing for normality Ex. 남자의 키 (in cm), n = 148 Histogram using a class interval of 5 cm Histogram이 more or less bell-shaped 그리고 전체적인 모양이 normal distribution처럼 보임 그러나 더 나은 방법이 필요
Testing for normality Probability plot을 이용하면 normal distribution을 더 명확히 알 수 있다 Probability plot y-axis: 누적 frequency x-axis: original measurement variable Normal distribution을 할 경우 straight line 손으로 plotting 하는 것이 쉽지 않음 Normality을 검정하는 많은 통계 program이 있음
Testing for normality Figure 6.8: Anderson Darling test를 이용 p > 0.05 보다 클 경우 normal distribution 이 경우 p = 0.201, 따라서 normal distribution
Parametric and nonparametric statistics 모수검정 과 비모수검정 주로 사용하는 대부분의 통계처리들은 몇 가지 중요한 가정 (assumptions)을 만족해야 함 1. the variable is at least approximately normally distributed 2. the variable is measured on an interval or ratio scale 위 두 조건을 만족할 경우 Parametric test를 적용할 수 있다 Parametric test는 normal distribution을 이용하므로 위 조건을 만족하지 못할 경우 Nonparametric test를 사용해야 함 Ordinal scale로 측정된 data에 유용
Normal approximation (정규근사) of the binominal distribution 이항분포에서 k (number of case)가 아주 클 경우 확률계산이 tedious Normal distribution으로 해결 가능 k가 상당히 크고 p가 0 or 1에 너무 가깝지 않을 경우 binominal distribution은 normal distribution과 유사하게 된다 Fairly large?? k × p and k × q, 둘 다 5이상일 경우
Normal approximation of the binominal distribution Ex. 6.2: 남자:여자의 비율이 1:1로 알려진 집단에서 25명을 추출했을 때 이 중 남자가 8명 이하일 확률은? k = 25, p = 0.5, q = 0.5, x = 8 이하 9번을 계산해야 함! (x = 0, 1, 2, …..8),그리고 각 확률을 합산 Entire probability distribution: Fig, 6.9
Normal approximation of the binominal distribution Both k × p and k × q: 12.5 Normal distribution을 이용할 수 있다 Binomial variables Mean (μ) = kp; σ = √kpq μ = 25 × 0.5 = 12.5, σ = √kpq = √ 25 × 0.5 × 0.5 = 2.5 8의 z score: z = (8 – 12.5)/2.5 = -1.8 In Table A.1: z score 1.8 = 0.4641 8이하의 확률: 0.5 – 0.4641 = 0.0359 Computer program으로 계산한 값: 0.0322: 비슷함 z = (x – kp)/ √kpq
Exercises Question 2: Red-bellied snakes 이 뱀은 회색 뱀과 붉은색 뱀이 존재 회색 뱀과 붉은색 뱀의 비율: 53:47 1. 이 population에서 25마리의 뱀을 채집했을 때 회색 뱀이 10마리 이하일 확률은?
Homework 1. 이 population에서 30마리의 뱀을 채집했을 때 회색 뱀이 15마리 이하일 확률은?