Descriptive statistics
Sample statistics and population parameters 모집단의 특성을 측정한 sample의 측정치들은 특정값 (중심치)을 중심으로 모이는 경향이 있음 (central tendency; 중심경향) 이 chapter에서는 이러한 central tendency와 중심값을 중심으로 한 측정값들의 변이 (variation)의 정도 (dispersion,분산, 산포도)를 고찰
Sample statistics and population parameters Statistic (통계치) and parameter (모수) 모집단의 실제 값 (true value)은 parameter이며, sample에서 계산된 값은 statistic (통계치) 모집단에서의 random sample로부터 central tendency와 variation을 계산함. 통계치로부터 모집단의 값 (모수; parameters)을 추정함 모수는 실제로 산출하는 것이 거의 불가능하며 따라서 표본의 통계치로부터 추정하는 것이 일반적이다 Ex.) 모집단의 실제 평균값 (true mean)은 parameter이며, sample의 평균값은 statistic (통계치)가 된다
Sample statistics and population parameters Parameter (모수)는 전통적으로 Greek letters로 statistic (통계치)은 Roman letters로 표기함 Parameter Statistic Mean (평균) μ (mu) Median (중앙값) θ (theta) M Variance (분산) σ2 (sigma) s2 Standard deviation (표준편차) σ s
Measures of central tendency 다양한 값으로 모집단이나 sample의 central tendency의 대표값을 기술할 수 있다 Mode (최빈값) Median (중앙값) Mean (평균값) Measurement scale에 따라 적절한 표현 방식이 달라질 수 있다
Measures of central tendency 1. The mode (최빈값) 측정값 중 가장 빈도가 높게 나타나는 값 자료가 nominal scale로 측정되었을 경우, mode로만 대표값을 나타낼 수 있다. Ex. red: 15, white: 10, blue: 5 The mode: red 다른 scale로 측정된 data도 mode로 나타낼 수 있다
Measures of central tendency The median (중앙값) 자료를 크기순서 (from smallest to largest)로 정렬했을 때, 중앙에 위치하는 값 적어도 ordinal scale로 측정된 자료에 적용 그 값보다 큰 값의 수와 작은 값의 수가 같다 Ex. 15명의 환자의 상태 Measurement scale?, median? Ordinal scale (nominal scale??) Deteriorating (NNDDDDDDDDSSSSI) Condition Near death (위독) Deteriorating (악화) Stable (안정) Improving (호전) Frequency 2 8 4 1
Measures of central tendency The median (중앙값) Ex. 2: 2, 2, 2, 3, 4, 4, 4, 4 Median? 3.5 (the average of 3 and 4), 짝수의 data Ex. 3: 1, 2, 2, 3, 4, 10, 100, 1000 3.5 (the average of 3 and 4) 비록 마지막 3개의 값이 훨씬 넓은 범위로 분산되어 있더라도
Measures of central tendency The mean (평균값) 산술평균 (arithmetic average) 측정값들의 총합을 측정수로 나눈 값 Interval scale이나 ratio scale로 측정된 경우, 가장 일반적으로 사용하는 대표값 모집단에 속한 모든 개체를 측정하여 평균을 계산한 경우 True population mean (μ) Random sample로부터 평균을 계산한 경우 Sample mean ( ) Mean = Σx/n Sample size: n Sample mean은 true population mean의 추정값
Positions of mean, median, mode in symmetric and skewed distribution 측정치를 frequency distribution으로 나타낼 경우 Symmetric or skewed distribution을 나타낸다 Symmetric distribution (대칭분포) Mode (최빈값)을 중심으로 양쪽으로 동일하게 배열 이 경우 mean, median, mode가 같은 값에 위치 Skewed distribution (비대칭분포) 값이 한쪽으로 치우침, 한쪽은 long tail을 가짐 Mean은 long tail쪽에 치우쳐 위치 Median은 mode와 mean 사이에 위치 Tail 쪽 값 중 매우 낮은 빈도로 나타나는 값: outliers (이상치) Mean에 크게 영향을 미침
Positions of mean, median, mode in symmetric and skewed distribution
Positions of mean, median, mode in symmetric and skewed distribution Median의 유용성 in skewed distribution Ex. 한 회사에서 9명의 연봉 (in $1000s): 15, 17, 21, 21, 24, 27, 27, 31, 225 Mean? Median? Salary는 대표적인 skewed distribution Mean: $45,333 (408/9) 사장의 연봉 때문에 평균값이 다른 모든 사람보다 높은 값- 대표 값으로 의미가 있는가? Median: $24,000 사장의 연봉을 outlier로 처리하여 mean을 계산한 경우: mean = $22,875, median과 비슷함 Mean은 skewed distribution시 outlier의 영향을 많이 받음 비대칭분포 시 median이 더 유용할 수 있음
Weighted mean (가중평균) Mean은 산술평균으로 계산하지만 weighted mean이 더 유용하게 사용되는 경우도 있음 각 측정값이 다른 중요도 (weights)를 가질 경우 Weighted mean = Σfx / Σf Σfx: 측정치와 그 측정치의 빈도 (weight)를 곱한 값의 총합 Σf: 빈도의 총합 (n), total sample size
Number of credits attempted Weighted mean Ex. 학점 계산 Σf = 50, Σfx = 130 GPA = = Σfx / Σf = 130/50 = 2.60 Grade Grade value Number of credits attempted Grade point A 4 12 48 B 3 18 54 C 2 24 D 1 F
Weighted mean Ex. Frequency distribution으로부터 weighted mean 계산 Mosquito fish의 평균길이 Σf = 172, Σfx = 3744 = Σfx / Σf = 3744/172 = 21.8 mm
Measures of dispersion (분산) 생물학적 모집단에서 variable (변수)의 측정값이 모두 같을 수 없다 Variation (변이)는 자연에서 일반적으로 나타남 따라서 이 variation을 측정하는 것이 중요함 Dispersion (분산) 중심값을 중심으로 한 측정값들의 variation 중심치로부터 측정값들이 흩어져 있는 정도를 나타내는 척도 Standard deviation (표준편차), range (범위), coefficient of variation (변이계수) 등이 주로 사용됨
The range (범위) Range The difference between the largest and the smallest items in the sample 최대값과 최소값의 차 Unit (단위)는 original measurement의 unit과 같다 Ex. The largest mosquito fish: 30 mm, the smallest: 17 mm Range: 30 mm -17 mm = 13 mm Range는 하나의 극단적인 값 (a single extreme value)의 영향을 크게 받는다 Range 사용시 최대값과 최소값을 표시해 주는 것이 좋다
Standard deviation (σ, s) 주로 사용되는 변이의 측정값 각 측정치가 평균값과 얼마나 다른지를 보여주는 값 각 측정치와 평균값의 차이의 평균값 Interval scale과 ratio scale에만 적용 가능 Nominal and ordinal measurements에는 사용할 수 없다
Standard deviation (σ, s) Ex. A sample of 8 measurements 1, 2, 2, 3, 3, 4, 4, 5 Mean and standard deviation? Mean = 24/8 = 3.0 평균과 각 측정값과의 차이 (1-3, 2-3, 2-3, 3-3, 3-3, 4-3, 4-3, 5-3) -2, -1, -1, 0, 0, 1, 1, 2 위 값의 합은? 따라서 각 측정치와 평균값의 차의 평균값은? Always 0!!! 차이를 제곱하면 마이너스 값을 없앨 수 있다 차이를 제곱한 값의 합: sum of squares (SS) 측정값을 제곱한 것이 아니라 차를 제곱한 값의 합 SS = Σ (x - )2 다른 통계처리에서도 SS를 구해야 할 경우가 많이 있다
Standard deviation (σ, s) SS의 계산 과정이 복잡함 SS를 간편하게 구하는 방법 SS = Σ x2 – (Σx)2/n SS / n-1 = variance (분산) = s2 n-1: degree of freedom (자유도): 모집단의 분산과 표본의 분산이 같아지기 위해서 SS를 자유도 (n-1)로 나누어 줌 (not by n): unbiased estimator (불편추정량) Variance: average of the squared deviations in the sample Sample의 unit이 mm이면 variance의 unit은 mm2 Variance가 측정치의 제곱이므로 square root를 취해야 한다 = standard deviation = s Rounding (반올림)은 final step에 수행한다
Standard deviation (σ, s)
Standard deviation (σ, s) Ex. A sample of 8 measurements 1, 2, 2, 3, 3, 4, 4, 5 SS = Σ x2 – (Σx)2/n (1+4+4+9+9+16+16+25) – (24)2/8 84 – 576/8 = 84 – 72 = 12 s2 = SS/n-1 = 12/7 = 1.7143 s = √1.7143 = 1.309
Coefficient of variation (변동계수; 변이계수) 특성이 다른 두 그룹의 standard deviation을 비교할 때 Coefficient of variation을 사용한다
Coefficient of variation Ex. 생쥐와 코끼리의 몸무게의 비교할 경우 단지 standard deviation을 비교할 경우 절대값의 차이 때문에 비교 불가능 다른 수준의 단위로 측정됨 Mean으로 standard deviation을 표준화 시킴 Mice와 elephant의 body weight의 variability가 유사하다는 것을 알 수 있다
Exercises Ex 1. For the following samples, compute the mean, median, range, sum of squares, variance, and standard deviation, coefficient of variation. What is the sample size? 2 5 3 7 8 3 9 3 10 4
Descriptive statistics from a computer
Visualizing the location of the mean and standard deviation Locations of the mean and standard deviation on a frequency distribution Male mosquito fish Mean: 21.831 SD: 2.026 Mean ± 1SD: 68.26% About 95% of the observation fall within ± 2SD units from the mean (± 1.96SD)
Homework Table A. 10의 random number를 이용하여 bluegill sunfish length (Table B.1)의 10, 20, 30 simple random samples를 측정하라 Compute the mean, median, range, sum of squares, variance, and standard deviation, coefficient of variation for the above samples. Do both by hand and with a computer. 9월 28일까지