Descriptive statistics

Slides:



Advertisements
Similar presentations
Statistics 상지대학교 1 / 22 추정 개요 점추정과 구간추정 표본크기 두 모집단의 비교.
Advertisements

기초통계. -2- 통계  통계학 (statistics)  국가산술 (state arithmetic) 불확실성이 내포된 자료의 수집, 분석, 추정, 검정을 통하여 의사결정에 필요한 정보의 획득과 처리방법을 연구하는 학문 (decision-making science)
6σ 관련 기초 통계 (1) -. 통계적사고 -. 모집단과 표본. 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일.
신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
5. 통계 1. 산포도와 표준편차.
Keller: Stats for Mgmt & Econ, 7th Ed
재료수치해석 HW # 박재혁.
Eliminating noise and other sources of error
Keller: Stats for Mgmt & Econ, 7th Ed
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
기술 통계학 (Descriptive Statistics)
공차 및 끼워맞춤.
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
CHAPTER 21 UNIVARIATE STATISTICS
제 3장. 수치를 통한 연속형 자료의 요약.
Multimedia Programming 10: Point Processing 5
제2장 기초통계 양윤권 교수.
Missing Value.
Marketing Research 제 8 장 측정의 기초
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
Medical Instrumentation
4-1 Gaussian Distribution
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
Linear Mixed Model을 이용한 분석 결과
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
(independent variable)
Descriptive statistics
Association between two measurement variables Correlation
Inferences concerning two populations and paired comparisons
Association between two measurement variables Correlation
자료의 표현.
: Two Sample Test - paired t-test - t-test - modified t-test
Statistical inference I (통계적 추론)
두 모집단에 대한 검정.
제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약.
Frequency distributions and Graphic presentation of data
Mean and Variance.
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
통계방법의 이해.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
Excel 일차 강사 : 박영민.
제3장 함수와 배열수식 전진환
Sampling Distributions
Excel 일차 강사 : 박영민.
통계해석 및 오차의 제거.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
Chapter2. 기술통계(Descriptive Statistics)
Definitions (정의) Statistics란?
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
제3장 사회조사방법의 기본개념 변수(variable): 사람, 물건, 사건 등의 특성이나 속성이 두 가지 이상의 가치(value)를 가질 때 변수라고 함. 즉 상호배타적인 속성들의 집합 1) 속성에 따른 분류 -. 명목변수(Nominal Variable): 분류에 기초를.
비교분석 보고서 Template 2015.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

Descriptive statistics

Sample statistics and population parameters 모집단의 특성을 측정한 sample의 측정치들은 특정값 (중심치)을 중심으로 모이는 경향이 있음 (central tendency; 중심경향) 이 chapter에서는 이러한 central tendency와 중심값을 중심으로 한 측정값들의 변이 (variation)의 정도 (dispersion,분산, 산포도)를 고찰

Sample statistics and population parameters Statistic (통계치) and parameter (모수) 모집단의 실제 값 (true value)은 parameter이며, sample에서 계산된 값은 statistic (통계치) 모집단에서의 random sample로부터 central tendency와 variation을 계산함. 통계치로부터 모집단의 값 (모수; parameters)을 추정함 모수는 실제로 산출하는 것이 거의 불가능하며 따라서 표본의 통계치로부터 추정하는 것이 일반적이다 Ex.) 모집단의 실제 평균값 (true mean)은 parameter이며, sample의 평균값은 statistic (통계치)가 된다

Sample statistics and population parameters Parameter (모수)는 전통적으로 Greek letters로 statistic (통계치)은 Roman letters로 표기함 Parameter Statistic Mean (평균) μ (mu) Median (중앙값) θ (theta) M Variance (분산) σ2 (sigma) s2 Standard deviation (표준편차) σ s

Measures of central tendency 다양한 값으로 모집단이나 sample의 central tendency의 대표값을 기술할 수 있다 Mode (최빈값) Median (중앙값) Mean (평균값) Measurement scale에 따라 적절한 표현 방식이 달라질 수 있다

Measures of central tendency 1. The mode (최빈값) 측정값 중 가장 빈도가 높게 나타나는 값 자료가 nominal scale로 측정되었을 경우, mode로만 대표값을 나타낼 수 있다. Ex. red: 15, white: 10, blue: 5 The mode: red 다른 scale로 측정된 data도 mode로 나타낼 수 있다

Measures of central tendency The median (중앙값) 자료를 크기순서 (from smallest to largest)로 정렬했을 때, 중앙에 위치하는 값 적어도 ordinal scale로 측정된 자료에 적용 그 값보다 큰 값의 수와 작은 값의 수가 같다 Ex. 15명의 환자의 상태 Measurement scale?, median? Ordinal scale (nominal scale??) Deteriorating (NNDDDDDDDDSSSSI) Condition Near death (위독) Deteriorating (악화) Stable (안정) Improving (호전) Frequency 2 8 4 1

Measures of central tendency The median (중앙값) Ex. 2: 2, 2, 2, 3, 4, 4, 4, 4 Median? 3.5 (the average of 3 and 4), 짝수의 data Ex. 3: 1, 2, 2, 3, 4, 10, 100, 1000 3.5 (the average of 3 and 4) 비록 마지막 3개의 값이 훨씬 넓은 범위로 분산되어 있더라도

Measures of central tendency The mean (평균값) 산술평균 (arithmetic average) 측정값들의 총합을 측정수로 나눈 값 Interval scale이나 ratio scale로 측정된 경우, 가장 일반적으로 사용하는 대표값 모집단에 속한 모든 개체를 측정하여 평균을 계산한 경우 True population mean (μ) Random sample로부터 평균을 계산한 경우 Sample mean ( ) Mean = Σx/n Sample size: n Sample mean은 true population mean의 추정값

Positions of mean, median, mode in symmetric and skewed distribution 측정치를 frequency distribution으로 나타낼 경우 Symmetric or skewed distribution을 나타낸다 Symmetric distribution (대칭분포) Mode (최빈값)을 중심으로 양쪽으로 동일하게 배열 이 경우 mean, median, mode가 같은 값에 위치 Skewed distribution (비대칭분포) 값이 한쪽으로 치우침, 한쪽은 long tail을 가짐 Mean은 long tail쪽에 치우쳐 위치 Median은 mode와 mean 사이에 위치 Tail 쪽 값 중 매우 낮은 빈도로 나타나는 값: outliers (이상치) Mean에 크게 영향을 미침

Positions of mean, median, mode in symmetric and skewed distribution

Positions of mean, median, mode in symmetric and skewed distribution Median의 유용성 in skewed distribution Ex. 한 회사에서 9명의 연봉 (in $1000s): 15, 17, 21, 21, 24, 27, 27, 31, 225 Mean? Median? Salary는 대표적인 skewed distribution Mean: $45,333 (408/9) 사장의 연봉 때문에 평균값이 다른 모든 사람보다 높은 값- 대표 값으로 의미가 있는가? Median: $24,000 사장의 연봉을 outlier로 처리하여 mean을 계산한 경우: mean = $22,875, median과 비슷함 Mean은 skewed distribution시 outlier의 영향을 많이 받음 비대칭분포 시 median이 더 유용할 수 있음

Weighted mean (가중평균) Mean은 산술평균으로 계산하지만 weighted mean이 더 유용하게 사용되는 경우도 있음 각 측정값이 다른 중요도 (weights)를 가질 경우 Weighted mean = Σfx / Σf Σfx: 측정치와 그 측정치의 빈도 (weight)를 곱한 값의 총합 Σf: 빈도의 총합 (n), total sample size

Number of credits attempted Weighted mean Ex. 학점 계산 Σf = 50, Σfx = 130 GPA = = Σfx / Σf = 130/50 = 2.60 Grade Grade value Number of credits attempted Grade point A 4 12 48 B 3 18 54 C 2 24 D 1 F

Weighted mean Ex. Frequency distribution으로부터 weighted mean 계산 Mosquito fish의 평균길이 Σf = 172, Σfx = 3744 = Σfx / Σf = 3744/172 = 21.8 mm

Measures of dispersion (분산) 생물학적 모집단에서 variable (변수)의 측정값이 모두 같을 수 없다 Variation (변이)는 자연에서 일반적으로 나타남 따라서 이 variation을 측정하는 것이 중요함 Dispersion (분산) 중심값을 중심으로 한 측정값들의 variation 중심치로부터 측정값들이 흩어져 있는 정도를 나타내는 척도 Standard deviation (표준편차), range (범위), coefficient of variation (변이계수) 등이 주로 사용됨

The range (범위) Range The difference between the largest and the smallest items in the sample 최대값과 최소값의 차 Unit (단위)는 original measurement의 unit과 같다 Ex. The largest mosquito fish: 30 mm, the smallest: 17 mm Range: 30 mm -17 mm = 13 mm Range는 하나의 극단적인 값 (a single extreme value)의 영향을 크게 받는다 Range 사용시 최대값과 최소값을 표시해 주는 것이 좋다

Standard deviation (σ, s) 주로 사용되는 변이의 측정값 각 측정치가 평균값과 얼마나 다른지를 보여주는 값 각 측정치와 평균값의 차이의 평균값 Interval scale과 ratio scale에만 적용 가능 Nominal and ordinal measurements에는 사용할 수 없다

Standard deviation (σ, s) Ex. A sample of 8 measurements 1, 2, 2, 3, 3, 4, 4, 5 Mean and standard deviation? Mean = 24/8 = 3.0 평균과 각 측정값과의 차이 (1-3, 2-3, 2-3, 3-3, 3-3, 4-3, 4-3, 5-3) -2, -1, -1, 0, 0, 1, 1, 2 위 값의 합은? 따라서 각 측정치와 평균값의 차의 평균값은? Always 0!!! 차이를 제곱하면 마이너스 값을 없앨 수 있다 차이를 제곱한 값의 합: sum of squares (SS) 측정값을 제곱한 것이 아니라 차를 제곱한 값의 합 SS = Σ (x - )2 다른 통계처리에서도 SS를 구해야 할 경우가 많이 있다

Standard deviation (σ, s) SS의 계산 과정이 복잡함 SS를 간편하게 구하는 방법 SS = Σ x2 – (Σx)2/n SS / n-1 = variance (분산) = s2 n-1: degree of freedom (자유도): 모집단의 분산과 표본의 분산이 같아지기 위해서 SS를 자유도 (n-1)로 나누어 줌 (not by n): unbiased estimator (불편추정량) Variance: average of the squared deviations in the sample Sample의 unit이 mm이면 variance의 unit은 mm2 Variance가 측정치의 제곱이므로 square root를 취해야 한다 = standard deviation = s Rounding (반올림)은 final step에 수행한다

Standard deviation (σ, s)

Standard deviation (σ, s) Ex. A sample of 8 measurements 1, 2, 2, 3, 3, 4, 4, 5 SS = Σ x2 – (Σx)2/n (1+4+4+9+9+16+16+25) – (24)2/8 84 – 576/8 = 84 – 72 = 12 s2 = SS/n-1 = 12/7 = 1.7143 s = √1.7143 = 1.309

Coefficient of variation (변동계수; 변이계수) 특성이 다른 두 그룹의 standard deviation을 비교할 때 Coefficient of variation을 사용한다

Coefficient of variation Ex. 생쥐와 코끼리의 몸무게의 비교할 경우 단지 standard deviation을 비교할 경우 절대값의 차이 때문에 비교 불가능 다른 수준의 단위로 측정됨 Mean으로 standard deviation을 표준화 시킴 Mice와 elephant의 body weight의 variability가 유사하다는 것을 알 수 있다

Exercises Ex 1. For the following samples, compute the mean, median, range, sum of squares, variance, and standard deviation, coefficient of variation. What is the sample size? 2 5 3 7 8 3 9 3 10 4

Descriptive statistics from a computer

Visualizing the location of the mean and standard deviation Locations of the mean and standard deviation on a frequency distribution Male mosquito fish Mean: 21.831 SD: 2.026 Mean ± 1SD: 68.26% About 95% of the observation fall within ± 2SD units from the mean (± 1.96SD)

Homework Table A. 10의 random number를 이용하여 bluegill sunfish length (Table B.1)의 10, 20, 30 simple random samples를 측정하라 Compute the mean, median, range, sum of squares, variance, and standard deviation, coefficient of variation for the above samples. Do both by hand and with a computer. 9월 28일까지