The normal distribution (정규분포)

Slides:



Advertisements
Similar presentations
19 장. 보건통계 (Public Health Statistics). 제 1 절. 보건통계의 정의 ▶ 보건통계의 의미 1. 지역사회나 국가의 보건 수준및 보건 상태 2. 보건사업의 필요성 결정 3. 보건입법을 촉구하며, 보건사업에 대한 공공지원을 촉진하게 할수 있음 4.
Advertisements

적화, 적과를 할 때 액화, 액과 따기의 중요성 前 이바라기현 과수협회장 구로다 야스마사.
전자통신연구실 1 확률과 랜덤 해석 잡음 분석 확률 - 실험 (experiment) - 결과 (outcome) - 사건 (event)
신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
표 및 그래프 작성.
Eliminating noise and other sources of error
Keller: Stats for Mgmt & Econ, 7th Ed
Chapter 3 데이터와 신호 (Data and Signals).
기술 통계학 (Descriptive Statistics)
2장. 데이터의 시각적 묘사.
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
상관분석(Correlation Analysis)
Classification of PD Patterns in XLPE Cables Under Various
4-4 Comparison of Standard Deviations with the F test
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
실습 (using SPSS) Department of Biostatistics, Samsung Biomedical Research Institute Samsung Medical Center.
선형회귀분석.
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
Medical Instrumentation
CHAPTER 21 UNIVARIATE STATISTICS
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
패턴인식 개론 Ch.5 확률 변수와 확률 분포.
8차시: 측정시스템 분석(MSA) 학 습 목 표 학 습 내 용 1. 측정시스템 분석(MSA) 개념 이해
Cluster Analysis (군집 분석)
Marketing Research 제 8 장 측정의 기초
MINITAB for Six Sigma.
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
Medical Instrumentation
4-1 Gaussian Distribution
PCA Lecture 9 주성분 분석 (PCA)
확 률 변 수 2 1 이산확률변수 2 연속확률변수 3 기대값.
Multimedia Programming 10: Unsharp Masking/ Histogram Equalization
Keller: Stats for Mgmt & Econ, 7th Ed 그래프와 표를 이용한 기술통계학 기법
Week 10:확률변수(Random Variable)
4. 도표 다루기.
Other ANOVA designs Two-way ANOVA
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
경제통계학 개요 사공 용 서강대학교 경제학과.
Association between two measurement variables Correlation
Inferences concerning two populations and paired comparisons
Keller: Stats for Mgmt & Econ, 7th Ed
Association between two measurement variables Correlation
: Two Sample Test - paired t-test - t-test - modified t-test
비, 비율, 퍼센트 실과교육과 김 화 민.
Statistical inference I (통계적 추론)
제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약.
Frequency distributions and Graphic presentation of data
Machine Learning using Neural Networks
측정과 척도 경영학과 최동훈 소프트웨어학부 유제민 경영학과 정지송
사용자 경험 측정 (Measuring User Experience)
Chapter Ⅱ. 연구 설계.
■ 척도의 종류 : 변도(variance)를 나타내는 수치들이 가지는 특성에 따라 측정수준에 따른 분류 → 척도분류
2015년도 2학기 제 5 장 자료의 수집 : 실험 마케팅조사.
Chapter 4: 통계적 추정과 검정 Pilsung Kang
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
Week 13:가설검정(Hypothesis Testing)
Definitions (정의) Statistics란?
가을에 만날 수 있는 곤충.
제3장 사회조사방법의 기본개념 변수(variable): 사람, 물건, 사건 등의 특성이나 속성이 두 가지 이상의 가치(value)를 가질 때 변수라고 함. 즉 상호배타적인 속성들의 집합 1) 속성에 따른 분류 -. 명목변수(Nominal Variable): 분류에 기초를.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
세포는 어떻게 분열할까? 학습 주제 <들어가기> 양파를 물이 담긴 유리컵에 기르면 뿌리가
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
Progress Seminar 이준녕.
Progress Seminar 신희안.
Presentation transcript:

The normal distribution (정규분포)

Normal distribution Normal distribution (정규분포) Continuous probability distribution (연속확률분포) Heights, weights, 생산량 등의 continuous variables (연속변수)이 이러한 분포를 보임 값의 범위가 충분히 클 경우 많은 discrete variables (불연속변수,이산변수)도 정규분포를 따른다 많은 경우 확률을 쉽게 결정하기 위해 normal distribution을 이용한다 따라서 normal distribution은 많은 통계처리 (t-test, ANOVA, regression analysis) 의 기초가 된다

Normal distribution and its properties Continuous measurement variables에서는 특정 범위 내의 어떤 값이든 추정할 수 있다 따라서 sample size가 아주 커질 경우 histogram은 smooth curve가 된다 이러한 곡선을 나타내는 probability distribution을 normal probability distribution (정규확률분포)라 한다 좌우대칭의 종모양의 곡선 Population mean: μ 좌우 무한대 (±∞)로 뻗어나가면 x축에 접근

Properties of the normal distribution 1. The distribution은 mean (μ)과 standard deviation (σ)로 정의된다 x 축 상의 위치는 mean (μ) 에 의해, 곡선의 퍼짐은 standard deviation (σ)에 의해 결정된다 이러한 parameters의 값은 무한하므로 무한한 종류의 normal distribution이 존재한다 A, B: different means, same variance B, C: same mean, different variances

Properties of the normal distribution 2. 연속확률변수의 경우 값 x를 취할 확률은 정의될 수 없다 Ex. 신생아의 체중이 동일할 경우는 불가능, 따라서 모집단은 무한모집단을 형성하고 무한한 값들 중에서 특정 값 x를 취할 확률은 1/∞ (= 0) y 축의 값은 probability density function (확률밀도함수), f(x)로 나타낼 수 있다: μ 와 σ로 결정 (π = 3.1416, e = 2.7183) y 값이 확률이 아님 (no dimension and no width) 값 x에 대한 확률 (probability): x에 매우 가까운 두 값 사이에 놓인 곡선의 면적으로 값 x의 확률을 구한다 (using integral calculus)

Properties of the normal distribution 3. 곡선은 mean 값을 중심으로 완벽하게 좌우 대칭이다 따라서 mean과 median (중앙값)이 같다 4. One standard deviation above the mean이 모집단의 속한 모든 개체의 34.13%를 포함하며, one standard deviation below the mean이 또한 모든 개체의 34.13%를 포함한다 따라서 mean ± 1SD가 모집단에 속한 모든 개체의 68.26%를 포함한다 Random sample된 어떤 x 값이 means ± 1SD에 속할 확률은 0.6826이다

Properties of the normal distribution 4. mean± 2SD는 95.46%를 the mean ± 3SD는 99.73%를 포함한다 Normal curve가 차지하는 총면적은 1이다

The standard normal distribution and z scores (표준정규분포) 무한한 종류의 means와 standard deviation이 존재하므로 무한한 종류의 normal distributions이 존재한다 따라서 정규분포를 하는 변수에 대한 확률은 평균과 표준편차에 따라 개별적으로 추정될 수 밖에 없다 (확률밀도함수) 이러한 번거로움을 모든 정규분포를 하나의 표준형으로 변형시켜 극복 Standard normal distribution (표준정규분포): 모든 정규 분포를 동일한 평균과 분산을 가진 분포로 표준화한 정규분포 Mean = 0; Standard deviation = 1 Table A. 1 in the appendix: standard normal curve의 proportion (면적 비)을 보여준다

The standard normal distribution and z scores 정규분포를 하는 확률변수 x의 확률분포는 확률변수 x를 확률변수 z로 변환함으로써 표준화됨 따라서 표준정규분포에서 확률을 추정할 수 있어 각 정규분포의 평균과 표준편차에 따라 각각의 확률분포를 추정하는 번거로움을 피할 수 있다 확률변수 x가 평균이 μ, 분산이 σ2 인 정규분포를 한다면 새로운 확률변수 z: z = (x – μ)/ σ 확률변수 z의 평균은 0, standard deviation은 1로 표준화된다 z score는 표준정규분포에서 mean값에서 얼마나 떨어져 있는지를 의미한다 정규분포의 표준편차와 같은 의미 Table A. 1 in the appendix: standard normal curve의 proportion (면적 비)을 보여준다

The standard normal distribution and Z scores Ex. 6.1: 특정 대학의 일반생물학을 수강하는 학생의 키를 조사 (n = 414) 전체학생의 키를 측정 Mean height = 166.8 cm, standard deviation = 6.4 cm This mean과 standard deviation은 parameters (모수) or statistics (통계치)?? Parameters Question 1: 키가 170 cm 인 학생의 z score는? z = (x – μ)/σ = (170 – 166.8)/6.4 = 0.5 Question 2: 170 cm 이하의 키를 가진 학생은 몇 %인가? (Table A. 1을 이용)

The standard normal distribution and Z scores The shaded area of the curve는 mean 과 z value 사이에 해당하는 standard normal distribution의 proportion을 의미한다 In Table A.1, z score 0.50에 해당하는 값: 0.1915 Mean과 z score 0.5 사이에 해당하는 proportion이 0.1915라는 의미 166.8 cm – 170 cm: 전체학생의 19.15% 정규분포는 완전한 좌우대칭, 따라서 mean 이하에 해당하는 proportion 이 0.5 (166.8 cm 이하인 학생은 전체의 50%) 따라서 170 cm 이하의 학생의 proportion? 0.1915 + 0.5 = 0.6915 (69.15%)

The standard normal distribution and z scores Question 3: 163.6 cm 보다 작은 학생들의 비율은?

The standard normal distribution and z scores Question 4: 160 cm – 170 cm 사이의 학생들의 비율은?

The standard normal distribution and Z scores Question 5: 모집단의 0.95 (95%)에 해당하는 키의 범위를 구하라.

Exercises Question 1: 송사리의 크기 The mean length of the population: 34.29 mm The standard deviation: 5.49 mm 1. 이 population에서 50 mm 이상의 개체가 채집될 확률은?

Homework 1. 이 population에서 25 mm 이하의 개체가 채집될 확률은? 2. 이 population에서 30 mm 에서 40 mm 사이의 개체가 채집될 확률은? 3. 이 population의 95%를 포함하는 length의 범위는?

Testing for normality 대부분의 statistical tests는 variables (변수)이 normal distribution을 하고 있다는 것을 가정한다 적어도 approximately (근사적) normally distributed 많은 biological variables는 normally distributed 그러나 normal distribution을 하고 있다는 것을 객관적인 방법으로 보여주어야 한다 한가지 방법: frequency distribution을 분석함으로써 normal distribution을 하고 있다는 것을 보여줄 수 있다

Testing for normality Ex. 남자의 키 (in cm), n = 148 Histogram using a class interval of 5 cm Histogram이 more or less bell-shaped 그리고 전체적인 모양이 normal distribution처럼 보임 그러나 더 나은 방법이 필요

Testing for normality Probability plot을 이용하면 normal distribution을 더 명확히 알 수 있다 Probability plot y-axis: 누적 frequency x-axis: original measurement variable Normal distribution을 할 경우 straight line 손으로 plotting 하는 것이 쉽지 않음 Normality을 검정하는 많은 통계 program이 있음

Testing for normality Figure 6.8: Anderson Darling test를 이용 p > 0.05 보다 클 경우 normal distribution 이 경우 p = 0.201, 따라서 normal distribution

Parametric and nonparametric statistics 모수검정 과 비모수검정 주로 사용하는 대부분의 통계처리들은 몇 가지 중요한 가정 (assumptions)을 만족해야 함 1. the variable is at least approximately normally distributed 2. the variable is measured on an interval or ratio scale 위 두 조건을 만족할 경우 Parametric test를 적용할 수 있다 Parametric test는 normal distribution을 이용하므로 위 조건을 만족하지 못할 경우 Nonparametric test를 사용해야 함 Ordinal scale로 측정된 data에 유용

Normal approximation (정규근사) of the binominal distribution 이항분포에서 k (number of case)가 아주 클 경우 확률계산이 tedious Normal distribution으로 해결 가능 k가 상당히 크고 p가 0 or 1에 너무 가깝지 않을 경우 binominal distribution은 normal distribution과 유사하게 된다 Fairly large?? k × p and k × q, 둘 다 5이상일 경우

Normal approximation of the binominal distribution Ex. 6.2: 남자:여자의 비율이 1:1로 알려진 집단에서 25명을 추출했을 때 이 중 남자가 8명 이하일 확률은? k = 25, p = 0.5, q = 0.5, x = 8 이하 9번을 계산해야 함! (x = 0, 1, 2, …..8),그리고 각 확률을 합산 Entire probability distribution: Fig, 6.9

Normal approximation of the binominal distribution Both k × p and k × q: 12.5 Normal distribution을 이용할 수 있다 Binomial variables Mean (μ) = kp; σ = √kpq μ = 25 × 0.5 = 12.5, σ = √kpq = √ 25 × 0.5 × 0.5 = 2.5 8의 z score: z = (8 – 12.5)/2.5 = -1.8 In Table A.1: z score 1.8 = 0.4641 8이하의 확률: 0.5 – 0.4641 = 0.0359 Computer program으로 계산한 값: 0.0322: 비슷함 z = (x – kp)/ √kpq

Exercises Question 2: Red-bellied snakes 이 뱀은 회색 뱀과 붉은색 뱀이 존재 회색 뱀과 붉은색 뱀의 비율: 53:47 1. 이 population에서 25마리의 뱀을 채집했을 때 회색 뱀이 10마리 이하일 확률은?

Homework 1. 이 population에서 30마리의 뱀을 채집했을 때 회색 뱀이 15마리 이하일 확률은?