The normal distribution (정규분포)

Slides:



Advertisements
Similar presentations
Statistics 상지대학교 1 / 22 추정 개요 점추정과 구간추정 표본크기 두 모집단의 비교.
Advertisements

6σ 관련 기초 통계 (1) -. 통계적사고 -. 모집단과 표본. 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일.
신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
이항분포와 정규분포 이항분포 정규분포.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
Eliminating noise and other sources of error
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
확률분포의 개념 미분과 적분의 개념을 사전에 공부한다.
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
의료의 질 평가 분석 기법 김 민 경.
표본 이론.
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
비모수 분석 및 복습.
CHAPTER 21 UNIVARIATE STATISTICS
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
확률통계론 2장 : 확률변수.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
상관분석 (p , p ).
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
4-1 Gaussian Distribution
Keller: Stats for Mgmt & Econ, 7th Ed
1.4 중첩된 한정기호 (Nested Quantifiers) 이산수학 (Discrete Mathematics)
Week 10:확률변수(Random Variable)
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
(independent variable)
Descriptive statistics
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Inferences concerning two populations and paired comparisons
Association between two measurement variables Correlation
Metal Forming CAE Lab., Gyeongsang National University
자료의 표현.
Probability.
Statistical inference I (통계적 추론)
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
The normal distribution (정규분포)
Chapter Ⅱ. 연구 설계.
■ 척도의 종류 : 변도(variance)를 나타내는 수치들이 가지는 특성에 따라 측정수준에 따른 분류 → 척도분류
Distribution(모의 실험에 자주 쓰이는 분포들)
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
감마분포 gamma distribution
Sampling Distributions
기초 통계학 지도위원 이광희.
통계해석 및 오차의 제거.
Chapter 3: 확률변수와 분포함수 Pilsung Kang
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
상관계수.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
Statistics Prof. Seewhy Lee.
이산수학(Discrete Mathematics)  술어와 한정기호 (Predicates and Quantifiers)
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

The normal distribution (정규분포)

Normal distribution Normal distribution (정규분포) Continuous probability distribution (연속확률분포) Heights, weights, 생산량 등의 continuous variables (연속변수)이 이러한 분포를 보임 값의 범위가 충분히 클 경우 많은 discrete variables (불연속변수,이산변수)도 정규분포를 따른다 많은 경우 확률을 쉽게 결정하기 위해 normal distribution을 이용한다 따라서 normal distribution은 많은 통계처리 (t-test, ANOVA, regression analysis) 의 기초가 된다

Normal distribution and its properties Continuous measurement variables에서는 특정 범위 내의 어떤 값이든 추정할 수 있다 따라서 sample size가 아주 커질 경우 histogram은 smooth curve가 된다 이러한 곡선을 나타내는 probability distribution을 normal probability distribution (정규확률분포)라 한다 좌우대칭의 종모양의 곡선 Population mean: μ 좌우 무한대 (±∞)로 뻗어나가면 x축에 접근

Properties of the normal distribution (정규분포의 특성) 1. The distribution은 mean (μ)과 standard deviation (σ)로 정의된다 x 축 상의 위치는 mean (μ) 에 의해, 곡선의 퍼짐은 standard deviation (σ)에 의해 결정된다 이러한 parameters의 값은 무한하므로 무한한 종류의 normal distribution이 존재한다 A, B: different means, same variance B, C: same mean, different variances

Properties of the normal distribution 2. 연속확률변수의 경우 값 x를 취할 확률은 정의될 수 없다 Ex. 신생아의 체중이 동일할 경우는 불가능, 따라서 모집단은 무한모집단을 형성하고 무한한 값들 중에서 특정 값 x를 취할 확률은 1/∞ (= 0) y 축의 값은 probability density function (확률밀도함수), f(x)로 나타낼 수 있다: μ 와 σ로 결정 (π = 3.1416, e = 2.7183) y 값이 확률이 아님 (no dimension and no width) 값 x에 대한 확률 (probability): x에 매우 가까운 두 값 사이에 놓인 곡선의 면적으로 값 x의 확률을 구한다 (using integral calculus; 적분)

Properties of the normal distribution 3. 곡선은 mean 값을 중심으로 완벽하게 좌우 대칭이다 따라서 mean과 median (중앙값)이 같다 4. One standard deviation above the mean이 모집단의 속한 모든 개체의 34.13%를 포함하며, one standard deviation below the mean이 또한 모든 개체의 34.13%를 포함한다 따라서 mean ± 1SD가 모집단에 속한 모든 개체의 68.26%를 포함한다 Random sample된 어떤 x 값이 means ± 1SD에 속할 확률은 0.6826이다

Properties of the normal distribution 4. mean± 2SD는 95.46%를 the mean ± 3SD는 99.73%를 포함한다 Normal curve가 차지하는 총면적은 1이다

The standard normal distribution and z scores (표준정규분포) 무한한 종류의 means와 standard deviation이 존재하므로 무한한 종류의 normal distributions이 존재한다 따라서 정규분포를 하는 변수에 대한 확률은 평균과 표준편차에 따라 개별적으로 추정될 수 밖에 없다 (확률밀도함수) 이러한 번거로움을 모든 정규분포를 하나의 표준형으로 변형시켜 극복 Standard normal distribution (표준정규분포): 모든 정규 분포를 동일한 평균과 분산을 가진 분포로 표준화한 정규분포 Mean = 0; Standard deviation = 1 Table A. 1 in the appendix: standard normal curve의 proportion (면적 비)을 보여준다

The standard normal distribution and z scores 정규분포를 하는 확률변수 x의 확률분포는 확률변수 x를 확률변수 z로 변환함으로써 표준화됨 따라서 표준정규분포에서 확률을 추정할 수 있어 각 정규분포의 평균과 표준편차에 따라 각각의 확률분포를 추정하는 번거로움을 피할 수 있다 확률변수 x가 평균이 μ, 분산이 σ2 인 정규분포를 한다면 새로운 확률변수 z: z = (x – μ)/ σ 확률변수 z의 평균은 0, standard deviation은 1로 표준화된다 z score는 표준정규분포에서 mean값에서 얼마나 떨어져 있는지를 의미한다 정규분포의 표준편차와 같은 의미 Table A. 1 in the appendix: standard normal curve의 proportion (면적 비)을 보여준다

The standard normal distribution and Z scores Ex. 6.1: 특정 대학의 일반생물학을 수강하는 학생의 키를 조사 (n = 414) 전체학생의 키를 측정 Mean height = 166.8 cm, standard deviation = 6.4 cm This mean과 standard deviation은 parameters (모수) or statistics (통계치)?? Parameters Question 1: 키가 170 cm 인 학생의 z score는? z = (x – μ)/σ = (170 – 166.8)/6.4 = 0.5 Question 2: 170 cm 이하의 키를 가진 학생은 몇 %인가? (Table A. 1을 이용)

The standard normal distribution and Z scores The shaded area of the curve는 mean 과 z value 사이에 해당하는 standard normal distribution의 proportion을 의미한다 In Table A.1, z score 0.50에 해당하는 값: 0.1915 Mean과 z score 0.5 사이에 해당하는 proportion이 0.1915라는 의미 166.8 cm – 170 cm: 전체학생의 19.15% 정규분포는 완전한 좌우대칭, 따라서 mean 이하에 해당하는 proportion 이 0.5 (166.8 cm 이하인 학생은 전체의 50%) 따라서 170 cm 이하의 학생의 proportion? 0.1915 + 0.5 = 0.6915 (69.15%)

The standard normal distribution and z scores Question 3: 163.6 cm 보다 작은 학생들의 비율은?

The standard normal distribution and z scores Question 4: 160 cm – 170 cm 사이의 학생들의 비율은?

The standard normal distribution and Z scores Question 5: 모집단의 0.95 (95%)에 해당하는 키의 범위를 구하라.

Exercises Question 1: 송사리의 크기 The mean length of the population: 34.29 mm The standard deviation: 5.49 mm 1. 이 population에서 50 mm 이상의 개체가 채집될 확률은?

Homework 1. 이 population에서 25 mm 이하의 개체가 채집될 확률은? 2. 이 population에서 30 mm 에서 40 mm 사이의 개체가 채집될 확률은? 3. 이 population의 95%를 포함하는 length의 범위는?

Testing for normality 대부분의 statistical tests는 variables (변수)이 normal distribution을 하고 있다는 것을 가정한다 적어도 approximately (근사적) normally distributed 많은 biological variables는 normally distributed 그러나 normal distribution을 하고 있다는 것을 객관적인 방법으로 보여주어야 한다 한가지 방법: frequency distribution을 분석함으로써 normal distribution을 하고 있다는 것을 보여줄 수 있다

Testing for normality Ex. 남자의 키 (in cm), n = 148 Histogram using a class interval of 5 cm Histogram이 more or less bell-shaped 그리고 전체적인 모양이 normal distribution처럼 보임 그러나 더 나은 방법이 필요

Testing for normality Probability plot을 이용하면 normal distribution을 더 명확히 알 수 있다 Probability plot y-axis: 누적 frequency x-axis: original measurement variable Normal distribution을 할 경우 straight line 손으로 plotting 하는 것이 쉽지 않음 Normality을 검정하는 많은 통계 program이 있음

Testing for normality Figure 6.8: Anderson Darling test를 이용 p > 0.05 보다 클 경우 normal distribution 이 경우 p = 0.201, 따라서 normal distribution

Parametric and nonparametric statistics 모수검정 과 비모수검정 주로 사용하는 대부분의 통계처리들은 몇 가지 중요한 가정 (assumptions)을 만족해야 함 1. the variable is at least approximately normally distributed 2. the variable is measured on an interval or ratio scale 위 두 조건을 만족할 경우 Parametric test를 적용할 수 있다 Parametric test는 normal distribution을 이용하므로 위 조건을 만족하지 못할 경우 Nonparametric test를 사용해야 함 Ordinal scale로 측정된 data에 유용

Normal approximation (정규근사) of the binominal distribution 이항분포에서 k (number of case)가 아주 클 경우 확률계산이 tedious Normal distribution으로 해결 가능 k가 상당히 크고 p가 0 or 1에 너무 가깝지 않을 경우 binominal distribution은 normal distribution과 유사하게 된다 Fairly large?? k × p and k × q, 둘 다 5이상일 경우

Normal approximation of the binominal distribution Ex. 6.2: 남자:여자의 비율이 1:1로 알려진 집단에서 25명을 추출했을 때 이 중 남자가 8명 이하일 확률은? k = 25, p = 0.5, q = 0.5, x = 8 이하 9번을 계산해야 함! (x = 0, 1, 2, …..8),그리고 각 확률을 합산 Entire probability distribution: Fig, 6.9

Normal approximation of the binominal distribution Both k × p and k × q: 12.5 Normal distribution을 이용할 수 있다 Binomial variables Mean (μ) = kp; σ = √kpq μ = 25 × 0.5 = 12.5, σ = √kpq = √ 25 × 0.5 × 0.5 = 2.5 8의 z score: z = (8 – 12.5)/2.5 = -1.8 In Table A.1: z score 1.8 = 0.4641 8이하의 확률: 0.5 – 0.4641 = 0.0359 Computer program으로 계산한 값: 0.0322: 비슷함 z = (x – kp)/ √kpq

Exercises Question 2: Red-bellied snakes 이 뱀은 회색 뱀과 붉은색 뱀이 존재 회색 뱀과 붉은색 뱀의 비율: 53:47 1. 이 population에서 25마리의 뱀을 채집했을 때 회색 뱀이 10마리 이하일 확률은?

Homework 1. 이 population에서 30마리의 뱀을 채집했을 때 회색 뱀이 15마리 이하일 확률은?