Chapter 3: 확률변수와 분포함수 Pilsung Kang

Slides:



Advertisements
Similar presentations
Statistics 상지대학교 1 / 22 추정 개요 점추정과 구간추정 표본크기 두 모집단의 비교.
Advertisements

6σ 관련 기초 통계 (1) -. 통계적사고 -. 모집단과 표본. 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일.
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Ⅱ 세포의 주기와 생명의 연속성 Ⅱ 세포의 주기와 생명의 연속성 - 1. 세포주기와 세포분열.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
(Basic Statistics & Minitab)
이항분포와 정규분포 이항분포 정규분포.
표본분포.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
기초통계학.
패턴인식 개론 Ch.4 기초 통계와 확률 이론 Translated from “CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | “
수문통계분석 담당교수명 : 서 영 민 연 락 처 :
6σ를 위한 알기 쉬운 기초통계 Histogram 이항분포의 정규 근사 정규분포(n ≥30) t (5) :자유도 5인 t 분포
확률분포의 개념 미분과 적분의 개념을 사전에 공부한다.
제 4 장 여러 가지 분포.
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
표본 이론.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
제 19 장 유의성 검정 가설검정의 원리 귀무가설과 대립가설 검정통계량과 유의수준 제1종 오류와 제2종 오류 유의성 검정절차
결 합 확 률 분 포 3 1 결합확률분포 2 조건부확률분포 3 결합분포에 대한 기대값.
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
확률통계론 2장 : 확률변수.
Chapter 11 위험과 수익률, 기회자본비용의 개요.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
제9 강 표준정규분포 학습목표: 표준정규분포의 이해 학습내용: 표준정규분포의 계산방법과 실습 지난강의
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
Keller: Stats for Mgmt & Econ, 7th Ed
군집 분석.
Linear Mixed Model을 이용한 분석 결과
(independent variable)
이번 학기 공부할 내용 확률 확률변수 결합확률분포 이산확률분포 연속확률분포 기술통계학 표본분포 추정 가설검정 이재원
9장 모집단이 한 개인 경우의 통계적 추론 2019년 4월 6일 오후 2시 22분2019년 4월 6일 오후 2시 22분
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
자료의 표현.
연 속 확 률 분 포 5 1 균등분포 2 지수분포 3 감마분포 4 정규분포.
Probability.
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
고급행정통계 –표본분포, 통계적 추정 한 모집단
Distribution(모의 실험에 자주 쓰이는 분포들)
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
감마분포 gamma distribution
Chapter 4: 통계적 추정과 검정 Pilsung Kang
Sampling Distributions
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
기초 통계학 지도위원 이광희.
통계해석 및 오차의 제거.
Ⅵ. 확 률 1. 확 률 2. 확률의 계산.
결 합 확 률 분 포 3 1 결합확률분포 2 조건부확률분포 3 결합분포에 대한 기대값.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
실습 : Sampling / Excel macro
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
Energy Band (고체속의 전자구조)에 대해서 쉬운 얘기를 한 후에 Bloch state 로 다시 돌아 가겠습니다.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

Chapter 3: 확률변수와 분포함수 Pilsung Kang Industrial & Information Systems Engineering Seoul National University of Science & Technology

2011 Data Analysis Tool, IISE, SNUT 표본 공간과 확률 분포(1/2) 표본 공간 (Sample space) 통계적 실험이나 조사에서 모든 가능한 실현 결과들의 집합. 실험: 동전 3회 반복 던지기 확률 변수 X: 표본 공간 S에서 정의된 실수 값 함수 (앞면의 횟수) 표본 공간 확률 분포표 S X P(X=x) {TTT} 1/8 {HTT, THT, TTH} 1 3/8 {HHT, HTH, THH} 2 {HHH} 3

2011 Data Analysis Tool, IISE, SNUT 표본 공간과 확률 분포(2/2) 확률 분포 이산 확률 변수 (discrete random variable) 동전을 두 번 던져서 나오는 앞면의 수 주사위를 한 번 던져서 나오는 눈의 값 연속 확률 변수 적절한 구간 내의 연속적인 모든 값을 가질 수 있는 변수 키, 몸무게, 대기 시간 등

2011 Data Analysis Tool, IISE, SNUT 이산 확률 분포 확률 질량 함수 (probability mass function) 이산확률변수가 가질 수 있는 각각의 값에 대하여 확률 P(X=x1) = f(x1), P(X=x2) = f(x2), … 를 대응시켜 주는 함수 확률 질량 함수의 성질

2011 Data Analysis Tool, IISE, SNUT 연속 확률 분포 확률 밀도 함수 (probability density function) X축: 확률 변수의 값 Y축: 확률변수의 값이 일정구간에 포함될 확률 확률 밀도 함수의 성질

2011 Data Analysis Tool, IISE, SNUT 기대값과 분산 2회 동전 던지기 게임 앞면이 0번: 상대방에게 5,000원 지급 앞면이 1번: 상대방으로부터 1,000원 지급 앞면이 2번: 상대방으로부터 2,000원 지급 게임을 여러 번 반복할 때, 평균적으로 어느 정도 이득이 발생할 것인가? 금액 X에 대한 확률 분포 기대 이득 (-5,000)*0.25+(1,000)*0.5+(2,000)*0.25 = -250 X -5,000 1,000 2,000 P(X=x) 1/4 2/4

2011 Data Analysis Tool, IISE, SNUT 기대값과 분산 기대값 (Expected value, E(X), μ) 확률변수 X에 대해 확률을 가중치로 하여 계산된 가중평균 분산 (variance, σ2) (X- μ)2의 기대값, 확률변수 X의 분포가 평균 μ로부터 떨어진 정도 이산확률변수의 기대값과 분산 연속확률변수의 기대값과 분산

2011 Data Analysis Tool, IISE, SNUT 기대값과 분산의 성질 기대값의 성질 분산의 성질

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 1: 이항분포 베르누이 시행 (Bernoulli trial) 매 번의 시행에서 오직 두 가지의 상호배반인 결과 중 어느 하나만 나타난다. (성공 & 실패) ‘성공’의 확률이 p이고 이 값은 어느 시행에서나 변하지 않는다 (실패의 확률은 q=1-p). 어느 한 시행결과가 다른 시행결과에 영향을 미치지 않는다. 즉, 두 시행은 서로 독립이다.

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 1: 이항분포 이항분포 (Binomial distribution) N번의 베르누이 시행에서 성공이 나타내는 횟수에 대한 분포 확률질량함수: B(n,p) 평균과 분산

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 1: 이항분포 동전 던지기 4회 동전 던지기 실시, 확률변수 X = 앞면이 나타나는 수 n=4, p=1/2 확률 질량 함수 앞면이 나타나는 수의 확률 분포

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 1: 이항분포 평균과 분산 μ=np=4*(1/2)=2, σ2=np(1-p)=4*(1/2)*(1/2)=1

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 1: 이항분포

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 2: 초기하분포 복원 추출 vs. 비복원 추출 주머니 속에 흰공 7개, 검은공 3개 흰공이 나올 확률 = 7/10 복원 추출 첫 번째 공의 색을 확인한 뒤, 그 공을 다시 주머니에 넣음. 두 번째 공이 흰공일 확률 = 7/10 비복원 추출 첫 번째 공의 색을 확인한 뒤, 그 공을 다시 주머니에 넣지 않음. 두 번째 공이 흰공일 확률 첫 번째 공이 흰공 = 6/9 두 번째 공이 검은공 = 7/9

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 2: 초기하분포 초기하분포 (Hypergeometric distribution) 확률 변수 X: N개로 구성된 모집단에서 A개가 ‘성공’이고 나머지 N-A개가 ‘실패’인 경우, N개 중에서 n개를 비복원추출하였을 때, 그 중 ‘성공’ 횟수 확률질량함수: HG(N,A,n) 평균과 분산

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 3: 포아송분포 포아송 분포 (Poisson distribution) 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예, 1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정해야 한다. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적이다. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례한다. 포아송 분포와 이항분포 포아송 분포는 ‘성공’이 일어나는 확률이 아주 작은 이항분포로부터 유도 B(n,p)에서 n이 매우 크고 p가 0에 가까운 경우

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 3: 포아송분포 포아송 분포 확률질량함수: P(μ) 평균과 분산

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 3: 포아송분포 포아송 분포 예시 생명보험사 보험가입자 수: 150,000명 보험가입자가 일주일 동안 보험금을 지급받을 확률 = 0.001% (일주일 평균 1.5명이 지급받음) X: 사고로 보험금을 지급할 건수

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 3: 포아송분포 포아송 분포 예시

2011 Data Analysis Tool, IISE, SNUT 이산형 확률분포 3: 포아송분포

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 1: 정규분포 정규 분포

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 1: 정규분포 정규 분포의 특징 자연 현상이나 사회 현상에서의 측정값들의 분포 중 많은 것들이 정규 분포와 유사한 형태를 가짐 (사람의 키, 나무 열매의 길이, 제품의 크기). 정규 분포를 따르지 않는 측정값들에 대해서도 제곱근이나 로그변환 등의 방법을 통해 정규분포에 근사하도록 유도할 수 있음. 수리적으로 다루기 쉬우며, 정규 분포 가정 하에서 유도되는 수리통계학적 결과는 그 확률변수가 정규분포를 따르지 않는 경우에 대해서도 유용하게 활용될 수 있음. 정규분포를 따르지 않는 측정값들에 대해서도 표본의 크기가 큰 경우 표본평균은 근사적으로 정규분포를 따름.

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 1: 정규분포 정규 분포의 특징 μ: 위치 모수 (location parameter), σ: 척도 모수 (scale parameter)

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 1: 정규분포 정규 분포의 성질 X ~ N(μ, σ2)일 때, 상수 a와 b에 대하여 X1 ~ N(μ1, σ12), X2 ~ N(μ2, σ22)이고, X1과 X2가 서로 독립일 때

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 2: 표준정규분포 표준 정규 분포 평균이 0이고 표준편차가 1인 정규분포. 평균이 μ이고 표준편차가 σ인 정규분포는 다음과 같은 변환을 통해 표준정규분포로 변환 가능. 표준화를 통해 일반 정규분포에서 특정 값의 범위에 속할 확률을 표준정규분포로부터 구할 수 있음.

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 2: 표준정규분포 표준화 예시 초등학교 학생의 몸무게 X ~ N(42,52) 한 학생을 무작위로 추출했을 때, 학생의 몸무게가 40kg에서 54kg사이에 속할 확률

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 2: 표준정규분포 표준화 예시 표준정규분포에서 P(a < Z < b)의 확률

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 2: 표준정규분포

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 3: 표본분포 표본 분포 평균(기대값)이 μ이고 표준편차가 σ인 모집단으로부터 크기 n인 확률 표본 x1, x2, …,xn을 추출 모집단의 분포와 관계 없이 항상 다음 관계가 성립 표본 평균( )은 모평균 ( )의 불편추정치 (unbiased estimator) 표본 분산( )은 모분산( )의 불편추정치 표본 평균의 표준 오차

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 3: 표본분포 표본 분포 표본 평균 의 평균은 모집단의 평균과 같으며, 표본크기 n이 클수록 그 분산이 0에 가까워져, 결국 표본의 크기가 클 때 는 모집단의 평균인 근처에 밀집되어 분포한다. 모집단의 분포가 정규분포이면 는 정규분포 을 따르며, 다음과 같은 정규변환을 통해 평균이 0이고 표준편차가 1인 표준정규분포를 따른다.

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 3: 표본분포 표본 분포: 중심 극한 정리 (Central Limit Theorem) 모집단이 정규분포를 따르지 않을 때라도 표본 크기 n이 충분히 큰 경우 표본 평균 의 평균은 근사적으로 정규 분포를 따른다. 여러 통계적 모형에서 일반적으로 정규 분포 가정을 하는 근거.

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 4: 이항분포의 정규 근사 이항분포의 정규 근사 확률 변수 의 평균 , 분산 n이 충분히 클 경우 는 표준정규분포 N(0,1)로 근사 가능 연속성 수정 (Continuity correction) 이산확률분포에서 연속확률분포로의 근사를 위한 보정 확률변수 X가 이항분포 B(n,p)를 따를 경우, P(X=k)=P(k-0.5 < X < k+0.5)로 수정 연속확률분포에서 P(X=k)=0

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 4: 이항분포의 정규 근사 연속성 수정 (Continuity correction) 확률 변수 를 따를 때 이항 분포: 정규분포 근사:

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 4: 이항분포의 정규 근사 연속성 수정 (Continuity correction) 확률 변수 을 따를 때 이항 분포: 정규분포 근사:

2011 Data Analysis Tool, IISE, SNUT t-분포 (Student’s t-distribution) 표본 추출이 시행된 모집단의 표준편차 가 알려지지 않는 경우, 는 자유도(df, degree of freedom) 인 t-분포를 따른다. 모표준편차가 알려지지 않은 상황에서의 모평균 추론에 사용 전구의 평균 수명, 약품의 지속 효과 등

2011 Data Analysis Tool, IISE, SNUT t-분포 (Student’s t-distribution)

2011 Data Analysis Tool, IISE, SNUT

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 6: 카이제곱분포 카이제곱분포 (Chi-square distribution) 서로 독립인 n개의 표준 정규 변수 z1, z2, … ,zn에 대해서 그들의 제곱합 은 자유도 인 카이제곱분포 를 따른다. 정규 모집단 에서 추출한 n개의 랜덤 표본 x1, x2, … , xn으로부터 계산된 s2에 대해 은 자유도 n인 카이제곱분포를 따른다. 카이제곱분포의 평균과 분산 독립성 검정에 주로 사용: 교육 수준과 소득 수준, 공부 시간과 시험 점수 등

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 6: 카이제곱분포 카이제곱분포 (Chi-square distribution)

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 6: 카이제곱분포

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 7: F-분포 F-분포 (F-distribution) 두 확률 변수 과 가 각각 자유도 과 인 카이제곱 분포를 따르며 서로 독립이라고 할 때, 는 자유도 (k1, k2)인 F-분포 를 따름. x1, x2, … ,xn1과 y1, y2, … ,yn2은 각각 두 정규모집단 에서 독립적으로 추출된 확률 표본이고 s12와 s22를 두 표본에서의 표본 분산이라고 하면 이 성립하고 이들은 서로 독립이므로, 확률변수 는 자유도 (n1-1,n2-1)인 F-분포를 따른다

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 7: F-분포 F-분포 (F-distribution) 두 정규모집단의 분산비에 대한 추론에 주로 사용

2011 Data Analysis Tool, IISE, SNUT 연속형 확률분포 7: F-분포