Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter 3: 확률변수와 분포함수 Pilsung Kang

Similar presentations


Presentation on theme: "Chapter 3: 확률변수와 분포함수 Pilsung Kang"— Presentation transcript:

1 Chapter 3: 확률변수와 분포함수 Pilsung Kang
Industrial & Information Systems Engineering Seoul National University of Science & Technology

2 2011 Data Analysis Tool, IISE, SNUT
표본 공간과 확률 분포(1/2) 표본 공간 (Sample space) 통계적 실험이나 조사에서 모든 가능한 실현 결과들의 집합. 실험: 동전 3회 반복 던지기 확률 변수 X: 표본 공간 S에서 정의된 실수 값 함수 (앞면의 횟수) 표본 공간 확률 분포표 S X P(X=x) {TTT} 1/8 {HTT, THT, TTH} 1 3/8 {HHT, HTH, THH} 2 {HHH} 3

3 2011 Data Analysis Tool, IISE, SNUT
표본 공간과 확률 분포(2/2) 확률 분포 이산 확률 변수 (discrete random variable) 동전을 두 번 던져서 나오는 앞면의 수 주사위를 한 번 던져서 나오는 눈의 값 연속 확률 변수 적절한 구간 내의 연속적인 모든 값을 가질 수 있는 변수 키, 몸무게, 대기 시간 등

4 2011 Data Analysis Tool, IISE, SNUT
이산 확률 분포 확률 질량 함수 (probability mass function) 이산확률변수가 가질 수 있는 각각의 값에 대하여 확률 P(X=x1) = f(x1), P(X=x2) = f(x2), … 를 대응시켜 주는 함수 확률 질량 함수의 성질

5 2011 Data Analysis Tool, IISE, SNUT
연속 확률 분포 확률 밀도 함수 (probability density function) X축: 확률 변수의 값 Y축: 확률변수의 값이 일정구간에 포함될 확률 확률 밀도 함수의 성질

6 2011 Data Analysis Tool, IISE, SNUT
기대값과 분산 2회 동전 던지기 게임 앞면이 0번: 상대방에게 5,000원 지급 앞면이 1번: 상대방으로부터 1,000원 지급 앞면이 2번: 상대방으로부터 2,000원 지급 게임을 여러 번 반복할 때, 평균적으로 어느 정도 이득이 발생할 것인가? 금액 X에 대한 확률 분포 기대 이득 (-5,000)*0.25+(1,000)*0.5+(2,000)*0.25 = -250 X -5,000 1,000 2,000 P(X=x) 1/4 2/4

7 2011 Data Analysis Tool, IISE, SNUT
기대값과 분산 기대값 (Expected value, E(X), μ) 확률변수 X에 대해 확률을 가중치로 하여 계산된 가중평균 분산 (variance, σ2) (X- μ)2의 기대값, 확률변수 X의 분포가 평균 μ로부터 떨어진 정도 이산확률변수의 기대값과 분산 연속확률변수의 기대값과 분산

8 2011 Data Analysis Tool, IISE, SNUT
기대값과 분산의 성질 기대값의 성질 분산의 성질

9 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 1: 이항분포 베르누이 시행 (Bernoulli trial) 매 번의 시행에서 오직 두 가지의 상호배반인 결과 중 어느 하나만 나타난다. (성공 & 실패) ‘성공’의 확률이 p이고 이 값은 어느 시행에서나 변하지 않는다 (실패의 확률은 q=1-p). 어느 한 시행결과가 다른 시행결과에 영향을 미치지 않는다. 즉, 두 시행은 서로 독립이다.

10 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 1: 이항분포 이항분포 (Binomial distribution) N번의 베르누이 시행에서 성공이 나타내는 횟수에 대한 분포 확률질량함수: B(n,p) 평균과 분산

11 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 1: 이항분포 동전 던지기 4회 동전 던지기 실시, 확률변수 X = 앞면이 나타나는 수 n=4, p=1/2 확률 질량 함수 앞면이 나타나는 수의 확률 분포

12 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 1: 이항분포 평균과 분산 μ=np=4*(1/2)=2, σ2=np(1-p)=4*(1/2)*(1/2)=1

13 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 1: 이항분포

14 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 2: 초기하분포 복원 추출 vs. 비복원 추출 주머니 속에 흰공 7개, 검은공 3개 흰공이 나올 확률 = 7/10 복원 추출 첫 번째 공의 색을 확인한 뒤, 그 공을 다시 주머니에 넣음. 두 번째 공이 흰공일 확률 = 7/10 비복원 추출 첫 번째 공의 색을 확인한 뒤, 그 공을 다시 주머니에 넣지 않음. 두 번째 공이 흰공일 확률 첫 번째 공이 흰공 = 6/9 두 번째 공이 검은공 = 7/9

15 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 2: 초기하분포 초기하분포 (Hypergeometric distribution) 확률 변수 X: N개로 구성된 모집단에서 A개가 ‘성공’이고 나머지 N-A개가 ‘실패’인 경우, N개 중에서 n개를 비복원추출하였을 때, 그 중 ‘성공’ 횟수 확률질량함수: HG(N,A,n) 평균과 분산

16 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 3: 포아송분포 포아송 분포 (Poisson distribution) 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예, 1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정해야 한다. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가깝다. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적이다. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례한다. 포아송 분포와 이항분포 포아송 분포는 ‘성공’이 일어나는 확률이 아주 작은 이항분포로부터 유도 B(n,p)에서 n이 매우 크고 p가 0에 가까운 경우

17 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 3: 포아송분포 포아송 분포 확률질량함수: P(μ) 평균과 분산

18 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 3: 포아송분포 포아송 분포 예시 생명보험사 보험가입자 수: 150,000명 보험가입자가 일주일 동안 보험금을 지급받을 확률 = 0.001% (일주일 평균 1.5명이 지급받음) X: 사고로 보험금을 지급할 건수

19 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 3: 포아송분포 포아송 분포 예시

20 2011 Data Analysis Tool, IISE, SNUT
이산형 확률분포 3: 포아송분포

21 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 1: 정규분포 정규 분포

22 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 1: 정규분포 정규 분포의 특징 자연 현상이나 사회 현상에서의 측정값들의 분포 중 많은 것들이 정규 분포와 유사한 형태를 가짐 (사람의 키, 나무 열매의 길이, 제품의 크기). 정규 분포를 따르지 않는 측정값들에 대해서도 제곱근이나 로그변환 등의 방법을 통해 정규분포에 근사하도록 유도할 수 있음. 수리적으로 다루기 쉬우며, 정규 분포 가정 하에서 유도되는 수리통계학적 결과는 그 확률변수가 정규분포를 따르지 않는 경우에 대해서도 유용하게 활용될 수 있음. 정규분포를 따르지 않는 측정값들에 대해서도 표본의 크기가 큰 경우 표본평균은 근사적으로 정규분포를 따름.

23 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 1: 정규분포 정규 분포의 특징 μ: 위치 모수 (location parameter), σ: 척도 모수 (scale parameter)

24 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 1: 정규분포 정규 분포의 성질 X ~ N(μ, σ2)일 때, 상수 a와 b에 대하여 X1 ~ N(μ1, σ12), X2 ~ N(μ2, σ22)이고, X1과 X2가 서로 독립일 때

25 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 2: 표준정규분포 표준 정규 분포 평균이 0이고 표준편차가 1인 정규분포. 평균이 μ이고 표준편차가 σ인 정규분포는 다음과 같은 변환을 통해 표준정규분포로 변환 가능. 표준화를 통해 일반 정규분포에서 특정 값의 범위에 속할 확률을 표준정규분포로부터 구할 수 있음.

26 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 2: 표준정규분포 표준화 예시 초등학교 학생의 몸무게 X ~ N(42,52) 한 학생을 무작위로 추출했을 때, 학생의 몸무게가 40kg에서 54kg사이에 속할 확률

27 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 2: 표준정규분포 표준화 예시 표준정규분포에서 P(a < Z < b)의 확률

28 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 2: 표준정규분포

29 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 3: 표본분포 표본 분포 평균(기대값)이 μ이고 표준편차가 σ인 모집단으로부터 크기 n인 확률 표본 x1, x2, …,xn을 추출 모집단의 분포와 관계 없이 항상 다음 관계가 성립 표본 평균( )은 모평균 ( )의 불편추정치 (unbiased estimator) 표본 분산( )은 모분산( )의 불편추정치 표본 평균의 표준 오차

30 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 3: 표본분포 표본 분포 표본 평균 의 평균은 모집단의 평균과 같으며, 표본크기 n이 클수록 그 분산이 0에 가까워져, 결국 표본의 크기가 클 때 는 모집단의 평균인 근처에 밀집되어 분포한다. 모집단의 분포가 정규분포이면 는 정규분포 을 따르며, 다음과 같은 정규변환을 통해 평균이 0이고 표준편차가 1인 표준정규분포를 따른다.

31 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 3: 표본분포 표본 분포: 중심 극한 정리 (Central Limit Theorem) 모집단이 정규분포를 따르지 않을 때라도 표본 크기 n이 충분히 큰 경우 표본 평균 의 평균은 근사적으로 정규 분포를 따른다. 여러 통계적 모형에서 일반적으로 정규 분포 가정을 하는 근거.

32 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 4: 이항분포의 정규 근사 이항분포의 정규 근사 확률 변수 의 평균 , 분산 n이 충분히 클 경우 는 표준정규분포 N(0,1)로 근사 가능 연속성 수정 (Continuity correction) 이산확률분포에서 연속확률분포로의 근사를 위한 보정 확률변수 X가 이항분포 B(n,p)를 따를 경우, P(X=k)=P(k-0.5 < X < k+0.5)로 수정 연속확률분포에서 P(X=k)=0

33 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 4: 이항분포의 정규 근사 연속성 수정 (Continuity correction) 확률 변수 를 따를 때 이항 분포: 정규분포 근사:

34 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 4: 이항분포의 정규 근사 연속성 수정 (Continuity correction) 확률 변수 을 따를 때 이항 분포: 정규분포 근사:

35 2011 Data Analysis Tool, IISE, SNUT
t-분포 (Student’s t-distribution) 표본 추출이 시행된 모집단의 표준편차 가 알려지지 않는 경우, 는 자유도(df, degree of freedom) 인 t-분포를 따른다. 모표준편차가 알려지지 않은 상황에서의 모평균 추론에 사용 전구의 평균 수명, 약품의 지속 효과 등

36 2011 Data Analysis Tool, IISE, SNUT
t-분포 (Student’s t-distribution)

37 2011 Data Analysis Tool, IISE, SNUT

38 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 6: 카이제곱분포 카이제곱분포 (Chi-square distribution) 서로 독립인 n개의 표준 정규 변수 z1, z2, … ,zn에 대해서 그들의 제곱합 은 자유도 인 카이제곱분포 를 따른다. 정규 모집단 에서 추출한 n개의 랜덤 표본 x1, x2, … , xn으로부터 계산된 s2에 대해 은 자유도 n인 카이제곱분포를 따른다. 카이제곱분포의 평균과 분산 독립성 검정에 주로 사용: 교육 수준과 소득 수준, 공부 시간과 시험 점수 등

39 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 6: 카이제곱분포 카이제곱분포 (Chi-square distribution)

40 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 6: 카이제곱분포

41 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 7: F-분포 F-분포 (F-distribution) 두 확률 변수 과 가 각각 자유도 과 인 카이제곱 분포를 따르며 서로 독립이라고 할 때, 는 자유도 (k1, k2)인 F-분포 를 따름. x1, x2, … ,xn1과 y1, y2, … ,yn2은 각각 두 정규모집단 에서 독립적으로 추출된 확률 표본이고 s12와 s22를 두 표본에서의 표본 분산이라고 하면 이 성립하고 이들은 서로 독립이므로, 확률변수 는 자유도 (n1-1,n2-1)인 F-분포를 따른다

42 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 7: F-분포 F-분포 (F-distribution) 두 정규모집단의 분산비에 대한 추론에 주로 사용

43 2011 Data Analysis Tool, IISE, SNUT
연속형 확률분포 7: F-분포


Download ppt "Chapter 3: 확률변수와 분포함수 Pilsung Kang"

Similar presentations


Ads by Google