표본분포 Sampling Distribution
N 모집단 population n 표본 Sample 표본통계량 (sample statistic) 모수 (parameter)
1. 모수와 표본 통계량 모수는 알려져 있지 않고 궁극적으로 알고자 하는 정보 모수를 알기 위해 표본 통계량을 이용하여 모수를 추측 표본 통계량 : depends upon sample 표본 통계량은 확률변수
주사위를 던져 나오는 수 : X E[X]=3.5, Var[X]=2.92 : 확률변수가 아니다. 그러나 10번의 실험을 통하여 평균값과 분산을 구한다면 표본 평균과 표본 분산은 할 때 마다 다른 값을 가지게 된다 표본 평균과 표본 분산은 확률변수이고, 이러한 확률변수의 분포를 표본분포라고 말한다. , : 확률변수가 아니다 , : 확률변수이다
2. 단순무작위 추출법 학기 초에 단순무작위 추출법(simple random sampling)의 경우를 공부하였다. 표본을 이라 할 때 다음의 두 조건을 만족
3. 표본 평균의 분포 이 평균이 이고 분산이 인 모집단으로 부터의 표본이라고 하자 는 기대값이 이고, 분산이 인 3. 표본 평균의 분포 이 평균이 이고 분산이 인 모집단으로 부터의 표본이라고 하자 는 기대값이 이고, 분산이 인 분포를 갖고 있다.
중심극한정리(Central limit theorem) 평균이 이고 분산이 인 임의의 모집단으로부터 표본의 크기 n이 크면 표본평균( )은 정규분포로 접근한다. 표준화 하면
중심극한 정리의 예 : 동전의 앞면의 숫자 모집단 0 1 n = 2, 0 1 n = 2, 즉, 두 사람이 동전을 한번씩 던졌을 때 앞면이 나오는 수의 평균 (0, 0)인 경우 : 평균 = 0.0 (1,0) 혹은 (0,1)인 경우 : 평균 = 0.5 (1,1)인 경우 : 평균 = 1.0 이러한 평균을 1,000개를 구하여 보자.
n =2인 경우 1,000개 표본평균들의 분포 즉 두 사람의 평균이 ‘0’이 나오는 경우의 수 : 253 두 사람의 평균이 ‘0.5’가 나오는 경우의 수 : 489 두 사람의 평균이 ‘1’이 나오는 경우의 수 : 258
n =10인 경우 1,000개 표본평균들의 분포 두 사람의 평균 : 0, 0.1, 0.2, . . . ., 1이 가능 즉 n이 커질수록 정규분포에 가까워진다.
모집단의 분포와 상관없이 표본의 크기가 커지면 표본평균 정규분포
요약 따라서 표본의 크기가 크다면 혹은 As n
4. chi-square distribution, - dist. If X~N(0, 1), then X ~ If 2 then If then
: 가정 = =
Note: 따라서
앞서 표본 분산 ,
자유도(degree of freedom)의 의미 n개의 표본 관측값이 있을 때, 제한된 관측값의 수를 제외하고 남은 자유로운 관측값의 수를 의미한다 에서 자유도는 n-1이 된다. n개의 편차 에서 편차의 합은 항상 영이기 때문에 제한된 관측값의 수는 1이 되어 자유도는 n-1이 된다 즉 n개의 편차들 중에서 n-1개의 편차가 자유롭게 결정
표본의 크기가 커짐에 따라 표본분산의 크기는 작아지고 극단적으로 n이 커지면 영으로 수렴한다.
의 특성 v=5 일반적으로 비대칭적 v = 10 v=2 As , Normal distribution 즉, As sample size , Normal distribution
표를 이용 방법 0.995 0.975 0.050 0.025 0.010 0.005 v 1 2 3 . 100
예 (1) n=10, 답 : a = 1.8798 (2)
예 n=10, 0.025 0.025 ?2 ?1
5. 이항 모집단과 표본비율의 표본분포 앞서 표본 평균과 분산에 대한 표본분포를 살펴보았다. 성공의 비율 = p 라고 하자. 이항 모집단에서 표본 크기 n인 확률표본을 추출하여 성공의 출현횟수를 X라고 하자. ; 표본 비율 모수 : 표본 통계량 :
의 표본 분포 ? 앞서 X가 이항분포를 이루고 있어 (X/n)도 이항분포를 이룬다 이항분포는 p가 ½에 접근하면 정규분포를 이용하여도 된다고 하였다.
이 인 정규분포를 이용 표준화하면
예 : 표본비율 어느 지방에 소재하는 기업들의 75%가 외국인 근로자를 고용하고 있다. 이 지방에서 100개의 기업을 추출하였다고 하자. (1) 외국인 근로자를 고용하는 기업의 표본비율의 평균과 분산 ? : given (2) 표본비율이 0.8보다 크게 나올 확률은 ?
예 : 교재 167쪽 대통령 선거 하루 전에 2,000명을 대상으로 여론조사 A 후보자의 지지율 = 55% 그러나 선거결과는 51%라고 한다. 여론조사의 신빙성 ? 0.0136% 표본추출이 잘못되었다 3.64 Z
6. t -분포
Note: 따라서 표본의 크기가 커짐에 따라 t-분포는 표준정규분포로 간다
예 :
7. F-분포
두 모집단의 경우를 생각해 보자 and Variance Ratio Test 혹은
표를 이용한 F값 찾기 5%(위의 숫자), 1%(아래 숫자) 1 2 3 161 4052 1
비대칭적 F 즉 표로부터 계산
한편
예 답 : 약 0.35
t-분포와 F-분포 따라서
부록 : 이산확률변수의 전환 이산 확률변수 X의 확률함수가 f(x)이고 Y=g(X)가 X의 영역 안에서 단조함수일 때 Y의 확률함수는
예 일 때, h(y) =? 답
부록 : 연속확률변수의 전환 f(x)가 연속확률변수 X의 확률밀도함수이고, Y=g(X)는 X의 단조함수이고 모든 모든 점에서 미분 가능할 때 Y의 확률밀도함수는 다음과 같이 주어진다.
예