제 8 장 표본추출법과 중심극한정리
학 습 목 표 (1) 표본추출법을 이해 할 수 있다 (2) 표본오차를 계산 할 수 있다 학 습 목 표 (1) 표본추출법을 이해 할 수 있다 (2) 표본오차를 계산 할 수 있다 (3) 표본평균의 표본분포를 이해 할 수 있다 (4) 중심극한정리를 설명 할 수 있다 표본평균분포를 활용 할 수 있다 중심극한 정리 평균으로 회귀
핵심 : 시간과 비용 절약, 표본조사로 충분한 경우 표본추출법 1. 표본을 사용하는 이유 - 모집단에 대한 조사는 시간이 많이 소요된다 → 전체 유권자를 접촉하여 조사한다면 수 백년의 시간이 필요 - 모집단에 대한 조사는 많은 비용이 필요하다 → 2000가구를 조사하는데 4만 달러의 비용이 필요 - 모집단에 대한 조사는 물리적으로 불가능한 경우가 많다 → 호수의 수질검사, 동물의 개체나 생태 연구에서 활용 - 조사를 통해 모집단의 요소가 소멸되거나 손상될 수 있다 → 와인의 시음, 표본의 파열강도 실험 등에서 품질검사용으로 활용 - 표본조사만으로 충분한 경우가 많다 → 표본조사가 모집단에 대한 조사 결과와 큰 차이가 없다 핵심 : 시간과 비용 절약, 표본조사로 충분한 경우
표본오차(Sampling Error) 1. 표본은 모집단의 특성을 추론하기 위하여 사용 - 표본평균은 모집단의 평균(모평균)을 추정하기 위하여 사용 - 표본은 모집단의 일부분이므로 표본평균이 모평균과 정확한 일치는 불가 - 표본의 표준편차 역시 모집단의 표준편차(모표준편차)의 추정을 위해서 사용될 수는 있어도 정확히 값이 일치하지는 않는다 모집단의 평균과 표준편차와 표본의 평균과 표준편차즉, 표본 통게량 간의 차이가 발생 이러한 차이를 표본오차 표본오차 : 표본통계량과 이에 대응하는 모집단 모수통계 간의 차이
n=30개인 모집단에서 x=5개인 추출 가능한 표본의 수 = 30C5 표본오차(Sampling Error) 1. 표본은 모집단의 특성을 추론하기 위하여 사용 Foxtrot Inn 6월 투숙객실수 표본 1 표본 2 표본 3 1일 11일 3 21일 4 2일 2 12일 22일 7 3일 13일 23일 4일 14일 24일 6 5일 15일 25일 1 6일 16일 26일 합계 19 17 9 7일 17일 5 27일 표본평균 3.8 3.4 1.8 8일 18일 28일 표본오차 0.6667 0.2667 -1.3333 9일 19일 29일 10일 20일 30일 모평균(μ) 3.1333 n=30개인 모집단에서 x=5개인 추출 가능한 표본의 수 = 30C5 표본오차 = 표본평균 - 모평균
표본평균의 표본분포 1. Foxtrot Inn의 표본평균을 계산한결과 - 표본 1 : 3.8, 표본 2 : 3.4, 표본 3 : 1.8로 계속해서 변화 30C5 = 142,506개의 표본에서 평균값을 계산 가능 평균값들을 모두 구하여 분포를 구성한다면 표본평균의 표본분포 표본평균의 표본분포 : 동일한 크기의 모든 가능한 표본들로부터 얻어진 표본평균들의 확률분포
표본평균의 표본분포 2. Tartus Industries사의 사레를 이용 표본평균의 표본분포설명 7.7142857 - 7명의 생산직 근로자 고용, 각 직원의 시간당 임금 현황 <표 8-2> 1. 모평균은 얼마인가? 7.7142857
표본평균의 표본분포 2. Tartus Industries사의 사레를 이용 표본평균의 표본분포설명 21개의 표본이 있으므로 2. 표본크기 2인 표본의 표본평균분포를 구하라. 21개의 표본이 있으므로 각각의 표본을 추출하여 평균을 계산하면
표본평균의 표본분포 2. Tartus Industries사의 사레를 이용 표본평균의 표본분포설명 2. 표본크기 2인 표본의 표본평균분포를 구하라. 도수분포표로 나타내면 표본평균 평균의 개수 확 률 7.00 3 0.1429 7.50 9 0.4285 8.00 6 0.2857 8.50 21 1.0000
표본평균의 표본분포 2. Tartus Industries사의 사레를 이용 표본평균의 표본분포설명 7.7142857 3. 표본평균분포의 평균은 얼마인가? 4. 모집단분포와 표본평균분포에 대한 관찰을 통해 어떤 사실을 알 수 있는가? 7.7142857 ←모평균과 동일한 값을 보인다 ←도수분포표로 나타내면 표본평균의 분포가 모집단평균의 분포에 비해 좁다. 표본평균의 분포는 종 모양에 가까우며 정규분포의 형태와 비슷한 형태
중심극한정리(Central Limit Theorem) 1. 중심극한정리 - 정의 : 표본의 크기가 큰 경우(통상 n≥30)의 표본평균분포는 정규분포와 비슷하다는 것 → 표본의 특성이 모집단의 특성을 잘 설명할 수 있다 → 표본의 크기가 커질수록 표본평균분포는 정규분포에 좀 더 가까워짐 - 중심극한정리의 장점 → 모집단의 분포형태에 상관없이 이러한 원리가 적용 → 모집단 분포에 대한 정보가 전혀 없는 경우에도 표본의 크기를 증가 시키면 표본평균의 분포는 정규분포에 근사적으로 가까워 진다 중심극한정리 : 어떤 모집단으로부터 동일한 크기의 모든 가능한 표본들을 추출하고 이로부터 표본평균분포를 구하면 정규분포에 근사하게 된다. 이러한 근사화는 표본의 크기가 커질수록 더욱 강화된다.
중심극한정리(Central Limit Theorem) 1. 중심극한정리 데이터의 발생형태 : 쌍봉형 데이터, 좌측 치우침, 균등분포, 우측 치우침 등 최소한 30개 이상의 표본크기가 필요
중심극한정리(Central Limit Theorem) Spence Sprockets 사 40명 직원의 근속연한 조사 결과 1. 중심극한정리 Spence Sprockets 사 40명 직원의 근속연한 조사 결과 11 4 18 2 1 3 19 8 7 5 14 16 9 10 ←빈도수를 세고 히스토그램으로 나타내면 <그림 8-3>의 형태가 됨 ←우측으로 치우친 형태를 보임 ←모집단의 평균(모평균)을 구하면 4.8 ←구성수를 5로 하는 샘플을 추출한다면 40C5개의 샘플을 추출할 수 있다 ←이중 우리는 25개 샘플을 추출했다고 가정하고, 추출한 다음 표본 평균값을 계산한다 ←범위는 0~20사이의 값을 보인다 평균
중심극한정리(Central Limit Theorem) Spence Sprockets 사 40명 직원의 표본(n=5)과 표본평균 1. 중심극한정리 Spence Sprockets 사 40명 직원의 표본(n=5)과 표본평균 표본 ID 표본자료 표본평균 표본오차 A 1 9 19 14 8.6 3.8 B 7 4 3 -1.0 C 8 2 7.6 2.8 D 18 11 7.0 2.2 E F 1.6 -3.2 G 1.8 -3.0 H 5.6 0.8 I 4.4 -0.4 J 3.0 -1.8 K 10 -2.0 L 16 4.6 -0.2 M N 4.0 -0.8 O -2.6 P 6.2 1.4 Q 5 7.2 2.4 R 3.6 -1.2 S T U V W X 2.6 -2.2 Y 합 105.8 평균 4.2 ←표본 A의 평균을 구하고 모집단의 평균을 구하면 됨 이러한 방식으로 25개의 표본에 대하여 평균값을 계산한다 ←표본평균의 평균값(μx)값을 구하면 4.2로 나타남 ←표본평균을 바탕으로 하여 히스토그램으로 작성 한다면
중심극한정리(Central Limit Theorem) 1. 중심극한정리 Spence Sprockets 사 40명 직원의 표본(n=5)과 표본평균 히스토그램 ← 오른쪽으로 치우침이 많이 완화 되었다 ← 평균값의 위치 역시 오른쪽으로 이동 하였다 ← 범위 값은 1.6~8.6으로 감소하였다 평균
중심극한정리(Central Limit Theorem) 1. 중심극한정리 Spence Sprockets 사 40명 직원의 표본(n=20)과 표본평균 표본 ID 표본자료 표본평균 A 3 8 2 1 11 5 4 7 16 3.950 B 3.250 C 14 9 19 5.950 D 10 4.350 E 18 5.350 F 4.000 G 6.550 H 4.250 I J 4.050 K 4.200 L M 4.400 N 4.750 O 5.100 P 5.000 Q R 3.650 S 7.100 T 3.050 U V 6.850 W X 4.300 Y 5.050 합 116.90 평균 4.676 ←표본 A의 평균을 구하고 모집단의 평균을 구하면 됨 이러한 방식으로 25개의 표본에 대하여 평균값을 계산한다 ←표본평균의 평균값(μx)값을 구하면 4.676으로 나타남 ←표본평균을 바탕으로 히스토그램을 그리면
중심극한정리(Central Limit Theorem) 1. 중심극한정리 Spence Sprockets 사 40명 직원의 표본(n=20)과 표본평균 히스토그램 ← 평균을 중심으로 대칭의 형태가 나타나기 시작했다 ← 평균값의 위치 역시 가운데로 이동 하였다 ← 범위 값은 3.05~7.10으로 감소하였다 표본의 구성 갯수(n)이 증가 할수록 점점 대칭적인 형태를 보인다 평균
중심극한정리(Central Limit Theorem) N이 증가하면 표본평균의 표준오차는 감소한다 1. 중심극한정리 - 모집단의 분포 형태에 상관없이 얻어진 표본평균분포는 점차적으로 정규분포에 수렴한다 - 표본의 크기가 커질수록 이러한 수렴의 속도는 빨라 짐 → Spence Sprockets 사의 사례를 통해 확인 - 표본평균분포의 평균은 모집단의 평균 값과 일치하여 가는 형태를 보임 μx = μ의 형태를 보임 그리고 앞서 n = 5 일 경우 4.2 n = 20 일 경우 4.676 따라서 n이 더 크게 증가한다면 모평균인 4.8에 더욱 근접할 것임 모집단의 표준편차가 σ일 경우 표본평균들의 표준편차는 σ/√n 표본평균의 표준오차 σX = σ/√n N이 증가하면 표본평균의 표준오차는 감소한다
아니면 허용할 만한 표본오차로 판단해야 하는가? 하루 평균 6시간 TV 시청한다는 조사결과가 맞는가? 표본평균분포의 활용 1. 표본평균을 이용한 주요한 의사결정 - Arm Hammer사 세탁세제 사례 → 모집단의 평균은 100온스, 표준편차는 2온스라고 표시 → 40개의 샘플을 추출하여 측정한 결과 평균이 99.8온스로 표시 생산을 중단해야 하는가? 아니면 허용할 만한 표본오차로 판단해야 하는가? - A.C Nelson 사 TV시청률 사례 → 성인 미국인 평균적으로 하루 6시간 TV시청, 표준편차는 1.5.시간 조사 → 보스톤 지역 50명 성인을 대상으로 조사한 결과는 표본평균 6.5시간 하루 평균 6시간 TV 시청한다는 조사결과가 맞는가?
표본평균에서 표준정규분포의 z값 구하는 공식 표본평균분포의 활용 2. 지난 시간에 배운 내용 - 정규분포의 모집단으로부터 추출된 표본의 표본평균분포는 표본크기에 관계없이(상관없이) 정규분포를 이룬다 - 모집단이 정규분포가 아니라고 하더라도 표본의 크기가 30이상이면 표본평균 분포는 중심극한정리에 의하여 정규분포와 유사한 형태를 보인다 모집단에서 표준정규분포의 z값 구하는 공식 Z = x – μ / σ를 활용 표본평균에서 표준정규분포의 z값 구하는 공식
표본평균분포의 활용 3. Cola Inc 사의 Jumbo Bottle 콜라 생산 사례 - 회사 내의 품질관리 부서는 생산된 콜라에 담긴 콜라 양을 주요한 품질관리 대상으로 판단하고 있으며 정해진 양(규격)보다 적거나 많은 두 가지 경우(92%를 초과하거나 작은 경우) 모두 품질에 문제가 있다고 판단한다. 과거자료를 통해 각 병에 담긴 콜라 양은 정규분포이며 평균 31.2온스, 표준편차 0.4온스라는 사실을 알고 있다. 오늘 오전 8시에 품질검사를 담당하는 직원이 16개 제품을 검사한 결과 표본평균이 31.38온스였다. 이 경우 콜라를 주입하는 공정에 문제가 있는 것으로 판단하는 것이 옳은가 아니면 허용할 수 있는 표본오차로 판단하는 것이 옳은가? 0.18의 오차는 일상적인 것으로 판단하여야 하는가 ?
결론 : 현재의 공정은 문제가 있으며, 조치를 취하여야 한다 표본평균분포의 활용 3. Cola Inc 사의 Jumbo Bottle 콜라 생산 사례 - 표본의 구성수 16과 표본평균 31.38을 이용하여 Z값을 구하면 표준정규분포대입 92%의 z=±1.75 4%=0.04보다 작음 Z=1.75 4% 92% 4% 불량 양품 불량 결론 : 현재의 공정은 문제가 있으며, 조치를 취하여야 한다
표본평균분포의 활용 평균이 75이고 표준편차가 5인 정규분포에서 40개 표본자료를 추출했을 때 표본평균이 다음과 같을 확률을 계산하시오. 1. 74이하 2. 74와 76사이 3. 76과 85사이 4. 88이상 5. 확률 값(%)이 97%라고 하는 경우 표본평균은 어디와 어디 사이인가? 6. 확률 값(%)이 87%라고 하는 경우 표본평균은 어디와 어디 사이인가?