Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter 4: 통계적 추정과 검정 Pilsung Kang

Similar presentations


Presentation on theme: "Chapter 4: 통계적 추정과 검정 Pilsung Kang"— Presentation transcript:

1 Chapter 4: 통계적 추정과 검정 Pilsung Kang
Industrial & Information Systems Engineering Seoul National University of Science & Technology

2 2011 Data Analysis Tool, IISE, SNUT
Table of Contents 통계적 추정 점추정과 구간추정 모평균에 대한 추정 모비율에 대한 추정 표본크기의 결정 통계적 가설 검정 단일 모집단에 대한 검정

3 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 점추정과 구간추정 모집단 (Population) 표본 (Sample) (표본 추출) (표본 크기) (모집단 크기) (통계적 추론) (표본 통계량) (모수)

4 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 점추정과 구간추정 단순임의추출에서 주요 모수에 대한 불편추정량 (Unbiased estimator) 모평균: 표본평균: 모분산: 표본분산: 모비율: 표본비율:

5 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 점추정과 구간추정 점추정 (Point Estimation) 구간추정 (Interval Estimation) 하나의 값으로 모수를 추정 예) 모평균 의 추정치: 표본평균 오차의 정도에 관하여 신뢰성 있는 정보를 제공하지 못함 추정된 값이 어느 정도나 옳은가를 알 수 없음 미지의 모수가 속할 구간으로 모수를 추정 예) 모평균 의 구간 추정 신뢰 구간: 신뢰 수준: 신뢰 상한 & 하한:

6 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 점추정과 구간추정 구간 추정 예: “정부의 이번 정책에 대한 표본조사를 실시한 결과 찬성한다는 비율이 74%였다. … 이번 조사의 신뢰수준은 95%이고 오차한계는 ±4%이다.” “이번 선거에 대한 표본조사를 실시한 결과 A 후보의 지지율은 51%이고 B후보의 지지율은 49%였다. … 이번 조사의 오차한계는 ±3%로서, 두 후보의 지지율은 오차범위 내에 존재한다.”

7 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 모분산 이 알려져 있는 정규 모집단 or 정규모집단 N(μ,σ2)의 모평균 μ에 대한 100(1-α)% 신뢰구간: σ2 가 알려져 있을 때,

8 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 모분산 이 알려져 있지 않는 모집단 then, 정규모집단 N(μ,σ2)의 모평균 μ에 대한 100(1-α)% 신뢰구간: σ2 를 모를 때,

9 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 1. 정규모집단 N(μ,σ2)의 모평균 μ에 대한 100(1-α)% 신뢰구간: σ2 가 알려져 있을 때, 2. 정규모집단 N(μ,σ2)의 모평균 μ에 대한 100(1-α)% 신뢰구간: σ2 를 모를 때, 3. 정규모집단 N(μ,σ2)의 모평균 μ에 대한 100(1-α)% 신뢰구간: σ2 를 모르나 n이 충분히 클 때,

10 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS) 1 UNIVARIATE Procedure 1. CIBASIC 옵션을 사용하여 구간 추정 data dat.csi; input csi label csi='소비자 만족도 지수'; cards; ; run; proc univariate data = dat.csi cibasic alpha = 0.05; var csi;

11 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS)

12 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS) 1 UNIVARIATE Procedure 1. CIBASIC 옵션을 사용하여 구간 추정 proc univariate data = dat.csi cibasic alpha = 0.05; var csi; run; proc univariate data = dat.csi cibasic alpha = 0.1; proc univariate data = dat.csi cibasic alpha = 0.01;

13 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS)

14 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS)

15 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS) MEANS Procedure 1. CLM 옵션을 사용하여 구간 추정 proc means data = dat.csi n mean std clm alpha = 0.05; var csi; run; proc means data = dat.csi n mean std clm alpha = 0.1; proc means data = dat.csi n mean std clm alpha = 0.01; 2

16 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모평균에 대한 구간 추정 (SAS)

17 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모비율에 대한 구간 추정 모분산 이 알려져 있는 정규 모집단 크기가 n인 표본으로부터 성공 횟수가 x일 때, 모비율 p에 대한 추정 E(x) = np, Var(x) = np(1-p) 표본의 크기 n이 충분히 큰 경우, 표본비율 p’는 정규분포로 근사할 수 있음 (by 중심극한정리) 표본크기 n이 충분히 큰 경우(대략 np’ ≥ 5 또는 n(1-p’) ≥ 5, 모비율 p에 대한 100(1- α) 정규근사 신뢰구간

18 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모비율에 대한 구간 추정 1 FREQ Procedure EXACT/ORDER/TABLES/ALPHA options를 사용하여 추정 data dat.poll; input yesno $ count; cards; yes 250 no 150 ; run; proc freq data = dat.poll order = data; weight count; exact binomial; tables yesno / alpha = 0.05(0.1 or 0.01);

19 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모비율에 대한 구간 추정

20 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모비율에 대한 구간 추정 1 FREQ Procedure data dat.cholest; input gender $ age super cards; M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ; run; proc freq data = dat.cholest order = data; exact binomial; tables gender / alpha = 0.05;

21 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 모비율에 대한 구간 추정

22 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 표본크기의 결정 모평균의 추정에 있어서의 표본크기의 결정 표본크기 고정: 신뢰수준 증가  신뢰구간 길이 증가. 동일한 신뢰 수준을 유지하면서 신뢰구간의 정밀도를 증가시키기 위해서는 표본크기를 증가시켜야 함. 정규모집단 N(μ,σ2)의 모평균 μ에 대한 100(1-α)% 신뢰구간: σ2 가 알려져 있을 때, 100(1-α)% 신뢰수준에서 오차한계를 d 이하로 하고자 하는 경우

23 2011 Data Analysis Tool, IISE, SNUT
통계적 추정: 표본크기의 결정 모비율의 추정에 있어서의 표본크기의 결정 표본크기 n이 충분히 큰 경우(대략 np’ ≥ 5 또는 n(1-p’) ≥ 5, 모비율 p에 대한 100(1- α) 정규근사 신뢰구간 100(1-α)% 신뢰수준에서 오차한계를 d 이하로 하고자 하는 경우

24 2011 Data Analysis Tool, IISE, SNUT
Table of Contents 통계적 추정 통계적 가설 검정 귀무가설과 대립가설 검정통계량과 기각역 제1종 오류와 제2종 오류 양측검정과 단측검정 단일 모집단에 대한 검정

25 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 귀무가설과 대립가설 통계적 가설 (Statistical hypothesis) 모집단의 특성인 모수에 대한 주장 가구당 월소득의 평균은 250만원이다. 새로운 약품의 치유율이 기존 약품의 치유율보다 더 높다. 여학생과 남학생의 학업성취능력의 평균은 같다. 통계적 가설 검정 (Testing hypothesis) 표본으로부터 도출된 통계량에 기초한 일련의 통계적 검정절차를 통해 그 가설의 진위여부에 관한 결론을 유도하는 절차.

26 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 귀무가설과 대립가설 관심사 새로운 약품의 평균 치료기간(μ)은 기존 약품의 평균 치료기간(15일)보다 짧다고 할 수 있는가? 2가지 가설 대립가설(Alternative hypothesis, H1): 연구의 관심이 되는 가설, 관측된 데이터를 통해 입증하고자 하는 가설 (효과가 있다, 차이가 있다, 서로 다르다) 귀무가설(Null hypothesis, H0): 반증의 대상이 되는 가설 (효과가 없다, 차이가 없다, 서로 다르지 않다) H0: μ = 15 (새로운 약품의 평균 치료기간은 15일이다) H1: μ < 15 (새로운 약품의 평균 치료기간은 15일보다 짧다)

27 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 귀무가설과 대립가설 “소비자 고발센터에 접수된 불만은 치약의 함량이 기준치인 150g을 대부분 미달한다는 것이었다.” H0: 치약의 함량기준치가 150g이다. H1: 치약의 함량기준치가 150g에 미달한다. “휴대폰 제조사에서 휴대폰의 색상에 따라 남성과 여성의 선호도가 같은지를 알아보기 위하여 설문조사를 실시하였다.” H0: 휴대폰의 색상에 따라 남성과 여성의 선호도가 같다. H1: 휴대폰의 색상에 따라 남성과 여성의 선호도가 다르다.

28 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 검정통계량과 기각역 검정 통계량 (Test statistic) 귀무가설과 대립가설 중 어느 하나를 채택하는데 사용되는 통계량 가설의 형태와 대상 모집단의 분포에 관한 가정에 따라 달라짐 모평균에 대한 가설 검정: 표본평균을 검정통계량으로 사용 기각역 (Rejection region, critical region) 귀무가설 H0를 기각하여 대립가설 H1을 채택하는 검정통계량의 영역. 검정통계량과 기각역에 따라 통계적 가설검정의 결과는 귀무가설 H0를 기각할 수 없다, 또는 귀무가설 H0를 기각하고 대립가설 H1을 받아들인다.

29 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 제1종 오류와 제2종 오류 가설 검정의 오류 제1종 오류: 귀무가설이 사실일 때, 귀무가설을 기각하는 오류 제2종 오류: 대립가설이 사실일 때, 귀무가설을 채택하는 오류 실제 의사결정 H0가 참 (H1이 거짓) H0가 거짓 (H1이 참) H0를 채택 (H1을 기각) 옳은 결정 (1-α) 제2종 오류 (β) H0를 기각 (H1을 채택) 제1종 오류 (α) 옳은 결정 (1-β)

30 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 제1종 오류와 제2종 오류 가설 검정의 오류 제1종 오류: 귀무가설이 사실일 때, 귀무가설을 기각하는 오류 제2종 오류: 대립가설이 사실일 때, 귀무가설을 채택하는 오류

31 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 제1종 오류와 제2종 오류 가설 검정의 오류 H0: 피고는 무죄다 H1: 피고는 유죄다 제 1종 오류: 무죄인 피고를 유죄로 판결하여 형을 살게 하는 것 제 2종 오류: 유죄인 피고를 무죄로 판결하여 죄값을 치르지 않게 하는 것 유의수준(Significance level, α): 제 1종 오류를 범할 확률의 최대 한계

32 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 양측검정과 단측 검정 양측 검정 (Two-tailed test) 기각역이 각각 왼쪽과 오른쪽의 두 부분으로 구성되는 가설 검정 치약의 함량치가 150g인가? H0: μ = 150 vs. H1: μ ≠ 150 μ = 150

33 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 양측검정과 단측 검정 단측 검정 (one-tailed test): 왼쪽 단측 검정 (left-sided test) 기각역이 왼쪽으로만 구성되는 가설검정 치약의 함량치가 150g보다 작은가? H0: μ = 150 (또는 μ ≥ 150) vs. H1: μ ≤ 150 μ = 150

34 2011 Data Analysis Tool, IISE, SNUT
통계적 가설검정: 양측검정과 단측 검정 단측 검정 (one-tailed test): 오른쪽 단측 검정 (right-sided test) 기각역이 오른쪽으로만 구성되는 가설검정 치약의 함량치가 150g보다 큰가? H0: μ = 150 (또는 μ ≤ 150) vs. H1: μ ≥ 150 μ = 150

35 2011 Data Analysis Tool, IISE, SNUT
Table of Contents 통계적 추정 통계적 가설검정 단일모집단에 대한 검정 모평균에 대한 검정 (단일표본 t-검정) 유의확률 (p-값) 모비율에 대한 검정

36 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 1 모평균 μ에 대한 검정: 모분산 σ2이 알려져 있는 경우 검정 통계량: 기각역: 귀무가설 대립가설 기각역 (a) H0: μ ≤ μ0 H1: μ > μ0 Z ≥ zα (b) H0: μ ≥ μ0 H1: μ < μ0 Z ≤ -zα (c) H0: μ = μ0 H1: μ ≠ μ0 |Z| ≥ zα/2

37 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 모평균 μ에 대한 검정: 모분산 σ2이 알려져 있지 않은 경우 검정 통계량: 기각역: 2 귀무가설 대립가설 기각역 (a) H0: μ ≤ μ0 H1: μ > μ0 T ≥ tα(n-1) (b) H0: μ ≥ μ0 H1: μ < μ0 T ≤ -tα(n-1) (c) H0: μ = μ0 H1: μ ≠ μ0 |T| ≥ tα/2(n-1)

38 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 유의확률 검정을 위해 검정통계량의 확률 밀도함수 또는 확률 분포표를 사용하는 것이 매우 번거로움 유의 확률 (Significance probability, p-value) 귀무가설 하에서 관측된 검정통계량의 값보다 더 극단적인 값이 나올 확률 관측된 데이터(검정통계량)에 근거하여 귀무가설을 기각하였을 때 범할 제1종 오류의 확률 값이 작을수록 귀무가설 H0에 반하는(대립가설 H1을 지지하는) 강한 증거 SAS에서는 t-검정에 대한 양측검정 p-value만 출력 단측검정 p-value는 양측검정 p-value의 ½ 검정통계량의 값이 기각역에 포함  p-value가 유의수준 α보다 작음 검정 통계량의 값이 기각역에 포함되지 않음  p-value가 유의수준 α보다 큼

39 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 유의확률 H0: μ = μ0 , H1: μ > μ0 , α=0.05 Case 1) p-value > 0.05 현재 관측치보다 H0를 더 강하게 지지할 확률 > 5% 유의 수준 95%에서 μ > μ0 라고 결론 내릴 수 없음 검정 통계량의 값은 기각역에 포함되지 않음 0.05 μ0 기각역

40 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 유의확률 H0: μ = μ0 , H1: μ > μ0 , α=0.05 Case 2) p-value < 0.05 현재 관측치보다 H0를 더 강하게 지지할 확률 < 5% 유의 수준 95%에서 μ > μ0 라고 결론 내릴 수 있음 검정 통계량의 값은 기각역에 포함됨 0.05 기각역

41 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 유의확률 H0: μ = μ0 , H1: μ ≠ μ0 , α=0.05 Case 1) p-value > 0.05 현재 관측치보다 H0를 더 강하게 지지할 확률 > 5% 신뢰 수준 95%에서 μ ≠ μ0 라고 결론 내릴 수 없음 검정 통계량의 값은 기각역에 포함되지 않음 0.025 0.025 기각역 기각역

42 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 유의확률 H0: μ = μ0 , H1: μ ≠ μ0 , α=0.05 Case 2) p-value < 0.05 현재 관측치보다 H0를 더 강하게 지지할 확률 < 5% 신뢰 수준 95%에서 μ ≠ μ0 라고 결론 내릴 수 있음 검정 통계량의 값은 기각역에 포함됨 0.025 0.025 기각역 기각역

43 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 모평균에 대한 검정: UNIVARIATE Procedure MU0/ALPHA/CIBASIC options 사용 data dat.csi; input csi label csi='소비자 만족도 지수'; cards; ; run; 3 H0: μ = 70 H1: μ ≠ 70 A B H0: μ = 70 H1: μ ≥ 70

44 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 모평균에 대한 검정: UNIVARIATE Procedure 양측 검정 or 단측 검정 proc univariate data = dat.csi mu0 = 70 alpha = 0.05 cibasic; var csi; run; 검정 통계량: 4

45 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 유의수준 0.05에서 H0: μ = 70 H1: μ ≠ 70에 대한 검정통계량은 1.78이고 기각역은 |T| ≥ 2.064이다. 유의확률은 8.74%로써, 신뢰수준 95%에서 소비자 만족도 지수 평균은 70%와 같다고 할 수 없다. 유의수준 0.05에서 H0: μ = 70 H1: μ > 70에 대한 검정통계량은 1.78이고 기각역은 T ≥ 1.711이다. 유의확률은 4.37%로써, 신뢰수준 95%에서 소비자 만족도 지수 평균은 70%보다 크다고 할 수 있다.

46 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 모평균에 대한 검정: TTEST Procedure 1. 양측 검정 proc ttest data = dat.csi h0=70 alpha=0.05; var csi; run; 2. 단측 검정 proc ttest data = dat.csi h0=70 sides=u alpha=0.05; 검정 통계량: 5

47 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 유의수준 0.05에서 H0: μ = 70 H1: μ ≠ 70에 대한 검정통계량은 1.78이고 기각역은 |T| ≥ 2.064이다. 유의확률은 8.74%로써, 신뢰수준 95%에서 소비자 만족도 지수 평균은 70%와 같다고 할 수 없다.

48 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모평균에 대한 검정 유의수준 0.05에서 H0: μ = 70 H1: μ > 70에 대한 검정통계량은 1.78이고 기각역은 T ≥ 1.711이다. 유의확률은 4.37%로써, 신뢰수준 95%에서 소비자 만족도 지수 평균은 70%보다 크다고 할 수 있다.

49 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모비율에 대한 검정 어느 회사의 제품에 대한 불량률은 15% 정도이며, 이 불량률을 줄이기 위해 새로운 재료를 사용하려고 한다. 새로운 재료를 사용한 제품 중 400개를 뽑아 조사한 결과 54개의 불량품이 발견되었다. 유의수준 5%하에서 불량률이 종전(15%)에 비해 낮아졌다고 할 수 있는가?

50 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모비율에 대한 검정 1 모비율 p에 대한 검정: 표본크기가 충분히 큰 경우 검정 통계량: 기각역: 귀무가설 대립가설 기각역 (a) H0: p ≤ p0 H1: p > p0 Z ≥ zα (b) H0: p ≥ p0 H1: p < p0 Z ≤ -zα (c) H0: p = p0 H1: p ≠ p0 |Z| ≥ zα/2

51 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모비율에 대한 검정 모비율 p에 대한 검정: FREQ Procedure 양측 검정 & 단측 검정 data dat.goods; input state $ count cards; poor 54 good 346 ; run; proc freq data = dat.goods order = data; weight count; exact binomial; tables state / binomial (p=0.15) alpha = 0.05; 2

52 2011 Data Analysis Tool, IISE, SNUT
단일모집단에 대한 검정: 모비율에 대한 검정 유의수준 0.05에서 H0: p ≥ p0 , H1: p < p0에 대한 검정통계량은 이고 기각역은 T ≤ 이다. 유의확률은 20.04%로써, 신뢰수준 95%에서 새로운 재료를 사용한 제품의 불량률은 15%보다 작다고 할 수 없다.

53 2011 Data Analysis Tool, IISE, SNUT
Homework #1 2장 데이터의 요약 및 표현 SAS 실습: 2-2, 2-7 3장 확률 변수와 분포함수 교재 문제 풀이: 3-1, 3-3, 3-7, 3-20, 3-32 4장 통계적 추정과 검정 교재 문제 풀이: 4-3, 4-8, 4-10, 4-13 SAS 실습: 4-1, 4-2, 4-18, 4-22


Download ppt "Chapter 4: 통계적 추정과 검정 Pilsung Kang"

Similar presentations


Ads by Google