추정의 기본원리 Introduction to Estimation 켈러의 경영경제통계학 제9장 추정의 기본원리 Introduction to Estimation
통계적 추론(Statistical Inference)… -통계적 추론(statistical inference) 은 표본으로부터 모집단에 관한 정보를 얻고 결론을 도출하는 과정이다. 통계적 추론은 추정(estimation)과 가설검정(hypothesis testing)을 통하여 이루어진다. -통계적 추론을 하기 위해서 기술통계량, 확률분포, 표본분포에 관한 지식이 활용된다.
추정의 개념(Estimation)… -추정의 목적은 표본통계량에 기초하여 모수의 근사값을 결정하는 것이다. 예. 표본평균( )은 모평균( )을 추정하기 위해 사용된다. -확률변수 표본통계량은 모수의 추정량(estimator)라고 부르고 표본으로부터 계산된 표본통계량의 값은 모수의 추정치 (estimate)라고 부른다. 예. 표본평균( )은 모평균( )의 추정량이고 주어진 표본으로 계산된 표본평균의 값은 모평균의 추정치이다.
추정의 개념(Estimation)… 두 가지 종류의 추정량: 점추정량(Point Estimator) 구간추정량(Interval Estimator)
점추정량(Point Estimator)… -점추정치는 모수가 아니라는 것이 확실하고 (연속확률변수의 경우 모수가 특정한 값을 가질 확률은 0이다) 표본크기의 증가에 따른 정보의 양이 증가한다는 사실을 반영하지 못할 수 있다. (표본크기는 다르더라도 동일한 통계량의 값이 구해질 수 있다).
구간추정량(Interval Estimator)… -주어진 오류의 가능성 하에서 모수가 포함되어 있을 것으로 여겨지는 구간이 설정된다.
점추정과 구간추정… 예. 2년차 경영대학 학생들이 여름방학동안 버는 주간 소득의 평균을 추정하는 경우 -임의로 선택된 25명 학생들의 주간소득평균 ( )은 $400이다 ( = $400). 모평균의 점추정치(point estimate) 모평균의 구간추정치(interval estimate) 모평균은 $380와 $420의 사이에 속한다.
추정량의 바람직한 특성… -좋은 추정량은 불편성(unbiasedness), 일치성(consistency), 상대적 효율성(relative efficiency)을 가져야 한다. -불편추정량(unbiased estimator )은 추정량의 기대치가 모수와 같은 추정량이다. -표본크기가 증가함에 따라 불편추정량과 모수의 차이가 더 작아진다면 불편추정량은 일치추정량(consistent estimator)이다. -하나의 모수에 대한 두 개의 불편추정량이 존재하는 경우, 분산이 더 작은 불편추정량이 상대적으로 효율적인 추정량 (relatively efficient estimator)이다.
불편추정량(Unbiased Estimators)… 예. 표본평균은 모평균의 불편추정량이다. 표본비율은 모비율의 불편추정량이다. 표본분산은 모분산의 불편추정량이다.
일치성(Consistency)… -표본크기가 증가함에 따라 불편추정량과 모수의 차이가 더 작아진다면 불편추정량은 일치추정량(consistent estimator)이다. -표본평균은 모평균의 일치추정량이다. ->표본평균의 분산은 n이 증가함에 따라 작아진다. (표본평균은 모평균으로 접근해 간다) -표본비율은 모비율의 일치추정량이고 표본분산은 모분산의 일치추정량이다.
상대적 효율성(Relative Efficiency)… -하나의 모수에 대한 두 개의 불편추정량이 존재하는 경우, 분산이 더 작은 불편추정량이 상대적으로 효율적인 추정량 (relatively efficient estimator)이다. -표본평균과 표본중앙값은 모두 모평균에 대한 불편추정량이다. 그러나 표본중앙값의 분산은 표본평균의 분산보다 크다. ->따라서 표본평균이 표본중앙값보다 모평균에 대한 상대적으로 효율적인 추정량이다.
모표준편차( )가 알려져 있을 때 모평균( )의 추정… 모표준편차( )가 알려져 있을 때 모평균( )의 추정… 모표준편차가 알려져 있을 때 모평균에 대한 신뢰구간추정량 중심극한정리에 의하면 (모집단이 정규이거나 또는 표본크기가 충분히 크면) 표본평균은 평균이 이고 표준편차가 인 정규분포를 따른다. -> 는 표준정규분포를 따른다.
모표준편차( )가 알려져 있을 때 모평균( )의 추정… 모표준편차( )가 알려져 있을 때 모평균( )의 추정… -표준정규분포로부터 다음의 식이 성립한다.
모표준편차( )가 알려져 있을 때 모평균( )의 추정… 모표준편차( )가 알려져 있을 때 모평균( )의 추정… 에 관한 의 신뢰구간 추정량 ( confidence interval estimator)
모표준편차( )가 알려져 있을 때 모평균( )의 추정… 모표준편차( )가 알려져 있을 때 모평균( )의 추정… 신뢰하한(LCL: Lower Confidence Limit) = 신뢰상한(UCL:Upper Confidence Limit) = 신뢰수준(Confidence Level) = ->신뢰수준은 동일한 표본크기를 가지는 표본들에 대하여 반복적으로 신뢰구간들을 구할 때 이들 신뢰구간들이 실제로 모수를 포함하는 비율을 의미한다. (예.95%의 신뢰수준은 동일한 표본크기를 가지는 100개 표본들로부터 구해진 신뢰구간들의 95%가 실제로 모수를 포함한다는 것을 의미)
모표준편차( )가 알려져 있을 때 모평균( )의 추정… 모표준편차( )가 알려져 있을 때 모평균( )의 추정… 90%의 신뢰수준의 경우 95%의 신뢰수준의 경우 99%의 신뢰수준의 경우
신뢰구간추정치 (Confidence Interval Estimate)의 해석… -모평균은 확률이 부여되는 변수가 아니고 고정된 값을 가지는 모수이다. 따라서 모평균에 관한 신뢰구간추정치를 모평균에 관한 확률을 나타내는 것으로 해석할 수 없다. -신뢰구간추정치를 해석하기 위해서는 신뢰구간추정량이 표본평균의 표본분포로부터 도출되었다는 것을 기억할 필요가 있다. 표본평균에 관한 확률을 나타내기 위해 표본분포가 사용 되었다. 따라서 약간의 조작이 있지만 신뢰구간추정량도 표본 평균에 대한 확률을 나타낸 것으로 이해할 수 있다.
신뢰구간추정치 (Confidence Interval Estimator)의 해석… 모평균에 대한 100(1- α)% 신뢰구간추정량은 표본평균이 실제로 모평균을 포함할 구간을 가지는 값을 가질 확률이 100(1- α)% 이라는 것을 의미한다. -표본평균이 계산되면 모평균이 포함될 것으로 기대되는 신뢰구간은 에 의해 구해지나 이 구간이 실제로 모평균을 포함하지 않을 수 있다. 95% 신뢰구간은 동일한 표본크기의 표본들로부터 계산되는 표본평균값들에 의해 구해지는 신뢰구간들 중 95%만이 실제로 모평균을 포함한다는 것을 의미한다.
신뢰구간추정량 (Confidence Interval Estimator)의 해석… -예/ 한 개의 주사위를 던지는 실험에서 확률변수 X를 윗면에 나타나는 점의 수라고 정의하자. 확률변수 X의 모평균을 추정하기 원한다고 하자. -확률변수 X의 확률분포는 알려져 있고 이와 같은 확률분포로부터 µ = 3.5와 σ = 1.71라는 것을 알고 있다. 이제 σ = 1.71는 알려져 있고 µ 는 알려져 있지 않다고 가정하자.
신뢰구간추정량 (Confidence Interval Estimator)의 해석… 신뢰구간 추정량은 다음과 같다. -모집단으로부터 표본크기가 100인 표본들을 반복적으로 추출하고 모평균에 관한 90%의 추정치들을 구하면 이와 같은 신뢰구간추정치들 중에서 10%만이 실제로 모평균을 포함한다
신뢰구간추정량 (Confidence Interval Estimator)의 해석… -모집단으로부터 표본크기가 100인 40개 표본들로 구해진 모평균에 관한 90%의 추정치들을 정리한 것이 <표 9.2>이다. <표9.2>에서 이와 같은 추정치들중 4개는 실제의 모평균(=3.5)을 포함하고있지 않은 것을 확인할 수 있다. <표 9.2> 신뢰구간추정치의 해석 -모평균의 신뢰구간추정치에 대한 해석을 이해하기 위한 실험 Applet 15 사용
신뢰구간추정량 (Confidence Interval Estimator)의 해석…구간길이 넓은 신뢰구간길이는 적은 정보를 제공한다 -예를 들면, 회계사의 평균 연봉에 대한 95% 신뢰구간추정치가 $15,000과 $100,000 사이 라고 하자. 그러나 이와 대조적으로 회계사의 평균 연봉에 대한 95%의 신뢰구간추정치가 $42,000과 $45,000 사이 라고 하자. - 두번째 신뢰구간추정치는 신뢰구간의 길이가 더 짧고 이에 따라 회계사의 평균연봉에 대하여 보다 더 정확한 정보를 제공해준다.
신뢰구간추정량 (Confidence Interval Estimator)의 해석…구간길이 -신뢰구간추정치의 길이는 신뢰수준, 모표준편차, 표본크기의 함수이다….
신뢰구간추정량 (Confidence Interval Estimator)의 해석…구간길이 -신뢰구간추정치의 길이는 신뢰수준, 모표준편차, 표본크기의 함수이다… “신뢰수준이 커질수록 신뢰구간은 더 넓어진다.”
신뢰구간추정량 (Confidence Interval Estimator)의 해석…구간길이 -신뢰구간추정치의 길이는 신뢰수준, 모표준편차, 표본크기의 함수이다… “모표준편차 σ의 값이 커질수록 신뢰구간을 더 넓어진다.”
신뢰구간추정량 (Confidence Interval Estimator)의 해석…구간길이 -신뢰구간추정치의 길이는 신뢰수준, 모표준편차, 표본크기의 함수이다… “표본크기가 증가할 수록 신뢰구간은 더 짧아진다.” ->그러나 표본크기를 증가시키기 위해서는 추가적인 데이터를 확보하기 위한 비용이 발생한다.
표본크기의 선택 (Selecting the Sample Size)… -추정량과 모수의 차이를 표본오차(sampling error)라고 부른다. 이와 같은 추정량과 모수의 차이를 추정오차(error of estimation)이라고도 정의할 수있다. <모평균 추정을 위한 표본크기의 결정> 에 관한 신뢰구간추정량 으로부터 모평균을 추정하기 위한 추정오차는 다음과 같이 나타낼 수 있다.
표본크기의 선택 (Selecting the Sample Size)… -따라서 추정오차의 허용크기는 다음과 같이 로 나타낼 수 있다. -모표준편차 , 신뢰수준 , 추정오차의 허용크기 가 주어지면, 모평균을 추정하기 위한 표본크기는 다음과 같다.
표본크기의 선택 (Selecting the Sample Size)… -예제 9.1에서 생산운영담당자는 데이터를 수집하기 전에 몇 개의 리드타임수요를 수집해야 하는지를 결정해야 한다. 생산운영담당자가 표준편차 =75, 신뢰수준 =0.95, 추정오차의 허용크기 =16로 설정한다면 표본크기를 몇 개로 하여야 하는가? -따라서 85개의 리드타임구간이 표본으로 추출되어야 한다.