Chap 3. 표본조사 3.1 표본추출(Sampling)의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정 3.4 신뢰문(Confidence Statement) 3.5 표본조사의 여러측면
3.1 표본추출(Sampling)의 기초 Terminology in Sampling 추출단위(Sampling Unit) : 관심의 대상이 되는 집단을 구성하는 각 개체 특성값(Characteristic) : 추출단위의 특성을 나타내는 값 변수(Variable)라고도 함 모집단(Population) 모든 추출단위의 특성값을 모아 놓은 것의 모임 통계학에서 관심의 대상의 되는 전체 집단 유한모집단(Finite Population) : 유한개 추출단위로 구성된 모집단 예) 대통령 선거의 지지율에 대한 문제에서 추출단위인 유권자는 유한함 무한모집단(Infinite Population) : 무한개 추출단위로 구성된 모집단 예) 전 세계 쌀의 수확량 추출단위인 벼의 수는 무한함 표본(Sample) 모집단에서 통계적 분석을 위하여 실제로 관측된 특성값들의 모임 IDS Lab, SNU 2008
3.1 표본추출(Sampling)의 기초 Why Sampling? Census Sampling 모집단 = Sample : 전수조사 시간과 비용의 문제 2005년도 인구 및 주택조사 분석결과는 1290억원을 들여 1년 후에 나옴 표본추출로 인한 차이(Variation)가 없다? P.25 1999년도 성남시의 백궁, 정자지구 용도변경에 대한 여론조사 93,000명 중 70,000명 찬성. 찬성자 8명 중 1명 만이 찬성한 사실을 기억 Sampling 관심의 대상인 모집단의 특성 추측이 목적 모집단의 분포와 비슷한 Sampling 추출이 관건 IDS Lab, SNU 2008
3.1 표본추출(Sampling)의 기초 Bad Sampling 어떤 Sample이 좋지 않은 Sample인가? Example 편의상 Box의 맨 윗줄에서 추출한 귤의 품질 조사 오후 4시 이전에 출구조사한 백화점의 고객 만족도 조사 근무시간 중에 이루어진 전화면접조사 Biased Design 한 쪽으로 치우친 통계적 연구 Voluntary Response Sample: 응답자의 자의가 반영된 편향된 표본 Convenience Sample: 조사자의 자의가 반영된 편향된 표본 Online Survey vs. Street Survey IDS Lab, SNU 2008
3.2 단순임의표본추출 How to get Good Sample? 자발적 반응표본과 편의표본: 각각 응답자의 조사자의 선택편향 문제 양측 조사 당사자들의 선택성향의 개입을 원초적으로 막아야 함 단순임의추출(Simple Random Sampling, 단순랜덤추출)법 유한모집단에서 n개의 추출단위로 구성된 모든 부분집합들의 표본으로 선택될 확률이 같도록 설계된 표본추출방법 표본의 대표성 확보 목적 조사자의 자의와 응답자의 자의를 배제 난수표(Random Number Table)를 이용한 단순램덤추출법 N개 Sampling Unit이 있는 모집단에서 n개의 Sample을 뽑을 때, 모든 Sampling Unit에 고유번호 부여 [1부터 N까지] 1~N까지의 수 중에서 n개를 선발 IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 모집단과 표본 모수(Parameter) 통계량(Statistic, 통계치) 모집단 크기 N 모집단의 특성에 관한 수: 평균, 분산, 비율 등 Constant, Unknown Value 통계량(Statistic, 통계치) 표본으로부터 구한 특성값 표본에 따라 다르다. 모수를 추측하는 도구 모집단 크기 N 표본 크기 n 모수 p 통계량 p^ IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 표본추출분포 K Research의 “대통령 국정수행 만족도” 여론조사 단순임의추출로 1000명의 표본 추출 그 중에서 부정적인 견해를 가진 사람의 비율 644명/1000 = 64.4% H Research도 같은 질문으로 동일한 방법의 여론조사 p^ = 590/1000 = 59.0% p^ : 통계량은 표본에 따라 값이 다르게 나타난다. 즉, 분포가 있다. Sampling Variability (표본추출변동) 같은 모집단에서 동일한 확률적 절차에 의해 추출된 두 표본사이에 존재하는 차이 Sampling Distribution (표본추출분포, 표본분포) 확률적 절차에 의해 표본을 많은 횟수 추출하는 경우에 나타나는 통계량의 분포 32,625,000명 부정적 견해를 가진 사람 비율 p 1000명 p^ =64.4% IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 표본추출실험 Simulation 1000개의 임의의 숫자를 읽어 5이하의 숫자들의 비율(p^)을 계산해보자. 이런 작업을 여러 번 반복하여 각각의 p^을 구한다. <모의실험> 이 때의 모수 p = 0.6 IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 표본추출실험 Simulation p^ 의 표본분포 표본추출변동의 크기가 그다지 크지 않다. 120개의 표본 중 거의 대부분의 p^는 참비율인 p로부터 ±0.05 이내에 있음 (0.553~0.636) 단순임의표본으로부터 산출된 표본비율 p^는 어느정도 정밀한 추정값 p=0.6인 Simulation이 아닌 다른 비율의 경우는? (p=0.5 또는 p=0.7) 마찬가지로 참 비율인 p=0.5 / p=0.7을 중심으로 퍼져있으며 IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 낮은 정밀도와 편향 만약 표본의 크기를 대폭 줄인다면 표본분포는 어떻게 될까? 250개의 표본으로부터 p^을 구한 후, 이를 120번 반복하여 표본분포를 구했다. 1000개 표본으로부터의 p^의 표본분포와 비교 모양은 비슷 (참 비율인 p=0.6을 중심으로 퍼져있다) 분포의 폭이 더 넓어졌다. (0.500~0.675: 편차범위 ±0.1) 표본의 크기가 작아지면 추정값의 정밀도가 낮아진다. IDS Lab, SNU 2008
3.3 표본으로부터 모집단 추정 낮은 정밀도와 편향 모집단의 크기 표본조사를 부실하게 만드는 또 다른 요인은 편향 표본조사 결과가 한쪽으로 치우치는 경향 Ex. 오후 시간대의 전화조사 표본의 크기를 아무리 크게한다고 해도 해결되지 않는다. 분포의 중심점이 p와 일치하지 않는다. (편향이 존재) 정밀도는 표본의 크기로 높일 수 있으나 편향문제는 표본추출방법 자체에 문제가 있으므로 표본설계를 처음부터 새로 해야 한다. 모집단의 크기 모집단 크기(N)가 표본 크기(n)에 비해 충분히 크다면 통계적 정밀도는 모집단 크기와 무관 IDS Lab, SNU 2008
3.4 신뢰문(Confidence Statement) p^의 표본분포 (Slide 8의 표본추출실험) 대부분 표본들의 p^은 모수(p=0.6)를 중심으로 ±0.05 사이에 존재 Furthermore… 0.6 ± 0.025에 표본비율들이 집중적으로 분포 [0.577,0.630]에서 114개의 표본비율 발견되는데, 이는 120개의 임의표본 중 대략 95%에 해당 크기 1000인 임의표본 120개 중 대략 95% p^ 들은 참 값 p(=0.6)를 중심으로 ± 0.03 이내 범위에 존재 p의 95% 신뢰구간 크기 1000인 표본에서 p^=0.644 라면, 신뢰도 95%에서 모비율 p는 0.644 ± 0.03 사이에 있는 것으로 추정된다. 95%의 표본들 IDS Lab, SNU 2008
3.4 신뢰문(Confidence Statement) 오차한계 (Margin of Error) 모집단의 참 값과 표본에서 산출되는 통계량과의 차이에 관한 일정 경계값 신뢰수준 (Level of Confidence) 가능한 모든 표본들 중에서 그 한계를 만족시키는 표본들의 비율 Q&A 신뢰수준 95%로 모비율(p)가 0.644±0.031 사이에 있다고 할 때, 이는 미지의 p 가 [0.613,0.675]에 있을 확률이 95%라는 말일까? 왜 꼭 95%인가. 이왕이면 99% 신뢰수준이 낫지 않을까? 동일한 신뢰수준에서 오차한계를 줄이고 싶다. 어떻게 하면 되는가? 신뢰도 95%에서 모비율 p는 0.644 ± 0.03 사이에 있는 것으로 추정된다. IDS Lab, SNU 2008
3.5 표본조사의 여러측면 단순임의추출인 표본조사 오류의 종류 편향이 없음 표본의 크기로 정밀도 제어가 가능 표본추출오류 (Sampling Error) 전수조사(Census)가 아니기 때문에, 표본(Sampling)으로 인하여 발생하는 오류 임의표본추출오류 (Random Sampling Error) : 오차한계로 표현 잘못된 표본추출로 인한 오류 : 표본설계 부실 Example. P42 전화조사 비표본추출오류 (Nonsampling Error) 표본추출오류가 아닌 오류: 부실한 응답자료입력/처리, 무응답, 응답자 오류 전수조사(Census)에서도 발생 가능 IDS Lab, SNU 2008
3.5 표본조사의 여러측면 표본조사 시 유의사항 조사결과 수용에 앞서 검토되어야 할 사항들 추출단위에 대한 정확하고 완전한 리스트의 작성 예) 1936년 미국 대통령선거 Landon VS. Roosevelt 무응답의 적절한 관리 철저한 조사자의 훈련 및 감독 정확한 설문지 작성 조사결과 수용에 앞서 검토되어야 할 사항들 P47~48 Twenty Questions a Journalist Should Ask About Poll Results Sheldon Gawiser & Evans Witt (저), National Council on Public Polls, USA IDS Lab, SNU 2008