Presentation is loading. Please wait.

Presentation is loading. Please wait.

수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25 표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25.

Similar presentations


Presentation on theme: "수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25 표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25."— Presentation transcript:

1 수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25
표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠

2 차 례 통계조사 및 표본조사, 용어 소개 표본추출법 사례: 지역사회 건강조사를 위한 표본추출 단순임의추출법 층화임의추출법
계통추출법 집락추출법 층화다단추출법 사례: 지역사회 건강조사를 위한 표본추출 May 25, 2017 표본추출의 이론과 실제

3 통계조사 통계(statistics): 어떤 집단의 특성을 수량화하여 나타내 주는 것 자료수집 방법 두 가지 두 가지 조사 방법
실험(experiment) 조사(survey) 두 가지 조사 방법 전수조사(complete enumeration) 표본조사(sample survey) 대표적인 통계조사 인구주택총조사(census) 각종 여론조사 TV 시청률조사 마케팅조사 기원: BC 1500경 모세가 이스라엘 백성을 출애굽 시킨 후 이스라엘 백성의 인구조사 (구약 민수기) May 25, 2017 표본추출의 이론과 실제

4 표본조사 정의: 관심의 대상이 되는 전체 집단 중 일부의 집단을 선택한 후 그 일부 집단에 대해서만 조사한 자료를 이용하여 전체 집단의 특성을 추정하는 통계조사 방법 장점(전수조사에 대(對)해) 경제성 신속성 심도 있는 조사 가능 조사의 정확성 파괴검사의 경우에 적절 문제점 대표성이 없는 표본으로 인한 오류 모집단의 세부적인 특성 파악은 곤란 May 25, 2017 표본추출의 이론과 실제

5 기본용어 기본단위(elementary unit): 조사의 대상이 되는 가장 최소의 단위 (조사단위, 관찰단위)
여론조사: 개인 가계조사: 가구 농작물 생산량조사: 일정한 면적의 경지 모집단(population): 관심을 갖고 특성을 알고자 하는 집단에 속하는 모든 기본단위들의 집합 예: 가구당 월평균 소득조사 기본단위: 가구 모집단: 대한민국 영토 내의 모든 가구 명확한 정의 필요 농가 소득조사 농가의 정의? 예, 300평 이상의 경지를 가지고 농사를 짓는 가구 두 가지 모집단 목표모집단(target population) 조사모집단(accessible population): 제주도와 도서지방을 제외한 전국 성인남녀 May 25, 2017 표본추출의 이론과 실제

6 기본용어 추출단위(sampling unit): 모집단에서 표본을 추출하기 위해 설정한 기본단위들의 집합
하나의 기본단위로 구성(추출단위=기본단위) 여러 개의 기본단위들의 집합(추출단위 기본단위) 추출틀(sampling frame): 모집단에 속하는 모든 추출단위들의 목록 개인, 가구, 사업체 등의 명부(list) 문서철, 파일, 지도 등 예: 가구당 평균소득조사 추출단위: 가구, 추출틀: 대한민국 모든 가구, BUT 거의 불가능! 표본(sample): 모집단을 잘 대표하여 추출틀로부터 뽑힌 추출단위 들의 집합 추출단위: 동(洞), 추출틀: 전국의 각 동의 목록 May 25, 2017 표본추출의 이론과 실제

7 표본설계 정의: 표본조사를 위해 모집단을 잘 대표하는 표본을 뽑는 과정 표본설계 시 고려할 사항
효율성과 대표성을 담보(擔保)할 수 있는 표본추출법의 선정 표준오차를 목표하는 수준 이내로 유지할 수 있는 최소 표본의 크기 결정 적절한 모수 추정 방법의 결정 May 25, 2017 표본추출의 이론과 실제

8 표본추출법 두 가지 표본추출법 확률추출법 단순임의추출법(simple random sampling)
확률추출법(probability sampling) 비확률추출법(non-probability sampling) 확률추출법 정의: 모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출확률이 주어지는 추출법 장점: 추정량의 신뢰성을 확률적으로 표현 가능 대표적인 방법 단순임의추출법(simple random sampling) 층화임의추출법(stratified random sampling) 계통추출법(systematic sampling) 집락추출법(cluster sampling) May 25, 2017 표본추출의 이론과 실제

9 비확률추출법 정의: 각 추출단위가 표본에 추출될 확률을 객관적으로 표시할 수 없는 추출법 장점 대표적인 방법
모집단을 정확하게 규정하기 곤란할 때 유리 간편하고 경제적임 대표적인 방법 전형법(typical method): 조사자의 지식과 경험을 바탕으로 표본을 주관적으로 선정하는 방법 할당법(quota method): 표본이 모집단의 구성비와 유사하게 구성비를 유지하도록 할당하는 방법, 각 속성별로 표본의 크기가 정해지면 동일한 속성 내에서 누구를 택하느냐는 조사원이 결정하도록 하는 방법 나쁜 예: 1948년 미국 대통령 선거여론조사 갤럽 여론조사: Duwey(공화당): 49.5% 실제 선거 결과: Truman(민주당): 49.5% 왜? 공화당 지지자들은 조사에 협조적이었음. May 25, 2017 표본추출의 이론과 실제

10 단순임의추출법 정의: 모집단 내의 각 추출단위들이 표본으로 추출될 확률을 동등하게 해주는 방법
복원(with replacement) vs. 비복원(without replacement) 모수의 추정 관심 모수: 모평균, 모총계, 모비율 등 모집단: 모평균: 모총계: 표본: 추정량 표준오차: May 25, 2017 표본추출의 이론과 실제

11 단순임의추출법: 표본의 크기 결정 절대 오차의 한계가 주어진 경우 상대오차의 한계가 주어진 경우
예: 종로구 아파트 세대의 평균매매가격조사 2004년 기준, 109개 평형의 아파트 단지 아파트 매매가의 표준편차=23,263(만원) 추정오차의 한계값=10,000(만원) 최소 표본의 크기=18개 평형의 단지 상대오차의 한계가 주어진 경우 모수의 값이 얼마인지 예상하기 어려울 때 상대오차의 한계=(절대오차의 한계)/모수, eg. 5% CV(coefficient of Variation, 변동계수) 요구됨 May 25, 2017 표본추출의 이론과 실제

12 층화임의추출법 정의: 모집단을 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층별로 단순임의추출법을 적용시켜 표본을 얻는 방법 예: 전국 서점에서 판매되는 월간 도서판매량조사 단순임의추출법 적용 대규모 서점이 전혀 뽑히지 않았을 때: 과소추정! 대규모 서점이 여러 개 뽑혔을 때: 과대추정! 추정값의 변동이 큼 해결방안 매장의 규모에 따라 대, 중, 소로 구분한 후, 각 규모별로 표본 선택 May 25, 2017 표본추출의 이론과 실제

13 층화임의추출법 장점 추가적인 요구 사항 단순임의추출법보다 추정량의 표준오차가 줄어듦. 단, 층 내 추출단위들이 동질적일수록!
전체 모집단에 대한 추정뿐만 아니라 각 층별로도 추정이 가능 대표성이 높음 조사 관리가 편리하고 조사 비용도 절감됨 추가적인 요구 사항 층화의 기준 마련 각 층별로 적절한 표본의 크기 배분 May 25, 2017 표본추출의 이론과 실제

14 층화변수의 선택 기준 층화변수 몇 가지 예 층의 최적경계점 결정
연구변수(혹은 조사변수)의 특성과 밀접하게 연관되어 있는 변수로! 모집단의 모든 추출단위에 대해 값을 알 수 있는 변수로! 층화변수 질적변수 양적변수 몇 가지 예 여론조사: 성별, 지역, 연령, 학력 등 제조업체나 사업체에 관한 조사: 전년도 매출액, 종업원 수 등 농작물의 생산량조사: 단위구(혹은 조사구) 내 논의 비율 등 층의 최적경계점 결정 층의 개수보다 하나 적게! 추정값의 분산이 최소가 되도록! 대표적인 방법: Dalenius & Hodges’s 누적도수제곱근법 May 25, 2017 표본추출의 이론과 실제

15 표본의 배분 고려할 사항 몇 가지 방법 각 층 내의 모집단 추출단위들의 수에 비례하게!
각 층 내의 추출단위들의 수: 많으면 크게! 층 내 각 관찰값들의 변동의 양: 크면 크게! 추출단위 당 조사비용: 많이 들면 작게! 몇 가지 방법 비례배분법 각 층 내의 모집단 추출단위들의 수에 비례하게! 각 층 내의 변동의 정도나 조사비용은 고려하지 않음 Neyman 배분법 층의 크기와 층별 변동을 동시에 고려하여! 최적배분법 층의 크기, 변동, 조사비용까지 모두 고려하여! May 25, 2017 표본추출의 이론과 실제

16 표본배분법 사례 어느 제조업종의 전국 총 생산량을 알아보고자 한다. 층화임의추출법에 의해 500개의 업체를 표본으로 조사하고자 한다. Q: 비례배분법 (혹은 네이만배분법, 최적배분법)을 사용하여 각 층의 표본의 크기를 결정하라. May 25, 2017 표본추출법과 사례연구

17 비례배분법 사례 A: 𝑁 𝑘 =24500 층1: 𝑛 1 =500× ≈367. 층2: 𝑛 2 =500× ≈82. 층3: 𝑛 1 =500× ≈41. 층4: 𝑛 1 =500× ≈10. 규모 (종원업수) (명) 제조업체수(개) 1 49 이하 18000 2 50-99 4000 3 2000 4 250 이상 500 May 25, 2017 표본추출법과 사례연구

18 네이만배분법 사례 A: 𝑁 𝑘 × 𝑆 𝑘 =4390 층1: 𝑛 1 =500× 18000×80 4390 ≈164.
층1: 𝑛 1 =500× 18000× ≈164. 층2: 𝑛 2 =500× 4000× ≈91. 층3: 𝑛 1 =500× 2000× ≈137. 층4: 𝑛 1 =500× 500× ≈108. 규모 (종원업 수) (명) 제조업체수 (개) 표본 분산 1 49 이하 18000 80 2 2 50-99 4000 200 2 3 2000 600 2 4 250 이상 500 1900 2 May 26, 2010 표본조사론

19 최적배분법 사례 A: 𝑁 𝑘 × 𝑆 𝑘 /√ 𝑐 𝑘 = 층1: 𝑛 1 =500× ≈198. 층2: 𝑛 2 =500× ≈110. 층3: 𝑛 1 =500× ≈117. 층4: 𝑛 1 =500× ≈75. 규모 (종원업 수) (명) 제조업체수 (개) 표본 분산 조사비용 1 49 이하 18000 80 2 2 50-99 4000 200 2 3 2000 600 2 4 250 이상 500 1900 2 May 26, 2010 표본조사론

20 층별 표본의 크기 결정 사례 층 규모 (종원업수) (명) 제조업체수 (개) 표본 분산 조사비용 비례배분 네이만 배분 최적배분
1 49 이하 18000 80 2 367 164 198 2 50-99 4000 200 2 82 91 110 3 2000 600 2 41 137 117 4 250 이상 500 1900 2 10 108 75 합계 24500 May 25, 2017 표본추출법과 사례연구

21 사후층화 언제 필요한가? 단순임의추출법에 의해 얻어진 표본의 구성이 이미 알고 있는 모집단의 특성을 잘 반영하지 못할 때
층화 방법: 조사된 자료에 근거하여! 단점: 사전층화에 비해 추정량의 분산이 커져 효율이 떨어짐 예: 인구 10만 명인 도시에서 평균 몸무게 추정 남녀구성비는 1:1로 가정 단순임의추출법으로 1,000명 추출 남자 800명, 여자 200명이 추출 남자 평균 몸무게=55kg, 여자 평균 몸무게=45kg 평균 몸무게의 추정값=53kg (사후층화 前) 평균 몸무게의 추정값=50kg (사후층화 後) May 25, 2017 표본추출의 이론과 실제

22 계통추출법 정의: 모집단의 추출틀에서 처음 개의 단위들 중에서 랜덤하게 하나의 단위를 추출하고, 그 이후 번째 간격마다 하나씩의 단위를 표본으로 추출하는 방법 (추출간격= ) 이로운 점 표본추출의 간편성 단순임의추출법의 대용으로 사용할 수 있음 표본이 모집단 전체를 잘 반영할 수 있음 주의할 점 추출틀이 주기성을 갖고 있을 때 May 25, 2017 표본추출의 이론과 실제

23 계통추출법: 세 가지 모집단의 형태 랜덤모집단 순서모집단 순환모집단
추출단위들의 조사변수값의 크기가 랜덤하게 배열되어 있는 모집단 추정량의 분산: 단순 계통 어느 대학의 대학생들의 월평균용돈: 추출틀: 등록학생명부: 가나다 순으로 정리, 용돈 액수와 무관 순서모집단 추출단위들의 조사변수값의 크기 순서대로 냐열된 모집단 계통표본이 이질적임 추정량의 분산: 단순 > 계통 순환모집단 추출단위들의 조사변수값이 주기적으로 변동하는 모집단 계통표본이 동질적임 추정량의 분산: 단순 < 계통 May 25, 2017 표본추출의 이론과 실제

24 집락추출법 정의: 서로 인접한 기본단위들로 구성된 집락(cluster)를 만들어, 먼저 집락을 추출하고 추출된 집락 내의 전체를 조사하는 방법 집락의 종류 자연적인 집락 가구, 반, 동, 사업체, 학교, 학급 등 인위적인 집락 Census를 위한 조사구 예: 서울에 있는 가구들의 연간 의료비 지출액 추정 단순: 서울시의 모든 가구에 대한 명부 필요, BUT 고비용! 집락: 행정구인 동을 추출단위로 사용, 전체 동에 대한 명부 필요 특징 단순임의추출법보다 효율이 떨어짐 집락 내 변동이 클수록 추정량의 정도(precision)가 높아짐 May 25, 2017 표본추출의 이론과 실제

25 집락추출법: 확률비레추출법 언제 필요한가? 모집단을 구성하는 집락들의 규모가 심하게 차이가 날 때
정의: 각 집락을 집락의 크기에 비례하여 뽑는 방법 예: 어떤 지역의 5인 이상 사업체를 대상으로 정규직 근로자의 월평균임금 추정 추출틀: 5인 이상 사업체 명부 사전 정보 사업체의 정규직 근로자 수 대다수의 사업체는소규모, 몇 개 사업체만 대규모 특징 조사변수의 집락합계와 집락 내 조사단위 수 간에 상관관계가 있을 때 효과적임 May 25, 2017 표본추출의 이론과 실제

26 확률비례랜덤추출 vs. 확률비례계통추출 확률비례랜덤추출 확률비례계통추출 집락 크기 누적크기 누적범위 1 50 1~50 2
1000 1050 51~1050 3 125 1175 1051~1175 4 300 1475 1176~1475 5 600 1975 1476~1975 6 25 2000 1976~2000 확률비례랜덤추출 난수표를 이용하여 1~2000 중에서 3개를 추출 가령, 1697, 624, 1109가 추출되었다면, 집락 5,2,3을 표본 집락으로 선택 확률비례계통추출 추출간격 계산: 2000/3=666 1~666에서 1개를 추출, 가령 100이 추출되었다면, 766, 1432, 98, 764), 3430(1430)이 추출됨. 따라서 집락 2,2,4,2,2,4, …, 1을 표본집락으로 선택 May 25, 2017 표본추출법과 사례연구

27 확률비례랜덤추출 vs. 확률비례계통추출 May 25, 2017 표본추출법과 사례연구

28 2단집락추출법 정의: 모집단의 집락들 중에서 표본 집락을 추출하고, 추출된 표본 집락들 중에서 일부 기본단위들을 추출하여 조사하는 방법 예: 어느 지역 초등학생 중에서 B형 간염에 대한 면역이 있는 학생들의 비율 추정 초등학생들에 대한 추출틀: 단순임의추출 가능! PSU(primary sampling unit): 초등학교에 대한 리스트 SSU(secondary sampling unit): 학급에 대한 리스트 May 25, 2017 표본추출의 이론과 실제

29 집락추출법: 자체가중설계 정의: 표본 내의 모든 조사단위들이 같은 추출확률을 갖도록 설계하는 것
모수의 추정량=추출된 조사단위에 부여된 가중값과 해당 조사단위의 관찰값의 함수 가중값은 추출확률의 역수 가중값은 조사단위의 관찰값에 의존하지 않음 2단계집락추출에서 자체가중표본을 얻는 방법 PSU를 등(等)확률로 추출 PSU를 확률비례로 추출 각 PSU 내의 집락의 크기를 알 때 사용 가능 각 PSU 내의 집락의 크기가 심하게 다를 때 사용 BUT, 단순집락확률비례추출은 자체가중설계가 아님 May 25, 2017 표본추출의 이론과 실제

30 자체가중설계 사례 모집단의 가구 수가 𝑁=2160인 어느 지역에서 𝑛=36가구를 추출 확률이 같도록 표본추출하여 조사하려고 한다. Q: 표본으로 추출된 각 PSU에서 12가구씩을 추출하는 자체가중설계를 하라. May 25, 2017 표본추출법과 사례연구

31 자체가중설계 사례 A: 1단계에서 확률비례추출법에 따라 추출되는 PSU의 수는 36 12 =3이다.
번호 집락의 크기 1 215 11 110 2 81 12 61 3 127 13 70 4 230 14 5 256 15 124 6 60 16 102 7 142 17 73 8 155 18 48 9 42 19 39 10 65 20 79 May 25, 2017 표본추출법과 사례연구

32 층화다단추출법 절차 왜 집락을 층화 해야 하는가? 단계1: PSU를 층화 한다.
단계3: SSU에서 단순임의추출법 또는 계통추출법으로 표본을 추출한다. 왜 집락을 층화 해야 하는가? 개별 기본단위 층화 보다 수월해서 집락 수가 적음 집락에 대한 유용한 정보를 층화변수로 활용할 수 있어서 층화효과가 큼 May 25, 2017 표본추출의 이론과 실제

33 지역사회 건강조사를 위한 표본추출 B001 B002 B003 B006 B005 B004 B007 B008 B009 B010 …
전국 253개 보건소 리스트

34 지역사회 건강조사를 위한 표본추출 B001-D1 B001-D2 B001-D3 B001-D6 B001-D5 B001-D4
B001 보건소 내 동 리스트

35 지역사회 건강조사를 위한 표본추출 B001-D1 동 내 표본지점 리스트 주택유형 표본지점 아파트 B001-D1-A-PJ1
일반 B001-D1-J-PJ1 B001-D1-J-PJ2 B001-D1-J-PJ3

36 지역사회 건강조사를 위한 표본추출 가구 B001-D1-A-PJ1 표본지점 내 가구리스트 B001-D1-A-PJ1-G1

37 지역사회 건강조사를 위한 표본추출 모집단 표본추출 표본가구 선정 예 1차 추출: 표본지점 2차 추출: 가구
목표 모집단: 조사의 목적이 해당 지역의 건강관련지표를 생산하는 것이므로 조사시점에 해당지역에 거주하는 19세 이상의 모든 주민 조사 모집단: 해당지역 주거용 주택(아파트, 일반주택)에 거주하는 19세 이상 모든 주민 표본추출 1차 추출: 표본지점 시군구 내에서 주택유형에 따라 통반리 명칭을 기준으로 정렬한 후에 가구수에 비례하도록 표본지점을 추출 2차 추출: 가구 표본지점으로 선정된 통반리의 가구명부를 작성한 후에 계통추출 표본가구 선정 예 1단계: 표본지점 내 총 가구수가 84가구라면 추출간격 계산 → 84/4=21 2단계: 1부터 추출간격까지의 수 중에서 난수를 생성하여 첫 번째 가구 선정 3단계: 첫 번째로 선정된 가구의 가구번호에 추출간격만큼의 숫자를 더해 나머지 3가구를 선정 May 25, 2017 표본추출의 이론과 실제

38 Quick Test: Q1 한양구에는 총 가구수가 500가구인 작은 구이다. 한양구의 보건소 건강증진팀은 새로운 건강증진 프로그램을 만들기 위해서 주민들의 운동시설 및 장소에 대한 요구도를 조사하려고 계획 중이다. 한양구 내의 총 3개 동이 아래의 그림과 같다고 한다. 이 때 20가구의 표본을 선정하여 각 가구내의 대표자 1인에게 조사하려고 한다. 표본추출은 각 동의 가구수 크기를 고려하여 비례할당 한다. 계통추출방법으로 가구를 선정한다고 할 때 해당 가구를 선정한다. 2동 : 총 50가구 1동 : 총 200가구 3동 : 총 250 가구

39 Quick Test: A1 표본 베분: 비례배분법 적용 동별 추출간격 및 추출 가구번호 1동:20× 200 500 =8(가구)
2동:20× =2(가구) 3동:20× =10(가구) 동별 추출간격 및 추출 가구번호 1동: 추출간격 =25, 추출 가구번호: 3, 28, 53, 78, 103, 128, 153, 178 2동: 추출간격 =25, 추출 가구번호: 6, 31 3동: 추출간격 =25, 추출 가구번호: 9, 34, 59, 84, 109, 134, 159, 184, 209, 234

40 Quick Test: Q2 한양구의 보건소에서는 보건소 내 등록된 고혈압 환자를 대상으로 고혈압 약 복용율 및 운동실천율에 관한 조사를 하고자 한다. 등록된 환자 목록을 활용하여 성별을 층화로 나눈 뒤 층화비례추출로 10명을 추출한다. 연령을 층화로 나눈 뒤 층화비례추출로 10명을 추출한다.

41 Quick Test: A2 성별층화 연령별층화 표본배분: 남-6명, 여-4명 추출간격: 님(여)-10
표본번호: 랜덤모집단으로 혹은 순서모집단(연령순으로 정렬) 간주하여 처음 10명 중에사 한 명을 뽑은 뒤 10 간격으로 나머지 배정인원 뽑음 연령별층화 표본배분: 50대-2명, 60대-3명, 70대-5명 추출간격: 50(60,70)대-10 표본번호: 랜덤모집단으로 혹은 순서모집단(남녀순으로 정렬) 간주하여 처음 10명 중에사 한 명을 뽑은 뒤 10 간격으로 나머지 배정인원 뽑음.

42 Thank you! May 25, 2017 표본추출의 이론과 실제


Download ppt "수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25 표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠 (jkimdt65@gmail.com) 2017. 5.25."

Similar presentations


Ads by Google