Presentation is loading. Please wait.

Presentation is loading. Please wait.

김 규 영 (kkyoung@nso.go.kr) 표본 설계 및 사례 2009. 3 김 규 영 (kkyoung@nso.go.kr)

Similar presentations


Presentation on theme: "김 규 영 (kkyoung@nso.go.kr) 표본 설계 및 사례 2009. 3 김 규 영 (kkyoung@nso.go.kr)"— Presentation transcript:

1 김 규 영 (kkyoung@nso.go.kr)
표본 설계 및 사례 김 규 영

2 목 차 들어가기 서론 표본설계 및 추출방법 통계청 가구부문 표본설계 - 경제활동인구조사 표본설계 통계청 사업체부문 표본설계
목 차 들어가기 서론 표본설계 및 추출방법 통계청 가구부문 표본설계 - 경제활동인구조사 표본설계 통계청 사업체부문 표본설계 외국 사례 표본이론(2009.3)

3 들 어 가 기 통계학 vs. 수학 통계학 : 데이터의 과학(statistics is science of data)
수학 : 패턴과 질서의 과학(mathematics is science of pattern and order) * statistics : 라틴어인 status, 18세기 독일어인 statistik - 국가에 관련된 자료를 연구하는 학문(정치적 산술) - 어떤 상태(state)에 관한 양적인 자료를 다루는 학문 * ASA 회장 Jon Kettenring “I like to think of statistics as the science of learning from data” (데이터의 지식화) 표본이론(2009.3)

4 서 론 통계학의 3가지 주제 표본이론(2009.3)

5 서론 : 모집단과 표본 표본이론(2009.3)

6 서론 : 모집단과 표본 표본이론(2009.3)

7 서론 : 자료의 축약 outlier(이상치) ※말콤 브래드웰 “성공의 기회를 발견한 사람들” 『1만시간의 법칙』
※말콤 브래드웰 “성공의 기회를 발견한 사람들” 『1만시간의 법칙』 자심 니콜라스 탈레브 (black swan) “세상은 우연 투성이여서 본질적으로 예측이 불가능하다” 평균값은 거대한 지적 사기(Great intellectual fraud) 표본이론(2009.3)

8 서론 : 변 동 표본이론(2009.3)

9 표본이론(2009.3)

10 표본설계 및 추출 표본을 어떻게 추출하지? 통계조사 표본규모 표본추출 표본설계 오차 추정 모집단 표본이론(2009.3)
본 사업은 통계청 DW 미래모습 중 통합 기반을 구축하는 사업으로 사업범위는 1)개별조사 통계정보에 대한 데이터 표준화와 이에 대한 지속적 유지관리를 위한 관리체계를 수립하는 부문, 2)통계 자료처리 시 사용되는 비즈니스 메타정보와 DB, 애플리케이션, 코드 등 정보기술 메타정보를 체계적으로 통합 관리할 수 있는 메타데이터 관리시스템을 구축하는 부문, 3)40개 조사통계와 신규 통계 원시자료를 통합 할 수 있는 통합 DB의 구축부문, 4)시범통계영역의 실제 통계원시자료를 개별 조사시스템에서 통합 DB에 적재하는 ETL 부문, 5) 시범 구축된 통계자료를 활용하여 조사과에서 사용하는 정형/비정형 장표에 대한 OLAP 서비스 구축 부문과 6) 시범 구축결과에 대해서 문제점 및 해결방안을 제시하는 시범구축결과보고서 작성부문으로 구성(?)되어 있습니다. 또한 기 구축되어 운영중인 사업체 경제통계 통합시스템에 대한 웹 환경 마이그레이션 부문이 포함되어 있습니다. 표본이론(2009.3) 10

11 표본설계 및 추출 표본업무 1 7 2 6 3 4 5 모집단 생성 및 분석 모수 추정 표본 설계 표본명부 생성 표본 규모
표본 배분 표본 추출 표본명부 생성 표본업무 1 2 3 4 5 6 7 표본이론(2009.3)

12 표본설계 및 추출 1 7 6 2 3 5 4 모집단 생성 및 분석 모수 추정 조사목적 파악 및 모집단 정의 모집단 생성 및 분석
표본 설계 표본 규모 표본 배분 표본 추출 표본명부 생성 모수 추정 1 2 3 4 5 6 7 조사목적 파악 및 모집단 정의 모집단 생성 및 분석 표본추출틀 생성/가공/편집 표본추출틀 분석 기술통계량, 교차분석, 빈도분석 그래프 분석 표본이론(2009.3)

13 표본설계 및 추출 2 1 7 6 3 5 4 표본 설계 모집단 생성 및 분석 모수 추정 표본명부 생성 표본 규모 표본 추출
공표 단위 선정 관심변수 선정 표본설계 방법 선정 임의 추출법, 층화 추출법 절사 추출법, 집락 추출법 등 표본 설계 2 표본명부 생성 6 표본 규모 3 표본 추출 표본 배분 5 4 표본이론(2009.3)

14 표본설계 및 추출 1 7 2 6 3 5 4 표본 규모 모집단 생성 및 분석 모수 추정 표본 설계 표본명부 생성 표본 추출
표본 배분 표본 추출 표본명부 생성 4 5 6 모집단 생성 및 분석 1 표본 설계 2 관심변수 추정량 선정(총수, 평균 등) 신뢰수준 설정 (90%, 95%, 99%) 목표허용오차 설정 - 절대허용오차, 상대허용오차 등 절사점 계산 및 설정 모수 추정 7 표본이론(2009.3)

15 표본설계 및 추출 1 7 2 6 3 4 5 표본 배분 모집단 생성 및 분석 모수 추정 표본 설계 표본명부 생성 표본 규모
표본 추출 표본명부 생성 5 6 비례배분 네이만배분 최적배분 모수 추정 7 표본이론(2009.3)

16 표본설계 및 추출 1 7 2 6 3 5 4 표본 추출 모집단 생성 및 분석 모수 추정 표본 설계 표본명부 생성 표본 규모
표본 배분 4 표본명부 생성 6 모수 추정 7 정렬변수 선택 표본추출방법 선택 단순임의 추출 (SRS) 계통추출 (Systematic) 확률비례추출 PPS 집락추출 Cluster 표본 규모 3 표본이론(2009.3)

17 표본설계 및 추출 1 7 2 6 3 4 5 표본명부 생성 모집단 생성 및 분석 표본 설계 표본 배분 표본 추출 모수 추정
표본 명부 생성 대체 명부 생성 모수 추정 7 표본 규모 3 표본이론(2009.3)

18 표본설계 및 추출 1 7 2 6 3 4 5 모수 추정 모집단 생성 및 분석 표본 설계 표본명부 생성 표본 규모 표본 배분
모수추정 설계기반 추정 비추정(ratio estimate) 회귀추정(regression estimate) 사후 층화추정 등 분산추정 잭크나이프(Jackknife) 붓스트랩(Bootstrap) 표본 규모 3 표본 배분 표본 추출 표본이론(2009.3)

19 표본이론(2009.3)

20 표본조사 통계조사 : 경제성, 신속성, 정확성, 조사의 적합성, - 전수조사 vs. 표본조사 심도 있는 조사
* Fisher(1950) : “조사자는 처음부터 허용오차를 가지고 조사설계를 하고, 조사가 끝난 후에는 실제 성취한 정도를 명확하게 알 수 있다” 표본이론(2009.3)

21 표본의 생명 통계의 정확성과 신뢰성 확보 표본의 생명 대표성 확보 모집단 추정 표본이론(2009.3) 소비자 물가지수를 계속
유지하는 방안 강구 필요 등… 대표성 확보 모집단 추정 표본의 생명 표본이론(2009.3)

22 표본의 대표성(1) 표본이론(2009.3)

23 표본의 대표성(2) 표본이론(2009.3)

24 표본이론(2009.3)

25 표본이론(2009.3)

26 표본의 모집단 추정문제 f(x) : 미지의 모집단 분포 μ : 모평균 σ2 : 모분산 평균 : E (Xi ) = μ,
xn : n 번째 추출된 관찰값 X1 ∼ f(x) X2 ∼ f(x) Xn ∼ f(x) 관찰값 : X1 = x1 , X2 = x2 , … , Xn = xn 평균 : E (Xi ) = μ, 분산 : Var (Xi) = σ2/n 표본이론(2009.3)

27 모수(parameter) : 모집단의 특성을 나타내는 수치
표본으로 모집단 추정이 어떻게 가능한 가? 모집단 분포(population distribution) : 어떤 통계적 실험의 대상이 되는 모든 대상물인 모집단의 자료에 대한 정보로부터 유도되는 확률분포 모수(parameter) : 모집단의 특성을 나타내는 수치 • 모평균(population mean) • 모분산(population variance) • 모표준편차(population standard deviation) • 모비율(population proportion) 확률표본 모집단의 확률분포를 비롯한 특성을 알기 위하여 전수조사를 한다는 것은 경제적, 공간적 또는 시간적인 제약에 의하여 거의 불가능 표본이론(2009.3)

28 통계량(statistics) : 모집단으로부터 얻은 표본을 이용하여 표본의 특성을 나타내는 통계적 양
표본으로 모집단 추정이 어떻게 가능한 가? 확률표본(random sample) : 모집단을 형성하고 있는 모든 대상들이 선정될 가능성을 동등하게 부여하고, 객관적이고 임의적으로 각 대상을 선정하는 방법 통계량(statistics) : 모집단으로부터 얻은 표본을 이용하여 표본의 특성을 나타내는 통계적 양 • 표본평균(sample mean) • 표본분산(sample variance) • 표본표준편차(sample standard deviation) • 표본비율(sample proportion) 통계량은 표본을 어떻게 선정하느냐에 따라서 그 값이 다르게 나타난다. 즉, 동일한 모집단에서 동일한 크기의 표본을 선정하더라도 각 표본의 평균은 서로 다르게 나타남. 통계량은 확률변수이다. 표본분포 (sampling distribution) :통계량의 확률분포 표본이론(2009.3)

29 표본으로 모집단 추정이 어떻게 가능한 가? 예) 나이에 대한 모집단이 6, 8, 10, 12, 14(N=5)로 구성되어 있을 때, 크기가 2인 표본 을 복원으로 추출 (풀이) 모평균 : = { }/5=10, 모분산 ={(6-10)2+…+(14-10)2}/5=8 크기가 2인 표본의 추출방법 총 개수 = 25 (6,6) (6,8) (6,10) (6,12) (6,14) (8,6) … (8,14) … (14,6) (14,8) (14,10) (14,12) (14,14) 표본평균 : 6, 7, 8, 9, 10, 11,12, 13, 14 표본평균의 도수분포표 (1/25) (5/25) (1/25) 표본평균의 분포 표본이론(2009.3)

30 표본으로 모집단 추정이 어떻게 가능한 가? 표본평균의 평균 : = 10 = 모평균 표본평균의 분산 : = 4 = 8/2 =
표본평균의 평균 : = 10 = 모평균 표본평균의 분산 : = 4 = 8/2 = 모집단 분포 (균등분포) 표본평균의 분포 (근사정규분포) 표본이론(2009.3)

31 표본으로 모집단 추정이 어떻게 가능한 가? (*) 중심극한이론(CMT:Central Limit Theorem) μ-3σ
μ-1.96σ ~μ-2σ μ-σ μ μ+σ μ+1.96σ ~μ+2σ μ+3σ 0.683 0.954 0.95 0.997 표본이론(2009.3)

32 표본으로 모집단 추정이 어떻게 가능한 가? 표본이론(2009.3)

33 ★ 성인 남성의 평균 키 : 173㎝, 표준편차 : 6㎝ - 성인 남성에 대한 95% 신뢰수준하의 키의 범위 ?
- 성인 남성에 대한 95% 신뢰수준하의 키의 범위 ? [ ㎝ ~ ㎝ ] ♣ 축구 국가대표 25명의 평균 키가 176㎝로 측정 되었다면, 성인 남성에 대한 이 들의 키에 대한 생각은 ? ① 무지하게 크다 ② 조금 크다 ③ 오차범위 내에 있다 표본이론(2009.3)

34 표본이론(2009.3)

35 표본 관련 기본용어 기본단위 : 조사내용에 따라 정의 (cf. 조사단위) 모집단(universe 또는 population)
- 유한모집단 vs. 무한모집단, 목표모집단 vs. 조사모집단 - 부차모집단 ( 또는 층, 조사영역) 추출단위 : 표본으로 추출되는 단위 - 기본단위 ≤ 추출단위 추출틀(sampling frame) : 명부, 약도, 카드 ① 모집단의 모든 추출단위를 포함 ② 누락이나 중복 제거 ③ 명확하고 쉽게 식별이 가능 표본이론(2009.3)

36 표본 관련 기본용어 모수(parameter), 통계량(statistic) 추정량(estimator), 추정값(estimate)
추정량의 성격 - 불편성 : - 일치성 : - 효율성 : 표본이론(2009.3)

37 오차 오차(error) - 상대표준오차(변동계수) : 추정량의 표준오차를 - 평균제곱오차(MSE) :
- 의 분산 : 표본분산( ) * - 편향(bias) - 표준오차 : 표본분산의 제곱근 - 상대표준오차(변동계수) : 추정량의 표준오차를 추정량의 기대값으로 나눈 비 * 정확도(accuracy) vs. 정도(precision) 표본이론(2009.3)

38 오차 : 편향과 분산 편향(bias) ? 분산(variance) ? 정도(precision) ? 편향 분산 정도 A B C D
X A C D 편향 분산 정도 A B C D 표본이론(2009.3)

39 오차 : 표본오차와 비표본오차 - 표본에서 모집단 전체를 추론하는 과정에서 생기는 오차 - 표본오차를 제외한 나머지 모든 오차
- 표본에서 모집단 전체를 추론하는 과정에서 생기는 오차 - 표본조사에서만 존재(전수조사는 표본오차가 없음) 비표본오차 - 표본오차를 제외한 나머지 모든 오차 - 조사기획단계, 조사원, 표본프레임 등에 의한 오차 - 전수조사(Census)에서는 비표본오차만 존재 표본이론(2009.3)

40 오차 : 표본오차와 비표본오차 표본이론(2009.3)

41 오차 : 표본오차와 비표본오차 표본이론(2009.3)

42 공표시 표본오차에 대한 이해 - 10.00% ~ 14.99% : 좋음[Good]
    % ~ 24.99% : 허용 가능(Acceptable)            % ~ 34.99% : 주의사항과 함께 사용가능(Use with caution)      %  : 공표시 신뢰불가(Too unreliable to publish)        * 캐나다 서베이 기준   표본이론(2009.3)

43 표본추출방법 표본추출방법 확률표본추출 비확률표본추출 단순무작위표본 편의표본 계통 표본 판단표본 층화표본 비례적 불비례적
할당표본 집락표본 지역표본 눈덩이표본 여러 가지 방법이 발생하는 이유 적은 시간에 적은 비용으로 효과적인 결과를 얻기 위해 각 상황에 적당한 최적방법을 사용하기 위해서 이다. 표본이론(2009.3)

44 표본추출방법 확률표본추출법과 비확률표본추출법의 비교 모집단에 대해 보다 대표성이 높다. 비교기준 확률표본추출 비확률표본추출
표본의 모집단 대표성 높음 낮음 표본추출 오류계산 가능 불가능 추계통계기법 적용 비용 표본추출기법 높은 수준 요구됨 높은 수준 요구되지 않음 표본이론(2009.3)

45 표본추출방법 표본이론(2009.3)

46 표본설계 및 추출 확률추출법(Probability Sampling) 단순임의추출법(Simple random sampling)
계통추출법(Systematic sampling) 층화추출법(Stratified sampling) 집락추출법(Cluster sampling) 확률비례추출법(PPS, Probability proportionate sampling) . 표본이론(2009.3)

47 표본설계 및 추출 비확률추출법(Nonprobability Sampling) 표본으로 뽑힐 확률이 동일치 못함
 정규성에 의한 분석이 어렵다  표본자체에 대한 결과만 해석  전체모집단에 대한 일반화 불가능 보행자 조사법(Sidewalk survey) 유의추출법(Purposive sampling) 눈덩이 추출법(Snowball sampling) 할당추출법 (Quota sampling) 표본이론(2009.3)

48 표본규모 표본의 크기 결정 비확률표본 추출 시 : 사용가능한 예산과 시간에 따라 조사자의 판단에 따라 결정하며, 특별히 계산하는 방법은 없다. 확률표본 추출 시 : 표적모집단의 조사변수값의 분산, 신뢰수준, 허용오차에 따라 결정. 조사하고자 하는 변수의 분산값이 클수록 표본의 크기는 커야 한다. 추정치에 대해서 높은 신뢰수준(confidence level)을 원할수록 표본의 크기는 커야 한다. 허용오차가 작을수록 표본의 크기는 커야 한다. 표본이론(2009.3)

49 표본규모 ? 표본오차가 있는 경우 반복되는 조사의 표본규모 허용오차와 신뢰도를 이용한 표본규모
P(|추정값 – 참값| < 오차의 한계) = 신뢰수준 - 평균추정의 경우 표본이론(2009.3)

50 표본규모 ? 표본오차가 없는 경우 표본오차 추정 비율조사에서 표본규모 - 시험조사실시 - 범위이용: 범위/4, 범위/6
p=0.5, 95% 신뢰도 적용, 표본이론(2009.3)

51 표 본 규 모 평균추정을 위한 표본크기 결정 허용오차의 종류 신뢰수준은 보통 90%, 95%, 99% 중 하나를 선택
Z(신뢰수준)가 클수록 σ2(분산)이 클수록 d(허용오차)가 작을수록 n이 커진다 Z = 신뢰수준과 관련된 Z 모집단 분산의 추정치(사전정보나 경험을 토대로 추정하고 pilot study에 의해서 추정함) d 허용오차(평균값의 단위와 같은 단위로 나타냄) 허용오차의 종류 절대오차 : 상대오차 : 상대표준오차 : 표본이론(2009.3)

52 표 본 규 모 비율추정을 위한 표본크기 결정 Z = 신뢰수준과 관련된 Z 값
조사특성값을 가질 비율의 추정치(사전정보나 경험을 토대로 추정하거나 pilot study 에 의해 추정됨) 1 - , 조사특성값을 갖지 않을 비율의 추정치 d 허용오차(비율로 나타냄) 표본이론(2009.3)

53 단순임의추출(SRS) 모든 가능한 표본에 동일한 추출확률 을 부여 - 난수표를 사용 예) 모집단={1, 2, 3, 4}
크기가 2인 표본 추출 추출 가능한 표본의 모든 경우: {1,2} , {1, 3} , {1, 4} , {2, 3} , {2, 4} , {3, 4} - 6가지 가능한 표본들이 각각 추출될 확률을 1/6 로 모두 같게 해주는 추출법 표본이론(2009.3)

54 계통추출(Systematic Sampling)
모집단내에 있는 모든 추출단위에 일련번호를 부여하고 이를 동일한 간격으로 나눈 후, 첫 구간에서 무작위로 하나의 번호를 선정한 다음 뽑힌 단위로부터 동일한 간격의 단위를 계속해서 표본으로 추출하는 방법 예) 모집단수=50개, 표본수=5개 - 모집단 명부에 1-50번의 번호를 부여한 후 - 50/5=10번 까지 번호 중에서 1개 선택 - 예를 들어 5번이 선택되면, 나머지 표본은 5번, 15번, 25번, 35번, 45번 : 5개 표본 표본이론(2009.3)

55 계통추출(Systematic Sampling)
추출이 간편하고, 실사가 용이 모집단을 k 개의 층으로 분할하는 효과 ※ 계통 vs. 층화 선형계통추출 : N=nk일 경우 k개의 계통추출표본이 존재 -> k개의 표본에서 1개의 표본을 임의추출 순환계통추출 : 1과 N사이에서 난수 r을 택해 출발점으로 매 k번째 단위를 n개 추출하는 방법 모집단의 모든 단위가 임의로 배열 - 계통은 단순임의추출과 같다 주기적 변동을 갖는 모집단 : 효율성은 k값에 좌우 표본이론(2009.3)

56 층화 추출법(Stratified Sampling)
성질이 다른 모집단을 성질이 같은 그룹(층)으로 나눈 후 층별로 표본추출 모집단 층별로 추출 표본 1층(N_1) 2층(N_2) . L 층(N_L) 1층(n_1) 2층(n_2) . L 층(n_L) 표본이론(2009.3)

57 비례배분법 각 층의 표본수를 층의 크기에 비례하여 배분 예) 모집단수(600개)
예) 모집단수(600개) 1층 : 100개, 2층: 200개 , 3층 300개 표본 : 120개 1층 : 20개, 2층 : 40개, 3층 : 60개 표본이론(2009.3)

58 Neyman 배분법 층별 크기와 층별 표준편차를 고려하여 표본추출 - 층별 크기가 클수록, 표준편차가 클수록 표본을 많이 배분
일반적으로 비례배분법에 비해 상대효율이 크며 - 분산의 값이 서로 다른 층이 적어도 2개 이상 있을 경우에 효과적임 표본이론(2009.3)

59 최적배분법 층별 모집단의 크기, 층별 표준편차 및 층별 조사비용을 각각 고려하여 표본추출
크기가 클수록, 표준편차가 클수록, 조사비용이 적을 수록 표본을 크게 배분 표본이론(2009.3)

60 집락 추출법(Cluster Sampling)
모집단 집락을 추출 표본 집락 1 집락 2 . 집락 N 집락 1 집락 2 . 집락 n 표본이론(2009.3)

61 층화 & 집락 -16개 시도별로 층화 각 층 내부는 동질적으로 층간은 이질으로 집락내부는 이질적으로 집락들간에는 동질적으로
예) -16개 시도별로 층화 (지역간에는 이질적이고, 지역내에는 동질적) - 동일지역내에서 몇 개의 학교(아파트) 선택 (학교(아파트) 는 집락, 동일지역내의 학교는 동질적으로 판단) 표본이론(2009.3)

62 층화 & 집락 표본이론(2009.3)

63 층화 & 집락 표본이론(2009.3)

64 Cut-Off(절사법) 방법 특성치의 분포가 한쪽으로 편중되어 있고 작은 규모에 대한 신뢰성있는 표본틀이 없는 경우에 사용
전체 특성치합에 90%이상을 차지하면서 사업체수는 적은 대규모 사업체층만 조사하여 전체를 추정할 수 있도록 설계 변화가 심한 모집단의 경우에는 주의 표본이론(2009.3)

65 응용절사법(Modified Cutoff)
특성치의 분포가 한쪽으로 상당히 편중되어 있고 작은 규모의 사업체에 대한 신뢰성 있는 표본틀이 있는 경우에 사용 표본이론(2009.3)

66 응용절사법 사례 가. 표본틀 사업체기초 통계조사중 산업세세분류 90011(일반페기물 수집 처리업)에 해당하는 사업체
가. 표본틀 사업체기초 통계조사중 산업세세분류 90011(일반페기물 수집 처리업)에 해당하는 사업체 나. 모집단 분석 표본이론(2009.3)

67 Frequency Table Value Count Cell Cum Value Count Cell Cum
Percents Percents Value Count Cell Cum Value Count Cell Cum 중략 표본이론(2009.3)

68 Variable=매출액 Univariate Procedure N 93 Sum Wgts 93
Mean Sum Std Dev Variance Skewness Kurtosis USS E9 CSS E8 CV Std Mean T:Mean= Pr>|T| Boxplot * | | | | | | | | | | | | | *----* | 표본이론(2009.3)

69 Stem Leaf 300 268 0 250 200 150 0 100 50 48 46 7 44 42 40 38 0 36 34 32 30 28 26 22 20 00 18 80 16 05 14 4 12 00 10 38 Stem.Leaf by 10**+2 표본이론(2009.3)

70 나. 모집단 분석 왜도(Skewness)가 약 6.8인 것으로 보아 오른 쪽으로 긴 꼬리를 가진 분포형태임
상자그림(Boxplot)에서도 잘 나타나듯이 매출액이 상당히 큰 소수의 업체가 있으며 소규모의 업체들이 대다수 존재 분산이 상당히 큰 것으로 보아 매출액이 큰 사업체의 영향이 큼 오름차순으로 정열된 매출액을 보면, 26790, 15000, 4566, 3800, ... 등의 순으로 되어있다. 즉 아주 큰 매출액을 가진 업체가 소수 존재 표본이론(2009.3)

71 다. 표본규모 계산 - 표본층 표본은 표본규모 계산 공식에 의해 계산 절사점(Cut-Off Point) 결정
총표본규모 = 전수층 표본 + 표본층 표본 - 표본층 표본은 표본규모 계산 공식에 의해 계산 절사점(Cut-Off Point) 결정 - 주어진 허용오차와 신뢰수준하에서 총표본규모가 최소가 되는 점을 구함 표본이론(2009.3)

72 라. 작업과정 모집단을 크기 순으로 나열 표본층 표본규모를 구한다.
- c: 전수층, s: 표본층, N: 모집단수, P: 전수층비율, Q: 표본층비율, k: 신뢰계수, CV: 표본층 CV 전체표본수(=전수층+표본층)가 가장 작은 단계가 바로 절사점 표본이론(2009.3)

73 순서 매출액 전수층 비율 표본층 표준편차 표본 전체 표본수 1 26790 100 3187.7 93 88.348 J 2 15000 26.58 73.41 1712.4 92 77.674 J 3 4566 41.47 58.52 837.4 91 51.132 J 4 3800 46.00 53.99 731.2 90 44.251 J 5 2584 49.77 50.22 650.7 89 38.36 J . 13 1750 67.2 32.79 410.3 12 81 17.425 J 14 1600 68.93 31.06 383.9 80 15.328 J 15 1538 70.52 29.47 361.0 79 13.545 J 16 1200 72.05 27.94 338.0 78 11.849 J 17 73.24 26.75 326.1 77 10.885 26.885 18 1080 74.43 25.56 313.1 76 9.900 26.900 표본이론(2009.3)

74 절사점의 선택 총표본규모 절사점 표본이론(2009.3)

75 절사점이 결정된 이후 절사점 상위에 있는 사업체는 모두조사(전수조사), 그 이하에 있는 사업체는 표본추출
예) 절사점은 17번째 전수층 16개, 표본층에서 11개 사업체추출 전체 표본수 = = 27개 사업체 표본이론(2009.3)

76 표본층 표본추출 : 계통추출법 예) 표본층모집단수 = 77, 표본층표본수=11
추출간격 (표본층모집단수/표본층표본수)에 따라서 표본추출 예) 표본층모집단수 = 77, 표본층표본수=11 추출간격 = 77/11 = 7 0-7사이의 난수선택 : 2 출발점 : 16+2 = 18번째 사업체 18, 18+7=25, 18+7*2=32, …, ……, 18+7*10=88 최종적으로 18, 25, 32, …, 88번째 사업체선정 표본이론(2009.3)

77 마. 모수추정 총계 = 전수층 합 + 승수 * 표본층합 승수 = 표본층모집단수/ 표본층표본수 예) 총매출액
= ( … ) + 77/11*( … + 10) 표본이론(2009.3)

78 표본이론(2009.3)

79 <디지털 시대 인재가 지녀야 할 5대 덕목>
1. 기본에 철저하라       - stick to basic 먼저 인간이 돼야한다 2. 항상 준비하라           - always ready 3. 열정과 도전의식을 가져라 - be ambitious 4. 글로벌 감각을 지녀라    - be global 경쟁자는 국내뿐 아니라 국외에도 있다 5. 무엇을 하든 즐겁게 하라 - make it fun 머리 좋은 사람은 열심히 하는 사람을 못 따라가고, 열심히 하는 사람은 즐기는 사람을 못 이긴다. 표본이론(2009.3)

80 표본이론(2009.3)

81 표본이론(2009.3)

82 2005 센서스 - 전수조사(Short form): 21항목 - 전수조사: 2006년 5월, 7월
2005 Census(인구주택총조사) - 전수조사(Short form): 21항목 - 표본조사(Long form): 44항목 ( 전수 21항목 + 추가 23 항목) 예산: 약 1,290억원 동원인력: 약11만명(조사원 약9만명) 결과공표 - 전수조사: 2006년 5월, 7월 - 표본조사: 2006년 9월, 11월, 12월 표본이론(2009.3)

83 2005 Census: 조사구 조사구(ED, Enumeration District) - 약 60가구로 이루어진 지역
- 조사구수(잠정): 263,108개(조사후265,294개) 아파트 조사구(A)  : 103,900(39.5%) 보통   조사구(1)  : 158,096(60.1%) 섬     조사구(2)  :   1,112(0.4% ) - 조사원업무량 배정, 표본추출단위 등에 기초단위 역할 표본이론(2009.3)

84 2005 Census 표본조사 기본방향 - 전국 총 조사구의 약10%를 추출 - 조사구 특성 A, 1, 2 만을 고려
기숙시설(3) 및 특수사회시설조사구(4)는 모두 포함 - 표본의 대표성 제고 및 다양한 통계작성을 위하여 층화추출 - 소지역통계작성이 가능하도록 읍면동별 조사구규모 에 따라 추출비율 차등적용 표본이론(2009.3)

85 Census 표본조사구 추출(1) 표본조사구 추출 - 시도, 시군구, 읍면동 및 조사구 종류별(A, 1, 2)로 층화
- 계통추출법으로 초기값을 달리 하면서 여러 개의 표본군 작성 - 여러 표본군 중 모집단의 10% 비율, 평균가구수, 아파트조사구 및 보통 섬 조사구 구성비 등을 고려하여 모집단과 가장 유사한 표본을 최종 표본조사구로 확정 표본이론(2009.3)

86 Census 표본조사구 추출(2) 최종 표본조사구수: 26,605개 (조사후 26,713) 읍면동 조사구수별 표본추출비율
- 조사구 특성 1,2 : 16,680개(62.7%) - 조사구 특성 A : 9,925개(37.3%) 읍면동 조사구수별 표본추출비율 - 조사구수 1개(1개)          : 전체 표본(100%) - 조사구수 2-8개(42개)        : 2개        - 조사구수 9-49개(1,560개)     : 4개       - 조사구수 개(1,837개) : 10% 내외 - 조사구수 200개 이상(126개) : 8% 내외, 최소 18개 이상 표본이론(2009.3)

87 통계청 가구부문 표본설계 표본설계 순서 표본틀 설정 층화 표본규모 결정 표본조사구 추출 구역설정 및 표본구역 선정 표본관리
표본이론(2009.3)

88 표본틀 설정 - 2005년 인구주택총조사 10% 표본자료 표본틀
- 10% 표본조사구중 아파트조사구 및 보통조사구: 26,505개 ~ 신축된 아파트(506개) 자료를 보조자료로 이용 => 27,011개 조사구 표본이론(2009.3)

89 층 화 1차 층화 2차 층화 - 7개 특광역시와 9개 도 - 독립적 추정이 가능 - 각 도에서 동부와 읍면부
- 동부와 읍면부에 따라서 고용형태 및 소비구조 다름 최종적으로 전국을 25개로 층화 표본이론(2009.3)

90 표본규모 결정 경제활동인구조사 - 표본규모산출을 위한 변수선정을 위해 2000년 경제활동인구조사의 연평균 시도별 상대표준오차를 분석 실업자를 표본규모결정을 위한 변수로 설정 - 목표정도 : 상대표준오차를 기준으로 전국 1% 이하 서울시 2%이내, 광역시 4%내외 경기 2%내외, 기타 도는 5% 내외 표본이론(2009.3)

91 표본규모 결정 - 최종표본가구수 - 조사구당 조사구역 및 가구수 경제활동인구조사 =표본조사구수*조사구내 표본가구수
조사구당 가구수 = 20가구 조사구당 구역수 =4개(구역당 가구수=5) 표본이론(2009.3)

92 경제활동인구조사 표본규모 시 도 예상CV 예상 CV 전국 1629 0.95 서울 207 2.01 강원 90 6.19 부산
조사구수 예상CV 예상 CV 전국 1629 0.95 서울 207 2.01 강원 90 6.19 부산 117 108 3.10 충북 81 4.37 대구 3.29 충남 4.07 인천 99 2.87 전북 4.98 광주 3.30 전남 4.95 대전 3.49 경북 4.27 울산 63 72 4.13 경남 4.21 경기 198 2.36 제주 45 6.64 표본이론(2009.3)

93 표본규모 결정 가계조사 2006년 분기별 평균 상대표준오차(근로자가구의 소비지출)를 분석하여 시도별 표본규모를 확정
2006년 분기별 평균 상대표준오차(근로자가구의 소비지출)를 분석하여 시도별 표본규모를 확정 가계조사의 조사대상범위: 2인이상 → 1인이상 - 2006년부터 1인가구 공표 조사구당 표본규모: 2구역(10가구) 표본규모 : 999조사구(적격가구 약8,800가구) - 음식, 숙박업소, 부정기출타 및 농어가 제외 표본이론(2009.3)

94 가계조사 표본규모 시 도 조사구수 소비지출 CV 전국 999 1.3 서울 126 3.3 강원 63 6.3 부산 72 4.0
충북 54 5.3 대구 5.1 충남 4.6 인천 전북 5.4 광주 4.1 전남 7.3 대전 6.5 경북 4.4 울산 36 4.7 경남 4.3 경기 108 3.2 제주 27 5.2 표본이론(2009.3)

95 표본조사구 추출 - 1차: 주택유형 분류지표에 쓰인 변수 조사구별로 기초자료를 집계
실업자 및 가구소득과 상관이 있다고 판단되는 특성항목을 조합하여 분류지표 선정 분류지표에 쓰인 변수 - 1차: 주택유형 - 2차: 산업구조 - 3차: 경활상태 - 4차: 행정구역 및 조사구 번호 표본이론(2009.3)

96 < 경제활동인구조사 분류지표 >
동부 읍면부 1차 분류 주택유형 1.단독 2.중소형 3. 대형 4. 기타주택 2차 분류 산업구조 1.농림어업 10%이상 2.광공업 10% 미만 3. 광공업 10~19% 4. 기타 1.서비스 10% 미만 3차 분류 경활상태 1. 실업자비율 층별 평균이상 2.실업자비율 층별 평균이하 4차 분류 행정구역 및 조사구 번호 표본이론(2009.3)

97 표본조사구 추출 경제활동인구조사 - 분류지표에 의해 자료를 정리한 후 가계조사
- 각 조사구의 가구수 크기에 비례하여 추출하는 확률비례계통추출방법으로 추출 가계조사 - 경제활동인구조사 조사구중에서 평균가구원수와 승용차비율에 따라 조사구를 정리한 후 각 층별 표본규모에 해당하는 표본을 계통추출 표본이론(2009.3)

98 표본조사구내 구역설정 조사구 경계 확인 조사구요도의 작성 거처번호부여 및 가구명부작성 표본조사구내 구역설정 - 구역 : 5가구
- 구역간 거처수는 달라도 가구수는 동일하게 - 주택신축이 가능한 공지가 있는 경우 공지의 면적을 균등하게 배분 표본이론(2009.3)

99 표본구역 선정 경제활동인구조사 - 조사구별로 4개의 구역을 추출 가계조사 - 임의로 정한 표본구역에서 시작하여 서로 인접한
- 경제활동인구조사 4개 조사구역 중 첫번째와 두번째 구역을 조사구역으로 지정 - 농가를 제외한 적격가구만이 조사대상임 표본이론(2009.3)

100 연동표본(Rotation Sampling) 도입
월별 표본교체단위 : 조사구역 1개 월별 표본교체 규모 : 1/36(약 900가구) 응답기간 : 36개월 표본이론(2009.3)

101 소비자 전망조사 개요 목적 - 소비주체들이 느끼는 경제현상에 대한 인식을 조사하여
지수화함으로써 경기종합지수의 소비부문지표로 활용 조사대상: 동부지역의 20세이상 70세 미만 기혼자, 경제활동에 참여하는 미혼자 조사시기: 매월 경제활동인구조사기간에 실시 조사방법: 면접조사 표본틀 : 2007년 5월 경활 조사구 중 조사가능가구가 8가구 이상인 조사구 1242개 조사구(42,963명) 표본이론(2009.3)

102 표본설계 기본방향 표본규모 : 전국 6,000명 - 2-4-2 연동표본, 매월 1,000개 조사구에서 2,000명 조사
시도별 표본규모 - 경활조사구 내 조사대상자수에 비례함을 원칙으로 2005년 인구주택총조사 인구수를 감안하여 조정 - 가급적 가계조사를 실시하지 않는 가구에서 우선 추출 (서울, 경기, 경남은 가계조사가구 일부 포함) - 1가구에서 1명씩만 표본추출 표본이론(2009.3)

103 소비자 전망조사 연동표본구조 1 2 3 4 5 6 1월 2월 3월 4월 5월 6월 7월 8월 표본이론(2009.3)

104 표본 조사구 추출 특성항목 선정 - 성별: 남 녀 - 연령그룹: 20대, 30대, 40대, 50대, 60대
- 교육정도: 중졸이하, 고졸, 대졸이상 표본조사구 추출 - 조사가능조사구를 조사구번호 순으로 정렬한 후 층별로 결정된 표본규모만큼을 계통추출 - 가계조사구를 가능한 적게 포함하면서 조사대상자를 많이 포함하는 표본선정 표본이론(2009.3)

105 표본 가구원 추출 - 가구원 전체를 성, 연령 및 교육정도별로 정리 표본가구원 선정 - 조사구당 1명씩 1,000명을 계통추출
- 추출된 가구는 제외하고 다시 조사구당 1명을 추출하는 과정을 반복 - 각 조사구에서 6명(+2 예비)의 표본가구원 선정 (2-4-2 연동표본) - 6개 그룹별 표본의 성별, 연령별, 교육정도별 분포 1,000개 조사구의 분포와 비슷하도록 함 표본이론(2009.3)

106 소비자 전망조사 표본규모 전국 1000 서울 171 27 198 강원 36 -3 33 부산 100 4 95 충북 대구 74
시 도 조사가능 조사구 비례 조 정 최종 표본 조정 전국 1000 서울 171 27 198 강원 36 -3 33 부산 100 4 95 충북 대구 74 충남 35 -2 인천 92 -7 85 전북 광주 65 -12 53 전남 대전 61 -8 경북 40 2 42 울산 55 -14 41 경남 43 7 50 경기 110 19 129 제주 21 -6 15 표본이론(2009.3)

107 집 세 조 사 전월세가구에 대한 모집단 자료가 미흡 개개의 가구를 표본으로 추출하는 것은 비용이 많이 소요
경활조사 표본 중 전·월세가구를 표본대상가구로 결정 조사대상: 38개 도시 표본규모 및 표본추출 - 주택유형별(단독,아파트, 연립주택) 3가지 및 임차형태(전세, 월세) 2가지에 대해 24가구 배정 - 지역별로 최소 140가구 필요 - 38개 도시 중 17개 도시가 140가구 미만 표본이 있어서 경활조사의 비조사구역 가구까지 포함하여 표본대상가구로 추출 표본이론(2009.3)

108 인력실태조사 표본설계(2006) 조사목적: 세분화된 산업, 직업별 고용구조 파악
조사대상 : 2006년 9월 1일 현재 만 15세 이상인 자 조사실시기간: ~9.10 조사규모 : 전국 60,000 가구(3,000 조사구) 표본틀: 2005년 인구주택총조사 10% 표본 중 아파트조사구, 보통조사구, 섬조사구 (26,712개 조사구) 층화: 1차 16개 시도, 2차 동부와 읍면부 → 전체 25개 층 표본추출단위: 1차 조사구, 2차 가구 조사방법    - 임시조사원을 채용하여 방문면접조사 (면접불가한 가구는 전화 또는 자기기입식 허용) 표본이론(2009.3)

109 표 본 규 모 표본규모 선정 - 표본의 효율성을 위해 층별로 조사구수의 제곱근 비례로 배분
- 업무분장을 위해 시군구별 조사구수를 3의 배수로 추출 (시군구 단위로 설계함으로써 소지역 통계 생산 기반 마련) =>업무분장 및 시군구 단위 설계를 위해 제곱근 비례방법을 다소 보정 표본이론(2009.3)

110 표 본 규 모 조사구 수 비례 배분 제곱근 보정 전국 26,712 3,000 충북 읍면 476 53 88 74 서울 5,100
573 287 417 충남 동부 338 38 부산 1,881 211 174 207 충남 읍면 877 98 119 118 대구 1,254 141 142 138 전북 동부 650 73 103 80 인천 1,371 154 149 전북 읍면 652 광주 716 108 105 전남 동부 434 49 84 65 대전 749 110 111 전남 읍면 1,016 114 128 145 울산 507 57 91 90 경북 동부 732 82 109 106 경기 동부 4,157 467 259 357 경북 읍면 1,140 136 140 경기 읍면 989 126 72 경남 동부 904 102 121 강원 동부 506 경남 읍면 강원 읍면 495 56 89 70 제주 동부 212 24 59 39 충북 동부 454 51 86 67 제주 읍면 10 37 36 표본이론(2009.3)

111 표본조사구 및 가구 추출춮 표본조사구 추출 표본가구 선정 - 시도별, 비농가․농가별, 조사구별로 정렬
- 25개 시도 층화별로 가구수를 기준(MOS)으로 확률비례추출방법 이용하여 초기값을 달리하면서 여러 개의 표본군(set) 작성 - 여러 개의 표본군 중 가장 모집단을 대표하는 표본선정을 위해 45개 특성지표 사용 - 특성지표: 주택유형(단독, 아파트, 기타), 비농가비율, 성별비율, 연령비율, 실업및 취업비율, 산업 및 직업 등 표본가구 선정 - 표본조사구의 가구를 일련번호를 부여한 후 랜덤으로 최초가구를 설정하여 그 가구를 포함하여 연속하여 20가구 조사 - 만약, 최초가구부터 20가구가 마지막 가구를 초과한 경우는 맨 처음 부여된 가구부터 연속하여 조사 표본이론(2009.3)

112 통계청 사업체부문 표본설계 개 요 기본 표본방법 응용절사법( Modified Cut-Off ) 광공업동태조사 표본설계 사례
표본이론(2009.3)

113 사업체 표본조사 개요 동태조사 - 광공업동태조사 연간 통계조사 - 도소매업동태조사 - 서비스업동태조사 - 건설업통계조사
- 운수업통계조사 - 도소매업 및 서비스업통계조사, … 표본이론(2009.3)

114 기본 설계방법 비례배분법 Neyman 배분법 Cut-off 방법 Modified Cut-off 방법 표본이론(2009.3)

115 비례배분법 각 층의 표본수를 층의 크기에 비례하여 배분 예) 모집단수(600개)
예) 모집단수(600개) 1층 : 100개, 2층: 200개 , 3층 300개 표본 : 120개 1층 : 20개, 2층 : 40개, 3층 : 60개 표본이론(2009.3)

116 Neyman 배분법 층별 표준편차를 고려하여 표본추출 일반적으로 비례배분법에 비해 상대효율이 크며
- 분산의 값이 서로 다른 층이 적어도 2개 이상 있을 경우에 효과적임 표본이론(2009.3)

117 광공업동태조사 1. 조사 개요 가. 조사 목적 - 매월 생산·출하·재고 동향을 파악하여 각종 경제정책의 기초자료로 활용
1. 조사 개요 가. 조사 목적 - 매월 생산·출하·재고 동향을 파악하여 각종 경제정책의 기초자료로 활용 나. 조사대상 및 범위 - 표준산업분류 『 C. 광업』,『 D. 제조업』,『 E. 전기가스업』 사업체로 광공업동태 대상 업체로 선정된 업체 다. 조사 방법 - 방문조사 및 사업체 직접입력 방법 등의 자계식방법 라. 조사 단위 - 공장, 작업장 등의 개개의 사업체 표본이론(2009.3)

118 2. 표본 설계 가. 조사 대상 품목 - 연간 생산액이 1,700억(총생산액 대비 0.02%)이상 품목을 원칙으로하여 향후 신장이 예상되는 IT산업의 품목 등(639개) 나. 모집단 기초자료 - 2005년 광공업통계조사의 사업체중 조사대상 품목을 생산하는 20인이상의 사업체를 기본 · 지역별, 품목별 특성에 따라 종사자수 하한을 조정 다. 표본추출명부 - 모집단 기초자료와 월 광공업동태 사업체를 보완 · 총 21,790개 실사업체(연사업체로는 26,752개) 표본이론(2009.3)

119 · 절사법을 적용을 위해 출하액의 크기순으로 나열
라. 자료의 층화 - 품목별, 16개 시도별로 층화(부모집단) - 사업체수에 의한 층화 · 품목당 생산업체가 전국 20개 이하 사업체 → 전수조사로 층화 - 종업원수에 의한 층화 · 종사자수 100인 이상 사업체 → 전수조사로 층화 마. 자료의 정렬 - 출하액 크기 및 행정구역번호에 의해 정렬 · 절사법을 적용을 위해 출하액의 크기순으로 나열 표본이론(2009.3)

120 - 조사품목별 특성을 고려하여 출하액 기준으로 절사법에 의해 표본규모 결정
바. 표본규모 결정 - 조사품목별 특성을 고려하여 출하액 기준으로 절사법에 의해 표본규모 결정 · 출하액 기준 대표도는 표본틀의 95% 수준 유지 · 11,292개 연사업체(9,181개 실사업체) 사. 표본사업체 추출 - 절사점 이상의 출하액을 가진 사업체는 전수조사 - 표본사업체 확인 · 중복, 전·출입, 폐업, 품목불일치 등 유고사항 확인 중(2008.2월중 확정) 표본이론(2009.3)

121 - 종업원 100인 미만 : 반년 또는 연간 단위로 표본보완 나. 휴업사업체 - 시설의 완전 폐기로 확인 : 폐업처리
3. 표본사업체 관리 가. 신규사업체 - 종업원 100인 이상 : 발견 즉시 표본에 포함조사 - 종업원 100인 미만 : 반년 또는 연간 단위로 표본보완 나. 휴업사업체 - 시설의 완전 폐기로 확인 : 폐업처리 - 재가동의 전망이 있는 경우 : 6개월간 휴업간주 다. 폐업사업체 - 표본에서 제거 라. 전·출입사업체 - 전입지에서 조사 표본이론(2009.3)

122 표본조사 외국 사례 American Community Survey(미국 rolling census)
CPS (미국 고용통계조사) 일본 고용통계 Consumer Expenditure Survey(미국 가계조사) Monthly retail and wholesale trade survey (미국 도소매업통계조사) 표본이론(2009.3)

123 American Community Survey
Census: 매 10년 마다 시행 - Short form(전수조사) - Long form(표본조사) 19,000,000 h.h.(일반적으로 1/6, ½ rural area, 1/8 metro area) Census Long form Rolling Census “ American Community Survey ” 년 연구 개발 - 2004년 7월 본조사 실시 표본이론(2009.3)

124 American Community Survey
매년 3,000,000 가구 조사 - 매월 250,000 가구 조사 - 10년 조사 시 30,000,000 가구 조사 - 원래 Long form 규모의 약 1.5배 표본틀 : Master Address File - US Postal Service(USPS) Delivery Sequence File(DSF) :매 6개월 갱신 Address Control file, CAUS(Community Address Updating System) 등을 연결하여 작성 결과공표 - 인구 65,000 이상인 지역은 매년 공표 - 인구 20,000 이상인 지역은 3년 조사 후부터 매년 조사된 3년의 평균자료 공표 - 다른 지역은 5년 조사 후부터 매년 조사된 5년의 평균자료 공표 표본이론(2009.3)

125 American Community Survey
자료수집방법 - 우편-전화(CATI)-면접(CAPI)으로 진행 첫째 달 -1주: 조사시행 예고 편지 -2주: 질문지 발송(지침서 포함) -3주: 독촉 카드 보내기(reminder card) -4주:불응자에 대하여 2차 질문지 발송 ※ 전화도우미(1-800 ) 실시 - 조사에 대한 질의, 조사방법, 전화조사를 원하는 응답자 등 - 전화조사가 시행된 경우, 메일조사가 된 것으로 체크 표본이론(2009.3)

126 American Community Survey
둘째 달 - CATI 조사 실시 - 첫번째 질문지 송부 6주후에 실시 세째 달 - CAPI 실시 - 무응답의 1/3에 대하여 실시 표본이론(2009.3)

127 Rolling Census 의 이점 매년 단위로 소지역에 대한 통계 가능 국토 전체의 인구사회상 변화를 통계적으로 계속 추적
 국토 전체의 인구사회상 변화를 통계적으로 계속 추적  잘 교육된 조사원을 이용하여 조사 ⇒ 조사의 질적향상(비표본오차 감소)  변화된 사회상을 반영한 표본틀을 표본조사에 제공  총조사시 쓰이는 과대한 예산에서 매년 분산된 예산을 집행 표본이론(2009.3)

128 미국 고용통계조사(CPS) - 1930년대 경제대공항 시 실업자 추계를 위해 개발 - 주(State) 단위로 표본설계
- 2단계 층화 집락추출법 1차추출단위(PSU): SR(432개)과 NSR(360개)로 구성 2차추출단위(SSU,USU): 4가구로 이루어진 집락 - 표본규모: 약 60,000 가구 - 표본개편: 10년 - 연동시스템: 4-8-4 (매월 ¼ 표본교체, 전년동월 중복율: 50%) - 연동교체시 PSU 내의 USU 변경 전체 2007개 PSU 표본이론(2009.3)

129 일본 고용통계조사 - 11개 지역별로 추출(공표는 10개 지역) - 개편주기: 5년
- 2단계 층화 추출 - 11개 지역별로 추출(공표는 10개 지역) - 개편주기: 5년 - 약 2,900조사구(약 40,000가구) 조사구당 15가구 조사(조사구는 약50가구로 구성) - 1차 추출단위: 조사구, 2차추출단위: 가구 - 연동시스템: 4-8-4 (매월 ¼ 표본교체, 전년동월 50% 중복) - 연동표본 교체시 조사구 교체 표본이론(2009.3)

130 Consumer Expenditure and Income Survey
미국 가계조사 - 면접조사와 가계부조사로 구분 면접조사 - 분기에 7,500가구 조사 - 응답자는 분기에 1번 조사, 5분기 조사에 응답하고 표본에서 제외 - 1회 면접시간: 90분-120분 - 분기별 1/5씩 표본 교체 - 주택, 가구 등 소득 관련 조사 가계부조사 - 연간 7,500가구 조사 - 연속된 2회의 1주간 지출사항 기입한 가계부 제출 - 연간 15,000권의 1주간 가계부 표본이론(2009.3)

131 Monthly Retail and Wholesale Trade Survey
미국 도소매업 통계조사 - 표본개편: 5년 - 대규모업체는 매월 조사 - 소규모업체는 필요 표본규모의 3배를 추출하여 (3개의 Panel), 매월 Panel을 교체하며 조사 - 소규모업체는 조사월의 현재달과 지난달 2달의 자료를 제공(2 level rotation 설계) - 3개월 마다 조사에 응답(1년에 4번 응답) - 잠정과 확정 자료 공표 표본이론(2009.3)

132 조사월 Panel 조사결과 1 2 3 잠정 확정 1월 X 1+2 2월 2+3 3월 3+1 4월 5월 6월 7월 8월 9월
10월 11월 12월 표본이론(2009.3)

133 “수적천석 (水滴穿石)” 표본이론(2009.3)

134 !! 표본이론(2009.3)


Download ppt "김 규 영 (kkyoung@nso.go.kr) 표본 설계 및 사례 2009. 3 김 규 영 (kkyoung@nso.go.kr)"

Similar presentations


Ads by Google