Presentation is loading. Please wait.

Presentation is loading. Please wait.

고급행정통계 –표본분포, 통계적 추정 한 모집단

Similar presentations


Presentation on theme: "고급행정통계 –표본분포, 통계적 추정 한 모집단"— Presentation transcript:

1 고급행정통계 –표본분포, 통계적 추정 한 모집단

2 1. 통계적 추론 통계적 추론의 목적 표본에 포함된 정보로부터 모집단의 정보를 얻는 것 개념 모집단: 관심있는 것의 모든 집합
표본: 모집단의 부분집합 모수: 모집단의 특성을 수치로 나타낸 것. 표본추출: 모집단의 모수를 추정하기 위하여 모집단의 부분집합을 만드는 것 통계적 추론의 특징 표본은 모집단의 일부이기에 모집단에 대한 추정치를 제공 표본추출을 잘하면 모집단 특성에 대한 좋은 추정치를 얻게 됨. 2 2

3 2. 표본 추출 센서스와 표본조사 센서스는 모두를 조사하는 것이고, 표본조사는 일부만을 조사하는 것
일부를 Sample이라고 하고 모두는 모집단 (Population) 표본조사 개념 모집단에 대한 특성을 파악하기 위해 모집단의 일부를 추출하여 특성치를 구한 후 그 특성치로 모집단의 특성을 추정하는 과정 좋은 표본이란? 모수(모집단의 값)에 대한 불편추정치(unbiased estimator)로 추정 충분한 개체수의 표본 이용 3 3

4 2. 표본 추출 표본조사가 유리한 경우 경제성, 신속성, 무한모집단, 조사가 대상물의 성질, 모양 등을 변경시키는 경우
전부 조사하는 것이 좋을 것 같지만, 일부를 조사하는 것이 유리한 경우 무한모집단은 조사가 불가능 시간절약적 파괴검사 (전구 수명) 비용절감 표본조사가 효율적 (조사의 조정과 통제가 많으면 곤란) 4 4

5 2. 표본 추출 표본오차와 비표본오차 표본추출 시 모집단의 특성을 대표할 수 있도록 표본을 구성해야 함.
그러나 모집단을 구성하는 모든 요소들을 조사하여 얻은 결과가 그의 일부를 조사하여 얻은 결과와 똑같을 수는 없기 때문에 오차가 발생. 표본오차는 표본크기가 너무 적다든가 등의 표본추출과 관련된 오차 비표본오차는 부정확한 자료의 수집,측정 또는 비합리적 모집단의 설정과 관련하여 발생하는 오차. 표본오차 표본추출에서 모수와 표본 통계량 사이에 불일치 정도 모집단이 10, 20, 30인 세가지 카드에서 두 장을 뽑을 경우 평균을 구하는 경우, 우연오차, 확률오차, 표본오차라고 함. 오차의 크기는 신뢰성을 나타냄 표본의 크기가 중요 5 5

6 2. 표본 추출 비표본 오차 표본으로 추출된 대상을 실제로 관찰• 측정할 때 생기는 오차, 측정대상과 측정결과의 불일치
학생들에게 집에서 벌어들이는 소득을 조사 장학금 대상자를 뽑기 위해 소득을 조사 비표본오차 원인 질문자와 응답자 간의 이해 부족 부정확한 설문지 작성 자료의 수집처리 수행과정에서 잘못 정보를 제공하는 응답자의 오류 비표본오차는 0이 되어야 한다. 6 6

7 3. 설문지 작성방법 주의사항 개인신상에 관한 질문, 유도성 질문이나 편견이 내포된 질문, 자기모순이 있는 질문,
인격을 평가하는 질문, 지나치게 구체적인 질문, 전문적 용어를 사용한 질문 등은 주의. 설문지 조사 방법 개인면접조사 전화조사 우편조사 On-line조사 7 7

8 3. 설문지 작성방법 출처: 만화로 쉽게 배우는 간호통계학 8 8

9 3. 설문지 작성방법 출처: 만화로 쉽게 배우는 간호통계학 9 9

10 3. 설문지 작성방법 출처: 만화로 쉽게 배우는 간호통계학 10 10

11 3. 설문지 작성방법 출처: 만화로 쉽게 배우는 간호통계학 11 11

12 4. 표본 추출 방법 종류 또는 구분 크게 확률추출방법(Probability Sampling)과 비확률추출방법(Nonprobability Sampling)으로 구분. 확률추출방법에는 단순무작위 추출, 층별 추출, 체계적 추출, 군집 추출 등. 확률추출방법은 객관적이므로 표본오차의 측정이 가능. 비확률추출방법은 조사자의 주관에 의하여 표본을 임의로 추출하는 방법으로서 표본오차를 객관적으로 측정할 수 없다는 결점. 여기에는 판단추출, 편의추출, 할당추출이 있음 12 12

13 4. 표본 추출 방법 단순무작위 추출 많은 통계적 기법이 단순무작위 추출방법(Simple Random Sampling)에 기초하고 있음. N개의 요소로 구성된 모집으로부터 표본크기 n개의 요소를 선정한다고 할 때 단순무작위방법은 n개의 가능한 각 표본이 똑같이 1/N의 확률로 선정될 수 있도록 설계된 방법. 모집단의 크기가 표본크기보다 훨씬 크다면 비복원추출일지라도 크게 문제될 것은 없음. 예) 복권추첨, 아파트추첨, 학번을 주머니에 넣고 무작위로 추출 13 13

14 4. 표본 추출 방법 계통적 추출 또는 체계적 추출 모집단이 큰 경우 단순무작위 추출방식을 사용하면 시간과 비용상 비경제적이므로 체계적 방법(Systematic Sampling)을 사용할 수 있음. 모집단의 크기가 100이고 표본크기가 5이면 표본간격을 20=100/5으로 정하고 모집단을 순서대로 번호를 부여한 후 첫 20명 중에서 1명을 무작위 추출한 후 20의 간격으로 5개의 표본을 추출하는 방법 예를 들어 9, 29, 49, 69, 89 공원 입장객 조사 등에서 흔히 활용. 14 14

15 4. 표본 추출 방법 층화 추출 또는 층별 추출 층화추출(Stratified Random Sample)은 모집단을 부, 지역, 연령, 성별, 교육 같은 일정한 기준에 의하여 동질적인 그룹(층)으로 분류한 다음 각 그룹으로부터 표본을 단순무작위로 추출하는 방법 각 층으로 나누되 단순 무작위로 하되 크기에 비례 또는 비례하지 않거나, 표준오차가 최소화 되도록 추출. 각 그룹에서 추출하는 표본의 수가 모집단의 구성비율을 따를 때 비례적 층별추출이라 함. 층화추출은 모집단의 특성을 더욱 정확하게 반영하는 장점. 층화추출이 효과적인 때는 특성에 있어 층간에는 차이가 크지만 층 내에서는 차이가 별로 없는 경우임. 15 15

16 4. 표본 추출 방법 군집 추출 또는 집락 추출 집락추출 (군집추출; Cluster): 모집단을 군으로 분류하고 단순무작위 방식으로 군을 추출. 서울시를 지리적으로 몇 구역을 나누고 한 구역을 선택한 후 이를 모집단으로 가정 군집추출에서는 모집단을 군집(그룹)으로 구분하고 이 중에서 단순무작위방식으로 조사대상인 군집을 선정하는 방식. 선정된 군집에 대해서 전수조사를 하거나 일부의 표본을 추출. 군집추출이 효과적인 경우는 층화추출과 반대의 경우로 군간에는 동질적이고 군 내에서는 이질적인 특성을 갖는 경우. 16 16

17 4. 표본 추출 방법 비확률추출 무작위로 추출을 못하는 경우, 연구목적이 모수 추정이 아니고 특수한 경우를 분석하고자 하는 경우, 시간과 경비를 줄이고자 하는 경우, 확률추론의 응용면에서의 결함을 줄이기 위해, 편의추출, 판단추출, 할당추출 편의 추출 비확률 추출기법의 하나인 편의추출방법은 표본이 조사자의 편의에 의해서만 선정되는 방법. 연구자가 자유롭게 연구대상을 표본에 포함시키는 것 새로운 아이디어를 시험, 특정주제에 대한 아이디어를 물어 볼 때 연구초기에 연구방향이나 지침을 얻고자 할 때 비교적 쉽게 표본을 선정하고 자료를 수집하는 장점이 있으나 모집단을 제대로 대표할 수 없다는 단점. 17 17

18 4. 표본 추출 방법 판단 추출 모집단의 특성을 잘 아는 전문가가 모집단을 가장 잘 대표하리라고 믿는 요소들을 표본으로 추출하는 방법. 연구자가 연구목적에 맞는 사항을 충족시킬 수 있다는 판단하에 모집단을 대표하는 표본을 선택하는 방법 모집단에 대한 지식이 필요 신제품 테스트에 회사종업원을 이용 신제품 아이디어에 대한 의견 개진 할당 추출 표본이 모집단을 대표하도록 하는 경우에 사용 모집단이 가진 속성을 표본에 비례적으로 적절하게 포함되도록 하는 방법 18 18

19 5. 표본분포 (Sampling Distribution)
정의 모집단에서 추출한 같은 크기의 표본들에서 얻은 표본 통계량 (평균, 분산, 비율)의 확률분포 표본분포란 주어진 모집단으로부터 크기 n의 확률표본을 수 없이 반복하여 추출한 결과로 얻은 표본통계량의 확률분포 19 출처: 엑셀 통계학 19

20 5. 평균의 표본분포 기대값과 분산 정의 표본평균의 평균은 모집단의 평균과 동일
표본평균의 표준편차(표준오차라고도 함)는 모집단의 표준편차에 표본의 크기의 제곱근을 나누어 준 것. 20 20

21 5. 평균의 표본분포 기대값과 분산 출처: 세상에서 제일 재미있는 통계학 21 21

22 6. 표본분포 형태 표본크기를 증가시킬수록 표본분포에 내포되어 있는 분산은 감소 출처: 엑셀 통계학 22 22

23 7. 중심극한정리 표준평균의 분포가 정규분포가 되는 것은 원래의 분포가 정규분포가 아니어도 성립 23 출처: 간호통계학 23

24 7. 중심극한정리 표준평균의 분포가 정규분포가 되는 것은 원래의 분포가 정규분포가 아니어도 성립 출처: 간호통계학 24 24

25 7. 중심극한정리 출처: 세상에서 가장 재미 있는 통계학 25 25

26 8. 표본분포 형태 모집단이 정규분포를 따를 때 모집단이 정규분포가 아니더라도
중심극한정리에 의해 표본크기가 N≥30이면 평균의 표본분포는 정규분포에 근접 26 26

27 1. 점추정과 구간추정 개념정의 표본을 조사하여 평균에 대하여 하나의 값을 말하는 것이 점추정이고, 개연성을 부여하여 구간으로 평균의 범위를 추정하는 것이 구간추정 추정량과 추정치 추정량(estimator)이란 모수를 추정하는데 사용되는 표본통계량. 알지 못하는 모수를 라고 할때 추정량은 로 표시 추정치(estimate)란 추정량을 평가하여 얻은 특정한 결과 값. 점추정량(point estimator)과 구간추정량 (interval estimator) 점추정량은 하나의 값으로 모수의 값을 추정하는 방법 구간추정량은 모수의 값이 빈번히 포함되는 구간을 추정하는 방법. 또는 모수의 값이 포함되리라고 기대하는 일정 범위를 나타내는 것 어느 정도 오차를 포함하는 구간추정방법이 일반적 27 27

28 1. 점추정: 모수와 추정량 28 28

29 2. 추정량의 결정 기준 모수를 추정하는데 좋은 추정량 조건 불편성, 효율성, 일치성, 충족성.
불편성 (unbiasedness), 추정량의 기대값이 모수와 일치할 때 그 추정량은 불편추정량. 기대값이 모수의 값과 같을 때 효율성 (efficiency), 불편추정량 중에서 분산이 작은 추정량 일치성 (consistency), 표본의 크기가 클수록 추정량이 모수에 근접 충족성 (sufficiency), 동일한 추정량 중에서 가장 많은 정보를 제공하는 추정량 29 29

30 3. 구간추정 개념 점추정치는 표본오차 때문에 모수와 일치하기 어렵고 추정의 불확실 정도 표현 곤란.
구간추정은 모수가 포함되리라고 보는 범위(구간)를 확률을 가지고 제시함하여 추정치에 대한 불확실성 표현 가능 신뢰구간 (confidence interval) 신뢰구간이란 모수가 특정확률로 포함될 것이라고 주장하는 범위. 일정한 확률(1-α)범위 내에서 모수가 포함될 가능성이 있는 구간을 P(A<θ<B)=1-α로 정의할 때, 확률변수 A와 B의 추정치를 a와 b라 하면 구간 a<θ<b는 θ에 대한 100(1-α)% 신뢰구간이라고 하고 (1-α) 신뢰도(degree of confidence) 또는 신뢰수준(confidence level)이라 함. 오차율 α는 신뢰구간이 모수를 포함하지 않을 확률 30 30

31 3. 구간추정 개념 전체 집단으로부터 n개의 샘플을 뽑아서 평균과 표준편차를 계산한다면 전체집단의 평균이 개략적으로 어느 구간에 속하는가를 예측하는 것이 신뢰구간의 추정임. 기본공식: 표본평균 ± (Z, t값)×표본평균 표준편차 (표준오차) Z, t값은 NORMSINV, TINV로 구함. 예: 모평균 신뢰구간 95% 신뢰수준이 널리 사용됨 를 중심으로 한 95% 신뢰구간 31 31

32 3. 구간추정 32 32

33 4. 모평균의 신뢰구간: 표본이 큰 경우 가정 중심극한정리에 의하여 표본평균의 분포는 정규분포를 따르기 때문에 정규분포를 이용, σ를 모르면 표본의 표준편차 이용 가정 표본이 크기 때문에 t분포나 정규분포나 차이 없음 33 33

34 4. 모평균의 신뢰구간: 표본이 큰 경우 예 100명의 토익점수를 조사
평균 550, 표준편차 50일 때 모집단 평균에 대한 95% 신뢰구간 풀이 표본이 크기 때문에 t분포나 정규분포나 차이 없기 때문에 모표준편차를 알거나 모르거나 상관없음. confi.xls을 이용 (붉은 글씨만 변경) 셀 E4에 몇 %의 신뢰구간인지 입력 confidence 함수를 이용할 수도 있음.(셀 G13) CONFIDENCE(alpha,standard_dev,size) Alpha: 신뢰도 계산에 사용하는 유의수준. 신뢰도는 100*(1 - alpha)%로 alpha가 0.05이면 신뢰도는 95%. Standard_dev:  모집단의 표준편차 Size: 표본크기. 34 34

35 5. 모평균의 신뢰구간: 모표준편차를 아는 경우 엑셀을 이용한 연습문제에서 설명 35 35

36 7. 모비율의 신뢰구간 36 36

37 8. 표본 크기의 결정 신뢰구간 폭 결정 신뢰수준 표본크기 모표준편차 표본크기 원하는 신뢰수준 100(1-α)% 모표준편차 σ
최대허용오차, 즉 모수의 추정치와 값 값의 차이 37 37

38 8. 표본 크기의 결정 38 38

39 8. 표본 크기의 결정 39 39

40 8. 표본 크기의 결정 40 40

41 8. 표본 크기의 결정 41 41

42 8. 표본 크기의 결정 교재의 오류: 교재는 오차 한계를 2%로 설정한 것 42 42

43 10. 연습문제 A21이용 43 43


Download ppt "고급행정통계 –표본분포, 통계적 추정 한 모집단"

Similar presentations


Ads by Google