표본 이론
표본조사와 전수조사 모집단 전수조사 표본 조사 모수 통계량 추정 * 표본의 대표성 (Representativeness)
표본조사가 사용되는 이유 ⅰ) 신속성 ⅱ) 경제성 ⅲ) 세밀한 조사 가능 ⅳ) 전수조사 불가능 ●무한한 수의 모집단 ●모집단의 정확한 파악 불가 ●파괴적인 조사 ⅴ) 정확도 증가 ●비표본 오차 감소 (통제용이) ●조사대상의 오염 방지
표본 설계 과정 모집단의 확정 ① 모집단의 확정 ⅰ) 연구대상 ⅱ) 표본단위 ⅲ) 범위 ⅳ) 시간 등 표본 Frame 결정 ⅰ) 연구대상 ⅱ) 표본단위 ⅲ) 범위 ⅳ) 시간 등 ② 표본 Frame 결정 ▣ 표본 Frame 오차 : 모집단 ≠ 표본 프레임 ⅰ) 표본 프레임이 모집단내에 포함 ⅱ) 모집단이 표본 프레임내에 포함 ⅲ) 포함관계에 있지 않고 일부만 일치 표본 Frame 결정 표본 추출 방법 결정 표본의 크기 결정 표본 추출
표본 추출 방법 Convenience sampling 비확률 표본 추출 Judgemental sampling (Non-probability Sampling) Quota sampling 표본 추출 방법 Simple Random sampling Systematic sampling 확률 표본 추출 Stratified sampling (Probability Sampling) Cluster sampling
▣ Probability Sampling 모집단을 구성하고 있는 대상의 표본 프레임을 이용하여 표본을 추출함으로써, 모집단내의 각 대상들이 선택될 확률을 미리 알 수 있는 표본 추출 방법. 추출된 모집단의 대표성의 정도를 정확히 파악할 수 있다. ▣ Non-probability Sampling 표본 프레임을 사용하지 않아서, 모집단내의 대상들이 선택될 확률을 사전에 알지 못하는 상태에서 표본이 선정되는 방법 표본 프레임을 알 수 없거나, 모집단의 규모가 큰 경우에 사용
Non-Probability Sampling ▣ Convenience Sampling : 임의로 선정한 지역과 시간대에 조사자가 원하는 사람을 표본으로 임의 선택 ●표본 선정의 편리성에 기준 ●장점 : 비용/시간 절약 ●단점 : 모집단을 대표할 수 없음 ●활용 : 탐색단계나 사전조사에 이용
▣ Judgemental or Purposive Sampling : 조사자의 판단에 의해 조사 문제를 잘 알고 있거나, 모집단의 의견을 반영할 수 있을 것으로 판단되는 특정 집단을 표본 으로 선정하는 방법 ●조사자가 표본의 구성에 대해서 잘 알고 있는 경우 ●무작위 표본추출 시 야기될 수 있는 모집단을 대표하지 않는 선정을 방지 ▣ Quota Sampling : 미리 정해진 분류 기준에 의해 전체 표본을 여러 집단으로 구분하고 각 집단별로 필요한 대상을 추출하는 방법으로 일반 마케팅 조사에서 널리 사용 ●목적 : 일정특성을 지닌 표본 요소의 구성비율이 동일 특성을 가진 모집단 구성 비율과 일치하도록 표본 추출 ●가장 정교하고 널리 사용되는 방법 ●강점 : 저 비용으로 대표 표본 획득 가능 ●전제 : 모집단에 대한 사전 지식
Probability Sampling ▣ Simple Random Sampling : 표본 프레임내의 각 표본들에 대해 일련번호를 부여 하고, 이를 이용해 일정 수의 표본을 무작위로 추출하는 방법 ●모든 표본 단위의 선택 확률이 동일 ▣ Stratified Sampling(층화 표본 추출법) : 모집단을 어떤 기준에 의거하여, 서로 상이한 소집단(strata)으로 나누고 이들 각 소집단들로 부터 표본을 무작위로 추출하는 방법 ● Proportionate stratified Sampling : Strata의 크기가 모집단의 strata 비율과 비례 ● Disproportionate stratified Sampling : Strata의 크기가 모집단의 Data 비율과 불비례
Quota Sampling : 소집단내에서 비확률 표본 추출 Stratified Sampling : 소집단내에서 확률 표본 추출. 모집단이 다양한 특성을 가진 경우, Simple Random sampling보다 오히려 추출된 표본 이 모집단의 특성을 더 잘 반영 ▣ Cluster Sampling (군집 표본 추출) : 모집단을 소집단(Cluster)으로 나누고 일정수의 소집단을 무작위적으로 표본 추출한 다음, 추출된 소집단내의구성원을 모두 조사함 ●장점 : 소요 시간과 경비 절감 ●단점 : 선출된 집단내 표본들이 인구통계학적 특성에서 동질적이면 모집단의 특성을 충분히 대표하지 못한다. ● Systematic Sampling : 군집 표본 추출의 하나로 전체 표본에 대해 일정한 간격을 두고 표본단위를 선정하는 방법 ● Area Sampling : 집단 분류의 기준으로 지리적 구역이나 행정 구역을 이용
통계의 기초와 표본의 크기 (1). 통계적 추론의 개념 ■ 기술 통계학 Vs. 추론통계학 ① 기술통계학 (Descriptive Statistics) : 조사의 목적에 맞도록 자료를 수집, 요약함으로써 관찰치의 분포, 중심화 경향치, 산포도 측정치 등이나 상관분석 또는 회귀 분석을 실시하는 방법론. ② 추론통계학 (Inferential Statistics) : 하나의 표본으로부터 그것이 추출된 모집단의 특성치를 추정함으로써 모집단의 특성을 일반화 시키기 위한 방법론. ○ 모수의 추정과 통계적 가설검증이 핵심 모집단의 크기, 평균, 분산, 표준편차 등을 말함. 표본 통계량 - 표본의 크기, 평균, 분산, 표준편차 등을 지칭.
(2) 통계량의 확률분포 (표본분포) : 평균이 μ, 표준편차가 б, 크기가 N인 모집단으로부터 표본크기가 n인 표본들로부터 구해진 표본 통계량의 확률 분포를 표본분포 (Sampling Distribution)이라고 함. 1) 정규 모집단 (Normal population) : 어떤 변수에 대해 정규 분포를 이루는 모집단을 정규 모집단이라함. ① 정규 분포란? ● Symmetric distribution ─┐→ bell - shaped ● Unimodal distribution ─┘ ● ± ∞ limit을 갖는다 1 ● 확률 분포 : f(x) = ___________ e- (x - μ)²/2б² б2∏
f(x) → density │ └───────────── (X) * Standard Normal Distribution : μ = 0, б = б²= 1 Normal Distribution 즉, N (0,1)
* 모수와 통계량의 계산공식 평 균 분 산 1 1 모 집 단 μ = ── ∑xi б²= ── ∑(xi-μ)² N N 1 1 표 본 X = ── ∑xi S²= ── ∑(xi -x)² n n X 의 표본분포 μ X = μ б² N - n б² x = ─── ─── n n-1 P(1-P) N - 1 p 의 " μ p = P б² p = ─── ─── n N - 1 p 는 표본의 비율 (P : 모집단의 비율)
μ x = μ (표본평균의 평균) б N - n бx = ─── . √─── √N N – 1 N - n √─── 을 유한 모집단의 수정계수라고 한다. N - 1 만약, 무한모집단 이거나 유한 모집단의 경우 n이 N의 5% (또는10%)보다 작으면 √─── = 0 즉, 평균이 μ, 표준편차가 б인 정규 무한 모집단으로부터 크기가 n인 표본을 추출한다면 그들의 평균 ( x )들은 평균이 μ, 표준편차가 б x인 정규 분포를 따른다.
◎ Z - Score (Normal Deviate : 정규 편차) : Xi가 평균 이상 혹은 이하 일때의 S.D의 숫자 f(X) X - μ Z = ─── │ б │ │ 43.75 - 25 │ EX) Z = ─────── │ 6.25 └┼────┼────--─┼────┤ X 6.25 18.75 25 31.25 43.75 X-μ -18.75 -6.25 0 6.25 18.75 -3 -1 0 -1 3 ● Z - Score는 f(x)를 Standard Normal Distribution이 되도록 X를 transformation하기 위한 transformation Equation
2) Non - Normal Distribution의 경우 : 표본의 크기가 큰 경우 (n ≥ 30)라면 표본평균의 분포는 평균이 μ, 표본오차가 б x 인 Normal Distribution에 접근한다. → Central Limit Theorem 이러한 경향은 표본의 크기가 클수록 강하다. 즉, 모집단 분포 특성과 관계없이, 표본의 크기가 크다면 표본평균의 확률분포는 일반적으로 Normal Distribution으로 간주.
표본조사의 신뢰성 (Reliability) : 표본오차의 크기로 평가된 표본조사의 Quality (3). 표본오차의 평가 표본조사의 신뢰성 (Reliability) : 표본오차의 크기로 평가된 표본조사의 Quality 타당성 (Validity) : 표본자료가 계산과정이나 기타 외생적 요인에 의해 영향을 받지 않는 정도. 1) Confidence Interval (신뢰구간) = 표본 평균 ± E * Standard Normal Distribution의 경우 X - μ Z = ──── б ± 1.96 = ──── X = μ ± 1.96 б ─┼-─-┼──┼────┼──┼──┼─ P [μ - 1.96б < X <μ + 1.96б] = 95% -3 -2 -1 0 1 2 3 개별값들의 68%
→ μ - 1.965б < X < μ + 1.96б X - 1.96б < μ < X + 1.96б Z Normalized (표준화) μ-2б μ±б μ μ+б μ+2б -2 -1 0 +1 +2 즉, X = μ ± 1.96б → μ - 1.965б < X < μ + 1.96б X - 1.96б < μ < X + 1.96б ∴ 모집단의 평균 μ 는 95% 확률로써 평균 X -1.96б에서 X+1.96б이다. X 들의 68% 개별값들의 68%
◎ 모집단의 분산이 알려지지 않은 상태에서 모수를 추정하기 위해서는 n≥ 30 → Normal Distribution n < 30 → t - distribution에 가깝다. (표본 크기가 작을수록, 표본평균의 표본오차가 커지므로 X - X t = ────── S / √ n (4). 표본의 크기와 효율성 ○ 표본의 크기가 증가할수록 표본의 평균 (X)들이 진정한 모집단 평균 ( μ )의 주위에 가깝게 분포한다. ○ 표본크기의 한계효과 (Marginal Effect) : 표본의 크기가 커짐에 따라 표본 오차의 감소폭이 감소.
(5). 표본크기의 결정 ● (Step 1) 신뢰수준과 신뢰구간의 폭을 결정 - 마케팅 의사결정의 경우 95% 신뢰수준 사용. - 신뢰구간 : 조사자의 결정 1) 모집단의 평균을 추정하기 위한 표본의 크기 Zχ . б n = ( ────── ) E n = 모집단 평균 추정을 위해 필요한 표본의 크기. Z = 원하는 신뢰구간 χ에 해당하는 Z - 값. б = 모집단 평균에서 추정된 표준편차의 값. E = 수용 가능한 표본 오차의 값.
● б 구하는 방법 ① 유사시장, 유사제품에 관한 과거의 조사결과 이용 ② 표본자료의 범위를 6으로 나눈 값을 표준편차의 추정치로 사용 (∵ Standard Normal Distribution에서 2~3이면 99.73 %가 포함됨) ③ 모집단으로부터 소규모의 시험표본을 추출하여 추정 2) 모집단의 비율을 추정하기 위한 표본의 크기 Zx ² n = ( ─── ) p q E P P = 표본비율, q = 1 - P