제 10 장 표본추출 표본추출의 의미와 가치 표본추출관련 용어 표본추출(sampling) : 측성을 알고자 하는 어떤 대상(전체 : 모집단)의 일부분을 선택하는 것으로 일부분의 특성을 이해함으로써 전체의 특성을 추정할 수 있다는 가정하에서 표본추출이 이루어진다. 전수조사(센서스 ; census) : 모집단에 속하는 모든 구성원들을 대상으로 조사하는 것. 표본추출이유 : 대부분의 경우 모집단의 규모는 매우 크므로 너무 많은 시간과 비용이 소요된다. 따라서 일부를 추출하여 설문조사를 한다면 훨씬 적은 시간과 비용으로써 필요한 정보를 획득할 수 있기 때문이다. 표본추출관련 용어 모집단과 표적모집단 모집단(population) : 조사자가 조사목적을 달성하기 위하여 관심을 갖는 구성원들(소비자, 제품, 기업체 등)의 전체집합을 가리킨다.
≤ 구성원(element) : 자료 혹은 정보를 수집하는 대상으로 소비자, 사원, 제품, 기업체 등. 표본추출단위(sampling unit) : 표본추출과정에서 선택의 대상이 될 수 있는 표적모집단의 구성원. 단순/일단계 표본추출(simple/single-stage sample)의 경우 : 표본단위는 모집단 구성원과 동일. 조사대상 지역이 넓은 경우 표적모집단 구성원들 중 일부는 표본단위에서 제외될 수 있다. 이는 비용과 시간 경제적인 이유도 있으며 표본에 의한 편견(bias)을 방지할 수도 있기 때문이다. 이 경우 표본단위 수는 표적모집단 구성원들의 수보다 적다. 표본추출프레임(sampling frame) : 표본추출을 실행하기 위해서 표본단위들로 구성된 표본프레임이 마련되어야 하며, 표본추출프레임이란 모든 표본단위들의 리스트(list)를 말한다. 모집단 1,000만 모집단의 크기 표본추출프레임의 크기 200만 ≤ 표본추출단위 표본추출프레임 List 化
표본추출의 단계 기술조사/인과관계조사를 위한 자료수집방법 : 서베이법(대인인터뷰 – 방문/대인인터뷰 – Mall intercept/전화인터뷰/우편서베이), 관찰법, 실험법 ← 어떤 방법으로 자료를 수집할 것인가를 결정. 자료수집방법과 관련되며, 표적모집단과 일치하는 것이 이상적이나 샘플링 디자인을 잘못하면 표본추출프레임 오류(sampling frame error)가 발생할 수 있다. 단계 1 모집단(population)의 결정 단계 2 자료수집방법의 결정 단계 3 표본추출프레임의 결정 표본추출프레임 오류가 있는 경우의 표본조사를 하여 해석한다면 현상에 대한 잘못 된 이해(mislead)를 초래하나 현실적으로 비용, 시간 경제적인 이유로 표본추출프레임으로 표적모집단보다 작게 구성하는 경우가 드물지 않으며, 일부 표본추출프레임을 제외하면 표적모집단보다 작아지지만 비용과 시간을 크게 줄일 수 있다는 측면에서 표본추출프레임 오류는 양해될 수 있다.
단계 4 표본추출방법의 결정 확률표본추출(probability sampling)과 비확률표본추출(nonprobability sampling)의 두 가지 방법이 있으며 확률표본추출을 하는 것이 모집단의 특성을 측정하는데 보다 바람직하나 비확률표본추출은 나름대로 장점을 가지며 현실적으로 많이 사용된다. 고려사항 표본크기 결정을 위해 추정치(estimates)가 얼마나 정확해야 하는지, 얼마나 많은 시간과 비용을 사용할 수 있는지를 고려해야 한다 : 다른 조건이 같다면 표본이 클수록 추정치가 정확하며 시간과 비용이 많이 소요되고, 모집단의 특성의 분산이 클수록(모집단 구성원이 특성이 다양할수록) 보다 큰 표본이 요구된다. 얼마나 많은 구성원들을 대상으로 조사할 것인가 : 현실적으로 소비자들을 대상으로 설문조사를 실시할 때 조사대상자로 결정되더라도 응답을 거부하는 경우가 많다. 또한 응답을 하더라도 여러 가지 이유로 유효한 자료로 사용하지 못하는 경우도 흔하므로 이러한 점들을 고려하여 접촉할 표본의 크기를 결정해야 한다. 단계 5 필요한 표본크기와 접촉표본크기 결정
표본추출방법 단계 6 표본추출 실행계획 수립 조사자 : 조사대상(자)에게 어떻게 접촉할 것인지를 결정. 표본추출프레임이 구체적으로 설정된 경우 표본추출 계획수립자가 표본추출을 할 수 있지만, Mall-Intercept조사처럼 표본추출프레임 없이 조사가 실시되는 경우는 면접원이 지침에 따라 표본을 추출하고 조사하게 됨. 표본추출방법 확률표본추출법(probability sampling) : 모집단(= 표본추출프레임)의 각 표본단위가 표본으로 추출될 확률이 사전에 알려져 있고 “0”이 아니도록 표본을 추출하는 방법. 비확률표본추출방법(nonprobability sampling) : 각 표본단위가 표본으로 추출될 확률이 사전에 알려지지 않은 표본추출방법으로 표본은 조사자의 편의, 판단, 지식 등에 의해서 표본이 추출되므로 모집단에 대한 대표성이 확률표본에 비해 낮다(엄격히 말해 비확률표본추출법에 의해 추출된 표본으로부터 수집된 자료를 추계통계기법(inferential statistics)으로 분석하고 표본추출오류(sampling error)를 계산하는 것은 옳지 않다). 마케팅조사에서 엄격한 의미에서 확률표본추출을 하는 데는 현실적으로 상당한 제약이 있으며, 비확률표본추출에 의해 자료를 수집하더라도 추계통계기법으로 분석하는 경우가 흔함. 단계 7 표본추출의 실행 Random
표본추출방법 확률표본추출법과 비확률표본추출법의 비교 확률표본추출 비확률표본추출 단순무작위표본 편의표본 체계적 표본 판단표본 층화표본 비례적 불비례적 할당표본 군집표본 지역표본 눈덩이표본 여러 가지 방법이 발생하는 이유는 적은 시간에 적은 비용으로 효과적인 결과를 얻기 위해 각 상황에 적당한 최적방법을 사용하기 위해서 이다. 모집단에 대해 보다 대표성이 높다. 비교기준 확률표본추출 비확률표본추출 표본의 모집단 대표성 높음 낮음 표본추출 오류계산 가능 불가능 추계통계기법 적용 비용 표본추출기법 높은 수준 요구됨 높은 수준 요구되지 않음
확률표본추출법의 유형 단순무작위 표본추출(simple random sampling) : 모집단을 구성하는 각각의 표본추출단위가 표본으로 추출될 확률이 사전에 알려져 있고, 동일하며, “0”이 아니도록 표본을 추출하는 것(난수표를 이용하여 보다 간편하게 표본추출을 할 수 있다). 장점 : 이해가 쉽고, 자료 분석결과가 사전에 정해진 허용오차 내에서 모집단에 대한 대표성을 가질 수 있다는 것이다. 한계점 : 모집단을 구성하는 요소들의 목록을 확보하기 어렵다. ∴ 표본추출단위 목록을 갖는 경우나 모집단 규모가 작은 경우에 적절. 체계적 표본추출(systematic sampling) : 모집단의 구성요소들간에 어떤 순서가 있는 경우 일정한 표본추출간격으로 표본을 추출하는 방법으로 표본추출간격은 모집단 크기를 표본크기로 나눈 것이 된다. 장점 : 비교적 손쉬운 방법으로 무작위성(randomness)이 확보된 표본을 추출할 수 있다. 한계점 : 모집단이 어떤 패턴(pattern)을 가진 경우 표본추출 시 매우 유의해야 하며, 모집단 크기가 무한이거나 알려지지 않은 경우 표본추출간격을 알 수 없다.
층화표본추출(stratified sampling) : 모집단이 다수의 그룹들로서 구분될 수 있는 경우, 각 그룹에서 무작위로 표본을 추출하는 것으로 각 그룹을 층(stratum)이라 부르며 다음과 같은 단계를 거친다. 모집단을 여러 개의 층으로 나눈다. 이때 가급적 각 층은 조사특성 측면에서 내부적으로 동질적이며 층 상호간에는 이질적이 되도록 한다. 각 측으로부터 무작위 표본을 추출한다. 각 층으로부터 추출된 표본들을 하나의 표본으로 결합한다. 각각의 그룹 혹은 층으로부터 표본을 추출하는 방법 : 비례적 층화표본추출 : 각 층에서 추출하는 표본의 크기를 각각의 층에 상응하는 모집단의 층의 크기와 같은 비율로 추출하는 것. 불비례적 층화표본추출 : 각 층으로부터 추출하는 표본의 구성비가 모집단의 구성비와 다르게 추출하는 것. 장점 : 모집단에 대한 표본의 높은 대표성을 확보할 수 있으며, 표본을 구성하는 각각의 층을 비교하여 모집단을 구성하는 각각의 층의 차이점을 추정할 수 있다. 한계점 : 높은 모집단 대표성을 확보하기 위해서는 기준변수를 적절히 선정해야만 하므로 모집단의 특성에 대한 사전 지식이 전혀 없다면 이 방법을 사용할 수 없다.
군집표본추출(cluster sampling) : 모집단이 유사한 소그룹들로 구성되어 있는 경우 한 그룹 전체를 표본을 추출하거나 한 그룹 내에서 확률표본추출을 하는 방법으로 층화표본추출방법과 반대가 된다. 지역표본추출(area sampling) : 표적모집단의 구성원들이 여러 지역에 걸쳐 분포되어 있고 각각의 지역에 속한 구성원들이 조사문제에 있어서 지역간에 차이가 없다고 판단되는 경우 임의의 한 지역을 선택하는 방법. 1 단계 군집표본추출(single-stage cluster sampling) : 한 점포를 선정하여 특정 일의 모든 쇼핑객들을 대상으로 조사하는 경우. 다단계 군집표본추출(multi-stage cluster sampling) : 한 점포를 선정해서 단순무작위 혹은 체계적 표본추출을 하는 경우 ← 2 단계 군집표본추출. 장점 : 비용경제성과 실행의 편의성(특히 표적모집단 구성원들이 넓은 지역에 흩어져 있는 경우, 대인인터뷰를 한다면 많은 시간과 비용이 소요되므로 조사자가 편리한 지역에서 표본을 추출할 수 있다면 시간과 비용을 크게 줄일 수 있다). 한계점 : 표적모집단을 구성하는 그룹들이 여러 가지 유형인 경우에는 하나의 그룹만을 선택해서는 안 되며, 이때는 각 유형에 속하는 하위그룹들 각각에서 표본을 추출함으로써 표본의 모집단 대표성을 확보할 수 있다.
층화표본추출과 군집표본추출을 결합한 방식 : 여러 점포들을 조사문제와 관련하여 몇 가지 유형으로 나눌 수 있는 경우(다른 유형에 속한 점포의 고객들간에는 다른 의견을 가짐) 임의의 한 점포를 선정한다면 그 점포는 모집단에 대한 대표성이 낮으므로 각 유형별로 1개 혹은 소수의 점포를 선택하는 방식. 비확률표본추출법의 유형 편의표본추출(convenience sampling ; 대표적) : 조사자난 면접원이 편리한 장소와 시간에 접촉하기 편리한 대상들을 표본으로 추출하는 것으로 표적모집단 구성원들은 동질적(homogeneous)이어서 어떤 구성원을 대상으로 조사하더라도 마찬가지라는 것을 가정. 장점 : 조사대상을 적은 비용과 시간으로 확보할 수 있으며, construct 개발, 설문지 개발 후 사전조사(pretest) 등에 사용될 수 있고 편의표본으로부터 엄격한 분석결과를 획득하지는 못하지만 조사대상들의 특성에 대한 개괄적 정보를 획득할 수 있다. 한계점 : 표본의 모집단 대표성이 매우 낮다. 할당표본추출(quota sampling) : 인구통계적 특성(나이, 성별, 소득수준 등), 거주지 등의 측면에서 사전에 정해진 비율에 따라 모집단 구성원들을 할당하는 방법(← 층화표본추출과 구별필요). 층화표본추출 : 조사하고자 하는 특성 면에서 모집이 여러 가지 다른 집단들로 구성된 경우 각 집단에서 일부씩 추출하는 방식(사전에 그룹화 가능). 할당표본추출 : 인구통계적 특성이나 거주지를 중심으로 조사자가 표본의 크기를 할당(사전에 그룹화 정보없이 모집단을 구분).
장점 : 모집단에 대한 대표성이 단순무작위표본에 비해 높다. 한계점 : 할당표본추출을 하기 위해서 모집단의 특성에 대한 사전지식에 필요하며 이를 전혀 모르는 경우 할당표본추출은 불가능. 판단표본추출(judgment sampling) : 조사자가 조사목적에 적합하다고 판단되는 구성원들을 표본으로 추출하는 것으로 해당분야의 전문가들의 의견이 표적모집단의 대표성을 갖는다고 가정. 장점 : 해당분야의 전문가로 판단되어 선정된 표본이 실제로 유용한 정보를 제공할 수 있다면 판단표본추출법은 매우 유용. 한계점 : 판단표본이 편의표본보다 더 대표성을 가질 것이라는 것은 가정이나 기대일 뿐, 실제로 모집단의 대표성 정도는 평가할 수 없다. 눈덩이 표본추출 (snowball sampling) : 조사자가 적절하다고 판단되는 조사대상자들을 선정한 다음 그들로 하여금 또 다른 조사대상자들을 추천하도록 하는 방법으로 처음에는 조사자의 판단에 따라 조사대상자들이 선정되므로 판단표본추출법의 일종이라 할 수 있다. 장점 : 조사자가 표적모집단 구성원들 중 극소수 이외에는 누가 표본으로 적절한지를 판단할 수 없는 경우 사용될 수 있다(FGI같은 비계량적 조사에서 흔히 사용). 한계점 : 연속적 추천에 의해 선정된 조사대상자들에는 동질성이 높을 수 있으나 표적모집단과는 매우 유리된 특성을 가질 수 있다.
표본의 크기 결정 표본추출법 결정시 고려할 요인들 조사의 목적 : 표적모집단의 특성을 정확히 추정하는 것이 매우 중요하다면 표본의 모집단 대표성이 높도록 확률표본추출을 해야 하나 표적모집단의 특성에 대한 개괄적인 아이디어를 얻고자 한다면 편의표본을 이용할 수 있다. 예산 : 예산이 한정적인 경우 정확한 정보획득을 포기하더라도 비확률표본추출을 할 수 밖에 없다. 시간 : 시간적 제약이 큰 경우 비확률표본추출을 함으로써 시간절약을 할 수 있다. 표적모집단에 대한 사전지식 : 체계적 표본추출, 층화표본추출, 할당표본추출을 하기 위해서는 표적모집단에 대한 사전지식이 필요하며, 판단표본과 눈덩이 표본추출의 경우도 표적모집단에 대한 사전지식이 요구됨(사전지식이 전무하다면 단순무작위 혹은 편의표본추출을 할 수밖에 없음). 표본의 크기 결정 비확률표본 추출 시 : 사용가능한 예산과 시간에 따라 조사자의 판단에 따라 결정하며, 특별히 계산하는 방법은 없다. 확률표본 추출 시 : 표적모집단의 조사변수값의 분산, 신뢰수준, 허용오차에 따라 결정. 조사하고자 하는 변수의 분산값이 클수록 표본의 크기는 커야 한다. 추정치에 대해서 높은 신뢰수준(confidence level)을 원할수록 표본의 크기는 커야 한다. 허용오차가 작을수록 표본의 크기는 커야 한다.
신뢰수준은 보통 90%, 95%, 99% 중 하나가 선택되며, 모집단의 크기가 무한 또는 매우 클 경우. 단순무작위 표본추출의 경우 추정치가 평균(mean ; μ)인 경우와 비율(proportion ; p)인 경우의 표본의 크기를 결정하는 공식. 평균추정을 위한 표본크기 결정 신뢰수준은 보통 90%, 95%, 99% 중 하나가 선택되며, 모집단의 크기가 무한 또는 매우 클 경우. 위 식은 Z(신뢰수준)가 클수록 σ2(분산)이 클수록 d(허용오차)가 작을수록 n이 커짐을 보여준다. 모집단의 규모가 한정된 경우 : 유한모집단 수정계수(finite correction factor ; fcf)를 적용하여 필요한 표본의 크기를 줄일 수 있으며, 보통 무한 모집단의 경우 계산된 표본크기(n)가 유한 모집단 크기의 5%가 넘는 경우에 유한 모집단 수정계수를 적용시킴. Z = 신뢰수준과 관련된 Z 모집단 분산의 추정치(사전정보나 경험을 토대로 추정하고 pilot study에 의해서 추정함) d 허용오차(평균값의 단위와 같은 단위로 나타냄)
비율추정을 위한 표본크기 결정 Z = 신뢰수준과 관련된 Z값 조사특성값을 가질 비율의 추정치(사전정보나 경험을 토대로 추정하거나 pilot study에 의해 추정됨) 1 - , 조사특성값을 갖지 않을 비율의 추정치 d 허용오차(비율로 나타냄)