제7장 추정과 가설 검정
제1절 추정 1. 추정의 정의 정의 모집단에 관한 정보가 전혀 없는 상태에서 모집단을 대표할 수 있는 표본을 추출 추출된 표본 통계량을 구한 다음, 이를 이용하여 모집단의 모수를 예측하는 것 모집단은 크기가 너무 크기 때문에 전수조사를 하기 위해서는 엄청난 비용과 시간이 소요되며, 경우에 따라서는 전수조사가 불가능함 대부분의 경우 모집단을 대표할 수 있는 표본을 추출하여 그 표본의 통계량으로 모집단의 모수 추정 사례 A대학교 학생의 평균 키를 추정하고자 할 경우 25,000명이 넘는 모집단인 A대학교 학생 전체를 조사하는 것은 어려움 학생들 중에서 100명을 표본으로 추출하여 구한 평균 키로 모집단인 A대학교 학생 전체의 평균 키를 추정하는 것
제1절 추정 2. 추정의 종류 점 추정 구간 추정 추정하고자 하는 모수를 하나의 값으로 추정하는 것 추정하고자 하는 모수가 특정 구간 내에 위치할 확률이 어느 정도 된다고 추정하는 것으로 일반적으로 사용되는 대부분의 추정은 구간 추정임 국회의원 혹은 지방자치단체장 선거 때 언론에서 A후보이 지지율이 36%이고 오차범위는 95% 신뢰수준에서 신뢰구간 ±3%라고 했을 때 이 말의 의미는 A후보의 지지율이 33%에서 39% 구간에 있을 확률이 95%라는 의미
가설검증-가설 두개 이상의 변수들간의 잠정적인 관계를 나타낸 문장으로, 연구자의 추측 특징 : 연구자가 밝히고자 하는 사항은 선언문 형식으로 표현 ex) 광고는 매출액 증대에 긍정적 영향을 미친다. 대립가설(Ha) : 연구자가 주장하기 원하는 가설 귀무가설(Ho) : 대립가설의 반대내용으로 통계적 검증의 대상이 됨 귀무가설이 기각하고 대립가설이 채택되기 위해 귀무가설의 잘못됨을 입증해야 함 귀무가설 기각함 대립가설 채택으로 표현함 귀무가설 기각하지 않음 대립가설 기각으로 표현함 1종오류 : 귀무가설이 진실임에도 불구하고 기각하는 오류 2종오류 : 귀무가설이 허위임에도 불구하고 기각하지 않는 오류
가설검증-유의수준(p) 허용오차수준(α) : p-value의 허용수준, α= 0.05가 일반적 유의수준이 낮을수록 연구자는 자신있게 대립가설을 주장할 수 있음 허용오차수준(α) : p-value의 허용수준, α= 0.05가 일반적 p-value가 작을수록, α 가 클수록 귀무가설 기각 가능성 큼
제2절 가설 검증 1. 가설의 정의 및 분류 가설(hypothesis)의 정의 귀무가설(null hypothesis) 연구자가 모집단이 가지고 있는 어떤 특성(모수)에 관한 가정이나 주장을 실제 검증 이전에 하나의 문장으로 표현한 것. 귀무가설과 대립가설이 있음 귀무가설(null hypothesis) 어떤 주장이 잘못되었다는 것이 증명되지 않는 이상이 진실로 수용되는 것 귀무가설은 집단 간 하나의 검정변수에 대해 평균의 차이가 존재하지 않는다든가, 혹은 두 변수 간 상호관련성이 없다는 등의 내용으로 이루어짐 귀부가설은 으로 표시됨 대립가설(alternative hypothesis) 연구자가 증명하고자 하는 혹은 채택시키고자 하는 내용으로 표현된 가설 수집된 자료 분석을 통하여 하나의 객관적인 사실로 받아들여지기를 바라는 내용으로 구성된 가설 통계 기호로 귀무가설은 H1으로 표시 대립가설이 사실이라고 증명이 되면 귀무가설은 기각되지만 그렇지 않은 경우에는 대립 연구 가설이 기각되고 대신 귀무가설이 수용
제2절 가설 검증 1. 가설의 정의 및 분류 비방향제시 가설 방향제시 가설 판매원에 경력에 따라 판매실적에 차이가 있을 것이다. AA브랜드는 가격에 따라 수요에 변동이 있을 것이다. BB맥주 한 병에 들어가는 맥주량은 500㎖가 아니다. 방향제시 가설 판매원의 경력이 많으면 판매실적은 높을 것이다. AA브랜드의 가격을 올리면 수요는 줄어들 것이다. BB맥주 한 병에 들어가는 맥주량은 500㎖보다 작을 것이다. 방향제시 가설이 비방향제시 가설보다 많은 정보를 제시하기 때문에 나은 더 가설임
제2절 가설 검증 2. 가설검정 절차 가설검정 절차 1단계: 가설 설정 가설을 설정하는 단계, 임계치를 결정하는 단계, 검정통계량을 계산하는 단계, 임계치에서 정한 값과 검정통계에서 계산도 값을 비교하는 단계, 최종 가설을 기각 혹은 채택하는 단계로 의사결정이 이루어지는 단계 등 다섯 단계로 구성 1단계: 가설 설정 맥주 소비자를 모집단으로 하는 경우 모집단 년 평균 맥주 소비량은 100병이라 가정하고 이를 가설로 표현하여 검정하고자 할 경우 H0: 맥주 소비자의 년 평균 맥주 소비량은 100병이 아니다 대립가설 H1: 맥주 소비자의 년 평균 맥주 소비량(μ) < 100병” 혹은 H1: 맥주 소비자의 년 평균 맥주 소비량(μ) > 100병”
제2절 가설 검증 2. 가설검정 절차 2단계: 임계치 설정 임계치란 귀무가설의 채택 및 기각 여부를 결정하기 위해 표본으로부터의 검정통계량과 비교할 수 있는 기준값 임계치는 유의수준이나 자유도 등에 따라 결정 유의수준(level of significance)이란 연구자가 귀무가설이 참인데도 불구하고 잘못하여 의사결정시 대립가설을 채택하는 오류를 범할 수 있는 확률 알파(α)값이라고 하며 보통 알파값은 0.01, 0.05, 및 0.10으로 설정하여 임계치를 결정하게 되지만 가장 보편적으로 사용되는 알파값은 0.05(95% 신뢰수준)임
제2절 가설 검증 2. 가설검정 절차 3단계: 검정통계량 계산 검정통계량(test statistics)이란 대립가설 혹은 연구가설을 기각 혹은 채택할 수 있는 기준 통계값 표본자료로부터 계산된 값과 귀무가설에서 설정한 값 간의 차이를 확인해야 하며 이 때 표본자료에서 계산된 값을 표본통계량이라 함 표본통계량이 귀무가설에서 설정한 기준값보다도 크면 귀무가설은 기각됨 검정통계량을 계산할 때 어떤 형태의 확률분포(Z분포, t분포, F분포, χ2분포 등)를 가지는가에 따라 어떤 방법을 선택할 것인가를 고려해야 하는데 이는 검정대상, 검정집단의 수, 표본의 수, 모집단의 표준편차(σ)가 알려져 있는가의 여부 등에 따라 달라질 수 있음 모집단의 평균을 검정하는 데 있어 Z분포 검정, t검정, 분산분석, χ2검정 혹은 F검정 등이 사용됨 평균에 대한 가설검정은 단일모집단에 대한 평균검정과 2개 모집단의 평균 검정, 그리고 3개 이상 모집단 평균검정으로 나눌 수 있다. 단일모집단과 2개 모집단 평균검정은 t분포(단일모집단 평균검정은 Z분포 검정을 할 수 있으나 t검정이 보다 엄격한 검정임)를 이용한 t검정으로 할 수 있음 3개 이상 모집단 평균 검정은 일원분산분석 이용
제2절 가설 검증 2. 가설검정 절차 3단계: 검정통계량 계산 분산에 대한 가설검정은 단일모집단 분산검정과 2개 모집단 분산 검정이 있음 단일모집단 분산검정은 χ2검정 분포를 이용한 검정 이용 2개 모집단 분산 검정은 과 F 분포를 이용한 F검정 이용 가설검증 방법 여러 가지 중에서 하나 혹은 몇 개를 병행하여 사용 회귀분석의 경우 회귀모형 그 자체의 유의성은 분산분석(F 검정)으로 하고 모형에서 사용되는 개별 독립변수의 통계적 유의성 t검정 이용
제2절 가설 검증 2. 가설검정 절차 4단계: 임계치와 검정통계량의 비교 설정한 귀무가설을 기각하고 연구가설 혹은 대립가설을 채택할 것인가를 결정하기 위해서는 앞에서 언급한 임계치와 검정 통계량을 비교하여 결정 이때의 영역을 기각역(rejection or critical region)이라고 하며 임계치가 계산된 통계량보다 작으면 귀무가설은 기각되고 대립가설이 채택 α가 0.01이고 단측검정이면 Zα=Z0.01=2.326, 양측검정이면 Zα=Z0.005=2.576임 유의수준 0.05이고 단측검정이면 임계치는 Zα=Z0.05=1.645이고 양측검정이면 양측검정이면 임계치는 Zα/2=Z0.025=1.96임
제2절 가설 검증 2. 가설검정 절차 단측 오른쪽 검정 단측 왼쪽 검정
제2절 가설 검증 2. 가설검정 절차 Z 혹은 t 분포일 경우 양쪽검정 혹은 한쪽검정 유의확률값을 기준으로 할 경우 유의확률(p값): 귀무가설 혹은 대립가설을 기각 혹은 채택할 수 있는, 검정통계량을 판단할 수 있는 확률값 SPSS, SAS emd 통계프로그램이 계산해줌 유의확률값이 α값보다 작으면 귀무가설을 기각하고 대립가설 채택
가설검증 챔피언(귀무가설) : 모든 사람들이 객관적으로 평가하여 인정하고 있음 Ho : 현재 챔피언 = 최고 선수 신뢰수준 허용오차수준 챔피언(귀무가설) : 모든 사람들이 객관적으로 평가하여 인정하고 있음 Ho : 현재 챔피언 = 최고 선수 도전자(연구가설) : 싸워서 자신이 챔피언 임을 보여줘야 함 Ha : 현재 챔피언 ≠ 최고선수, 현재 챔피언 = 도전자
가설검증절차 1단계 : 가설설정 연구가설 설정 : 입증하고자 하는 내용 귀무가설 설정 : 입증하고자 하는 내용의 반대 검증종류 설정 : 양측 or 단측 2단계 : 임계치 설정 표본의 검증통계량의 값과 비교할 수 있는 기준(신뢰구간의 상,하한값) 평균에 대한 가설 검증 : T 분포 분산에 대한 가설 검증 : F 분포 3단계 : 검증통계량 결정 표본에 따라 단위가 다르므로 이를 표준화시켜 계산한 값 Z통계량(정규분포) : 단일집단에서 모집단의 분산 알고 표본크기가 큰 경우(N>30) T통계량(T분포) : 모집단의 분산 모르고 표본크기가 작은 경우 F통계량 : 둘 이상 집단의 평균값비교시 X2통계량 : 둘 이상 집단의 특성차이 비교시
가설검증절차 4단계 : 가설채택 기준 결정 1) 유의수준(α) 결정 2) 가설검정 1) 임계치를 이용한 가설검정 t 값 > 임계치 : 귀무가설 기각, 대립가설 채택 t 값 < 임계치 : 귀무가설 채택, 대립가설 기각 2) P 값을 이용한 가설검정 p값 > α 값 : 귀무가설채택, 대립가설 기각 p값 < α 값 : 귀무가설 기각, 대립가설 채택
실험설계 (1) 실험이란? - 변수들간의 인과관계(causality)를 규명하기 위해 인위적인 상황하에서 원인변수를 조작한 결과 나타난 결과변수의 변화를 관찰하는 조사방법 (2) 실험에서 이용되는 변수의 종류 - 독립변수(원인변수) : 조사자에 의해 조작되는 변수 - 종속변수(결과변수) : 독립변수에 대한 조작의 결과로 나타나는 시험단위의 반응 - 외생변수 : 독립변수외에 종속변수에 영향을 미칠 수 있는 변수로 통제가 필요함 → 외생변수가 실험과정에 영향을 주면 실험의 타당성이 낮아짐
실험설계 ᆞ 외적타당성 : 실험에 의해 나타난 인과관계의 일반화(generalization) 여부 (3) 실험의 타당성 - 정의 : 실험과정에 대한 외생변수의 영향이 통제되어 실험결과가 실험실 밖의 실제 상황으로 일반화 될 수 있는 정도 - 종류 ᆞ내적타당성 : 측정된 종속변수의 변화가 실제로 독립변수(또는 실험변수)의 조작 에 의해 일어났는지의 여부 ᆞ 외적타당성 : 실험에 의해 나타난 인과관계의 일반화(generalization) 여부
실험설계 우연적 사건 : 연구자의 의도와는 관계없이 실험기간에 일어난 사건 (4) 외생변수의 종류 우연적 사건 : 연구자의 의도와는 관계없이 실험기간에 일어난 사건 Ex ) 007어나더데이 : 미국 전차에 의한 여중생 사망 사건 OB맥주 : 페놀사건 삼양라면 광고실험도중 우지파동 사건 발생 성숙효과 : 시간의 경과에 따라 나타나는 시험단위(실험대상)의 육체적, 심리적 변화 Ex) 어린이들의 공부시간과 시험점수간의 관계 : 지적수준 향상이 시험수준에 미치는 영향 시식도중 배가 불러오는 현상 시험효과 : 동일대상자에게 반복측정시 처음측정이 이후의 측정에 변화는 주는 현상 - 주시험효과 : 실험변수와는 관계없이 동일한 측정을 반복함으로써 결과변수에 발생하는 효과 Ex) 같은 유형의 시험 반복 : 실력보다는 시험분위기에 익숙해짐으로 인한 점수 향상 - 상호작용시험효과 : 실험 노출전 측정이 실험변수에 보다 민감하게 반응하는 현상 Ex) 브랜드 인지도 사전 측정 : 광고에 대한 관심 증가
실험설계 측정방법의 변화: 측정도구나 실험관찰자의 변화 등 측정방법상의 변화가 일어나는 경우 측정방법의 변화: 측정도구나 실험관찰자의 변화 등 측정방법상의 변화가 일어나는 경우 Ex) 면접자 교체, 실험전후 사용되는 설문지의 변화 시험단위선정의 오류 : 조사자가 서로 다른 특성을 가진 시험단위들을 실험집단과 통제집단에 할당하는 것 시험단위의 소멸(mortality) : 실험기간 동안 피실험자가 없어지는 현상 EX) 미혼 기혼, 통계적 회귀 : 실험전 극단적인 값을 가졌던 참가자가 실험기간 동안 평균치에 접근하는 현상 Ex) 100M 달리기 실험목적에 대한 예상: 실험참가자들이 실험과정에 실험의 목적을 파악하게 되어 조사자가 의도하는 방향으로 행동하거나 응답하는 현상