CHAPTER 21 UNIVARIATE STATISTICS 마케팅 석사 1학기 고윤성 마케팅 석사 1학기 마예예 마케팅 석사 1학기 김영화
학습 목표 To define a statistical hypothesis. To define terms such as null hypothesis, significance level and degrees of freedom. To recognize the statistical notation associa- ted with the null hypothesis and alternative hypothesis.
학습 목표 To discuss the steps in the hypothesis- testing procedure. To compute a hypothesis test about a mean when the sample size is large. To distinguish a Type I and a Type II error.
학습 목표 To describe the factors that influence the choice of which method of statistical anal- ysis to use. To distinguish between parametric and nonparametric hypothesis tests. To discuss the nature of the t-distribution.
학습 목표 To calculate a hypothesis test about a mean utilizing the t-distribution. To explain in which situations a univariate chi-square test would be appropriate and how to perform this test. To calculate a hypothesis test about a proportion using the Z-distribution.
Contents 1 2 3 4 5 6 7 7 STATING A HYPOTHESIS HYPOTHESIS TESTING CHOOSING THE APPROPRIATE STATISTICAL TECHNIQUE 3 t-DISTRIBUTION 4 HYPOTHESIS TEST OF A PROPORTION 6 CHI-SQUARE TEST FOR GOODNESS OF FIT 5 ADDITIONAL APPLICATIONS OF HYPOTHESIS TESTING 7 7
가설이란? 1. STATING A HYPOTHESIS - 가설은 증명되지 않은 진술 - 가설적으로 어떤 요인이나 현상을 설명 - 가설은 증명되지 않은 진술 - 가설적으로 어떤 요인이나 현상을 설명 - 가설은 세상의 특성에 대한 가정을 진술 Ex) 2003년도 남성 평균키는 170cm이었는데 현재는 170cm가 넘는다고 주장한다면..
귀무가설(Null Hypothesis) 1. STATING A HYPOTHESIS 귀무가설(Null Hypothesis) - 현재의 상태에 대한 진술 - 기존의 이론, 주장 - 보수적인 진술, 차이점이 없다. Ex)
대립가설(Alternative Hypothesis) 1. STATING A HYPOTHESIS 대립가설(Alternative Hypothesis) - 새로운 주장 - 검정의 대상이 되는 가설 - 귀무가설의 반대 진술 Ex)
1. STATING A HYPOTHESIS 단측검정과 양측검정 귀무가설이 기각될 영역이 분포의 양측에 존재 ☞ 양측검정 어느 한쪽에만 존재 ☞ 단측검정 EX) 귀무가설 : 모집단의 평균은 10이다 양측검정 단측검정 (좌측검정) 단측검정 (우측검정)
2. HYPOTHESIS TESTING 가설 검정 절차 a 귀무가설과 대립가설을 설정 모집단을 대표 할수 있는 표본 선정 표본의 평균 계산 유의수준( )를 선정 a
유의 수준(Significance level) 2. HYPOTHESIS TESTING 유의 수준(Significance level) - 귀무가설과 대립가설 사이의 선택에 있어서 임계치 (귀무가설이 맞는데 틀렸다고 기각할 확률로써 제 1종오류를 범할 확률) - 로 표시하고 일반적으로 .05 또는 .01로 봄 - 유의수준은 너무 낮아서 귀무가설의 지지를 보장할 수 없다. a P 500
2. HYPOTHESIS TESTING 가설검정의 한 예 - Red Lion restaurant 족도를 조사하기 위해 5점 척도를 사용해 측 정 했는데 평균이 3점으로 나왔다. 귀무가설 P 501
2. HYPOTHESIS TESTING 가설검정의 한 예 - Red Lion restaurant 족도를 조사하기 위해 5점 척도를 사용해 측 정 했는데 평균이 3점으로 나왔다. 대립가설
2. HYPOTHESIS TESTING P 501
2. HYPOTHESIS TESTING - Red Lion restaurant은 225개의 인터 뷰 표본을 가지고 있는 research cons ultants 고용
Critical value - lower limit 2. HYPOTHESIS TESTING Critical value - lower limit
2. HYPOTHESIS TESTING
Critical value - upper limit 2. HYPOTHESIS TESTING Critical value - upper limit
2. HYPOTHESIS TESTING
2. HYPOTHESIS TESTING EXHIBIT21.2 P503
2. HYPOTHESIS TESTING
2. HYPOTHESIS TESTING
2. HYPOTHESIS TESTING ※ 표본 크기의 증가 없이 제 1종 오류와, 제 2종 오류를 동시에 감소 시킬 수 없음 제1종 오류와 제2종 오류 실제상황 검정결과 귀무가설을 채택 귀무가설을 기각 귀무가설이 사실 옳은 결정-no error 제1종 오류 ( ) 귀무가설이 거짓 제2종 오류( ) ※ 표본 크기의 증가 없이 제 1종 오류와, 제 2종 오류를 동시에 감소 시킬 수 없음 P 504
UNIVARIATE STATISTICS 2 T-distribution (T-분포) 1 Choosing the appropriate statistical technique (적당한 통계기법의 선택 )
1.Type of question to be answered Choosing the appropriate statistical technique 1.Type of question to be answered (해결해야 하는 문제의 유형) 적당한 통계 기법 선택 2.Number of variables (변수의 양) 3.Scale of measurement (측정의 척도)
Choosing the appropriate statistical technique 1.Type of question to be answered (해결해야 하는 문제의 유형) 유형에 따라서 Research design 방향을 정함 DATA 수집
Choosing the appropriate statistical technique 2.Number of variables (변수의 개수) univariate data analysis (단일변량 data 분석): Bivariate data analysis (이변량 data 분석 ): Multivariate data analysis (다변량 data 분석)
Choosing the appropriate statistical technique 3.Scale of measurement (측정의 척도) (P505- EXHIBIT21.4) 척도의 종류 중심경향의 측정 편차의 측정 명목척도nominal 최빈값 mode 없음None 서열척도ordinal 중앙값median 백분율 percentile 등간척도or비율척도 interval or ratio 평균mean 표준편차 standard deviation
Choosing the appropriate statistical technique 척 도의 유형 Parametric statistical procedures (모수통계기법) 등간 or 비율 Nonparametric statistical procedures (비모수통계기법) 명목, 서열
Choosing the appropriate statistical technique Business problem Statistical question to be asked Possible test of statistical significance 등간or 비율척도 실제 평균월급과 가정된 평균 월급을 비교하라 표본 평균치하고 가정하는 모집단의 평균치 간에 차이가 있는지? z-test(is sample is large) t-test(if sample is small) 서열척도 실제와 기대하는 수준을 비교하면? Excellent, good, fair, and poor라는 척도에서의 점수 분포가 현실에서 기대하는 분포와 차이가 있나? 카이제곱 검정 어떤 제품 군 안에 있는 모든 브랜드의 선호도 순서를 결정한다. 표본에서 나온 순서하고 기대 혹은 가정하는 순서 간에 차이가 있나? Kolmogorov-smirnov test 콜모고로프-스미르노프 검정 명목 척도 핵심 경영진의 성별을 확인하려면? 여성 임원의 수하고 남성임원의 수 같은 것인가? 남성임원 차지하는 백분율을 표시한다. 남성임원의 비율은 가정하는 비율과 같은 것인가? 비율의 t-검정 (P 507- EXHIBIT 21.5)
적당한 방법은 연구 조사할 변수의 개수와 척도의 특성에 따라서 결정하는 것이다.
T-distribution T-분포 평균인 0을 중심으로 좌우대칭인 낮은 종모양을 하고 있고 표준정규분포하고 비슷하다. 또는 Student’s T-분포라고 합니다. P508- EXHIBIT21.6
4 2 1 X -------- 10 T-distribution T-분포 d.f.= n -1 Degrees of Freedom(자유도): 표본 크기에서 1을 뺀 값이다. 약자 예: 우리는 4개의 숫자의 합을 알고 있고, 각 숫자가 마음대로 정한다면 4 2 1 X -------- 10 d.f.= n -1 마지막 숫자 마음대로 정할 수 없다. 그래서 제외해야 한다.
T-distribution T-분포 t를 계산하는 공식: z분포를 사용하는 지 t분포를 사용하는 지를 결정하는 2가지 기준: 1.모집단의 표준편차 σ 알 수 있냐? 2.표본의 크기가 30보다 크냐?
T-distribution T-분포 Calculating a confidence interval estimate using the t-distribution T분포를 사용해서 신뢰구간을 계산한다. 예제: 한 비즈니스 조직은 MBA 졸업생들이 첫 직업에 얼마나 머무를 것인지를 조사했다. 17명의 MBA직원들 표본으로 정하고 연구자가 95%의 신뢰도로 모집단 평균을 평가하기로 했다. 표본의 data는 아래에 나열되었다. 첫 직업에서 머무르는 년 수 : 3 5 7 1 12 1 2 2 5 4 2 3 1 3 4 2 6 P 508
T-distribution T-분포 모집단 평균의 신뢰구간을 알기 위해 다음의 공식을 사용할 수 있다.
T-distribution T-분포 여기서는 = 모집단 평균 = 표본 평균 = 신뢰수준에 열거된 t의 임계치 = 평균의 표준 오차 S =표본의 표준편차 n = 표본의 크기
T-distribution T-분포 Σx=63 = Σx/n = 63/17=3.7 S=2.66 = s/ 그래서 =2.66/ = 0.645 =2.12 (부록 표 3) 우리는 신뢰구간을 계산한다.
T-distribution T-분포 Univariate hypothesis test using the t-distribution t-분포를 사용해서 단일 변량의 가설을 검정한다. 예제: 한 생산 관리자가 하루에 불량 제품이 20개씩 나온다고 가정하자, 공장이 25일 동안 불량제품의 생산율을 기록했다. 첫 단계는 귀무가설과 대체가설을 정하는 것이다. P 509
T-distribution T-분포 =22 S = 5 =2.064 그래서 임계치는 : Lower limit= Upper limit= 17.936 22.936 귀무가설 H0 채택 대체가설 H1 기각
T-distribution T-분포 z검정하는 것처럼, t-통계치를 사용해서 가설을 검정할 수 있는 대체 방법도 있다. 여기서 공식을 통해서 : 그래서 자유도 25-1=24에서 유의수준 0.05일 때, t값이 2.064는 t-값 관찰치 2보다 크니까 귀무가설을 채택된다. -2.064 2.064 2
CHI-SQUARE TEST FOR GOODNESS OF FIT Chi-square(x2) test 통계적으로 도수분포 분석에서 유의성을 측정 적합도 (Goodness of fit) 실험 또는 관찰 결과로 얻은 결과가 이론과 잘 일치하는 정도
CHI-SQUARE TEST FOR GOODNESS OF FIT ONE-WAY FREQUENCY TABLE FOR BRAND AWARENESS TABLE 21.1 Awareness of Tire Manufacturer’s Brand Frequency Aware 60 이 표는 자동차 타이어에 대한 특정 브랜드 의식의 서베이 조사를 보여준다.(일원도수분포) 100개 표본중 60%는 이 브랜드를 알고 있다. 이 표를 통하여 이 브랜드를 알고 있는 수치와 모르는 수치가 같다는 귀무가설을 검증하게 되는데 관측빈도와 기대빈도를 비교 관측분포와 기대분포의 적합도를 검증 Unaware 40 100 P 511
적합도(goodness of fit)검정 단계 1 귀무가설을 설정하고 매개 응답의 기대빈도 측정 2 적당한 유의수준을 결정한다. 3 표본에서 얻은 관측빈도와 기대빈도를 사용하여 X2 의 값을 계산한다. 4 계산된 X2의 값과 X2 의 임계값을 비교하여 통계량을 결정한다.
CHI-SQUARE TEST FOR GOODNESS OF FIT 가설 100개 표본 중 50명의 사람들은 “안다”, 50명의 사람들은 “모른다”라고 응답 → 매개 응답의 기대 확률은 0.5 0.05를 유의 수준으로 결정 브랜드 의식 데이터를 분석하기 위하여 브랜드를 의식하는 응답자의 수는 브랜드를 알지 못하는 수와 같다는 귀무가설의 제안으로부터 시작하였다. 적당한 유의 수준 결정
CHI-SQUARE TEST FOR GOODNESS OF FIT X2 = 카이제곱 통계량 ( chi-square statistic) Oi = i번째 셀의 관측빈도 (observed frequency in the ith cell) Ei = i번째 셀의 기대빈도 (expected frequency in the ith cell) 카이제곱 통계량을 계산하기 위하여 이 공식을 사용해야 한다.
CHI-SQUARE TEST FOR GOODNESS OF FIT TABLE 21.2 CALCULATING THE-CHI SQUARE STATISTIC Brand Awareness Observed Frequency (Oi) Expected Probability Frequency (Ei) (Oi -Ei ) (Oi -Ei )2 Ei Aware Unaware Total 60 .5 50 10 ─ =2.0 40 .5 50 -10 ─ =2.0 100 1.0 100 0 X2 = 4.0 100 50 이 표는 통계치의 상세한 계산의 결과를 보여준다 E i = (60+40) / 2 = 50 P512
CHI-SQUARE TEST FOR GOODNESS OF FIT 또 이 공식을 이용하여 한번에 카이제곱의 값을 구할 수 있다. = 4 카이제곱의 값
CHI-SQUARE TEST FOR GOODNESS OF FIT 자유도: d.f.= k-1 k= 표본의 수 예제에서 d.f.= 2-1 = 1 0.05유의 수준에서 자유도가 1인 카이제곱 임계치의 값은?? (교재 P716 부록 표 4) 카이제곱 값 4 > 카이제곱 임계 값 3.84 관측 값과 기대 값이 일치하다는 귀무가설은 기각된다. X2분포는 단순 확률곡선표가 아니라 하나의 집단 곡선도표이다. 이런 곡선 도표들은 비슷하기는 하지만 자유도의 수에 의해 변한다. 때문에 자유도의 수를 계산.
HYPOTHESIS TEST OF A PROPORTION 비율의 가설 검정: 모 비율에 대한 가설의 통계량 검정은 모 집단 표본의 데이터를 근거로 한 것이다. 예) 한 의원이 한 개 주에서 노동자의 50%가 노동조합에 가입한다는 가설을 세웠다.즉 조합에 가입된 노동자들의 비율이 0.5라는 귀무가설이 검정될 것이다.
HYPOTHESIS TEST OF A PROPORTION 5 . : H = p 귀무가설: 대립가설: n=100, p=0.6 유의수준=0.01로 설정하였을 때 z의 임계치 2.57이 가설검정에 사용된다. np=100*0.6=60 n(1-p)=100*(1-0.6)=40 ∂=0.01 Z∂/2=0.005 0.5-0.005 = 0.495 P714 Z값=2.57 5 . : H 1 ¹ p
HYPOTHESIS TEST OF A PROPORTION P= sample proportion = hypothesized population proportion Sp= estimate of the standard error of the proportion p or 이 공식을 이용하여 Z의 관측값을 계산할 수 있고 확실한 표본 비율을 가져올 수 있다. P=표본비율 파이= 가설된 모집단 비율 S= 비율의 표준오차 추정치 P= 성공 비율 q= 1-p 또는 실패 비율 Sp= estimate of the standard error of the proportion P = proportion of successes q = 1-p, proportion of failures
= 2 . 04 HYPOTHESIS TEST OF A PROPORTION 04899 = 2 . 04 Zobs 값 2.04 < 임계치 2.57 귀무가설은 채택
HYPOTHESIS TEST OF A PROPORTION 표본의 크기가 작을 때 Z-검정은 유효하지 않으므로 t-검정을 사용한다. 표본의 크기가 너무 작다는 것을 결정하기 위한 표준 검증방법이 (1) n 와 (2) n(1- )이다 . p p 크기가 너무 작을 때 n< 30 일때 서로 곱한 적 np= 5 . 정규분포로 근사시킬 수 있는 표본의 크기 기준 서로 곱한 적이 5 또는 그 이하일 때 표본 크기는 너무 작아서 Z-검정을 사용할 것인지를 고려해야 한다.
ADDITIONAL APPLICATIONS Of HYPOTHESIS TESTING 카이제곱 검정: 도수분포분석의 유의성 검정 Z-검정: 표본의 크기가 클 때 표본비율에 대한 가설을 검정 목적: 기초 통계량 개념들을 토론하는 것이다.
Thank You !