Presentation is loading. Please wait.

Presentation is loading. Please wait.

추론통계.

Similar presentations


Presentation on theme: "추론통계."— Presentation transcript:

1 추론통계

2 통계분석방법의 유형 통계방법 서술통계 추론통계 일원적 서술통계 이원적 서술통계 모수적 추론통계 비모수적 추론통계

3 기술통계와 추론통계 서술통계(descriptive statistics): 하나의 변수나 집단에 관련된 수량적 자료를 체계
적으로 조직화하거나 요약해서 기술해주는 통계적 방법 빈도분포, 집중경향, 분산도 등 추론통계(inferential statistics): 표본에서 나온 통계치로부터 모수(parameter)를 추정하거나 가설을 검증하는데 사용하는 통계적

4 추론통계의 기능 모집단 표본 (sample) 모수 표본통계량 (populatin) (parameter) (statistics)
표본추출 기술통계 기술통계 모수 (parameter) 추론통계 표본통계량 (statistics) 모수의 추정

5 추론통계가 필요한 이유 우리가 일반적으로 관심을 가지는 것은 모수치(parameter)인데, 이 것은 전수조사를 하지 않으면 알 수 없기 때문에, 편의상 표본을 추 출하여 측정한 표본통계량(statistics)을 이용하여 일반적인 특성을 논하게 됨 여기서 생기게 되는 문제는 이 표본 통계치들이 모수치와 일치하지 않는다는 것이다. 즉 표집오차(sampling error)를 포함하고 있음 따라서 표본통계치에서 나타난 결과가 정말로 모집단에서 그런 것인 지 아니면, 해당 표본에 한정된, 그 표본에만 나타나는 현상인지를 따져보아야 함 이를 위해 확률의 원리를 이용하고 신뢰구간을 이용하여 통계적 추 정을 하게 되는 것임

6 추론통계 표집오차(sampling error)를 통제하고, 표본에서 얻어진 통계량(statistics)을 가지고
모수(parameter)를 추정하거나 가설을 검증하는 통계적 방법 표본 연구결과를 “일반화(generalize)”할 수 있음

7 표본분포(sampling distribution)
추론통계의 가정 ‘모집단으로부터 표본을 무작위 추출한다’는 것 모집단으로부터 일정한 크기의 무작위표본을 반복 추출하여 이 표본들의 평균을 그림으로 나타내는 분포 = “표본분포” 이론적 분포이며 추론통계의 기본이 됨 표본통계량의 분포를 말하며, 이에 대응되는 개념으로는 모집단분포가 있다. 실제표본추출을 무한회수로 추출하는 것이 불가능하므로 표본분포는 가설적인 것이라 하겠다.

8 표본분포(sampling distribution)
표본분포의 평균: 모집단의 평균=표본분포의 평균 표준오차(standard error)=표본분포의 표준편차 표본평균들이 모집단 평균 주의에 어느 정도 퍼져있는지를 나타냄 σ를 모르면 대신 s, 즉 표본의 표준편차를 사용. 표준분포의 분산: 표준오차의 제곱

9 예제 예1) S대학병원 간호사 500명의 평균연령은 32.4세이다. 이 들 중 n=10으로 가능한 표본을 모두 뽑을 때 이 표본분포의 평균은? 예2) S대 병원 입원환자들의 간호에 대한 만족도는 평균 360 점, 분산 50점이다. n을 10으로 하여 표본을 뽑을 때 그 표본분포의 평균과 분산은? 풀이: 모집단의 평균=표본분포의 평균( )이므로 답: 32.4세 풀이: 모집단의 평균=표본분포의 평균( )이므로 ∴ 평균은 360점 분산/표본의 크기=50/10=5, ∴ 분산은 5점

10 예 3) μ= 102, =16이고 정규분포를 이루는 모집단에서 n=4인 표본의 평균(x) 의 분포는 어떠한 분포를 이루는 가? 평균이 102이고 표준편차가 8인 정규분포를 이룬다

11 추론 통계 방법 모수통계: 연속변수, 자료가 정규분포, 표본의 값 으로 모집단의 값 측정시 사용
T 검정, 분산분석(ANOVA), Pearson’s corr., 회귀분석 등 비모수통계: 명목이나 서열 측정, 표본수가 15미 만, 자료가 정규분포하지 않음, 모집단 값을 추정 하지 못함 Median test, Sign test, Mann-Whitney U test, Kruskal-Wallis test, Friedman test, Chi-square test, Spearman’s rho 등

12 모수적 추론 통계 vs 비모수적 추론통계 모수적 통계방법의 요건 등간척도나 비율척도에만 사용할 수 있음
1. 모집단분포의 정상성 모집단이 정규분포를 이룬다고 가정할 경우에만 적용 2. 변량의 동질성 (측정값의 연속성 및 등간성) 등간척도나 비율척도에만 사용할 수 있음 명목척도나 서열척도의 경우는 비모수적 통계방법을 이용하여야 함 종류: T 검정, 분산분석(ANOVA), Pearson’s corr., 회 귀분석 등

13 모수적 추론 통계 vs 비모수적 추론통계 비모수적 통계방법 모집단의 정규분포에 대한 가정을 만족하지 않고
명목척도나 서열척도에 의해 얻어진 변수들간의 검정에 사용 Wilcoxon signed test, Mann-Whitney U test…

14 추론통계방법의 종류 및 가정 통계적 추정과 가설검정 통계적 추정
: 표본의 성격을 나타내는 통계량을 기초로 모수를 측 정하는 방법 가설 검정 : 모수에 대하여 특정한 가설을 세워 놓고 표본을 선택 하여 통계량을 계산한 다음 이를 기초로 하여 모수에 대한 가설의 진위를 판단하는 방법

15 단일 모집단의 평균에 관한 추정  추론통계학이 다루는 영역 통계적 추정 점추정 가설검정 구간추정

16 추론통계학이 다루는 영역 통계적 추정 :표본통계량을 기초로 하여 모수를 추정하는 방법
점추정 : 표본에서 얻어지는 정보를 이용하여 모수와 같 을 가능성이 가장 높은 한 값을 선택하는 것 구간추정 : 구간을 제시하여 모수를 추정하는 것으로 구 간추정을 통해 얻어지는 구간을 신뢰구간이라 함 신뢰도: 구간으로 추정된 추정값이 실제 모집단의 모수를 포 함하고 있을 가능성. 90%, 95%, 99%

17 추론통계학이 다루는 영역 통계적 추정 점추정 : 모수를 한 값(point)로 추정 가설검정 구간추정
:모수를 구간(interval) 으로 추정 모평균 = 표본평균 ± 구간너비 구간너비 = 표본오차 표본오차는 무엇으로 결정? 신뢰도, 표본수

18 100% 확신 어떤 추정이 가장 정확할까? 170 ± 3 170 ± 10 170 ± 30 평균신장을 추정하는데
어떤 추정이 가장 정확할까? 평균신장을 추정하는데 표본평균=170, 표본수=10 100% 확신 170 ± 3 170 ± 10 170 ± 30

19 100% 신뢰구간이 좋은가? NO! Stupid. 어느 정도 틀릴 각오를 해야 함 95% 신뢰= 5% 틀릴 위험 감수
100% 신뢰구간이 좋은가? NO! Stupid. 평균신장을 추정하는데 1m~3m 이렇게 추정하면 무슨 의미가 있 을까 어느 정도 틀릴 각오를 해야 함 95% 신뢰= 5% 틀릴 위험 감수

20 유의수준 과 신뢰도 유의수준 (Significance level) 신뢰도 (Confidence level)
구간추정이 틀릴 확률 신뢰도 (Confidence level) 신뢰도= 1- 유의수준 주로 사용하는 유의수준 5%, 10%, 1% 주로 사용하는 신뢰도 95%, 90%, 99%

21 구간추정의 예 1 안 먹겠다=(58.8±3.7)%=(55.1~62.5)% :95% 신뢰구간

22 구간추정의 예 2 한나라당 지지=(27.5±3.1)%=(24.4~30.6)% :95% 신뢰구간

23 엑셀에서의 구간추정 방법 1 신생아 체중의 모표준편차 : 0.4Kg 정규분포 따름

24 엑셀에서의 구간추정 방법 2

25 See the Z table 47.72% 47.72% 34.13% 34.13% 2.28% 2.28% -2 -1 1 2 Z

26 신뢰구간 추정 ex) =140,  =60인 정규분포에서 임의로 4명을 표본으로 뽑았을 때, 평균의 표본분포는

27 95% 2 2 80 200

28 =0.05일때 Z=1.96 (95%)  에  가 포함될 가능성 95%
/2 = 0.025 /2 = 0.025 -Z0.025 = -1.96 Z0.025 = 1.96

29 예) 대학생 월 평균 용돈을 알고 싶다. 100명을 임의 선택
예) 대학생 월 평균 용돈을 알고 싶다. 100명을 임의 선택 평균 82,000원 모집단  : 10만원 이다 (단, 정규분포) 대학생 평균용돈을 95% 신뢰구간에서 추정하면 ?

30 (3)가설검정(hypothesis test)
표본에서 얻은 사실을 근거로 모집단에 대한 가설이 맞 는지 틀리는지를 검정하는 통계적 분석방법 예) 방송대학에서 자연계 전공학생들과 인문계 전공학생들이 집에서 공부하는 시간에 차이가 있는지를 알아보기 위해서 자연계 10명, 인문계 10명을 뽑아 하루 평균 집에서 공부하는 시간을 조사하였더니 자연계 학생 80분 인문계 학생 70분으로 나타났다. 이 때 자연계 학생이 인문계 학생보다 공부를 더 많이 한다는 식 으로 결론을 내린다면 매우 위험 표본을 대상으로 했기 때문에 그 차이는 표집오차에 의해 우연 히 나타날 수 있으므로 모집단에서의 실질적인 차이 인지를 반 드시 검증해야 한다

31 가설검정과 기본용어 귀무가설(H0) vs 대립가설(H1)
가설(hypothesis) : 연구자가 어떤 현상에 대해 “그럴 것이다” 라고 추측하는 부분으로 연구가설(research hypothesis)이 라고 하며 모집단에 대한 추정이 된다. 연구가설(H1;alternative hypothesis) : 연구자가 얻은 자료를 이용하여 입증하고자 하는 가설 귀무가설(H0;null hypothesis, 영가설) : 대립가설의 반대에 해 당하는 진술이며 바로 검증의 대상이 된다 통계적 가설검증 과정에서는 귀무가설을 검증하여 reject하거나 not reject 한다. 결국 “연구가설이 지지되거나 지지되지 않는다.”

32 가설검증 표본을 이용하여 모집단의 주장이 옳고 그름을 판 정하는 과정 연구가설: 연구의 대상인 두 집단은 차이가 있다.
Ha : M1 ≠ M2 영가설: 연구의 대상인 두 집단은 차이가 없다. H0 : M1 = M2 영가설을 기각, 또는 기각할 수 없다고 결론

33 유의수준( p-value 와 α ) 유의수준(α :significance level)
귀무가설(영가설)이 사실일때 귀무가설을 기각할 오류의 최대 허용 범위 귀무가설의 지지여부를 결정할 때 어느 수준에서 귀무가설을 기각 할 것인가를 결정 예) 5%정도는 우리가 잘못 판단할 수 있다고 감수한다는 뜻

34 *주의 유의수준 결정은 자료를 분석하기 이전에 미리 결정되어야 하며, 자료를 분석한 후에 유의수준을 결정하여서는 안된다.
abstract 양측검정일때임 *주의 유의수준 결정은 자료를 분석하기 이전에 미리 결정되어야 하며, 자료를 분석한 후에 유의수준을 결정하여서는 안된다. 유의수준은 보통 10%, 5%, 1% 중에서 보통 결정.

35 가설검정(hypothesis test)
단측검정과 양측검정 양측검정 : 모수에 대한 가설검정 시 두 모집단이 다르다(차이가 있다)를 보 는 가설 귀무가설을 기각하는 영역이 확률분포의 양측에 있게 됨 Ho: μ1 = μ2 H1: μ1 ≠ μ2 단측검정 : 모수에 대한 가설검정 시 한 모집단이 다른 한 모집단보다 크거나 작다고 하는 가설 Ho: μ1≤μ2 또는 μ1≥ μ2 H1: μ1>μ2 또는 μ1< μ2

36 단측가설: 방향적 가설 ← 더 많은 정보를 가지고 있다. ∴ 더 나은 가설.
양측가설: 비방향적 가설 판매원의 경력에 따라 판매실적이 다르다. 가격에 따라 수요는 달라진다. 심장병 환자의 비율은 남·녀 간에 차이가 있다. 맥주 한 병에 들어있는 맥주량은 640㎖가 아니다. 단측가설: 방향적 가설 ← 더 많은 정보를 가지고 있다. ∴ 더 나은 가설. 판매원의 경력이 많을수록 판매실적은 높다. 가격이 낮을수록 수요는 증대된다. 심장병 환자 비율은 여자보다 남자의 경우 더 크다. 맥주 한 병에 들어있는 맥주량은 640㎖보다 적다.

37 가설검정의 오류 제1종 오류(type I error): α-오류 제2종 오류(type II error): β-오류
옳은 귀무가설을 기각하는 오류 제2종 오류(type II error): β-오류 귀무가설이 틀렸는데도 검정결과 귀무가설을 옳은 것으 로 받아들이는 오류 검정력(power): 1-β 일반적으로 제2종 오류의 영향이 제 1종오류의 영향보다 덜 위험하므로 제2종 오류를 범하는 편을 택한다. 귀무가설이 사실이 아닐 때 귀무가설을 기각하는 옳바른 판단을 할 확률을 검정력 (power)이라 하고 1-β 로 표기

38 오류 1종 오류와 2종 오류 1종 오류(type 1 error) : 귀무가설이 진실(true)인데 기각하 는 오류로서 보통 1종 오류의 허용확률이 정해지는데 이를 α 로 표현되며, 보수적인 입장에서 심각하게 받아들여 진다. 2종 오류(type 2 error) : 귀무가설이 허위(false)인데 이를 기각하지 않는 오류. 오류의 종류 결정 귀무가설(H0) 진실 허위 H0기각 1종 오류 바른 결정 (1-β) H0기각 안 함 2종 오류

39 가설검증 단계 변수가 정규분포하는지, 통계적 가정을 만족시키 는지 파악 영가설과 연구가설 설정 자료에 맞는 통계검증방법 선택
자유도 계산, 유의수준 결정 통계분포표에서 기각경계값 확인 검정통계값 계산 두 값을 비교하여 영가설의 기각여부 결정

40 3. 자료분석 방법의 선택

41 t-test: 두 집단간 평균차이 검증에 사용
모수검증-차이 검증 t-test: 두 집단간 평균차이 검증에 사용 독립은 두 범주의 명목, 종속은 등간 이상 측정 종속변수의 측정값은 정규분포해야 함 지시적 가설인 경우 단측검증(one-tailed), 비지시적 가설 인 경우 양측검증(two-tailed)  독립집단의 검증: 서로 다른 집단의 표본 측정값 비교  짝을 이룬 집단의 검증(paired t-test): 동일집단 에서 반복측정한 변수의 평균차이 검증

42 분산분석(ANalysis Of VAriance): 세집단 이상의 평균 비교; F값을 계산
모수검증-차이 검증 분산분석(ANalysis Of VAriance): 세집단 이상의 평균 비교; F값을 계산  일원분산분석: 독립변수가 하나일 때  이원분산분석: 독립변수가 두개일 때  다원분산분석: 다수의 독립변수일 때

43 상관관계(Pearson’s correlation coefficient, r): 두 변수가 모두 등간 이상의 연속변수
모수검증-관계 검증 상관관계(Pearson’s correlation coefficient, r): 두 변수가 모두 등간 이상의 연속변수 회귀분석(regression): 종속변수의 변량을 가능한 많이 예측 혹은 설명하기 위함  단순: 한 독립V.가 한 종속V.를 설명하는 정도  다중: 둘 이상의 독립V.가 한 종속V.를 설명하는 정도

44 부호 검증: 모수검증의 paired t-test와 동일
비모수검증-차이 검증 중앙값 검증: 두 독립집단의 중앙값 비교 부호 검증: 모수검증의 paired t-test와 동일 Wilcoxon signed-ranks test: 점수차이에 대한 순위를 정하여 비교 Mann-Whitney U test: 두 독립 집단을 합해 개별 순위를 정하여 순위합(U) 계산 Kruskal-Wallis test: 서열척도인 점수 순위를 분 석; 모수의 분산분석과 비슷

45 카이제곱 검증(χ2): 명목변수의 빈도차이검증
비모수검증-관계 검증 카이제곱 검증(χ2): 명목변수의 빈도차이검증 각 측정치가 독립적일 것 각 칸의 관찰치가 ‘0’이 없을 것 관찰치가 ‘1’이하인 칸이 전체의 20% 넘지말것 Spearman’s rho: 서열척도일 때 사용 251쪽 통계검증의 선택 지침 참조

46 수고하셨습니다 강의를 마칩니다


Download ppt "추론통계."

Similar presentations


Ads by Google