Download presentation
Presentation is loading. Please wait.
1
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
-단일 평균에 대한 검증으로써 정규분포(normal distribution)라 불리는 이론적 분포를 전제로 한 검증 방법이며, 정규분포는 다시 z-수치(z-score)를 전제로 구성되어지는 분포이다.
2
모수검증 vs. 비모수검증 모수검증(parametric tests) 비모수검증(nonparametric test)
표본이 추출되는 모집단의 모수(parameter)에 대한 몇 가지 가정들에 근거한 통계 검증방법 표본이 추출되는 모집단은 정상분포를 이루어야 하며 변수들은 적어도 등간척도 이상을 사용하여 측정된 것이어야 한다. 비모수검증(nonparametric test) 모수 검증에 필요한 가정들을 전제하지 않는 검증 방법이다. 적용하기는 쉬우나, 모수 검증 방법들에 비해 강력하지 못하다는 단점이 있다.
3
Z-score 만약에, 평균이 서로 다르고, 표준편차(혹은 변량)도 서로 다른 두 가지 분포를 서로 비교하여야 할 경우가 발생하게 된다. 두 분포의 평균 및 표준편차가 각기 상이할 경우, 동일한 범주값이라고 하더라도 그 범주값이 각 분포에서 갖는 의미는 전혀 다를 수가 있다. 이상의 경우에 서로 다른 두 분포를 비교하고자 할 때, 각 분포내의 각 점수를 일정한 기본을 적용하여 변형시켜 볼 필요가 생긴다. 이렇게 각 점수(혹은 범주값)를 정해진 기준을 사용해서 변형시키는 행위를 표준화시킨다고 하며, 그 결과로 생겨난 새로운 점수를 z-score 혹은 표준화된 수치(standardized score)라고 한다.
4
**이 공식을 자세히 살펴보면, z-score는 일정한 분포내의 각 범주값(X)과
준 값을 의미한다는 사실을 알 수 있다. -이러한 방식으로 계산된 z-score는 당연히 해당 범주값이 전체 분포에서 차지하는 상대적 위치를 보여주게 된다. -z score가 작으면 작을수록 해당 분포의 원래 범주값(X)의 크기 또한 작게 되며, 반대로 z-score가 크면 클 수록 해당 분포의 원래 범주값(X)의 크기 또한 크게 된다는 사실을 알 수 있다.
5
Z-score의 특징 해당 범주들마다 z-score들을 모두 계산 할 수 있으므로 일정한 분포내에서 산출될 수 있는 z-score들의 총수는 범주값의 총수와 항상 같다. 일정한 분포내에서 z-수치들의 총합은 항상 0이 되는데, 그 이유는 z-수치를 계산하기 위한 분자값들을 각 범주마다 더하면 그 값이 항상 0과 같기 때문이다. z-수치의 계산에 있어서 자료가 집단화되었는가 아닌가의 여부는 산출되는 z-수치의 총수에 있어서의 차이만을 지닐 뿐 공식의 차이는 전혀 존재하지 않는다. Z-수치가 분포내의 원래의 범주값(X)이 해당 분포의 평균 위로 혹은 아래로 몇 표준편차의 거리만큼 떨어져 있는가를 나타낸다는 사실이다.
6
Z-score에 대한 공식을 변형하면 위의 그림과 같이 제시할 수 있을 것이다. 이때 z 값이 -2라는 것은 해당범주값(Y)=평균-2표준편차의 거리만큼 떨어져 있음을 나타낸다.
7
표준 정규분포 평균=0, 표준편차=1 인 곡선을 이룬다. 종모양의 곡선이며, 단일최빈치를 지니고
완벽히 대칭적인 형태의 분포를 이룬다. 정규분포의 모양은 평균과 표준편차에 의하여 결정된다.
8
표본 크기가 증가함에 따라 계급의 크기가 축소됨에 따라 연속 무작위 변수의 상대도수 밀도 변화를 확인 그러나,
표본 크기가 증가함에 따라, 우연적 효과들은 평준화되고 상대도수는 확률에 접근하게 된다. 동시에, 표본 크기의 증가는 계급을 좀 더 자세하게 나눌 수 있도록 한다. 면적은 1에 고정되어 있지만, 상대도수 밀도는 대충 하나의 곡선이 된다 ; 확률분포, p(X)라고 부르는 확률밀도 함수 최종적으로 이는 정규분포를 이루는 곡선이 된다(정규곡선)
10
정규곡선 안의 면적
11
정규분포에 대한 계산 예제 Pr (Z>1.64) Pr (Z<-1.64) Pr (1.0<Z<1.5)
12
예제 2 작업치료사가 Manual Dexterity 검사결과 평균이 10점이고, 표준편차가 2.5점인 것으로 알려져 있다. 어떤 사람이 확률적으로 추출되어 검사를 받았을 때 15점 이상을 받을 확률은 얼마인가?
13
전체(0.5) =0.0228 0.4772 = 2.0
14
미국 남자의 모집단의 신장 X들을 도수분포로 배열시키면, 그 모양은 위의 그림과
같이 평균이 69인치이고 표준편차가 3인치인 정규분포를 나타낸다. 이 남자들 가운데 75인치가 넘는 사람의 비율은 얼마나 되나? 즉, Pr (X>75)= ?
15
학력고사 성적이 평균 60점이고, 표준편차가 20점인 정규분포를 그린다고 하자.
점수가 (1) 85점 이상 (2) 50점 미만 일 확률은 각각 얼마나 될까?
16
신뢰구간 -표본평균 주위에 신뢰구간을 설정할 수 있다. 이 신뢰구간은 우리가 실제 모집단 평균이 그 구간 안에 있을 것이라고 믿을 수 있는 정도를 말해준다. -한 신뢰구간은 모집단의 모수를 포함하거나 포함하지 않을 수 있다. 그러나 우리는 모집단의 모수를 확실히 알 수 없기 때문에 단지 모수가 있는 곳에 대해 최대한의 추측을 통해 판단하는 것이다.
17
SE=σ/ n μ=69 σ=5.1 인 경우에 95% 신뢰 구간은? 표본 크기가 증가함에 따라 표준오차는 줄어들게 되고,
그 결과 신뢰구간은 더 좁고 정확하게 된다. 이것이 바로 표본 크기를 늘리는 이유이다. SE=σ/ n μ=69 σ=5.1 인 경우에 95% 신뢰 구간은?
18
95% 신뢰구간 μ=X +z .025 σ/ n 67과 71까지의 범위 AB 내에 떨어질 확률은 95%
무작위 표본을 뽑아서 그것을 이용하여 평균을 계산할 뿐이다. 가령 이 값이 70으로 나왔다고 하자 그러면 68과 72사이에 떨어질 확률이 95%가 된다.
19
신뢰구간 설정시 가정 표본 평균을 중심으로 신뢰구간 추정시 μ 를 추정하기 위한 표본을 무작위로 선정한다. N이 충분히 크다.
모집단의 분산을 알고 있어서 표집오차를 계산할 수 있다. 하지만 대부분의 경우 모집단의 분산을 알 수 없다. 따라서 표본의 증거에 기초하여 예상되는 값을 추정해야만 한다. N이 충분히 클 경우 표본의 표준편차를 사용하여 표집분포의 표준오차의 좋은 추정치를 다음과 같이 얻을 수 있다. σ = s / N
20
표집 분포(sampling distribution)
21
표집분포(sampling distribution)
표본통계치 및 표본분포는 표본자료를 바탕으로 산출함으로써 연구자가 알고 있는 수치 혹은 분포임에 반하여, 모수 및 모집단 분포는 연구자가 모르고 있는 수치 혹은 분포이다. 여기에서 본질적인 의문점 하나 “그렇다면 연구자가 모르는 모집단의 수치 및 분포를 어떻게 파악하여 표본 통계치와 비교하는 통계적 검증을 행하는가?”하는 점이다. 결론적으로 모수와 표본통계치를 직접 비교하는 것은 불가능하다. 그러므로 우리는 모집단의 특성을 잘 대변할 수 있는 대체적 분포를 필요로 하게 되는데, 이것이 바로 표집분포이다.
22
표집분포를 개념적으로 정의한다면, 모집단으로부터 일정한 크기를 지니는 모든 가능한 무작위표본들을 추출하여 각 표본들마다 표본통계치를 산출하였을 때 그 같은 표본통계치들이 새롭게 형성하는 이론적, 가상적 분포를 의미한다. 예를 들면, 1,000명의 뇌졸중 환자의 전체사례수를 지닌 모집단이 존재한다고 생각해보자. 이때 모집단으로부터 표본사례수(N)가 50인 표본들을 하나도 빠짐없이 모두 무작위적으로 추출한다고 할 경우 그 표본들의 수는 가히 천문학적인 수일 것이다. 추출된 모든 표본들마다 특정한 표본통계치들을 빠짐없이 계산한다면, 그 수 또한 추출된 표본들의 수와 동일한 천문학적 수일 것이다. 이러한 방식으로 구해진 천문학적 수의 표본통계치들은 그 나름대로의 분포를 형성하게 되는데, 이것이 표집분포라고 한다.
23
표집분포 예제 1. 모집단의 크기가 N=4이고, 변수값이 각각 2, 4, 6, 8인 모집단이 있다.
이 모집단의 모수인 평균, 분산, 표준편차를 계산하라 μ=5.0 , σ=5.0 2. 모집단으로부터 중복을 허락하는 방법으로 표본의 크기 n=2인 확률표본 을 추출한다면 추출가능한 표본의 수는 모집단의 크기가 N=4이고 표본의 크기가 n=2이므로 16이다(이를 나열하시오!). * Nn
25
표집분산s2의 확률 히스토그램은? 표집평균 x의 확률 히스토그램 표집 분포의 평균과 분산은? μ=5.0 , σ=5.0이다. 집단의 평균과 분산과 표집분포의 평균과 분산은 같은 값이다.
26
표준오차
27
평균의 표집분포의 분산은 모집단의 분산 σ2을 표집의 크기 n으로 나누어준것이다.
표집분포의 표준편차이다. 표본통계량으로 모수를 추정하는데 중요한 역할을 한다. x와 μ 사이에 평균적으로 얼마나 많은 오차가 나타나는지를 알려주기 때문에 중요한 측정치이다. 집
28
표집평균의 분포 정규분포 모집단에서의 표본추출시 표집평균의 분포의 특성은 표집평균은 정규분포를 한다.
정규분포를 이루는 모집단에서 뽑은 표본들의 평균의 표집분포는 정규분포를 한다. 모집단이 정규분포를 하지 않더라도 표본의 크기 n을 크게 할 수록 정규분포를 한다. 표집평균의 평균은 모집단의 평균과 같다. 표집평균의 분산은 모집단의 분산을 표본의 크기로 나누어준 것과 동일하며, 표준편차는 σ / n 이다.
29
중앙한계의 정리 (central limit theorem)
30
기각치(critical value) 정의
표집분포에 제시되어 있는 수치들이 통계검증을 위하여 사용될 경우 그 수치들을 일컬어 기각치라고 부른다. 표집분포에 제시된 통계치로써, 가설검증과정에서 연구자로 하여금 귀무가설(또는 영가설: H0)을 기각할지의 여부를 판단케하는 기준이 되는 수치이다. 가설검증에 있어서 표본 통계치는 모수와 비교되는 것이 결코 아니라 표집 분포에 제시된 기각치와 비교된다는 사실을 알 수 있다. 가설검증 혹은 통계검증 과정에서 표집분포를 바탕으로 기각치를 구할 때, 일정한 조건이 없는 상태에서 어떠한 경우에나 일률적으로 기각치가 구해지는 것이 아니라는 것이다.
Similar presentations