T-test
추정(estimation) 통계학의 궁극적인 목적은 통계적 추론: 표본을 통하여 모집단의 확실하지 않은 어떤 특성을 추론하는 것이다. 모수를 예측하는 방법에는 통계적 추정(statistical estimation) 가설검정(hypothesis test)
통계적 추정 표본의 특성을 분석함으로써 모집단의 특성을 추정하는 것 추정량 점추정(point estimate) 표본통계량을 이용하여 모수를 추론하는 것 추정량 특정 모수를 추정하기 위하여 사용되는 표본 통계량을 말하며, 추정치는 모수를 구체적으로 추정한 값 점추정(point estimate) 구간추정(interval estimate)
신뢰구간 -표본평균 주위에 신뢰구간을 설정할 수 있다. 이 신뢰구간은 우리가 실제 모집단 평균이 그 구간 안에 있을 것이라고 믿을 수 있는 정도를 말해준다. -한 신뢰구간은 모집단의 모수를 포함하거나 포함하지 않을 수 있다. 그러나 우리는 모집단의 모수를 확실히 알 수 없기 때문에 단지 모수가 있는 곳에 대해 최대한의 추측을 통해 판단하는 것이다.
SE=σ/ n μ=69 σ=5.1 인 경우에 95% 신뢰 구간은? 표본 크기가 증가함에 따라 표준오차는 줄어들게 되고, 그 결과 신뢰구간은 더 좁고 정확하게 된다. 이것이 바로 표본 크기를 늘리는 이유이다. SE=σ/ n μ=69 σ=5.1 인 경우에 95% 신뢰 구간은?
95% 신뢰구간 μ=X +z .025 σ/ n 67과 71까지의 범위 AB 내에 떨어질 확률은 95% 무작위 표본을 뽑아서 그것을 이용하여 평균을 계산할 뿐이다. 가령 이 값이 70으로 나왔다고 하자 그러면 68과 72사이에 떨어질 확률이 95%가 된다.
신뢰수준 신뢰구간 하한값과 상한값으로 표기 신뢰구간이 추정하고자 하는 모수를 포함할 확률 *신뢰구간=추정치±(신뢰수준ⅹ표준오차) 모평균 μ에 대한 신뢰구간= x±Z (1-α/2)σ/ n
Z (1-α/2) 신뢰도 Z (1-α/2) 68% 1.000 90% 1.645 95% 1.960 99% 2.576
신뢰구간 설정시 가정 표본 평균을 중심으로 신뢰구간 추정시 μ 를 추정하기 위한 표본을 무작위로 선정한다. N이 충분히 크다. 모집단의 분산을 알고 있어서 표준오차를 계산할 수 있다. 하지만 대부분의 경우 모집단의 분산을 알 수 없다. 따라서 표본의 증거에 기초하여 예상되는 값을 추정해야만 한다. N이 충분히 클 경우 표본의 표준편차를 사용하여 표집분포의 표준오차의 좋은 추정치를 다음과 같이 얻을 수 있다. σ = s / N
예제1 한 학교에서 학생 100명을 표본으로 뽑아서 혈압을 측정해보니 평균혈압이 130.5mmHg이었고, 모집단의 표준편차는 5mmHg이었다고 한다. 90%, 95%, 99%의 신뢰도로 모평균을 추정하라. 예제1-1 한 학교에서 학생 400명을 표본으로 뽑아서 혈압을 측정해보니 평균혈압이 130.5mmHg이었고, 모집단의 표준편차는 5mmHg이었다고 한다. 90%, 95%, 99%의 신뢰도로 모평균을 추정하라.
T-test Z-test T-test 단일 평균에 대한 검증을 목적으로 사용됨 단일 평균에 대한 검증 두 집단간의 평균 차이에 대한 검증을 위한 목적으로 주로 사용
**이 공식을 자세히 살펴보면, z-score는 일정한 분포내의 각 범주값(X)과 준 값을 의미한다는 사실을 알 수 있다. -이러한 방식으로 계산된 z-score는 당연히 해당 범주값이 전체 분포에서 차지하는 상대적 위치를 보여주게 된다. -z score가 작으면 작을수록 해당 분포의 원래 범주값(X)의 크기 또한 작게 되며, 반대로 z-score가 크면 클 수록 해당 분포의 원래 범주값(X)의 크기 또한 크게 된다는 사실을 알 수 있다.
σ를s로 추정할 때에는 t를 사용 건양대학교 작업치료학과 2학년들의 보건통계학 중간고사 시험 성적에서 점수 다섯의 표본을 뽑아보니, 58, 60, 53, 81, 73으로 나타났다. 학급 전체의 평균 μ의 95% 신뢰구간을 구하라.
모집단의 분산을 모르는 경우 t s t 통계량 t 분포 t 통계량은 자유도가 n-1인 경우를 말한다. Student’s t-distribution을 말하며, 흔히 간략하게 t 분포라 부른다. t 분포는 종모양의 좌우대칭인 분포로서 자유도에 따라 모양이 결정된다. 자유도는 df로 나타내며, 표본의 크기 n에서 1을 뺀 것이다.
t-수치 및 t-분포의 특성 위의 공식을 살펴보면, -표본평균과 모집단 평균간의 차이를 나타내며, -분포는 표준오차를 나타낸다. -이 공식은 Z의 수치와 거의 흡사하다고 할 수 있다 *표준오차에 대한 계산에서 다르다. >Z의 수치는 모집단의 편차를 N으로 나누지만, >T의 수치는 표본의 표준 편차를 N으로 나눈다는 것이다. 어떻게 위의 교환들이 가능한가? -우리가 모집단의 편차를 알지 못하므로 대처할 것이 필요했으며, 표본의 표준편차가 가장 적절했다. -단, 이때의 조건이 N이 충분히 클 때 이런 교환이 가능하다.
t-test가 사용되는 경우 정규분포를 이루는 모집단으로부터 작은 크기의 표본이 추출된 경우이다. 모집단의 분포형태와 관계없이 큰 크기의 표본이 추출된 경우이다.
t-분포의 특성 연속형변수의 확률을 제시하는 이론적 분포 좌우대칭적인 종모양 t분포와 z분포의 모양은 상당히 흡사하여 두 분포 모두 0이라는 평균값을 지닌다. t분포와 z분포의 차이는 N이 일정하다고 할 때(N<50), T분포가 z분포에 비하여 변량 혹은 표준오차가 약간 더 크다는 것이다. 하지만, N이 점차 커질수록(N≥50) t분포와 z분포간에는 모양의 차이가 전혀 없어지게 되며, 이는 곧 통계적 추리를 행함에 있어서도 차이가 전혀 없음을 뜻하는 것이다.
t=0을 중심으로 좌우대칭이다. t 분포의 곡선은 정규곡선보다 낮다. t분포는 자유도에 따라 분포 모양이 달라진다. 표본의 크기가 커질수록 정규분포에 가까워진다.
Z-분포 T-분포 T분포와 z분포의 형태비교
자유도 만약에, 이용할 수 있는 관찰이 단지 n=1개뿐이면 평균은 계산할 수 있으나, 산점도는 계산할 길이 없다. 그러므로, n이 1을 넘는 경우에만 분산에 대한 정보를 얻을 수 있다. 분산에 대해서는 필연적으로 정보가 단지 (n-1)개만 존재하게 되며, 그것이 적절한 분모가 된다. 정보의 개수는 관례적으로 자유도(degrees of freedom; d.f.)
자유도 자유도란 무엇인가? 표본특성치를 계산함에 있어서 자유로운 값을 취할 수 있는 관찰수를 의미한다. T-분포에서 자유도의 계산은 N-1이다. 구체적인 예를 들면, N=4인 표본분포에서 평균이 3이며, 세가지 범주값들이 각각 1(X1), 2(X2), 4(X3)로 정해져 있다고 한다면, 나머지 한 가지 범주값은 자동적으로 5라는 값을 갖게 된다. 이 경우에 X4를 제외한 나머지 세 가지 범주들은 자유로운 변화할 수 있는 값들을 가질 수 있게 되는데, 이처럼 자유로운 값을 취할 수 있는 관찰수를 자유도라고 한다.
t-검증의 문제점 N의 크기가 가설 기각에 직접적인 영향 단측검증이냐? 양측검증이냐가 가설 검증에 영향
예제 A 병원의 척수손상환자들(1,526)의 작업수행능력이 평균은 3.16이었으며, 표준편차는 0.92였다. 이 경우 연구자는 과연 모집단의 평균이 2.50일 것인가, 아닐 것인가 하는 관심을 지닐 수 있을 것이다. 이를 검증하시오.
T-test process 예제) 목을 다쳐서 승모근에 근경축이 심한 환자들에게 바이오피드백 훈련을 하고, 승모근의 활동전위를 측정하였다고 하자. 대조군은 승모근에 근경축이 심한 환자들에게 플라시보 치료를 받았다고 하자. 가설설정
예제3 신생아 16명을 뽑아 몸무게를 측정한 결과 평균 몸무게가 3100g이고 표준편차가 140g이다. 모평균90%, 95%, 99% 신뢰구간을 구하라.
예제4 다음 자료는 미국의 남녀 대학생에 관한 자료이다. 아래의 변수를 설명하면 다음과 같다. Pulse1은 달리기를 하기 전에 측정한 맥박수이며, Pulse2는 달리기를 한 후에 측정한 맥박수이다. Run은 달리기 유무(달리기를 한 사람 1, 달리기를 하지 않은 사람 2)의 명목척도에 의한 범주형 변수이다. Smoke는 흡연 유무(흡연1, 비흡연2)를 말하고, Sex는 성별(남자1, 여자2)을 의미한다. Height는 inch를 측정된 키를 말하며, Weight는 파운드로 측정된 몸무게이다. Activity는 활동성을 의미하며 낮은 경우에 1, 보통인 경우에 2, 높은 경우에 3으로 코딩하였다. 이자료에서 달리기하기 전의 맥박수를 90%, 95%, 99% 모평균의 신뢰구간을 구해보자. *표본수=92, 표본평균=72.87mmHg, 표본표준편차=11.01
가설검증의 일반적 절차 H0을 진술한다. H1을 진술한다. 알파-오류를 설정한다. 표본 통계치를 계산한다. 기각치를 구한다. 통계적 결론을 내린다. 실질적 결론을 내린다.
평균차 검증(t-test)
두 집단간 평균차이에 대한 t-검증 두 가지의 평균차이란? 두 가지 상이한 집단에서 각기 얻어진 평균들이 통계적으로 유의미한 차이를 보이는가를 검증함을 뜻한다. 평균차검증(Mean Difference Test)
두 모평균의 차이에 대한 신뢰구간 두 모평균의 차이(μ1-μ2)의 추정은 두 모집단에서 뽑은 표본의 평균의 차이로 이루어지는 표본평균의 차이의 표본분포를 기초로 하고 있다. 두 표본에서 얻어지는 표본의 산술평균의 차이로부터 두 모평균의 차이에 대한 신뢰구간을 구할 수 있다. 모분산을 알고 있을 경우와 모분산을 모르는 경우로 나누어 구한다.
두 평균간의 차이(μ₁- μ₂)
모집단 분산이 알려진 경우
모집단 분산이 알려져 있지 않은 경우, 두 모분산이 같은 경우
짝지워진 표본 중간고사와 기말고사의 점수들을 비교하고자 할 때, 우리가 두 표본 모두에서 같은 사람을 이용하기를 원한다고 하자. 이렇게 되면 D=X1-X2
예제 비타민 결핍증의 실험동물 24마리를 두 군으로 나누었다. 한 군은 비타민인 함유된 식이요법으로 처리하고, 다른 군은 아무 처리도 하지 않았다. 실험이 끝나고 혈청 칼슘량을 측정한 결과 다음과 같았다. 모평균의 차이에 대한 95% 신뢰구간을 구하여라. 이때 두 모집단의 모분산은 동일하다고 가정한다.
구분 실험군 대조군 표본의 크기(n) 12 표본평군(x) 10.4 8.2 표본분산(s2) 4.0 2.0 합동표본분산 자유도 95% 신뢰도와 95% 신뢰구간
t-평균차 검증을 위한 전제조건 두 모집단으로부터 추출된 두 표본들이 모두 무작위표본이어야 한다는 것이며 두 표본들이 추출된 두 모집단의 변량들이 같은 값을 지녀야 한다. 일반적으로는 특별한 검증과정을 거치지 않고 단순히 전제된 상태에서 검증이 진행되지만, 정밀한 검증을 요하는 연구에서는 반드시 검증을 해야 한다. 위의 두 조건들이 만족되지 않은 상태에서 평균차 검증은 결과가 무의미하게 된다.
중앙한계의 정리
사례 B병원에 입원하고 있는 뇌졸중 환자 남성의 일상생활동작 수행력 여성의 일상생활동작 수행력 평균이 3.208이고 표준편차가 0.830, N=1,276 여성의 일상생활동작 수행력 평균이 3.264이고 표준편차가 0.775, N=250이다. 이상의 자료를 바탕으로 여성이 남성보다 수행력이 다소 높은 것으로 조사되었다. 그러면 모집단에서도 이 같은 차이가 존재하는가?
표준오차에 대한 추정치 표본에서 구한 변량들과 표본 크기에 의해서 구해지는데, 두 가지 방법이 사용된다. 합치기 방법(pooled estimate of standard error) 두 모집단의 변량들은 동일하다고 가정하는 것 합지지 않는 방법(separate estimate of standard error) 모집단들의 변량이 동일하다고 추정할 만한 근거가 없는 경우에 사용된다.
T-test Lab S병원에 외래로 내원하고 있는 뇌졸중 환자 21명을 대상으로 SS-QOL 점수를 측정하였다. 그 결과 두 집단의 평균 값들은 아래의 표와 같이 나타났다. 즉, 여성(2.951±0.702)이 남성(2.889±0.856) 보다 삶의 질이 높은 것으로 나타났다. 그리고 이들의 표준오차는 여성이 0.203이고 남성이 0.285이다. Q: 여기에서 과연, S병원 전체 내원하는 뇌졸중 환자들의 삶의 질이 여성들이 높다고 할 수 있는가?
T-test Lab Answer: ①영가설을 기각한다 ②영가설을 받아들인다. 결론적으로…….