Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.

Slides:



Advertisements
Similar presentations
Statistics 상지대학교 1 / 22 추정 개요 점추정과 구간추정 표본크기 두 모집단의 비교.
Advertisements

제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
재료수치해석 HW # 박재혁.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
추론통계.
표본 이론.
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
컴퓨터 프로그래밍 기초 [Final] 기말고사
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
제12주 회귀분석 Regression Analysis
- 1변수 방정식의 solution 프로그램 (Bisection method, Newton-Raphson method)
제 19 장 유의성 검정 가설검정의 원리 귀무가설과 대립가설 검정통계량과 유의수준 제1종 오류와 제2종 오류 유의성 검정절차
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
제 3장. 수치를 통한 연속형 자료의 요약.
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
Multimedia Programming 10: Point Processing 5
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
표 본 분 포 7 1 모집단분포와 표본분포 2 표본평균의 분포 3 정규모집단에 관련된 분포의 응용 4 표본비율의 분포.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
상관분석 (p , p ).
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
군집 분석.
문제 2명의 사형수가 있다. 둘에게는 검정색 모자와 흰색 모자를 임의로 씌우는데, 자기가 쓴 모자의 색은 절대로 알 수가 없다. 서로 상대의 모자색만을 볼 수 있고, 이들이 살기 위해선 자신의 쓴 색의 모자를 맞춰야 한다. 단, 둘 중 한명만이라도 자신이 쓴 모자의 색을.
학습 주제 p 일률 측정하기.
9장 모집단이 한 개인 경우의 통계적 추론 2019년 4월 6일 오후 2시 22분2019년 4월 6일 오후 2시 22분
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
T-test.
밀도 (1) 부피가 같아도 질량은 달라요 ! 밀도의 측정 밀도의 특징.
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
미분방정식.
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
감마분포 gamma distribution
Sampling Distributions
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
기초 통계학 지도위원 이광희.
통계해석 및 오차의 제거.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Chapter 1 단위, 물리량, 벡터.
학습 주제 p 끓는점은 물질마다 다를까.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
7장 표본의 결과를 이용하여 모집단의 특성을 밝혀내자
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
추리통계학의 기본개념.
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
실험의 목적 저울 사용법의 익힘 무게법 분석의 기초 일정무게로 건조하기. BaCl2 • 2H2O 의 수분함량 측정Determination of water in Barium Chloride Dihydrate.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
9장. spss statistics 20의 데이터 변수계산
어서와 C언어는 처음이지 제21장.
문제의 답안 잘 생각해 보시기 바랍니다..
진리표를 이용한 타당성 증명 진리표(truth table) : 단순 문장들이 진리값을 상이하게 가질 수 있는 가능한 모든 경우를 남김없이 열거한 표 (ex) 오늘은 날씨가 맑거나 비가 올 것이다. 오늘은 날씨가 맑다 비가 온다 오늘은 날씨가 맑거나 비가 올 것이다. T.
Survey Sampling Sangji University.
Presentation transcript:

Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다. -단일 평균에 대한 검증으로써 정규분포(normal distribution)라 불리는 이론적 분포를 전제로 한 검증 방법이며, 정규분포는 다시 z-수치(z-score)를 전제로 구성되어지는 분포이다.

모수검증 vs. 비모수검증 모수검증(parametric tests) 비모수검증(nonparametric test) 표본이 추출되는 모집단의 모수(parameter)에 대한 몇 가지 가정들에 근거한 통계 검증방법 표본이 추출되는 모집단은 정상분포를 이루어야 하며 변수들은 적어도 등간척도 이상을 사용하여 측정된 것이어야 한다. 비모수검증(nonparametric test) 모수 검증에 필요한 가정들을 전제하지 않는 검증 방법이다. 적용하기는 쉬우나, 모수 검증 방법들에 비해 강력하지 못하다는 단점이 있다.

Z-score 만약에, 평균이 서로 다르고, 표준편차(혹은 변량)도 서로 다른 두 가지 분포를 서로 비교하여야 할 경우가 발생하게 된다. 두 분포의 평균 및 표준편차가 각기 상이할 경우, 동일한 범주값이라고 하더라도 그 범주값이 각 분포에서 갖는 의미는 전혀 다를 수가 있다. 이상의 경우에 서로 다른 두 분포를 비교하고자 할 때, 각 분포내의 각 점수를 일정한 기본을 적용하여 변형시켜 볼 필요가 생긴다. 이렇게 각 점수(혹은 범주값)를 정해진 기준을 사용해서 변형시키는 행위를 표준화시킨다고 하며, 그 결과로 생겨난 새로운 점수를 z-score 혹은 표준화된 수치(standardized score)라고 한다.

**이 공식을 자세히 살펴보면, z-score는 일정한 분포내의 각 범주값(X)과 준 값을 의미한다는 사실을 알 수 있다. -이러한 방식으로 계산된 z-score는 당연히 해당 범주값이 전체 분포에서 차지하는 상대적 위치를 보여주게 된다. -z score가 작으면 작을수록 해당 분포의 원래 범주값(X)의 크기 또한 작게 되며, 반대로 z-score가 크면 클 수록 해당 분포의 원래 범주값(X)의 크기 또한 크게 된다는 사실을 알 수 있다.

Z-score의 특징 해당 범주들마다 z-score들을 모두 계산 할 수 있으므로 일정한 분포내에서 산출될 수 있는 z-score들의 총수는 범주값의 총수와 항상 같다. 일정한 분포내에서 z-수치들의 총합은 항상 0이 되는데, 그 이유는 z-수치를 계산하기 위한 분자값들을 각 범주마다 더하면 그 값이 항상 0과 같기 때문이다. z-수치의 계산에 있어서 자료가 집단화되었는가 아닌가의 여부는 산출되는 z-수치의 총수에 있어서의 차이만을 지닐 뿐 공식의 차이는 전혀 존재하지 않는다. Z-수치가 분포내의 원래의 범주값(X)이 해당 분포의 평균 위로 혹은 아래로 몇 표준편차의 거리만큼 떨어져 있는가를 나타낸다는 사실이다.

Z-score에 대한 공식을 변형하면 위의 그림과 같이 제시할 수 있을 것이다. 이때 z 값이 -2라는 것은 해당범주값(Y)=평균-2표준편차의 거리만큼 떨어져 있음을 나타낸다.

표준 정규분포 평균=0, 표준편차=1 인 곡선을 이룬다. 종모양의 곡선이며, 단일최빈치를 지니고 완벽히 대칭적인 형태의 분포를 이룬다. 정규분포의 모양은 평균과 표준편차에 의하여 결정된다.

표본 크기가 증가함에 따라 계급의 크기가 축소됨에 따라 연속 무작위 변수의 상대도수 밀도 변화를 확인 그러나, 표본 크기가 증가함에 따라, 우연적 효과들은 평준화되고 상대도수는 확률에 접근하게 된다. 동시에, 표본 크기의 증가는 계급을 좀 더 자세하게 나눌 수 있도록 한다. 면적은 1에 고정되어 있지만, 상대도수 밀도는 대충 하나의 곡선이 된다 ; 확률분포, p(X)라고 부르는 확률밀도 함수 최종적으로 이는 정규분포를 이루는 곡선이 된다(정규곡선)

정규곡선 안의 면적

정규분포에 대한 계산 예제 Pr (Z>1.64) Pr (Z<-1.64) Pr (1.0<Z<1.5)

예제 2 작업치료사가 Manual Dexterity 검사결과 평균이 10점이고, 표준편차가 2.5점인 것으로 알려져 있다. 어떤 사람이 확률적으로 추출되어 검사를 받았을 때 15점 이상을 받을 확률은 얼마인가?

전체(0.5)-0.4772=0.0228 0.4772 = 2.0

미국 남자의 모집단의 신장 X들을 도수분포로 배열시키면, 그 모양은 위의 그림과 같이 평균이 69인치이고 표준편차가 3인치인 정규분포를 나타낸다. 이 남자들 가운데 75인치가 넘는 사람의 비율은 얼마나 되나? 즉, Pr (X>75)= ?

학력고사 성적이 평균 60점이고, 표준편차가 20점인 정규분포를 그린다고 하자. 점수가 (1) 85점 이상 (2) 50점 미만 일 확률은 각각 얼마나 될까?

신뢰구간 -표본평균 주위에 신뢰구간을 설정할 수 있다. 이 신뢰구간은 우리가 실제 모집단 평균이 그 구간 안에 있을 것이라고 믿을 수 있는 정도를 말해준다. -한 신뢰구간은 모집단의 모수를 포함하거나 포함하지 않을 수 있다. 그러나 우리는 모집단의 모수를 확실히 알 수 없기 때문에 단지 모수가 있는 곳에 대해 최대한의 추측을 통해 판단하는 것이다.

SE=σ/ n μ=69 σ=5.1 인 경우에 95% 신뢰 구간은? 표본 크기가 증가함에 따라 표준오차는 줄어들게 되고, 그 결과 신뢰구간은 더 좁고 정확하게 된다. 이것이 바로 표본 크기를 늘리는 이유이다. SE=σ/ n μ=69 σ=5.1 인 경우에 95% 신뢰 구간은?

95% 신뢰구간 μ=X +z .025 σ/ n 67과 71까지의 범위 AB 내에 떨어질 확률은 95% 무작위 표본을 뽑아서 그것을 이용하여 평균을 계산할 뿐이다. 가령 이 값이 70으로 나왔다고 하자 그러면 68과 72사이에 떨어질 확률이 95%가 된다.

신뢰구간 설정시 가정 표본 평균을 중심으로 신뢰구간 추정시 μ 를 추정하기 위한 표본을 무작위로 선정한다. N이 충분히 크다. 모집단의 분산을 알고 있어서 표집오차를 계산할 수 있다. 하지만 대부분의 경우 모집단의 분산을 알 수 없다. 따라서 표본의 증거에 기초하여 예상되는 값을 추정해야만 한다. N이 충분히 클 경우 표본의 표준편차를 사용하여 표집분포의 표준오차의 좋은 추정치를 다음과 같이 얻을 수 있다. σ = s / N

표집 분포(sampling distribution)

표집분포(sampling distribution) 표본통계치 및 표본분포는 표본자료를 바탕으로 산출함으로써 연구자가 알고 있는 수치 혹은 분포임에 반하여, 모수 및 모집단 분포는 연구자가 모르고 있는 수치 혹은 분포이다. 여기에서 본질적인 의문점 하나 “그렇다면 연구자가 모르는 모집단의 수치 및 분포를 어떻게 파악하여 표본 통계치와 비교하는 통계적 검증을 행하는가?”하는 점이다. 결론적으로 모수와 표본통계치를 직접 비교하는 것은 불가능하다. 그러므로 우리는 모집단의 특성을 잘 대변할 수 있는 대체적 분포를 필요로 하게 되는데, 이것이 바로 표집분포이다.

표집분포를 개념적으로 정의한다면, 모집단으로부터 일정한 크기를 지니는 모든 가능한 무작위표본들을 추출하여 각 표본들마다 표본통계치를 산출하였을 때 그 같은 표본통계치들이 새롭게 형성하는 이론적, 가상적 분포를 의미한다. 예를 들면, 1,000명의 뇌졸중 환자의 전체사례수를 지닌 모집단이 존재한다고 생각해보자. 이때 모집단으로부터 표본사례수(N)가 50인 표본들을 하나도 빠짐없이 모두 무작위적으로 추출한다고 할 경우 그 표본들의 수는 가히 천문학적인 수일 것이다. 추출된 모든 표본들마다 특정한 표본통계치들을 빠짐없이 계산한다면, 그 수 또한 추출된 표본들의 수와 동일한 천문학적 수일 것이다. 이러한 방식으로 구해진 천문학적 수의 표본통계치들은 그 나름대로의 분포를 형성하게 되는데, 이것이 표집분포라고 한다.

표집분포 예제 1. 모집단의 크기가 N=4이고, 변수값이 각각 2, 4, 6, 8인 모집단이 있다. 이 모집단의 모수인 평균, 분산, 표준편차를 계산하라 μ=5.0 , σ=5.0 2. 모집단으로부터 중복을 허락하는 방법으로 표본의 크기 n=2인 확률표본 을 추출한다면 추출가능한 표본의 수는 모집단의 크기가 N=4이고 표본의 크기가 n=2이므로 16이다(이를 나열하시오!). * Nn

표집분산s2의 확률 히스토그램은? 표집평균 x의 확률 히스토그램 표집 분포의 평균과 분산은? μ=5.0 , σ=5.0이다. 집단의 평균과 분산과 표집분포의 평균과 분산은 같은 값이다.

표준오차

평균의 표집분포의 분산은 모집단의 분산 σ2을 표집의 크기 n으로 나누어준것이다. 표집분포의 표준편차이다. 표본통계량으로 모수를 추정하는데 중요한 역할을 한다. x와 μ 사이에 평균적으로 얼마나 많은 오차가 나타나는지를 알려주기 때문에 중요한 측정치이다. 집

표집평균의 분포 정규분포 모집단에서의 표본추출시 표집평균의 분포의 특성은 표집평균은 정규분포를 한다. 정규분포를 이루는 모집단에서 뽑은 표본들의 평균의 표집분포는 정규분포를 한다. 모집단이 정규분포를 하지 않더라도 표본의 크기 n을 크게 할 수록 정규분포를 한다. 표집평균의 평균은 모집단의 평균과 같다. 표집평균의 분산은 모집단의 분산을 표본의 크기로 나누어준 것과 동일하며, 표준편차는 σ / n 이다.

중앙한계의 정리 (central limit theorem)

기각치(critical value) 정의 표집분포에 제시되어 있는 수치들이 통계검증을 위하여 사용될 경우 그 수치들을 일컬어 기각치라고 부른다. 표집분포에 제시된 통계치로써, 가설검증과정에서 연구자로 하여금 귀무가설(또는 영가설: H0)을 기각할지의 여부를 판단케하는 기준이 되는 수치이다. 가설검증에 있어서 표본 통계치는 모수와 비교되는 것이 결코 아니라 표집 분포에 제시된 기각치와 비교된다는 사실을 알 수 있다. 가설검증 혹은 통계검증 과정에서 표집분포를 바탕으로 기각치를 구할 때, 일정한 조건이 없는 상태에서 어떠한 경우에나 일률적으로 기각치가 구해지는 것이 아니라는 것이다.