ANOVA-test.

Slides:



Advertisements
Similar presentations
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
Advertisements

출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
재료수치해석 HW # 박재혁.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
3일차 - 가설검정.
Entity Relationship Diagram
4.3 난괴법 (Randomized Block Design)
“주파수가 인덕턴스에 미치는 영향”실험에 관련하여 실험결과가 다르게 나온 이유?
추론통계.
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
제 12 장 직교배열표에 의한 실험계획(1).
회귀분석(Regression).
수치해석 6장 예제문제 환경공학과 천대길.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
제12주 회귀분석 Regression Analysis
비모수 분석 및 복습.
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
제1강 변량분석이란 무엇이며 일원변량분석은 어떻게 하는가?
SPSS 이용한 논문 통계 강좌 우송대학교 IT 경영학과 하임숙
상관함수 correlation function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
99mTc-DMSA신장검사에서 ROI 설정 방법에 따른 정량분석 차이에 관한 연구
ANOVA.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
10강. JSP 본격적으로 살펴보기-II 스크립트릿, 선언, 표현식 지시자 주석 Lecturer Kim Myoung-Ho
프로그래밍 개요
군집 분석.
문제 2명의 사형수가 있다. 둘에게는 검정색 모자와 흰색 모자를 임의로 씌우는데, 자기가 쓴 모자의 색은 절대로 알 수가 없다. 서로 상대의 모자색만을 볼 수 있고, 이들이 살기 위해선 자신의 쓴 색의 모자를 맞춰야 한다. 단, 둘 중 한명만이라도 자신이 쓴 모자의 색을.
Linear Mixed Model을 이용한 분석 결과
(independent variable)
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
고체역학 2 - 기말고사 1. 단면이 정사각형이고 한번의 길이가 a 일 때, 최대굽힘응력과 최대전단응력의 비를 구하라(10).
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
논문작성을 위한 연구모형 설정 양동훈.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
제3장 함수와 배열수식 전진환
제 5장 교수설계의 실제 - ASSURE 모델 적용
Sampling Distributions
인지활동을 병행한 운동훈련이 치매노인의 균형수행능력에 미치는 영향
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
자녀의 심리적 안정도에 미치는 부모요인 분석.
교육통계 공분산분석 발표자 : 김 성 순(석사2학기) 발표일 : (수) ANCOVA.
학습 주제 p 끓는점은 물질마다 다를까.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
비교분석 보고서 Template 2015.
의미론적 관점 * TV에서 ‘푸른 빛이 아닌 청자빛’이란 표현을 들었을 경우
상관계수.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
추리통계학의 기본개념.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
문제의 답안 잘 생각해 보시기 바랍니다..
진리표를 이용한 타당성 증명 진리표(truth table) : 단순 문장들이 진리값을 상이하게 가질 수 있는 가능한 모든 경우를 남김없이 열거한 표 (ex) 오늘은 날씨가 맑거나 비가 올 것이다. 오늘은 날씨가 맑다 비가 온다 오늘은 날씨가 맑거나 비가 올 것이다. T.
(Analysis of Variation, ANOVA)
알렌 인지 수준 판별검사와 한국판 간이 정신상태 판별검사의 상관관계
Survey Sampling Sangji University.
Presentation transcript:

ANOVA-test

분산분석 관찰된 총분산을 파악한 후 이 총 분산이 어떤 요인으로 설명할 수 있는 부분과 우연으로 인한 부분(또는 설명이 안 되는 부분)으로 나누어 비교함으로써 각 요인이 영향을 주는지 그렇지 않은지를 판단한다. 분산분석의 목적은 표본간의 차이가 단지 우연(표집오차)에 의한 것인지 혹은 처치효과(systematic effects)로 인한 것인지를 결정한다.

분산분석의 개요 전체분산 설명되지 않는 분산 (오차분산) 어떤 요인에 의해서 설명되는 분산 (처치효과) 따라서 분산분석의 목적은 표본 간의 차이가 단지 우연(표집오차)으로 인한 것인지 아니면 처치 효과로 인한 것이 유의한지를 검정하는 것이다.

분산분석(실험계획법의 종류) 분산분석(실험계획법) 일원분산분석 -완전랜덤계획법 completely randomized design) 1개 요인 이원분산분석 -랜덤완전블럭계획법 (randomized complete block design) 2개요인, 교호작용 무시 -요인계획법(factor design) 2개요인 이상, 교호작용 고려 삼원분산분석 -라틴방격법(latin square design) 3개요인

분산분석(ANOVA=analysis of variance) 둘 또는 그 이상의 평균들간의 차이를 동시에 검증해야 할 필요가 있을 때 사용됨. 예를 들어, C라는 병원에 입원해 있는… 혈관성 치매 알츠하이머 치매 파킨슨 질환으로 인한 치매환자 중에서 각각 5명을 무작위로 추출한 경우 이상의 세 가지 질환을 가지고 있는 환자들의 일상생활 수행능력을 조사한 결과가 다음 표와 같다.

질환 수행능력 평균 SD 혈관성 치매 30 40 50 60 70 15.8 알츠하이머 치매 90 100 82 16.4 파킨슨 치매 95 96 4.2 이상에서 나타난 평균의 차이는 단지 표본 자료에서 나타난 차이일 뿐 모집단에서도 과연 유의미한 차이가 존재하는가하는 문제는 일정한 통계 검증의 절차를 거치기 이전에는-즉, 통계적 유의도 검증을 행하기 이전에는-명확한 해답을 제시할 수 없는 성질의 문제이다.

변량분석의 기본논리 -영가설 및 대립가설이 어떠한 방식으로 진술되는가를 살펴보면, 위의 표와 같이 진술된다. 각 집단들이 지니는 모집단 평균들이 모두 같지 않음을 뜻한다. j까지의 평균들 중에서 최소한 두 가지 이상이 같지 않음을 뜻한다. 영가설은 ‘각 집단들이 지니는 모집단 평균들이 모두 같음’을 뜻한다. -영가설 및 대립가설이 어떠한 방식으로 진술되는가를 살펴보면, 위의 표와 같이 진술된다. -위의 세가지 진술방식은 표면적으로는 서로 다르게 보이지만 실질적인 내용은 동일하다. -변량분석에서 대립가설은 특정한 집단들간의 구체적 차이는 지정되지 않은 채 다만 일부의 집단들 사이에 모집단 평균의 차이가 존재한다거나 혹은 일부의 집단들 에서 처리 효과가 존재한다는 식으로 진술된다는 사실을 알 수 있다.

변량분석의 해석 변량분석을 행한 결과 영가설이 기각되고, 대립가설이 수용되었을 경우 우리가 주장할 수 있는 것은 ‘일부’의 집단들 사이에 통계적으로 유의미한 차이가 존재한다거나 혹은 ‘일부’의 집단들에서 유의미한 처리효과가 존재한다라고만 말 할 수 있을 뿐이지, 구체적으로 어느 집단과 어느 집단 사이에 유의미한 차이가 존재한다거나 혹은 구체적으로 어느 집단에서 유의미한 처리효과가 존재한다고는 밝힐 수가 없는 것이다. 만일 이와 같은 구체적 차이를 밝혀내고 주장하기 위해서는 별도의 추가적 분석이 요구되는데, 이를 사후비교(post-hoc comparison)라고 한다.

분산분석의 단계 전체자료 집합에 대한 전체 분산을 결정한다. 전체분산을 계산하기 위해서는 모든 독립된 표본의 점수를 결합하여 전체실험에 대한 분산의 일반 측정치를 구한다. 전체 분산량을 측정한 다음 그것을 작은 요소들로 나눈다. 분석이란 말은 작은 부분으로 나누는 것을 뜻한다. 분산을 분석하므로 이 과정을 분산분석이라고 한다.

집단간(처치간) 분산 (일정한 관찰대상이 특정한 집단에 소속됨으로 인하여 발생하는 효과) 변량분석에서는 본격적인 분석을 행하기 이전에 표본에서의 처리효과 혹은 집단효과를 먼저 계산한다. 모집단에서의 처리효과: αj=μj-μ 표본에서의 처리효과: a j=Yj-Y 여기에서 처리효과를 자세히 관찰하면, 모집단에서의 처리효과는 일정한 집단의 모집단 평균과 전체 모집단의 평균사이의 차이를 의미하며, 마찬가지로 표본에서의 처리효과는 일정한 지반의 표본평균과 전체표본의 평균사이의 차이를 의미한다. 실질적으로 연구자가 알고 있는 것은 표본에서의 처리효과 뿐이다.

치매환자의 일상생활수행력에서 독립변수는 [진단명]이며 종속변수는 [일상생활수행력]이다. 앞의 예제에서 처리효과는 혈관성치매=-26 알츠하이머 치매=6 파킨슨 치매=20 일상생활 수행력에서 혈관성 치매환자가 여타의 환자에 비하여 전체적으로 26점이 더 낮다는 사실을 의미하며, ……. 치매환자의 일상생활수행력에서 독립변수는 [진단명]이며 종속변수는 [일상생활수행력]이다.

집단간(처치간) 차이를 보이는 경우 처치효과 개인차 실험오차 서로 다른 처치로 인하여 발생되는 결과이다. 실험에 참가한 대상자들은 서로 다른 개인차, 즉 연령, 성, 태도 등의 차이가 있다. 표본간의 차이가 개인차로 인하여 발생한다. 실험오차 측정시 오차로 인하여 발생되는 결과를 말하며, 이는 주의부족이나 측정시 예상치 못한 일이 발생하여 생길 수 있다. 이 처럼 통제되지 않고 설명되지 않는 오차를 실험오차로 부른다.

집단내(처치내) 분산 집단내에서 분산이 있다. 집단내에서 차이를 보이는 이유는 개인차 실험오차 실험에 참가한 대상자들은 서로 다른 개인차로 인하여 발생된다. 실험오차 측정시 오차로 인하여 발생되는 결과를 말하며, 이는 주의부족이나 측정시 예상치 못한 일이 발생하여 생길 수 있다.

변량분석의 일반모형 일정한 집단 j에 소속된 i라는 사례의 값(혹은 관찰 값)을 나타낸다. 여기서 j는 변량분석의 유형은, -사용된 독립변수의 수가 단 한가지 인 경우; 일원변량분석(One-Way ANOVA) -두 가지 이상 복수의 독립변수들이 사용되는 변량분석; 이원변량분석(Two-Way ANOVA)이라 하고, 두 가지 이상 복수의 독립변수들이 사용되는 변량분석을 일반화된 용어로 요인설계 (Factorial Design)라고 한다. 모집단평균 모집단에서의 처리효과 모집단에서의 무작위오차 일정한 집단 j에 소속된 i라는 사례의 값(혹은 관찰 값)을 나타낸다. 여기서 j는 1에서부터 j까지 변화하며, i는 1부터 i까지 변화하는데 i는 일정한 집단(j)의 사례수 를 지칭한다는 의미에서 종종 nj 라는 기호로도 표현된다.

평균 구하는 공식 **위에서 제시된 치매환자들의 경우에, -전체 평균=76 -집단평균 _혈관성 치매=50 _알츠하이머 치매=82 _파킨슨 치매=96 이상을 바탕으로 일원변량분석의 일반모형을 구성하면 다음과 같다. ????

Y =76 혈관성 알츠하이머 파킨슨 Y11=30 Y12=60 Y13=90 Y21=40 Y22=70 Y23=95 Y31=50 Mean=50 Mean=82 Mean=96 Y =76

여기에서 혈관성 치매의 경우에는 일상생활수행능력이 평균 50점 근방인데, eij가 존재함으로 인하여 50점 이하의 점수를 지니는 환자들(30점 및 40점)이 있는가 하면 50점 이상의 점수를 지니는 환자들(60점 및 70점) 또한 있음을 의미한다. 이는 50점이라는 통계학 평균점수를 주위로 어느 정도의 변량이 존재함을 의미하는 것이기도 하다.

변량분석의 절차

표본통계치를 산출하는 방식 변량분석에서는 F라는 통계치를 사용 변량분석은 종속변수가 지니는 변량의 몇 %가 독립변수에 의하여 설명-처리효과-될 수 있고, 몇 %가 설명되지 않는가-오차-를 파악하기 위한 목적을 지닌다. 독립변수에 의하여 설명되어지는 종속변수의 변량을 파악한다는 점에서 변량분석이라는 용어가 유래 됨 변량분석은 모집단에서의 처리효과 및 오차간의 비율을 파악하는 것이라고도 말 할 수 있다.

The F Ratio

Two Sources of Variability

Two Sources of Variability

집단내이산 집단간이산 전체이산 전체자승합(SST) [ 0 ] 집단내자승(SSW) 집단간자승(SSB) SST=SSW+SSB

The F Ratio “mean squares between” “mean squares within”

The F Ratio Sum of Squares Degrees of Freedom “sum of squares within” “sum of squares between” “degrees of freedom within” “degrees of freedom between” Sum of Squares Degrees of Freedom

The F Ratio “sum of squares total” “degrees of freedom total”

계산공식 SST=모형에 설정된 독립변수에 의하여 설명되어지지 않는 부분 및 독립변수에 의하 여 설명되어지는 부분의 합을 의미한다. SSW=모형에 설정된 독립변수 이외의 여타 요인들에 의하여 발생하는 효과로써, SST 가운데 독립변수에 의하여 설명되어지지 않는 부분을 의미한다. 즉, 종속변수 의 변량 가운데 모형에 설정된 독립변수에 의하여 설명되어지지 않는 오차를 의미함 SSB=모형에 설정된 독립변수에 의하여 발생한 처리 효과로써, SST 가운데 독립변수 에 의하여 설명되어지는 부분을 의미한다. 즉, 종속변수의 변량 가운데 설정된 독립 변수에 의하여 설명되어지는 부분을 의미한다. **결론적으로 이상의 값들을 구한 이유가, F-표본통계치를 구하기 위한 기본적인 값 들이다.

이상에서 살펴본 자료를 중심으로 위의 표와 같이 결과표를 제시할 수 있다. -평균자승은 자승합을 자유도로 나누어준 값이다. *집단간 평균자승(Mean Squares Between Group 혹은 MSB) *집단내 평균자승(Mean Squares Within Group 혹은 MSW) 결론적으로 F-표본통계치는 MSB/MSW

F-표본 통계치의 특성 통계치는 MSB와 MSW의 비율이기 때문에 J-1(ν1)및 N-J(ν2) 만큼의 자유도를 지닌다. 항상 1 이상의 양수 값만을 지닌다. F 통계치의 분자에 해당하는 MSB는 독립변수의 처리효과를 나타냄에 비하여 분모에 해당하는 MSW는 독립변수 이외의 오차를 나타낸다는 사실에 비추어 볼 때, 만일 MSB와 MSW는 동일한 값을 갖게 되어 F 표본통계치는 결국에 1이 될 것이다. 대립가설의 진술이 MSB>MSW와 같은 방식이다. 따라서 모든 변량분석이 실제로 단측검증이라는 사실을 시사한다. 변량분석에서도 F-표본통계치와 F-기각치를 비교하여 ( ) 상대적으로 크면 영가설을 기각하고, ( )가 상대적으로 크면 영가설을 기각하지 못하게 된다.

변량분석을 위한 전제조건 각 집단에서 추출된 표본들은 무작위추출과정을 거쳐야 한다. 각 표본이 추출된 모집단은 정규분포를 형성하여야 한다. 변량분석에서 종속변수는 반드시 연속형 변수이어야 한다. 독립변수를 바탕으로 종속변수의 변화를 추정하는 과정에서 발생하는 오차는 평균이 ‘0’이고 일정한 변량을 지니는 정규분포를 형성하여야만 한다.

η ²(에타자승) 대립가설이 선정되었을 때, 실질적으로 독립변수와 종속변수간의 관계의 강도를 파악하기 위한 목적으로 특정한 통계치를 계산하는 것이 일반적인데, 이와 같은 통계치를 말한다. 독립변수에 의해서 설명되어진 종속변수의 변량을 나타내는 통계치이다. 범위는 [0~1]까지이며 0 인 경우는 두 변수간에 전혀 연관성이 없는 완전 독립적인 상태이다. 1 인 경우는 두 변수가 최고의 연관관계를 지니고 있음을 나타낸다.

즉, 일상생활 수행능력이 지니는 변량의 72%가 치매 진단에 의하여 설명되었다 는 사실을 확인할 수 있다. 이는 또한 일상생활수행능력이 지니는 변량 가운데 28%는 치매 진단에 의하여 설명되어 지지 않는 오차에 해당된다는 사실을 제시 하는 결과이기도 하다.

사후검정(Scheffe test) 제1종 오류(알파)를 줄이기 위해 사용하기 때문에 Scheffe 검정은 모든 사후 검정 중에서 보수적이다. F비를 사용하여 두 처치 간의 유의한 차를 검정한다. F비의 분자는 비교하는 두 가지 처치를 사용하여 계산한 처치간 평균제곱합(MSA)이며, 분모는 전체분산 분석에 사용된 같은 처치 내 평균제곱합(MSW)이다.

Scheffe 검정의 안전요인 단지 두 처치만을 비교하더라도 scheffe 검정은 원실험의 k 값을 이용해서 처치간 df을 계산한다. 그래서 F비의 분자의 df는 k-1dlek. Scheffe F비는 임계치는 전체분산분석에서 F비를 측정할 때 사용한 것과 같다. 그러므로 Scheffe는 모든 사후검정이 전체분산분석에 사용된 것과 같은 준거를 만족할 것을 요구한다.

세가지 종류의 진통완화제(A,B,C)의 효과를 측정하기 위한 정규분포하는 독립 표본 실험에서 얻은 것이라고 가정하자. 위약을 받은 네번째 집단도 실험한다. 본 실험의 목적은 이 표본 자료가 네가지 약들간에 유의한 차이가 있는지 알아 보는 것이며, 종속변수는 실험대상자들이 자극을 견딜 수 있는 시간(초)이다. 자극을 견딜 수 있는 시간(초)으로 측정한 약품효과 위약 약A 약B 약C 3 5 7 2 4 1 요인 SS df MS F 집단간 30 3 10 F =5.00 집단내 16 8 2 전체 46 11

4가지 조건 중에서 가장 큰 평균의 차이를 보는 것부터 시작하여 유의하지 않은 것이 나올때까지 점차 작은 차이를 검정한다. 위약과 약품C 사이에서 이 두처치의 집단간 제곱합 SSB을 계산하는 것이 첫 단계이다. SSB=24  MSB=24/3=8 F=MSB/MSW=8/2=4.00 임계치는 df=3,8이고 알파=0.05일때 F의 임계치는 4.07이다. F 값이 4.00으로 F 임계치 4.07보다 작은 영역에 속해 있으므로 영가설을 수용하게 된다. 여기에서의 가설을 설정하시오.

An Example: ANOVA CP ADHD AUTISM 10 5 4 7 1 6 3 9 8

An Example: ANOVA

ANOVA_Lab

예제1 영가설을 수용하였으므로, -모집단에서 종교와 삶의 질 사이에는 95% 수준에서 통계적으로 유의미한 차이가 존재하지 않는다. -모집단에서 종교는 삶의 질에 대하여 α=0.05 수준에서 통계적으로 유의미한 처리 효과가 존재하지 않는다.