2004. 7. 9 울산의대 이무송 1 다중 수준 분석 Multi-Level Analysis 울산의대 예방의학교실 이무송 2004 년 7 월 9 일.

Slides:



Advertisements
Similar presentations
2. 속력이 일정하게 증가하는 운동 Ⅲ.힘과 운동 2.여러 가지 운동. 도입 Ⅲ.힘과 운동 2. 여러 가지 운동 2. 속력이 일정하게 증가하는 운동.
Advertisements

사회복지학과 7 조 장호 성 윤미영 김연경 전은현 짱쭝민.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
제13장 로지스틱회귀분석.
재료수치해석 HW # 박재혁.
제14장 요인분석.
의사 결정 트리(decision tree)
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
각 행 (row) 에서 같은 첨자가 있는 곳은 비워두고, 그 밖에 cell에 수준수 (level) 또는 반복수를 기입
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
자료분석 및 통계활용.
제9장 샘플링과 오차 표본: 시료, Sample 모집단 : 공정, Lot Sampling
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
Keller: Stats for Mgmt & Econ, 7th Ed 표본분포 Sampling Distributions
비모수 분석 및 복습.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
Sungkyunkwan University OS Project Dongkun Shin
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
99mTc-DMSA신장검사에서 ROI 설정 방법에 따른 정량분석 차이에 관한 연구
ANOVA.
로지스틱 회귀분석.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
Keller: Stats for Mgmt & Econ, 7th Ed
군집 분석.
Linear Mixed Model을 이용한 분석 결과
제 10 장 의사결정이란 의사결정은 선택이다.
(independent variable)
Association between two measurement variables Correlation
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
Metal Forming CAE Lab., Gyeongsang National University
사회복지조사론(7) 2006학년도 2학기.
생활 습관과 학교 성적의 통계분석 조장: 이태훈 조원: 이진원.
두 모집단에 대한 검정.
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
Decision Tree & Ensemble methods
Multiple regression analysis
논문작성을 위한 연구모형 설정 양동훈.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
체크포인트 안전과 사고의 일반적인 지식을 통해 안전의 중요성을 알아본다. 안전이란? 사전적 의미 일반적 의미 위험하지 않은 것 마음과 몸이 편안한 상태 사고 위험을 줄이기 위해 | 안전과 생활 | 사고 예방 안전이란? 사전적 의미 일반적 의미 위험하지 않은 것.
Sampling Distributions
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
인지활동을 병행한 운동훈련이 치매노인의 균형수행능력에 미치는 영향
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
자녀의 심리적 안정도에 미치는 부모요인 분석.
Support Vector Machine
교육통계 공분산분석 발표자 : 김 성 순(석사2학기) 발표일 : (수) ANCOVA.
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
실습 : Sampling / Excel macro
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
문제의 답안 잘 생각해 보시기 바랍니다..
(Analysis of Variation, ANOVA)
알렌 인지 수준 판별검사와 한국판 간이 정신상태 판별검사의 상관관계
Presentation transcript:

울산의대 이무송 1 다중 수준 분석 Multi-Level Analysis 울산의대 예방의학교실 이무송 2004 년 7 월 9 일

울산의대 이무송 2 순서 개요 – 정의 / 개념 및 수식 – 적용 영역 / 장단점 – 특기 사항 – 주요 자료 Statistical and Substantive Inferences in Public Health: Issues in the Application of Multilevel Models. Bingenheimer JB, Raudenbush SW. Ann Rev Public Health 2004;25: 등 응용 예 : 상관성 연구 등 – 프로그램 사용 예 : SAS, MLWin

울산의대 이무송 3 배경 교육학 등 사회학적 연구에서 활용됨 – 지난 10 년간 의학연구에 소개되고 발전, 주로 사회역학연구 초기 채택자의 지나친 열성 vs. 전혀 새로운 것이 없다는 비판 전통적인 단일 수준 (single-level) 모델보다 유용한 통계적 추론 – 기존 통계분석 (random-effects model 등 ) 과 동일 – 개념적 이해 및 해석이 용이 활용 영역 – 집단 수준에서 중재조치의 효과 군집 무작위배정 시험 (cluster randomized trial) – 질병 위험요인의 다중 수준 (multilevel) 인과성 – 의료 제공자의 상대적 수행 능력을 평가

울산의대 이무송 4 단순 다중 수준 모델 독립변수 → – 개인의 성별 – 해당 개인 거주지역 (neighborhood) 내 패스트푸트점의 존재 여부 종속변수 – 개인의 체질량지수, j 번째 거주지역에 사는 i 번째 개인의 체질량지수 각 거주지역에서 체질량지수 : 지역특수 평균, 분산 인 정규분포 지역 특수 평균은 평균, 분산 인 정규분포

울산의대 이무송 5 2- 수준 모델 1a: 각 지역 내 체질량지수의 변이, 수준 -1 모델 1b: 지역 간 체질량지수의 변이, 수준 -2 모델 1c: 분산 - 공분산 구조 2 –γ 00 : 전체 평균, u 0j : 지역간 변이, r 0j : 개인의 확률 변이 – 공변량이 없음 – 일원 확률효과 분산분석 (random-effects ANOVA) 과 동일

울산의대 이무송 6 변이의 분할 Y ij 의 전체 변이 = σ 2 +τ 00 –τ 00 : 지역간 변이에 기인한 변이 ICC(intracluster correlation coefficient) ρ – 체질량지수의 변이 중 ( 지역 내 변이가 아닌 ) 지역간 변이가 차지하는 분율 3

울산의대 이무송 7 확장 : 수준 -1 공변량 X 확장 : 수준 -1 공변량 X ij X ij : 0( 여자 ), 1( 남자 ) – 수준 -2 모형 : 4b, 4c 한 지역에서 여자의 평균 체질량지수 = β 0j 한 지역에서 남자의 평균 체질량지수 = β 0j + β 1j 남녀 차이의 평균 =β 1j

울산의대 이무송 8 확장 : 수준 -1 공변량 X 확장 : 수준 -1 공변량 X ij 지역간으로 넓혀 보면, 평균 체질량지수 – 여자 =γ 00, 남자 = γ 00,+ γ 10, 평균 차이 = γ 10 – 남녀 차이는 지역에 따라 일정하지 않다. 차이는 평균 γ 10, 분산이 τ 11 인 정규분포 τ 11 인 =1 인 경우 남녀 차이는 모든 지역에서 일정

울산의대 이무송 9 확장 : 수준 -2 공변량 W 확장 : 수준 -2 공변량 W j W j : 지시 변수 (indicator) –1(j 번째 지역에 패스트푸드점이 있음, 1( 없음 ) –5 a : 각 지역 내에서 체질량지수는 평균 β 0j, 분산 σ 2 인 정규분포 –5 b : 패스트푸드점이 없는 지역에서 체질량지수의 평균은 γ 00 주변 – 있는 지역에서는 γ 00 +γ 01 주변에 위치

울산의대 이무송 10 확장 : 수준 -1 + 수준 -2 공변량 두 수준간 상호작용 : γ 11 X ij W j, 식 6c 에서 W j 에 해당

울산의대 이무송 11 상호작용의 해석 남녀의 평균 ( 체질량지수의 ) 차이는 해당 지역에 패스트푸드 점이 있는지에 따라 다르다. – 즉 없는 지역에서는 γ 10, 있는 지역에서는 γ 10 + γ 11 패스트푸드점의 존재 여부에 따른 지역간 차이는 개인의 성 별에 따라 다르다. – 즉 여성의 경우 존재하는 지역에서 없는 지역에 비하여, γ 01 의 차이가 있다. – 남자는 γ 01 +γ 11 의 차이가 있다. γ 11 W j 를 없애면 상호작용이 없어진다. –random slope model 이 아니다. u 0j 를 없애면 절편이 일정해진다. –random intercepts model 이 아니다.

울산의대 이무송 12 다른 상황에로의 일반화 여러 사람 ( 수준 2) 에서 시간 ( 수준 1) 에 따른 반복측정 데이터 – 개인 성장곡선의 추정, 경시적 자료 – 시간에 따라 변화하는 공변량 Y ij 가 정규분포 이외의 분포를 따를 때 – 이분성, 범주형, 순서형, 횟수 (count), 사건 발생까지의 시간 – 이분성 분포, 포아송 분포, 생존시간의 분포 – 예 ) 비만 여부 : Bernoulli 분포 + 로지스틱 link 수준이 세 개 이상 – 예 ) 여러 지역에서 여러 개인에 대해 반복측정 : 지역, 개인, 시간

울산의대 이무송 13 모수의 종류 Microparameter: β 0j, β 1j - 수준 -1 계수 Macroparameter: γ 00, γ 01, γ 10, γ 11 - 수준 -2 계수 Random effects: u 0j, u 1j Variance components: σ 2, τ 00, τ 11, τ 01 = τ 10

울산의대 이무송 14 구체적 활용 영역 cluster randomized trial 집단 - 수준 중재조치의 효과 – 무작위배정 : 집단 ( 도시, 학교, 학급, 작업장 ) 수준 – 결과변수 : 개인 수준 질문 : 중재조치에 의해 결과변수에 차이가 있는가 ? 분석 : 식 5a, 5b - γ 01 로 평가 다중 수준 분석의 필요성 – 개인 수준으로만 분석 : 1 종 오류가 증가 ← ( 동일한 군집 내에서 개인들의 의존성을 무시 → γ 01 추정치의 정밀도 과 장 ) – 집단 수준으로만 분석 군집별 평균을 각각 구한 후, 이들을 종속변수로 간주하여 분석 이때 개인 수준의 공변량을 보정 : 예 ) 연령, 성별을 표준화한 SMR

울산의대 이무송 15 cluster randomized trial 에서 ML 의 장점 두 단계를 동시에 수행 – 개인 - 수준 공변량은 수준 -1 모델에서 직접 보정 개인별 공변량에 의해 정의된 소집단 간의 치료효과를 검정 – 예 ) 남자와 여자의 치료 효과가 동일한가 ? - 상호작용 평가 유연한 분석이 가능하고, 검정력이 증가

울산의대 이무송 16 다중 수준 인과성의 평가 지역과 같은 집단 특성 변수가 건강에 미치는 영향은 ? – 과거 개인 특성 변수 ( 생활습관 등 ) 이 건강에 미치는 영향을 주로 평가 – 집단 특성 변수의 평가가 쉽지 않다. 주로 생태학적 관련성을 평가하는 문제이기 때문 통계적인 처리가 개념적으로 쉽지 않다. –random effects model, nested structure 분산의 분할 – 주요 건강 지표의 지역에 따른 변동이 어느 정도인가 ? 식 1 에서 variance components τ 00 로 정량화 귀무가설 (τ 00 =0, 지역간 변이가 없다.) 의 검정 : 검정력은 낮다. 연속형 결과변수의 경우, σ 2 의 추정이 가능하며, ICC 의 추정이 가능

울산의대 이무송 17 Context and Composition 관찰된 지역간 변이 중 거주자의 특성에 의한 부분은 ? –Context and composition – 개인 - 수준 공변량 X 1ij, …, X kij 을 모델에 포함 – 회귀계수를 고정 : β 1j = γ 10, …., β kj = γ k0, τ 11 = … = τ kk – 얻어진 수준 -2 variance component 추정치인 τ* 00 개인 수준 공변량에 의한 변이가 제거된 추정치 – 귀무가설 τ* 00 =0 을 검정하거나, 비조건부 모델에서 얻어진 τ 00 와 비 교 유의하다면, 지역간 변이의 일부는 지역의 composition( 개인별 특성 ) 이 아니라 지역 특성에 기인하였다는 의미 –τ* 00 / τ 00 : 지역간 변이 중 지역 - 수준 요인에 기인한 분율

울산의대 이무송 18 Context and Composition 의 상호 교란 : 해결책 2 단계 분석 – 식 4a-4c 를 사용 + 기울기를 고정 (u 1j =0) + 개인 - 수준 공변량을 집단 - 평균에 대해 중앙화 (group-mean centering the individual-level covariates) – 는 공변량 X ij 의 지역 - 특수 평균 이 공변량은 지역 - 수준 공변량 W j 와 독립이므로, γ 10 의 추정치는 X ij 의 지 역내 효과의 평균에 해당

울산의대 이무송 19 Context and Composition 의 상호 교란 : 해결책 2 단계 분석 – 보정된 종속변수를 구성 – 보정된 종속변수로 모델을 적합화 – γ* 00 은 1 단계에 포함된 모든 개인 - 수준 공변량을 보정한 후, 지역 - 수준 공변량에 기인한 변이

울산의대 이무송 20 지역 - 수준 변수 W j 의 평가 주의 – 수준 -1 모델에서 개인 - 수준 공변량의 처리 교란 (confounding) 의 문제 – 특정 지역에 거주하게 되는 이유 + 건강에 영향 – 예 : 개인의 경제상태 / 모델에 포함하는 것이 바람직 중재 (mediation) 의 문제 – 지역 - 수준 변수가 건강에 영향을 주는 기전 ( 경로 ) 상에 위치 – 예 : 술집이 많은 지역 → 개인의 음주 수준 → 간장 질환 – 모델에 포함하면 과보정의 문제 – 모델에 포함할 지역 - 수준 변수의 선택 센서스로 평가한 지역 - 수준 변수 등은 상호 상관성이 매우 높음 1 개 변수만 사용 / 가능한 여러 변수를 사용 : 추정치의 정밀도가 감소 결합 지표를 사용 : 해석이 어려워짐 – dishonest specificity, honest ambiguity

울산의대 이무송 21 Microparameters j 군집 각각에서의 microparameter, β 0j, β 1j 가 관심사인 경우 – 각 군집의 평균 체질량지수, 발생률 등 실증적 베이즈 추정치 (empirical Bayes estimator) 사용 – 식 1a-1c 에서 –j 번째 지역에서의 두 가지 β 0j 추정치 지역 - 특수 표본 평균 전체 평균 최적의 추정치 : 이 두 개의 가중 평균 –λ j : 신뢰성 지수, 지역 - 특수 표본평균에서 실제 점수와 전체 점수 분산의 비 – 지역의 크기가 클수록 크다. – 지역의 크기가 작으면 이 추정치는 다른 지역에서 얻어진 정보를 빌려 쓴다. – 데이터에서 신뢰성 지수를 추정하므로, 실증적 베이즈 추정법이라 한다.

울산의대 이무송 22 실증적 베이즈 추정치의 사용 1) 소규모 인구집단의 발생률 추정 : 발생이 드문 사건 – 관찰된 발생률만으로 추정하면 불안정한 추정치가 얻어짐 – 다른 모든 군집의 평균율 (population average rate) 를 사용하면, 특정 지 역의 발생 양상을 왜곡할 가능성이 있음 2) 의료제공자 (health service provider) 의 상대적 수행능력 평가 – 수행능력 지표 : 특정 수술의 의사 - 병원 - 수준의 사망률 – 신뢰도 : 체계적 요소 + 우연적 요소 관찰된 사망률은 두 요소를 모두 반영 우연적 요소가 너무 큰 경우 추론이 불가 : 실증적 추정치 사용 – 위험도 보정 : patient mix - 다중 수준 모델에 포함하여 보정 3) SMR 이 높은 지역을 찾아냄

울산의대 이무송 23 실증적 베이즈 추정치의 제한점 1) 적절한 개인 - 수준 공변량의 파악 2) 안정성이 충분히 확보되지 않을 수도 있음 3) 바이어스 : 불편 추정치 신뢰도 계수가 큰 지역에서는 바이어스가 적다. 표본 크기에 따라 바이어스의 정도가 다르다. 순위가 변화할 수 있다. 규모가 큰 + 수행능력이 높은 제공자 vs. 규모가 작은 + 수행능력이 낮은 제공자

울산의대 이무송 24 사용 가능한 통계 패키지 Random effects (+ fixed effects = mixed effects) 모델의 분석이 가능한 패키지 –SAS, SPSS, SPLUS, GENSTAT, … 전용 패키지 –MLWin –Flexibility 가 떨어짐 – 대규모 자료 분석 능력이 떨어짐 – 사용이 용이

울산의대 이무송 25 예제 정규분포를 따르는 결과 ( 종속 ) 변수의 다중 - 수준 분석 예 –MLWin 을 이용한 실제 자료 분석 demonstration – 해석 등 ICC 추정치, 모형 체크 등 –SAS 프로그램과 비교 포아송 분포를 따르는 결과변수의 경우 –SMR 을 이용한 정규분포 근사 : MLWin 및 SAS 사회역학 자료 분석에 사용한 경우 – 자료 분석 결과 및 해석