Presentation is loading. Please wait.

Presentation is loading. Please wait.

2004. 7. 9 울산의대 이무송 1 다중 수준 분석 Multi-Level Analysis 울산의대 예방의학교실 이무송 2004 년 7 월 9 일.

Similar presentations


Presentation on theme: "2004. 7. 9 울산의대 이무송 1 다중 수준 분석 Multi-Level Analysis 울산의대 예방의학교실 이무송 2004 년 7 월 9 일."— Presentation transcript:

1 2004. 7. 9 울산의대 이무송 1 다중 수준 분석 Multi-Level Analysis 울산의대 예방의학교실 이무송 2004 년 7 월 9 일

2 2004. 7. 9 울산의대 이무송 2 순서 개요 – 정의 / 개념 및 수식 – 적용 영역 / 장단점 – 특기 사항 – 주요 자료 Statistical and Substantive Inferences in Public Health: Issues in the Application of Multilevel Models. Bingenheimer JB, Raudenbush SW. Ann Rev Public Health 2004;25:53-77. 등 응용 예 : 상관성 연구 등 – 프로그램 사용 예 : SAS, MLWin

3 2004. 7. 9 울산의대 이무송 3 배경 교육학 등 사회학적 연구에서 활용됨 – 지난 10 년간 의학연구에 소개되고 발전, 주로 사회역학연구 초기 채택자의 지나친 열성 vs. 전혀 새로운 것이 없다는 비판 전통적인 단일 수준 (single-level) 모델보다 유용한 통계적 추론 – 기존 통계분석 (random-effects model 등 ) 과 동일 – 개념적 이해 및 해석이 용이 활용 영역 – 집단 수준에서 중재조치의 효과 군집 무작위배정 시험 (cluster randomized trial) – 질병 위험요인의 다중 수준 (multilevel) 인과성 – 의료 제공자의 상대적 수행 능력을 평가

4 2004. 7. 9 울산의대 이무송 4 단순 다중 수준 모델 독립변수 → – 개인의 성별 – 해당 개인 거주지역 (neighborhood) 내 패스트푸트점의 존재 여부 종속변수 – 개인의 체질량지수, j 번째 거주지역에 사는 i 번째 개인의 체질량지수 각 거주지역에서 체질량지수 : 지역특수 평균, 분산 인 정규분포 지역 특수 평균은 평균, 분산 인 정규분포

5 2004. 7. 9 울산의대 이무송 5 2- 수준 모델 1a: 각 지역 내 체질량지수의 변이, 수준 -1 모델 1b: 지역 간 체질량지수의 변이, 수준 -2 모델 1c: 분산 - 공분산 구조 2 –γ 00 : 전체 평균, u 0j : 지역간 변이, r 0j : 개인의 확률 변이 – 공변량이 없음 – 일원 확률효과 분산분석 (random-effects ANOVA) 과 동일

6 2004. 7. 9 울산의대 이무송 6 변이의 분할 Y ij 의 전체 변이 = σ 2 +τ 00 –τ 00 : 지역간 변이에 기인한 변이 ICC(intracluster correlation coefficient) ρ – 체질량지수의 변이 중 ( 지역 내 변이가 아닌 ) 지역간 변이가 차지하는 분율 3

7 2004. 7. 9 울산의대 이무송 7 확장 : 수준 -1 공변량 X 확장 : 수준 -1 공변량 X ij X ij : 0( 여자 ), 1( 남자 ) – 수준 -2 모형 : 4b, 4c 한 지역에서 여자의 평균 체질량지수 = β 0j 한 지역에서 남자의 평균 체질량지수 = β 0j + β 1j 남녀 차이의 평균 =β 1j

8 2004. 7. 9 울산의대 이무송 8 확장 : 수준 -1 공변량 X 확장 : 수준 -1 공변량 X ij 지역간으로 넓혀 보면, 평균 체질량지수 – 여자 =γ 00, 남자 = γ 00,+ γ 10, 평균 차이 = γ 10 – 남녀 차이는 지역에 따라 일정하지 않다. 차이는 평균 γ 10, 분산이 τ 11 인 정규분포 τ 11 인 =1 인 경우 남녀 차이는 모든 지역에서 일정

9 2004. 7. 9 울산의대 이무송 9 확장 : 수준 -2 공변량 W 확장 : 수준 -2 공변량 W j W j : 지시 변수 (indicator) –1(j 번째 지역에 패스트푸드점이 있음, 1( 없음 ) –5 a : 각 지역 내에서 체질량지수는 평균 β 0j, 분산 σ 2 인 정규분포 –5 b : 패스트푸드점이 없는 지역에서 체질량지수의 평균은 γ 00 주변 – 있는 지역에서는 γ 00 +γ 01 주변에 위치

10 2004. 7. 9 울산의대 이무송 10 확장 : 수준 -1 + 수준 -2 공변량 두 수준간 상호작용 : γ 11 X ij W j, 식 6c 에서 W j 에 해당

11 2004. 7. 9 울산의대 이무송 11 상호작용의 해석 남녀의 평균 ( 체질량지수의 ) 차이는 해당 지역에 패스트푸드 점이 있는지에 따라 다르다. – 즉 없는 지역에서는 γ 10, 있는 지역에서는 γ 10 + γ 11 패스트푸드점의 존재 여부에 따른 지역간 차이는 개인의 성 별에 따라 다르다. – 즉 여성의 경우 존재하는 지역에서 없는 지역에 비하여, γ 01 의 차이가 있다. – 남자는 γ 01 +γ 11 의 차이가 있다. γ 11 W j 를 없애면 상호작용이 없어진다. –random slope model 이 아니다. u 0j 를 없애면 절편이 일정해진다. –random intercepts model 이 아니다.

12 2004. 7. 9 울산의대 이무송 12 다른 상황에로의 일반화 여러 사람 ( 수준 2) 에서 시간 ( 수준 1) 에 따른 반복측정 데이터 – 개인 성장곡선의 추정, 경시적 자료 – 시간에 따라 변화하는 공변량 Y ij 가 정규분포 이외의 분포를 따를 때 – 이분성, 범주형, 순서형, 횟수 (count), 사건 발생까지의 시간 – 이분성 분포, 포아송 분포, 생존시간의 분포 – 예 ) 비만 여부 : Bernoulli 분포 + 로지스틱 link 수준이 세 개 이상 – 예 ) 여러 지역에서 여러 개인에 대해 반복측정 : 지역, 개인, 시간

13 2004. 7. 9 울산의대 이무송 13 모수의 종류 Microparameter: β 0j, β 1j - 수준 -1 계수 Macroparameter: γ 00, γ 01, γ 10, γ 11 - 수준 -2 계수 Random effects: u 0j, u 1j Variance components: σ 2, τ 00, τ 11, τ 01 = τ 10

14 2004. 7. 9 울산의대 이무송 14 구체적 활용 영역 cluster randomized trial 집단 - 수준 중재조치의 효과 – 무작위배정 : 집단 ( 도시, 학교, 학급, 작업장 ) 수준 – 결과변수 : 개인 수준 질문 : 중재조치에 의해 결과변수에 차이가 있는가 ? 분석 : 식 5a, 5b - γ 01 로 평가 다중 수준 분석의 필요성 – 개인 수준으로만 분석 : 1 종 오류가 증가 ← ( 동일한 군집 내에서 개인들의 의존성을 무시 → γ 01 추정치의 정밀도 과 장 ) – 집단 수준으로만 분석 군집별 평균을 각각 구한 후, 이들을 종속변수로 간주하여 분석 이때 개인 수준의 공변량을 보정 : 예 ) 연령, 성별을 표준화한 SMR

15 2004. 7. 9 울산의대 이무송 15 cluster randomized trial 에서 ML 의 장점 두 단계를 동시에 수행 – 개인 - 수준 공변량은 수준 -1 모델에서 직접 보정 개인별 공변량에 의해 정의된 소집단 간의 치료효과를 검정 – 예 ) 남자와 여자의 치료 효과가 동일한가 ? - 상호작용 평가 유연한 분석이 가능하고, 검정력이 증가

16 2004. 7. 9 울산의대 이무송 16 다중 수준 인과성의 평가 지역과 같은 집단 특성 변수가 건강에 미치는 영향은 ? – 과거 개인 특성 변수 ( 생활습관 등 ) 이 건강에 미치는 영향을 주로 평가 – 집단 특성 변수의 평가가 쉽지 않다. 주로 생태학적 관련성을 평가하는 문제이기 때문 통계적인 처리가 개념적으로 쉽지 않다. –random effects model, nested structure 분산의 분할 – 주요 건강 지표의 지역에 따른 변동이 어느 정도인가 ? 식 1 에서 variance components τ 00 로 정량화 귀무가설 (τ 00 =0, 지역간 변이가 없다.) 의 검정 : 검정력은 낮다. 연속형 결과변수의 경우, σ 2 의 추정이 가능하며, ICC 의 추정이 가능

17 2004. 7. 9 울산의대 이무송 17 Context and Composition 관찰된 지역간 변이 중 거주자의 특성에 의한 부분은 ? –Context and composition – 개인 - 수준 공변량 X 1ij, …, X kij 을 모델에 포함 – 회귀계수를 고정 : β 1j = γ 10, …., β kj = γ k0, τ 11 = … = τ kk – 얻어진 수준 -2 variance component 추정치인 τ* 00 개인 수준 공변량에 의한 변이가 제거된 추정치 – 귀무가설 τ* 00 =0 을 검정하거나, 비조건부 모델에서 얻어진 τ 00 와 비 교 유의하다면, 지역간 변이의 일부는 지역의 composition( 개인별 특성 ) 이 아니라 지역 특성에 기인하였다는 의미 –τ* 00 / τ 00 : 지역간 변이 중 지역 - 수준 요인에 기인한 분율

18 2004. 7. 9 울산의대 이무송 18 Context and Composition 의 상호 교란 : 해결책 2 단계 분석 – 식 4a-4c 를 사용 + 기울기를 고정 (u 1j =0) + 개인 - 수준 공변량을 집단 - 평균에 대해 중앙화 (group-mean centering the individual-level covariates) – 는 공변량 X ij 의 지역 - 특수 평균 이 공변량은 지역 - 수준 공변량 W j 와 독립이므로, γ 10 의 추정치는 X ij 의 지 역내 효과의 평균에 해당

19 2004. 7. 9 울산의대 이무송 19 Context and Composition 의 상호 교란 : 해결책 2 단계 분석 – 보정된 종속변수를 구성 – 보정된 종속변수로 모델을 적합화 – γ* 00 은 1 단계에 포함된 모든 개인 - 수준 공변량을 보정한 후, 지역 - 수준 공변량에 기인한 변이

20 2004. 7. 9 울산의대 이무송 20 지역 - 수준 변수 W j 의 평가 주의 – 수준 -1 모델에서 개인 - 수준 공변량의 처리 교란 (confounding) 의 문제 – 특정 지역에 거주하게 되는 이유 + 건강에 영향 – 예 : 개인의 경제상태 / 모델에 포함하는 것이 바람직 중재 (mediation) 의 문제 – 지역 - 수준 변수가 건강에 영향을 주는 기전 ( 경로 ) 상에 위치 – 예 : 술집이 많은 지역 → 개인의 음주 수준 → 간장 질환 – 모델에 포함하면 과보정의 문제 – 모델에 포함할 지역 - 수준 변수의 선택 센서스로 평가한 지역 - 수준 변수 등은 상호 상관성이 매우 높음 1 개 변수만 사용 / 가능한 여러 변수를 사용 : 추정치의 정밀도가 감소 결합 지표를 사용 : 해석이 어려워짐 – dishonest specificity, honest ambiguity

21 2004. 7. 9 울산의대 이무송 21 Microparameters j 군집 각각에서의 microparameter, β 0j, β 1j 가 관심사인 경우 – 각 군집의 평균 체질량지수, 발생률 등 실증적 베이즈 추정치 (empirical Bayes estimator) 사용 – 식 1a-1c 에서 –j 번째 지역에서의 두 가지 β 0j 추정치 지역 - 특수 표본 평균 전체 평균 최적의 추정치 : 이 두 개의 가중 평균 –λ j : 신뢰성 지수, 지역 - 특수 표본평균에서 실제 점수와 전체 점수 분산의 비 – 지역의 크기가 클수록 크다. – 지역의 크기가 작으면 이 추정치는 다른 지역에서 얻어진 정보를 빌려 쓴다. – 데이터에서 신뢰성 지수를 추정하므로, 실증적 베이즈 추정법이라 한다.

22 2004. 7. 9 울산의대 이무송 22 실증적 베이즈 추정치의 사용 1) 소규모 인구집단의 발생률 추정 : 발생이 드문 사건 – 관찰된 발생률만으로 추정하면 불안정한 추정치가 얻어짐 – 다른 모든 군집의 평균율 (population average rate) 를 사용하면, 특정 지 역의 발생 양상을 왜곡할 가능성이 있음 2) 의료제공자 (health service provider) 의 상대적 수행능력 평가 – 수행능력 지표 : 특정 수술의 의사 - 병원 - 수준의 사망률 – 신뢰도 : 체계적 요소 + 우연적 요소 관찰된 사망률은 두 요소를 모두 반영 우연적 요소가 너무 큰 경우 추론이 불가 : 실증적 추정치 사용 – 위험도 보정 : patient mix - 다중 수준 모델에 포함하여 보정 3) SMR 이 높은 지역을 찾아냄

23 2004. 7. 9 울산의대 이무송 23 실증적 베이즈 추정치의 제한점 1) 적절한 개인 - 수준 공변량의 파악 2) 안정성이 충분히 확보되지 않을 수도 있음 3) 바이어스 : 불편 추정치 신뢰도 계수가 큰 지역에서는 바이어스가 적다. 표본 크기에 따라 바이어스의 정도가 다르다. 순위가 변화할 수 있다. 규모가 큰 + 수행능력이 높은 제공자 vs. 규모가 작은 + 수행능력이 낮은 제공자

24 2004. 7. 9 울산의대 이무송 24 사용 가능한 통계 패키지 Random effects (+ fixed effects = mixed effects) 모델의 분석이 가능한 패키지 –SAS, SPSS, SPLUS, GENSTAT, … 전용 패키지 –MLWin –Flexibility 가 떨어짐 – 대규모 자료 분석 능력이 떨어짐 – 사용이 용이

25 2004. 7. 9 울산의대 이무송 25 예제 정규분포를 따르는 결과 ( 종속 ) 변수의 다중 - 수준 분석 예 –MLWin 을 이용한 실제 자료 분석 demonstration – 해석 등 ICC 추정치, 모형 체크 등 –SAS 프로그램과 비교 포아송 분포를 따르는 결과변수의 경우 –SMR 을 이용한 정규분포 근사 : MLWin 및 SAS 사회역학 자료 분석에 사용한 경우 – 자료 분석 결과 및 해석


Download ppt "2004. 7. 9 울산의대 이무송 1 다중 수준 분석 Multi-Level Analysis 울산의대 예방의학교실 이무송 2004 년 7 월 9 일."

Similar presentations


Ads by Google