로지스틱 회귀분석
강의 준비 확인 R과 R commander 시작 작업 디렉토리 바꾸기 메뉴를 이용하여 본인의 데이터가 있는 폴더 지정 데이터 셋(psych.RData)탑재
생명표(life table), Kaplan-Meier 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency(율) 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model
강의 진행 로지스틱 회귀분석이란? 주요 노출변수(x, exposure)가 범주형인 경우 X의 참고범주에 비해 해당범주에서 y가 발생할 위험도가 OR배만큼 높다 (낮다) 주요 노출변수(x, exposure)가 연속형인 경우 X가 1단위 증가할 때마다 y가 발생할 위험도가 OR배만큼 증가 (감소)
로지스틱 회귀분석이란? x(노출변수, 연속형과 범주형 모두 가능) y (이분형 outcome, 질병발생 유무) 회귀분석의 확장형태(일반적인 모델) 오즈비 (OR, Odds Ratio) 교차비 노출군에서 질병발생률 비노출군에서 질병발생률 odds= p/(1-p) 이길 확률/질 확률 도박 승산비
R에서의 로지스틱 회귀분석 종속변수(y) 반드시 이분형(0 또는 1) 숫자변수이어야 함 epicalc 패키지 설치
library(epicalc) 로지스틱 회귀분석을 할 때마다 써줘야 함
OR 구하기 설명변수(x)가 하나이면서, 이 변수가 연속형이거나 범주가 두 개 (성별, 노출유무)인 경우 library(epicalc) logistic.display(모델이름) 설명변수(x)가 하나이면서 이 변수 범주가 셋 이상(사는지역(live1), 학력, 종교…)인 경우 또는 설명변수(x)가 둘 이상 logistic.display(모델이름, simplified=T)
주요 노출변수(x, exposure)가 범주형인 경우: 방제작업 참여는 외상후 스트레스 증후에 영향을 미치는가? 귀무가설: 방제작업에 참여하지 않은 군과 방제작업에 참여한 군은 외상후 스트레스 증후를 나타낼 확률이 같다. 대립가설: 방제작업에 참여하지 않은 군과 방제작업에 참여한 군은 외상후 스트레스 증후를 나타낼 확률이 다르다.
β 우리의 관심사는 OR
그럼 OR을 구해보자. OR은 몇 배, 즉 곱의 개념이므로 1이 기준 유의수준 0.05하에서 95%신뢰구간이 1을 포함하지 않으므로 귀무가설을 기각할 수 있다. 즉, 방제작업 참여하지 않은 군에 비해 방제작업 참여한 군의 외상후 스트레스 증후를 나타낼 위험이 3.08배 (95% CI: 1.94-4.90) 유의하게 높았다.
cOR and 95% CI estimated using logistic regression model Table 6. Odds ratio and 95% CI for posttraumatic stress disorder (PTSD) according to clean-up work PTSD N Case cOR 95% CI aOR Clean-up work No 216 22 1.00 Ref. Yes 962 249 3.08 1.94-4.90 cOR and 95% CI estimated using logistic regression model aOR and 95% CI estimated using logistic regression model adjusted for age, gender, and living area 두 숫자 사이를 콤마(,)로 표기하기도 함
다변량 로지스틱
방제작업 참여는 나이, 성별, 사는 지역을 보정한 후에도 외상 후 스트레스 증후에 영향을 미치는가? 방제작업 참여는 나이, 성별, 사는 지역을 보정한 후에도 외상 후 스트레스 증후에 영향을 미치는가?
유의수준 0.05하에서 95%신뢰구간이 1을 포함하지 않으므로 귀무가설을 기각할 수 있다. 연령, 성별, 사는 지역을 보정하였을 때, 방제작업 참여하지 않은 군에 비해 방제작업 참여한 군의 외상후 스트레스 증후를 나타낼 위험도가 2.41배 (95% CI: 1.48-3.94) 유의하게 높았다.
Table 6. Odds ratio and 95% CI for posttraumatic stress disorder (PTSD) according to clean-up work Case cOR 95% CI aOR Clean-up work No 216 22 1.00 Ref. Yes 962 249 3.08 1.94-4.90 2.41 1.48-3.94 cOR and 95% CI estimated using logistic regression model aOR and 95% CI estimated using logistic regression model adjusted for age, gender, and living area
주요 노출변수(x, exposure)가 연속형인 경우: 연령이 증가할수록 외상후 스트레스 증후 위험도가 증가할까? 귀무가설: 연령은 외상후 스트레스 증후 위험도에 영향을 미치지 않는다. (관련이 없다.) 대립가설: 연령은 외상후 스트레스 증후 위험도에 영향을 미친다. (관련이 있다.)
유의수준 0.05하에서 95%신뢰구간이 1을 포함하지 않으므로 귀무가설을 기각할 수 있다. 즉, 연령이 1세 증가할 때마다 외상후 스트레스 증후가 1.03배 (95% CI: 1.02-1.04) 유의하게 높았다.
그렇다면 성별을 보정한 후에도 연령이 증가할수록 외상 후 스트레스 증후 위험도가 증가할까? 그렇다면 성별을 보정한 후에도 연령이 증가할수록 외상 후 스트레스 증후 위험도가 증가할까?
유의수준 0.05하에서 95%신뢰구간이 1을 포함하지 않으므로 귀무가설을 기각할 수 있다. 즉, 성별을 보정하였을 때, 연령이 1세 증가할 때마다 외상후 스트레스 증후가 1.03배 (95% CI: 1.02-1.04) 유의하게 높았다.
Table 7. Odds ratio and 95% CI for posttraumatic stress disorder (PTSD) according to age Case cOR 95% CI aOR Age 1197 276 1.03 1.02-1.04 cOR and 95% CI estimated using logistic regression model aOR and 95% CI estimated using logistic regression model adjusted for gender
과 제 비만도가 고혈압(hbp_cog_yn)에 어떤 영향을 미치는지 분석하시오. 보정 안하고 과 제 비만도가 고혈압(hbp_cog_yn)에 어떤 영향을 미치는지 분석하시오. 보정 안하고 나이(생애주기연령군), 성별 보정하고 N, case, OR, 95% CI 구하여 표로 나타내고 결과 해석
감사합니다.