선형회귀분석
생명표(life table), Kaplan-Meier 자료에 따른 통계분석 방법 알고 싶은 내용 모수적 방법 (정규성) 비모수적 방법 (정규성아님) 독립된 두 집단의 평균 비교 t-test Wilcoxon test 짝지은 두 집단의 평균 비교 Paired t-test Paired-samples Wilcoxon test 세 집단 이상 평균 비교 ANOVA (Analysis of Variance) Kruskal-Wallis test 반복 측정된 세 집단 이상의 평균 비교 Repeated measured ANOVA Friedman rank-sum test 두 변수간의 상관관계 Pearson’s correlation Spearman’s correlation Kendall’s tau 독립(설명)변수와 연속형 종속(반응)변수와의 관계 회귀분석 (Linear regression analysis) 독립(설명)변수와 이분형 종속(반응)변수와의 관계 로지스틱 회귀분석 (Logistic regression analysis) 두 집단 이상의 frequency(율) 비교 Chi-square test (χ2 test) Fisher’s exact test 시간에 따른 event 발생 위험도 산출 생명표(life table), Kaplan-Meier Weibull model, exponential model, Gaussian model, logistic model, lognormal model, log-logistic model Cox proportional hazard model
회귀분석(선형모델) Regression analysis X(설명변수, independent)가 Y(반응변수, dependent)에 시간적으로 선행하거나 X에 의해 Y가 결정될 때 Y(반응변수, 종속변수)는 연속형
- 독립변수(x, exposure)가 하나, (Y=β0+β1x) 2. 다중선형 회귀분석 단순선형 회귀분석 - 독립변수(x, exposure)가 하나, (Y=β0+β1x) 2. 다중선형 회귀분석 - 독립변수(x, exposure)가 둘 이상, (Y=β0+β1x1+ β1x2+ ….) - 하나의 모델 안에 X가 여러 개 - 우리가 알고 싶은 주요원인인 노출변수(x)와 결과변수 (y)의 관계에서 제3의 변수의 효과 를 보정하고자 할 때 사용 보정한다는 것 여러 변수의 효과를 동시에 고려 주요 노출변수(x)외 모든 조건을 같게 만들어 줌
예) 불안증 점수는 우울증점수에 영향을 미치는가? 주요 노출변수(x, exposure)가 연속형인 경우 해석: X가 1단위 증가당 y가 … 만큼 증가(감소) 예) 불안증 점수는 우울증점수에 영향을 미치는가? (X변수,연속형) (Y변수,항상 연속형) 주요 노출변수(x, exposure)가 범주형인 경우 해석: X의 참고범주에 비해 해당범주의 y가 … 만큼 증가 (감소) 예) 방제작업참여가 우울증 점수에 영향을 미치는가? (X변수, 범주형) (Y변수,항상 연속형)
선형 회귀분석의 귀무가설 모든 회귀분석의 귀무가설은 기울기(회귀계수, β)가 0이다. 기울기가 0 이려면 X가 아무리 바뀌어도 y는 영향을 받지 않으면 됨. (변화가 없으면 됨)
주요노출변수 (x, exposure)가 연속형인 경우 불안증 점수는 우울증 점수에 영향을 미치는가? 귀무가설: 불안증 점수는 우울증 점수에 영향을 미치지 않는다. - 대립가설: 불안증 점수는 우울증 점수에 영향을 미친다.
1. 단순선형회귀분석 Simple liner regression analysis
원하는 y(종속변수), x(독립변수)를 적어줌 주의: 모델식에서 [요인]이란 글자는 반드시 지워야 함
불안증 점수는 우울증 점수에 영향을 미치는가 ? 결과해석: 불안증 점수는 우울증 점수에 영향을 미치는가 ? 결과해석: Beta(β, 기울기, y증가량/x증가량)를 의미 P-value X (설명변수,독립변수)가 1단위 증가할 때마다 산출된 estimate 배수만큼 Y (반응변수, 종속변수)가 변화 (증가, 감소) 하였다. 불안증점수(T_ANX)가 1점 증가할 때마다 우울증점수(T_DEP)는 0.9146만큼 통계적으로 유의하게 증가 (p<0.0001)
회귀계수 해석 양수 X 증가시 Y 증가 음수 X 증가시 Y 감소
Table 1. Effect of anxiety score on depressive score Crude model Adjusted model β1 p-value β2 Anxiety score 1197 0.91 <0.0001 β1 and p-value estimated using linear regression model
회귀모형진단 (regression diagnositcs) 선형 회귀 분석을 실제로 시행하기 전 또는 시행 후 자료가 선행 회귀 분석을 위한 가정들을 만족시키는지 검토 결과에 영향을 미칠 수 있는 이상치, 영양치가 있는지 검토 오차(error), 잔차(residuals), 예측값(predicted values) 오차: 모집단에서 실제 관찰된 y값과 회귀직선에 의해 예측되어진 y값의 차이 잔차: 표본에서 실제 관찰된 y값과 회귀직선에 의해 예측되어진 y의 차이, 오차를 측정할 수 없으므로 오차 대신 잔차 이용
회귀모형진단 (잔차 분석) yi (관측값) 왜 필요할까? 그래프 상의 많은 점들을 하나의 직선으로 표현하는 것이 적절한가? 표본에서 실제 관측치 (yi)에서 모형으로부터 얻어진 추정치 (yi)를 뺀 값 잔차 (yi-yi)의 분포가 1) 정규성 2) 등분산성 3) 독립성 ^ ^ yi (직선식에서의 추정값) ^
정규성 검토 정규확률분포도: 잔차를 크기 순서대로 늘어놓고 그에 상응하는 정규백분위수를 x (정규백분위수)-y (잔차)평면 위에 그림 그림
1) 정규성검토와 2) 등분산성검토
Normal Q-Q plot이 대각선에 가까우면 잔차가 정규성을 따른다고 할 수 있다. 1) 정규성검토: 정규확률분포도 Normal Q-Q plot이 대각선에 가까우면 잔차가 정규성을 따른다고 할 수 있다. 2) 등분산성검토:잔차plot이 0을 중심으로 랜덤하게 퍼져있으면 잔차가 등분산성을 따른다고 할 수 있다. 정규성검토: 임상적, 논리적으로 독립변수와 종속변수 사이에 분명한 상관성이 있지만 단순 선형 회귀분석 결과 유의하지 않으면 두 변수 사이에 비 선형적인 상관성이 있을 가능성이 큼 이 경우 종속 변수와 선형적 상관성을 갖도록 독립변수를 적절히 변형시킴(로그, 제곱근, 제곱, 역수 등등….)(그냥 곡선 회귀분석, 시계열 분석을 사용해도 됨)
3)독립성 검토: Durbin-Watson test 회귀식의 잔차항이 독립적이지 않다는 것은 자료가 자기상관성이 있다고 볼 수 있다. 자기상관성(자기회귀)이 있다? 추정된 회귀 계수가 최적합치일 수 없고, 각 통계량이 과대평가될 수 있다. 인접한 오차항들이 독립적이기 위해 Durbin Watson test의 통계량이 2에 가까워야 한다. *2에 가까울 수록 무상관, 독립적 *0에 가까울 수록 양의 자기 상관 *4에 가까울 수록 음의 자기 상관
3) 독립성 검토 귀무가설: 인접한 오차항들은 자기상관성이 없다!! 3) 독립성 검토 귀무가설: 인접한 오차항들은 자기상관성이 없다!!
귀무가설: 인접한 오차항들은 자기상관성이 없다!! 이 모형은 자료를 설명하기에 적합하지 않으므로 회귀분석 결과를 신뢰할 수 없게 되어 다른 모형을 찾아야 한다. (정규성, 등분산성, 독립성) 이럴 경우에는 다른 보정변수를 추가하는 경우나, 독립변수를 변환시키는 방법이 있다. 인접한 오차항들이 독립적이기 위해 Durbin-Watson test의 통계량이 2에 가까워야 한다. 그 값이 0에 가까우면 양의 상관성을 의미하고, 4에 가까우면 음의 상관성을 갖는다고 할 수 있다. DW 가 2에 가깝다고 할 수 있으나, p-value가 0.05보다 훨씬 작으므로 귀무가설(자기 상관성 없다)을 기각한다. 따라서, 양의 상관성을 갖는다고 할 수 있다.
2. 다중(다변량) 회귀분석 불안증 점수는 우울증점수에 영향을 미치는가? 귀무가설: 불안증점수는 우울증 점수에 영향을 미치지 않는다. 대립가설: 불안증점수는 우울증 점수에 영향을 미친다. 보정변수: 나이, 성별, 방제작업참여 여부, 거주지역
여러 변수의 효과를 동시에 고려 Age, gender, clean-up work, living area 를 보정
P-value가 0.05보다 작으므로 귀무가설을 기각할 수 있다. (p<0.0001) 즉, Age, gender, clean-up work, living area 를 보정하였을 때, 불안증 점수가 1점 증가할 때마다 우울증점수는 0.921764 점만큼 통계적으로 유의하게 증가 (p<0.0001)
Table 4. Effect of anxiety score on depressive score Crude model Adjusted model N β1 p-value β2 Anxiety score 1197 0.91 <0.0001 0.92 β1 and p-value estimated using linear regression model β2 and p-value estimated using linear regression model adjusted for age and gender, clean-up work, and living area
2. 주요 노출변수(x, exposure)가 범주형인 경우 방제작업 여부는 우울증점수에 영향을 미치는가? 귀무가설: 방제작업은 우울증 점수에 영향을 미치지 않는다. 대립가설: 방제작업은 우울증 점수에 영향을 미친다. oil 방제작업여부 1: 아니오2: 예 t_dep 우울 표준화 점수
1. 단순선형회귀분석 Simple liner regression analysis1-1 X변수를 요인으로 변환하지 않은 경우 as.factor(변수이름)도 가능
P-value가 0.05보다 작아 귀무가설을 기각할 수 있다. (p<0.0001) 즉, 방제작업을 하지 않은 군에 비해 방제작업에 참여한 군은 우울증 점수가 3.1650 점 유의하게 높다고 할 수 있다.
Table 5. Effect of clean-up work on depressive symptom Crude model Adjusted model N β1 p-value β2 Clean-up work No 216 Ref. Yes 962 3.17 <0.0001 β1 and p-value estimated using linear regression model
2. 다중(다변량) 회귀분석 방제작업은 우울증점수에 영향을 미치는가? 귀무가설: 방제작업은 우울증 점수에 영향을 미치지 않는다. 대립가설: 방제작업은 우울증 점수에 영향을 미친다. 보정변수 : 나이, 성별 oil 방제작업여부 1: 아니오2: 예 T_DEP 우울 표준화 점수
Age, gender를 보정하기 위해 동일 모델에 변수를 함께 넣는다. 범주형 변수는 반드시 요인으로 변환하여 넣기. 요인으로 변환하지 않은 경우 as.factor(변수이름)도 가능
P-value가 0.05보다 작아 귀무가설을 기각할 수 있다(p=0.002). 즉, age와 gender를 보정하였을 때, 방제작업을 하지 않은 군에 비해 방제작업에 참여한 군은 우울증 점수가 2.35 점 유의하게 높다고 할 수 있다.
Table 5. Effect of clean-up work on depressive symptom Crude model Adjusted model N β1 p-value β2 Clean-up work No 216 Ref. Yes 962 3.17 <0.0001 2.35 β1 and p-value estimated using linear regression model β2 and p-value estimated using linear regression model adjusted for age and gender N β* SE p-value β† Q1(0.43,1.25) 1 Ref. Q2(1.25,1.58) 0.40 0.30 0.17 0.33 0.27 Q3(1.58,1.95) 0.57 0.29 0.05 0.53 0.08 Q4(1.95,7.18) -0.02 0.93 -0.15 0.31 0.63 β* and standard error estimated using linear regression model
과 제 25미만 : 정상 25-30미만: 과체중 30이상 : 고도 비만 비만도는 프로그램 참여 후 수축기 혈압에 데이터 health.Rdata에서 비만도는 프로그램 참여 후 수축기 혈압에 어떤 영향을 미치는지 분석하시오. 가설(귀무,대립)을 세우고 보정 안 했을 때 β, p-value 구하기 나이와 성별을 함께 보정 후 β, p-value 구하기 표로 나타내고 결과 해석 보정 시 나이는 생애주기 연령군(age_gr3)을 사용 <비만도> 25미만 : 정상 25-30미만: 과체중 30이상 : 고도 비만
감사합니다.