기모란 을지의과대학교 예방의학교실 (제일병원 역학강좌2. 2006.2.16) 생존 분석 기모란 을지의과대학교 예방의학교실 (제일병원 역학강좌2. 2006.2.16)
강의순서 예후 연구란 무엇인가? 생존 분석 코호트 연구의 BIAS, 해결책 생존분석의 실례 생존 분석 실습 ROC 소개
예후 연구란 ? Prognosis: 질병이 시작되고 난 후의 course. Prognosis 연구는 risk에 대한 cohort 연구와 비슷. Prognostic factors 질병의 결과와 연관된 상태. risk factors와 비슷하나 질병의 spectrum에서 다른 위치(하나는 질병, 하나는 결과)
Risk와 Prognostic factors의 차이 Patients Are Different Healthy people vs. sick people Outcomes Are Different Onset of disease vs. consequences of disease (death, complications, disabilities and suffering) Rates Are Different low-probability events vs. relatively frequent events Risk and Prognostic Factors Are Different risk factors are not the same as those marking a worse prognosis.
예후 설명에 사용되는 rates 5-year survival Case fatality Disease-specific mortality Response Remission Recurrence
생존시간(survival time) 어떤 사건(event: 사망)이 발생할 때까지의 시간(time) From To 진단 사망 완치 재발 Shunt 수술 Occlusion
생존시간의 특징 시간변수가 항상 양(positive) 수이다. 매우 치우친 분포이다(highly skewed distribution) 중도절단된 자료(censored data)를 포함하고 있다.
중도절단 ¦ ○ X 환자 1 환자 2 환자 3 추 적 관 찰 기 간 연구종료
중도절단의 이유 Loss to follow-up Drop out Termination of the study 연구대상이 추적이 안 되는 경우 (다른 지역으로 이사 등) Drop out 치료방법을 따르지 않음 환자가 치료를 거부, 또는 치료를 포기 Termination of the study 관심 event를 관찰 하기 전에 연구 종료 Death from unrelated cause 관계없는 원인으로 사망하는 경우 꼭 censored data로 처리하여야 함
연구 예 강의 시작 시점부터 종료시점까지 강의 참석자 전부를 대상으로 졸기 시작한 시점을 event 발생 시점으로 봄 중도절단 졸지 않고 중간에 강의실에서 나간 경우 강의 끝까지 졸지 않은 경우 예상되는 생존함수의 그래프는? Staff 와 fellow 의 차이는?
생존 분석을 사용 해야하는 연구 예 모유수유의 지속기간에 미치는 요인 연구 모유 수유를 하는 산모만을 대상으로 함. 출산후-1년간 관찰 모유 수유를 하는 중단하는 것이 event 중도절단 관찰기간 중간에 연락이 두절 관찰이 끝나는 시점까지 모유수유 중도절단이 발생하는 모든 연구는 생존분석!!
중도절단의 예 이식된 신장(graft kidney)의 survival rate를 보려고 하는데 어떤 연구대상 환자가 연구기간 동안에 심근 경색에 의해 갑자기 사망 환자가 사망을 하면 당연히 이식된 신장도 기능을 못함. 그러나 이 결과는 환자는 사망했어도 이식된 신장은 신장 자체의 문제로 기능을 못하는 것이 아니기 때문에 살아 있는 것, 즉, censored data로 처리해야 하며 event(death)로 처리해서는 안 됨. 이식된 신장의 생존율(graft survival)계산시 – censored 그러나 Patient survival계산시에는 – event
생존 분석이 부적절한 예 2001-2005년까지 J병원에서 자궁경부암으로 진단받고 현재까지 추적된 환자 1000명에 대한 생존분석 추적기간 5년? 연구대상자 수가 충분히 많다? 1995-2005년에 진단받은 환자로 하면?
Survival analysis 연구계획의 문제 생존율의 비교시 검정방법의 power(검정력)는 비교하려는 group의 전체환자수보다는 number of end-event에 관련 Event가 쉽게 일어나지 않는 질병이나 사건에 대해서는 large sample이 필요하므로 이런 경우는 사망으로 event를 잡지말고 사망보다 더 쉽게 발생하는 사건을 event로 잡는 것이 좋다 관찰기간을 길게 잡으면 사망자 수가 늘어나고 censored data가 줄어들기 때문
Survival analysis시 정확히 정의할 사항1 관찰개시시점(start point)을 정확히 정의 일반적으로 치료법의 효과를 정의하고자 하는 경우 해당 치료법의 투여 개시일을 기준으로 계산 매우 엄격한 임상시험에서는 대상환자를 해당 치료법에 할당한 그 날을 start point로 하기도 함. 연구에 포함된 case의 특성을 정의 연구에 포함된 case가 모든 가능 환자를 포함한 전체 환자인가? 아니면 그 중 특정의 병기(stage)의 환자 만인가? 연구에 포함되지 못한 이유는 어떤 것들인가? Loss to follow-up은 어느 정도나 되는가? 관찰기간의 분포는 어느 정도나 되는가?
Survival analysis시 정확히 정의할 사항2 관찰대상수 연구설계시 규모와 그 결정과정, 그리고 관찰기간별 대상수는 얼마로 하였는지 사망례의 기준 원칙적으로 사망 환자의 전체 사인에 대한 생존율을 산출한다. 소식불명 또는 중도 탈락한 환자의 수, 추적방법, 탈락의 정의와 원인을 설명 추적관찰대상에서의 제외 치료의 부작용에 의한 치료중단, 치료변경례, 또는 수술 사망례라도 연구설계시에 규정되어 있지 않은 한 원칙적으로 제외하면 안된다.
Survival analysis시 정확히 정의할 사항3 생존율을 표기할 때는 cumulative survival rate와 95% 신뢰구간을 제시하고 또한 그림으로도 제시하여야 한다. 예후가 불량하여 누적생존율이 0%에 가깝게 되는 경우는 median survival time, 즉 누적생존율이 50%가 되는 기간을 제시한다. 사망한 case의 평균생존기간의 산출은 무의미하다.
생존함수(survival function) t시점에서의 survival function 정의 t시점까지 사망하지 않고 생존할 확률(S. probability) S(t) = P(an individual survives longer than t) censored data가 없을 때 t시점에서의 survival function
위험함수(hazard function) 정의: t시점에서의 hazard function은 t시점까지 생존한 사람이 t시점 바로 직후 순간적으로 사망할 조건부 확률 위험함수의 값이 커질수록 생존시간은 대체로 작아진다. Hazard function은 proportional hazard regression model에서 중요하게 사용되며 epidemiology에서 사용되는 순간사망률의 정의와 동일 Hazard function과 survival function은 특정 함수관계에 있지만 그 함수관계가 모든 시점에서 서로 비례적인 관계에 있는 것은 아니다.
일반적 통계분석방법과 생존분석의 비교 일반적 방법 생존분석 자료의 요약 기술통계량 -히스토그램, 돗수분포표 자료의 요약 기술통계량 -히스토그램, 돗수분포표 -평균, 중위수, 분산, 사분위수범위 -life table작성 -survival curve작성 K개 집단의 평균비교 모수적 방법 -t검정, 분산분석 비모수적 방법 -윌콕슨검정, 크루스칼-왈리스검정 -우도비 검정(likelihood ratio test) -로그순위검정(log-rank test) -일반화된 윌콕슨검정 회귀분석 다중회귀분석 로지스틱 회귀분석 모수적 회귀분석 Cox’s 비례위험회귀모형
Survival function을 추정하는 방법들 Parametric model(모수적 모형)을 이용하는 방법 Exponential distribution(지수분포) Weibull distribution Log-normal distribution(log-logistic distribution) Gamma distribution Rayleigh distribution Pareto distribution Nonparametric model을 이용하는 방법 (=Descriptive survival analysis) 생명표법(Life Table method = Actual method) Kaplan-Meier Method(=Product limit method) Cox’s proportional hazard model
생명표법 (life table, actuarial, Cutler-Edere법) 추적관찰기간을 일정단위로 구분한 뒤 각 구간에서 관찰된 사망(재발)자로부터 구간 사망확률과 구간 생존확률을 구하고 이로부터 일정기간까지의 구간 생존확률의 누적치인 누적생존율을 산출한다. 비모수적 방법 중 가장 먼저 사용 일반적으로 한 군의 표본의 수가 50은 넘어야 사용이 적당하다고 판단 최근에는 많이 사용하지 않음
Kaplan-Meier법(product-limit법) 관찰기간이 짧은 순으로 나열한 뒤 각 사망(재발)이 발생한 시점에서의 생존율을 산출해 나감으로써 누적생존율을 산출 연구대상 표본의 크기가 작을 때 유용한 분석방법 관찰기간을 일정한 간격으로 구분하지 않음. 관찰시간의 간격은 사건(사망, 행방불명, 관찰중단)이 발생할 때 자동적으로 결정. 관찰시간의 간격은 일정하지 않고 사건이 발생할 때마다 random하게 정해짐. 가장 많이 사용됨
생존함수의 비교 단변량 분석 다변량 분석 로그순위 검정법(Log-Rank method) 윌콜슨 검정(Wilcoxon method, Breslow test) 우도비 검정( -2 log likelihood ratio(LR) test) 다변량 분석 Cox 의 회귀모형(Cox’s proportional hazards regression model)
Log-rank법 관찰대상 개개인을 관찰기간 순으로 배열하고 두 치료군에서 사망이 발생한 시점에서 관찰된 사망(재발)자 수와 기대사망(재발)자 수를 이용하여 계산 두 치료법의 효과에 유의한 차이가 없다면 일정 기간이나 일정 구간에서의 사망(재발)은 각 치료군에 배정된 대상 환자수에 비례하여 발생할 것이라는 가정하에서 산출된 기대사망(재발)자 수의 합과 실제로 관찰된 사망자 수의 합의 차이로부터 산출된 검정통계량을 자유도 1인 chi-square분포에 적용하여 통계적 유의성을 검정 Kaplan-Meier법을 이용하여 산출한 두 생존곡선을 비교분석할 때 유용
생존 분석 연습 특정암 환자 96명을 126 개월간 추적조사한 자료로 성별, 원발장소, Stage, 연령 등에 따라 조사하였다. 생존양상과 생존확률을 구하시오.
생존 양상 차이 검정 특정암 환자 96명을 126 개월 추적, 성별에 따라 생존양상과 생존확률에 차이가 있는지 알아보자. H0 구성 생존 양상 차이 검정 생존 양상에 차이 없다.
Cox 비례위험 모델
생존분석의 실례 Ahn MJ, Choi JH, Lee YY, Choi IY, Kim IS, Yoon SS, Park SY, Kim BK, Suh C, Son HJ, Jung CW, Lee JH, Sung JM, Im SA, Oh D, Jung SY, Yoon HJ, Cho KS, Lee JA, Yuh YJ, Kim SR, Ki M. Outcome of adult severe or very severe aplastic anemia treated with immunosuppressive therapy compared with bone marrow transplantation: multicenter trial. Int J Hematol. 2003 Aug;78(2):133-8. To compare survival rates and long-term complications after bone marrow transplantation (BMT) or immunosuppressive agents (ISA) in adult aplastic anemia (AA), and to identify prognostic factors associated with improved survival, 229 adult AA patients treated with ISA from 1990 to 2001 were evaluated and compared to 64 BMT recipients.
Statistical Analysis Pairwise association among pretreatment variables was assessed by two-way contingency tables, and p values were computed using Chi-square test or Log Likelihood test. Survival was measured from the time of treatment with ISA or BMT to the time of last follow-up or death. Survival curves for time to death (overall survival) were estimated by the Kaplan and Meier product method (11). The log-rank test was used for univariate comparison of survival curves between groups. The Cox’s proportional hazards model was used for analyzing the influence of all covariates on overall survival. All statistical analysis was two-sided at a significance level of P=0.05, and performed using SPSS 10 statistical software.
ALG, antilymphocyte globulin; MPD, methylprednisolone; Cy, cyclophosphamide; TLI, total lymphoid irradiation P value by chi square test * p value by Log-Likelihood Ratio test
ARDS, adult respiratory distress syndrome; PNH, paroxysmal nocturnal hemoglobinuria; MDS, myelodysplastic syndrome * chi square test between response and non-response groups by treatment group ** chi square test between death and alive by treatment group
* Log rank test ; test statistics for equality of survival distributions for treatment type adjusted for each factors. Survival time indicates mean survival time
생존 분석 실습 KM 분석- 결과표, 생존 함수 Log-rank 검정 이해하기 Cox’s model결과 보기