생존 분석 [Survival analysis] 유전자 돌연변이 생존 분석 [Survival analysis]
생존 분석 자료의 특성에 의한 데이터의 구분 범주형 변수 (Categorical variable) 생존변수 자료형 자료의 특성에 의한 데이터의 구분 범주형 변수 (Categorical variable) 성별 (남, 여) 혈액형 (AB, A, B, O) 성적 (A, B, C, D) 연속형 변수 (Continuous variable) 온도 키 몸무게 나이 ... 생존 변수는 연속형 변수? 범주형 변수?
생존 분석 생존변수 자료형 생존 변수는 두 변수의 묶음으로 구성된다. Event의 유무 (사망, 재발 등) 생존기간
생존 분석 생존분석은 시간에 따른 '사망' 이나 '재발‘ 등의 변화를 관찰하는 분석 생존변수 자료형 생존분석은 시간에 따른 '사망' 이나 '재발‘ 등의 변화를 관찰하는 분석 사건 (Event): 생존분석이나 사망이나 재발과 같이 연구자가 관심을 가지고 있는 변화 중도절단 (Censored) 된 자료가 있는 것이 특징 Kaplan-Meier 분석 – 특정 집단의 생존률을 추정 Log-rank test: 두 집단의 생존율이 같은지 아닌지를 검정 Cox proportional hazard ratio model (Cox 비례위험모형): 생존률에 영향을 미치는 위험인자를 분석
생존 분석 Uncensored (complete) 연구 종료시점 전에 event가 발생하는 환자들의 생존 기간 자료 생존변수 자료형 Uncensored (complete) 연구 종료시점 전에 event가 발생하는 환자들의 생존 기간 자료 Censored (중도절단) 관찰 기간 동안 event가 발생하지 않아 정확한 생존기간을 알 수 없는 중도 절단된 자료 연구 도중 추적이 안되거나 (follow up loss) 탈락한 자료( drop out ) 다른 이유로 사망 Event 없이 연구 종료
생존 분석 생존분석 자료의 예 Barcode: 환자를 식별하는 id 생존변수 자료형 생존분석 자료의 예 Barcode: 환자를 식별하는 id Status: Event의 발생 유무 (Dead or Alive) Time: 연구기간동안 관찰된 시간 Age: 나이 Gender: 성별 ...
Event & Status를 하나의 변수로 구성하는 방법 생존 분석 생존변수 자료형 Event & Status를 하나의 변수로 구성하는 방법 Event Time Dead 792 Alive 386 287 620 310 498 Survival 792 386+ 287+ 620+ 310 498+ '+' 는 censored (중도절단) 대상이라는 뜻. 792: 질병에 걸린 환자가 진단을 기준으로 792일을 살고 사망함 386+: 질병에 걸린 환자가 386일 살았으며 사망하지 않음
생존 분석 생존데이터의 시각화는 Kaplan-Meier estimator 그래프가 대표적 Event가 발생한 시점마다 생존율을 계산 관찰 기간 순서대로 자료 정리 후 각 구간별로 관찰대상 수 중 생존자 수의 분율로 구간 생존율 및 누적 생존율을 계산 X축: 시간 Y축: 전체 환자 중 생존자의 비율 그래프에서 ' | ' 는 mark time이라고 하며, 해당 위치에 Censored 환자가 존재한다는 의미 (해당 시점에서 Event가 발생하진 않았으나, 생존 follow-up이 종료) 그래프에서 점선은 95% Confidence interval을 의미 140일 간의 연구 끝에, 약 50%의 환자만이 생존하였다. 40일까지의 생존율은 약 80%다.
생존 분석 생존분석은 Case / Control 실험이 대표적. 생존분석의 목적은 Case와 Control 환자 사이에서 생존데이터의 시각화 S(t) = Probability 생존분석은 Case / Control 실험이 대표적. 생존분석의 목적은 Case와 Control 환자 사이에서 유의하게 차이를 보이는 '변수'를 보기 위함 환자가 얼마나 오래 생존하며, Event의 발생 유무를 예측하기 위함 Ex) 흡연환자 / 비흡연 환자의 비교분석 1기 암환자 / 4기 암환자의 비교분석 등. 암의 재발이 일어날 것 같은 환자 예측 등.
생존 분석 Log-rank Test (로그 순위 검정법) Case / control 분석에 대한 검정 변수: 치료법 (표준치료법 / 새 치료법) Case: 새 치료법을 받은 환자 Control: 표준치료법을 받은 환자 검정: 치료법에 따라 생존이 차이가 나는가? H0 (귀무가설): 두 군의 생존 곡선은 같다. HA: (대립가설): 두 군의 생존 곡선은 같지 않다. p.value 0.05의 유의수준에서 '새 치료법은 표준치료법과 같다‘ 인 귀무가설 채택.
생존 분석 사건 발생에 관계되는 인자가 하나일 때 (Case / Control) Log-rank test로 충분하다. Cox 비례위험모형 모델 사건 발생에 관계되는 인자가 하나일 때 (Case / Control) Log-rank test로 충분하다. 하지만 변수가 둘 이상인 경우가 많다. (성별, 나이, 치료법, 인종 등) 치료 방법에 따른 생존의 차이를 보고자 할 때 치료방법 뿐 아니라 나이나 성별, 환자가 가지고 있는 질환이나 다른 위험 인자 들도 직간접적으로 생존에 영향을 미치므로 이러한 변수 (Potential confounders)들을 보정해야 한다. 시간보다는 사건발생 여부에 초점을 두는 통계기법인 로지스틱 회귀 분석(Logistic regression)은 Odds ratio를 종속변수로 하면서 여러 개의 독립변수들을 동시에 보정하는 통계 기법 생존분석은 odds ratio와 유사한 hazard ratio를 다루므로 로지스틱 회귀분석의 알고리즘을 차용할 수 있으며 이러한 분석 방법을 cox regression이라고 한다.
생존 분석 Logistic regression에서의 Odds ratio Logistic vs Cox 비례위험모형 모델 Logistic regression에서의 Odds ratio 연속형 변수 (나이, 혈압 등) 값이 1 증가할 때 마다 종속변수 (생존, 질병의 발병 등)가 발생할 확률이 Odds ratio배 만큼 증가한다. 범주형 변수 (치료법, 성별 등) 남자일 경우, 여성에 비해 종속변수가 발생할 확률이 Odds ratio배 만큼 증가한다. Cox regression 분석에서의 Hazard ratio 연속형 변수 (나이, 혈압 등) 값이 1 증가할 때 마다 생존률이 Hazard ratio배 만큼 증가한다. 범주형 변수 (치료법, 성별 등) 남자일 경우, 여성에 비해 생존율이 Hazard ratio배 만큼 증가한다.
생존 분석 Xi = {Xi1, … Xip} λ0(t): Hazard function Cox 비례위험모형 모델 Xi = {Xi1, … Xip} λ0(t): Hazard function 다중 변수 X에 대한 Cox Proportional Hazard Ratio Model Cox regression 분석에서의 Hazard ratio 역시, Logistic regression의 odds ratio처럼 지수형태로 계산하여야함 연속형 변수 (나이, 혈압 등) 값이 1 증가할 때 마다 생존률이 Hazard ratio배 만큼 증가한다. 범주형 변수 (치료법, 성별 등) 남자일 경우, 여성에 비해 생존율이 Hazard ratio배 만큼 증가한다.
생존 분석 생존 데이터 분석의 비교 Red: Case (흡연 환자) Blue: Control (금연 환자) Log rank vs Cox HR 생존 데이터 분석의 비교 Red: Case (흡연 환자) Blue: Control (금연 환자) Log-Rank Test. 생존 ~ 흡연여부 P-value 0.0002 2. Cox Proportional Hazard Ratio Model 생존 ~ 흡연여부 + 성별 + 나이 .... 각 독립 변수들의 P-value 각 독립 변수들의 Hazard ratio 금연 환자 S(t) = Probability 흡연 환자 t = Time (Months)
실습 1. 생존 분석 R프로그래밍 실습 2. 난소암 환자의 BRCA 유전자 돌연변이 생존분석
생존 분석 No: a numeric vector, patient code. Data read & summary 데이터 읽기 No: a numeric vector, patient code. Status: a numeric vector code, survival status 1: dead from melanoma, 2: alive 3: dead from other cause. Days: a numeric vector, observation time. Ulceration: a numeric vector code, ulceration 1: present 2: absent TumorSize: a numeric vector, tumor thickness (1/100 mm). Gender: a numeric vector code 1: female 2: male. 데이터 상단부분 살펴보기 데이터의 구조 보기 ulceration: 궤양화 데이터의 column 이름 살펴보기
생존 분석 Surv function melanoma 데이터 안에 속한 변수에 바로 접근 Time과 Event 변수의 결합 10+: Censored data. 185: Uncensored data.
생존 분석 Kaplan-Meier estimator mark.time: Censored 표시 우측 상단 정보 표시 생존 ~ 성별 (성별에 따른 생존의 분포) Kaplan meier plot 그리기
생존 분석 H0 (귀무가설): 두 군의 생존 곡선은 같다. HA: (대립가설): 두 군의 생존 곡선은 같지 않다. Log Rank Test H0 (귀무가설): 두 군의 생존 곡선은 같다. HA: (대립가설): 두 군의 생존 곡선은 같지 않다. P-value 0.05를 기준으로, 두 군의 생존 곡선은 성별에 따라 유의한 차이가 있다.
생존 분석 p.value 0.0125 exp(coef) = Hazard ratio. Univariate Cox regression 성별에 따른 cox proportional hazard ratio model 구성 p.value 0.0125 exp(coef) = Hazard ratio. 남성일 경우, 여성에 비해 1.939배 사망률이 높아진다.
생존 분석 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Multivariate Cox regression 성별에 따른 cox proportional hazard ratio model 구성 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Ulceration이 없는 경우, 약 0.311배의 사망률이 증가 (있는 경우 3.2배 증가) TumorSize가 1/100 mm 증가시, 약 1.001배 사망률 증가 남성인 경우 여성에 비해 사망률 1.583배 증가
생존 분석 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Multivariate Cox regression 1/100mm 단위인 TumorSize에 대한 Hazard ratio 해석이 힘들기 때문에, 용이하도록 mm 단위로 수정 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Ulceration이 없는 경우, 약 0.311배의 사망률이 증가 (있는 경우 3.2배 증가) TumorSize가 1 mm 증가시, 약 1.12배 사망률 증가 남성인 경우 여성에 비해 사망률 1.583배 증가
실습 1. 생존 분석 R프로그래밍 실습 2. 난소암 환자의 BRCA 유전자 돌연변이 생존분석
생존 분석 Data read & summary 총 563명에 대한 clinical data Clinica data PATIENT_BARCODE: 환자 ID OS_MONTHS: 생존 기간 OS_STATUS: 생존 여부 원하는 데이터 추출하기
생존 분석 Mutation data 정제 행(Row) 별로 환자였던 Clinical data와는 다르게, 행 한줄이 한 유전자의 돌연변이를 나타내는 데이터. 따라서 존재하는 돌연변이 중, BRCA에 해당하는 돌연변이가 어떤 환자에서 나타났는지 확인해주어야 한다. BRCA1_idx 라는 변수는, Mutation data 중 BRCA1에 대한 정보인 Row들이 무엇인지 TRUE/FALSE로 벡터를 담는 변수이다. 2번째 코드인 Mutation$case_id[BRCA1_idx] 는 BRCA1 돌연변이를 갖는 모든 case_id (환자 id)를 담는다. BRCA2 유전자에 대해서도 실행한다.
생존 분석 최종적으로 BRCA1, BRCA2 각각 유전자의 돌연변이 유무로 범주형 범수가 생성되었다. Mutation data 정제 Patient 변수는 Clinical data의 row 순서와 동일한 환자의 목록을 담는다. BRCA1_patient 변수는 BRCA1 유전자 돌연변이가 있는 환자들의 목록이다. %in% 는 좌측의 변수 중, 우측 변수에 존재하는 변수들을 TRUE/FALSE로 Return 해주는 연산자이다. 따라서 BRCA1은 Patient 중, BRCA1 유전자 돌연변이가 있는 경우 TRUE, 없는 경우 FALSE가 된다. 최종적으로 BRCA1, BRCA2 각각 유전자의 돌연변이 유무로 범주형 범수가 생성되었다. 이를 활용하여 Survival analysis에 적용한다. # Status는 LIVING = 생존, DECEASED = 사망
생존 분석 BRCA1 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? Cox proportional hazard ratio BRCA1 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? BRCA1 돌연변이를 가지지 않은 환자는 가진 환자보다 몇 배 사망률이 높은가?
생존 분석 BRCA2 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? Cox proportional hazard ratio BRCA2 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? BRCA2 돌연변이를 가지지 않은 환자는 가진 환자보다 몇 배 사망률이 높은가?
생존 분석 BRCA1, BRCA2 돌연변이 유무를 하나의 변수로 나타낼 수 있다. 위의 변수를 만들어 주는 공식은 아래와 같다. BRCA = BRCA1 + (BRCA2 * 2) BRCA1, BRCA2 유전자 중, Hazard Ratio가 더 높은 유전자는 무엇인가? BRCA1, BRCA2 유전자 중, 통계적으로 생존과 더 관련된 유전자는 무엇인가?
생존 분석 BRCA1 + BRCA2 통합 분석
생존 분석 BRCA1 + BRCA2 통합 분석
생존 분석 BRCA1 + BRCA2 통합 분석 BRCA1, BRCA2 유전자 모두에 돌연변이가 없는 환자들은 그렇지 않은 환자들에 비해 사망률이 1.9371배 높다. p.value 0.000499
정리 생존분석에서 종속변수의 특징 중도절단 (Censored) 데이터의 의미 Kaplan meier graph의 특징 Log-rank test의 결과 해석 Cox 비례위험모형 결과 해석 Hazard ratio의 뜻 Cox 모델 결과에서 변수의 유의성과 Hazard ratio