생존 분석 [Survival analysis]

Slides:



Advertisements
Similar presentations
제13장 로지스틱회귀분석.
Advertisements

재료수치해석 HW # 박재혁.
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
9장. C 언어의 핵심! 함수. 9장. C 언어의 핵심! 함수 9-1 함수의 정의와 선언 main 함수 다시 보기 : 함수의 기본 형태 { } 그림 9-1.
자료분석 및 통계활용.
컴퓨터 프로그래밍 기초 [Final] 기말고사
실습 (using SPSS) Department of Biostatistics, Samsung Biomedical Research Institute Samsung Medical Center.
제12주 회귀분석 Regression Analysis
선형회귀분석.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
비모수 분석 및 복습.
최현진 정경대학 정치외교학과 국제정치론 2014 가을학기 제1주(2) 최현진 정경대학 정치외교학과
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
23장. 구조체와 사용자 정의 자료형 2.
Missing Value.
Tail-recursive Function, High-order Function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
컴퓨터 프로그래밍 : 실습3 2장 데이터와 식.
99mTc-DMSA신장검사에서 ROI 설정 방법에 따른 정량분석 차이에 관한 연구
ANOVA.
로지스틱 회귀분석.
상관분석 (p , p ).
공학컴퓨터프로그래밍 Python 염익준 교수.
11장. 1차원 배열.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
C 프로그래밍 C언어 (CSE2035) (Chap11. Derived types-enumerated, structure, and union) (1-1) Sungwook Kim Sogang University Seoul, Korea Tel:
JA A V W. 03.
암 전이 억제 유전자 발굴 및 작동 기전 연구 (Nature지 4월 14일자 발표)
군집 분석.
27장. 모듈화 프로그래밍.
Linear Mixed Model을 이용한 분석 결과
Quiz #7 다음 수들을 합병 정렬과 퀵 정렬 알고리즘을 이용하여 오름 차순으로 정렬하였을 때, 데이터 이동 회수를 각각 구하라. 여러분은 정렬 과정을 단계별로 보이면서 이동 회수를 추적해야 한다. 단, 퀵 정렬시에 피봇으로 배열의 왼쪽 첫 번째 원소를 선택한다. 5.
(independent variable)
학습 주제 p 일률 측정하기.
Association between two measurement variables Correlation
3D 프린팅 프로그래밍 01 – 기본 명령어 강사: 김영준 목원대학교 겸임교수.
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
2장. 변수와 타입.
생활 습관과 학교 성적의 통계분석 조장: 이태훈 조원: 이진원.
8장. spss statistics 20의 데이터 변환
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
컴퓨터 프로그래밍 기초 - 8th : 함수와 변수 / 배열 -
Multiple regression analysis
제 11장 인자분석(Factor Analysis)
논문작성을 위한 연구모형 설정 양동훈.
9장. C 언어의 핵심! 함수. 9장. C 언어의 핵심! 함수 9-1 함수의 정의와 선언 main 함수 다시 보기 : 함수의 기본 형태 { } 그림 9-1.
Distribution(모의 실험에 자주 쓰이는 분포들)
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
인지활동을 병행한 운동훈련이 치매노인의 균형수행능력에 미치는 영향
Support Vector Machine
학습 주제 p 끓는점은 물질마다 다를까.
Chapter 10 데이터 검색1.
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
9 브라우저 객체 모델.
상관계수.
Numerical Analysis Programming using NRs
Static과 const 선언 조 병 규 한 국 교 통 대 학 교 SQ Lab..
실습과제 (변수와 자료형, ) 1. 다음 작업 (가), (나), (다)를 수행하는 프로그램 작성
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
1차 약제에 감수성을 보인 폐결핵 환자에서 당뇨가 치료 결과에 미치는 영향
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
문제의 답안 잘 생각해 보시기 바랍니다..
Adjusted Kaplan-Meier Estimator for Period
6 객체.
Progress Seminar 선석규.
Presentation transcript:

생존 분석 [Survival analysis] 유전자 돌연변이 생존 분석 [Survival analysis]

생존 분석 자료의 특성에 의한 데이터의 구분 범주형 변수 (Categorical variable) 생존변수 자료형 자료의 특성에 의한 데이터의 구분 범주형 변수 (Categorical variable) 성별 (남, 여) 혈액형 (AB, A, B, O) 성적 (A, B, C, D) 연속형 변수 (Continuous variable) 온도 키 몸무게 나이 ... 생존 변수는 연속형 변수? 범주형 변수?

생존 분석 생존변수 자료형 생존 변수는 두 변수의 묶음으로 구성된다. Event의 유무 (사망, 재발 등) 생존기간

생존 분석 생존분석은 시간에 따른 '사망' 이나 '재발‘ 등의 변화를 관찰하는 분석 생존변수 자료형 생존분석은 시간에 따른 '사망' 이나 '재발‘ 등의 변화를 관찰하는 분석 사건 (Event): 생존분석이나 사망이나 재발과 같이 연구자가 관심을 가지고 있는 변화 중도절단 (Censored) 된 자료가 있는 것이 특징 Kaplan-Meier 분석 – 특정 집단의 생존률을 추정 Log-rank test: 두 집단의 생존율이 같은지 아닌지를 검정 Cox proportional hazard ratio model (Cox 비례위험모형): 생존률에 영향을 미치는 위험인자를 분석

생존 분석 Uncensored (complete) 연구 종료시점 전에 event가 발생하는 환자들의 생존 기간 자료 생존변수 자료형 Uncensored (complete) 연구 종료시점 전에 event가 발생하는 환자들의 생존 기간 자료 Censored (중도절단) 관찰 기간 동안 event가 발생하지 않아 정확한 생존기간을 알 수 없는 중도 절단된 자료 연구 도중 추적이 안되거나 (follow up loss) 탈락한 자료( drop out ) 다른 이유로 사망 Event 없이 연구 종료

생존 분석 생존분석 자료의 예 Barcode: 환자를 식별하는 id 생존변수 자료형 생존분석 자료의 예 Barcode: 환자를 식별하는 id Status: Event의 발생 유무 (Dead or Alive) Time: 연구기간동안 관찰된 시간 Age: 나이 Gender: 성별 ...

Event & Status를 하나의 변수로 구성하는 방법 생존 분석 생존변수 자료형 Event & Status를 하나의 변수로 구성하는 방법 Event Time Dead 792 Alive 386 287 620 310 498 Survival 792 386+ 287+ 620+ 310 498+ '+' 는 censored (중도절단) 대상이라는 뜻. 792: 질병에 걸린 환자가 진단을 기준으로 792일을 살고 사망함 386+: 질병에 걸린 환자가 386일 살았으며 사망하지 않음

생존 분석 생존데이터의 시각화는 Kaplan-Meier estimator 그래프가 대표적 Event가 발생한 시점마다 생존율을 계산 관찰 기간 순서대로 자료 정리 후 각 구간별로 관찰대상 수 중 생존자 수의 분율로 구간 생존율 및 누적 생존율을 계산 X축: 시간 Y축: 전체 환자 중 생존자의 비율 그래프에서 ' | ' 는 mark time이라고 하며, 해당 위치에 Censored 환자가 존재한다는 의미 (해당 시점에서 Event가 발생하진 않았으나, 생존 follow-up이 종료) 그래프에서 점선은 95% Confidence interval을 의미 140일 간의 연구 끝에, 약 50%의 환자만이 생존하였다. 40일까지의 생존율은 약 80%다.

생존 분석 생존분석은 Case / Control 실험이 대표적. 생존분석의 목적은 Case와 Control 환자 사이에서 생존데이터의 시각화 S(t) = Probability 생존분석은 Case / Control 실험이 대표적. 생존분석의 목적은 Case와 Control 환자 사이에서 유의하게 차이를 보이는 '변수'를 보기 위함 환자가 얼마나 오래 생존하며, Event의 발생 유무를 예측하기 위함 Ex) 흡연환자 / 비흡연 환자의 비교분석 1기 암환자 / 4기 암환자의 비교분석 등. 암의 재발이 일어날 것 같은 환자 예측 등.

생존 분석 Log-rank Test (로그 순위 검정법) Case / control 분석에 대한 검정 변수: 치료법 (표준치료법 / 새 치료법) Case: 새 치료법을 받은 환자 Control: 표준치료법을 받은 환자 검정: 치료법에 따라 생존이 차이가 나는가? H0 (귀무가설): 두 군의 생존 곡선은 같다. HA: (대립가설): 두 군의 생존 곡선은 같지 않다. p.value 0.05의 유의수준에서 '새 치료법은 표준치료법과 같다‘ 인 귀무가설 채택.

생존 분석 사건 발생에 관계되는 인자가 하나일 때 (Case / Control) Log-rank test로 충분하다. Cox 비례위험모형 모델 사건 발생에 관계되는 인자가 하나일 때 (Case / Control) Log-rank test로 충분하다. 하지만 변수가 둘 이상인 경우가 많다. (성별, 나이, 치료법, 인종 등) 치료 방법에 따른 생존의 차이를 보고자 할 때 치료방법 뿐 아니라 나이나 성별, 환자가 가지고 있는 질환이나 다른 위험 인자 들도 직간접적으로 생존에 영향을 미치므로 이러한 변수 (Potential confounders)들을 보정해야 한다. 시간보다는 사건발생 여부에 초점을 두는 통계기법인 로지스틱 회귀 분석(Logistic regression)은 Odds ratio를 종속변수로 하면서 여러 개의 독립변수들을 동시에 보정하는 통계 기법 생존분석은 odds ratio와 유사한 hazard ratio를 다루므로 로지스틱 회귀분석의 알고리즘을 차용할 수 있으며 이러한 분석 방법을 cox regression이라고 한다.

생존 분석 Logistic regression에서의 Odds ratio Logistic vs Cox 비례위험모형 모델 Logistic regression에서의 Odds ratio 연속형 변수 (나이, 혈압 등) 값이 1 증가할 때 마다 종속변수 (생존, 질병의 발병 등)가 발생할 확률이 Odds ratio배 만큼 증가한다. 범주형 변수 (치료법, 성별 등) 남자일 경우, 여성에 비해 종속변수가 발생할 확률이 Odds ratio배 만큼 증가한다. Cox regression 분석에서의 Hazard ratio 연속형 변수 (나이, 혈압 등) 값이 1 증가할 때 마다 생존률이 Hazard ratio배 만큼 증가한다. 범주형 변수 (치료법, 성별 등) 남자일 경우, 여성에 비해 생존율이 Hazard ratio배 만큼 증가한다.

생존 분석 Xi = {Xi1, … Xip} λ0(t): Hazard function Cox 비례위험모형 모델 Xi = {Xi1, … Xip}  λ0(t): Hazard function 다중 변수 X에 대한 Cox Proportional Hazard Ratio Model Cox regression 분석에서의 Hazard ratio 역시, Logistic regression의 odds ratio처럼 지수형태로 계산하여야함 연속형 변수 (나이, 혈압 등) 값이 1 증가할 때 마다 생존률이 Hazard ratio배 만큼 증가한다. 범주형 변수 (치료법, 성별 등) 남자일 경우, 여성에 비해 생존율이 Hazard ratio배 만큼 증가한다.

생존 분석 생존 데이터 분석의 비교 Red: Case (흡연 환자) Blue: Control (금연 환자) Log rank vs Cox HR 생존 데이터 분석의 비교 Red: Case (흡연 환자) Blue: Control (금연 환자) Log-Rank Test. 생존 ~ 흡연여부 P-value 0.0002 2. Cox Proportional Hazard Ratio Model 생존 ~ 흡연여부 + 성별 + 나이 .... 각 독립 변수들의 P-value 각 독립 변수들의 Hazard ratio 금연 환자 S(t) = Probability 흡연 환자 t = Time (Months)

실습 1. 생존 분석 R프로그래밍 실습 2. 난소암 환자의 BRCA 유전자 돌연변이 생존분석

생존 분석 No: a numeric vector, patient code. Data read & summary 데이터 읽기 No: a numeric vector, patient code. Status: a numeric vector code, survival status 1: dead from melanoma, 2: alive 3: dead from other cause. Days: a numeric vector, observation time. Ulceration: a numeric vector code, ulceration 1: present 2: absent TumorSize: a numeric vector, tumor thickness (1/100 mm). Gender: a numeric vector code 1: female 2: male. 데이터 상단부분 살펴보기 데이터의 구조 보기 ulceration: 궤양화 데이터의 column 이름 살펴보기

생존 분석 Surv function melanoma 데이터 안에 속한 변수에 바로 접근 Time과 Event 변수의 결합 10+: Censored data. 185: Uncensored data.

생존 분석 Kaplan-Meier estimator mark.time: Censored 표시 우측 상단 정보 표시 생존 ~ 성별 (성별에 따른 생존의 분포) Kaplan meier plot 그리기

생존 분석 H0 (귀무가설): 두 군의 생존 곡선은 같다. HA: (대립가설): 두 군의 생존 곡선은 같지 않다. Log Rank Test H0 (귀무가설): 두 군의 생존 곡선은 같다. HA: (대립가설): 두 군의 생존 곡선은 같지 않다. P-value 0.05를 기준으로, 두 군의 생존 곡선은 성별에 따라 유의한 차이가 있다.

생존 분석 p.value 0.0125 exp(coef) = Hazard ratio. Univariate Cox regression 성별에 따른 cox proportional hazard ratio model 구성 p.value 0.0125 exp(coef) = Hazard ratio. 남성일 경우, 여성에 비해 1.939배 사망률이 높아진다.

생존 분석 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Multivariate Cox regression 성별에 따른 cox proportional hazard ratio model 구성 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Ulceration이 없는 경우, 약 0.311배의 사망률이 증가 (있는 경우 3.2배 증가) TumorSize가 1/100 mm 증가시, 약 1.001배 사망률 증가 남성인 경우 여성에 비해 사망률 1.583배 증가

생존 분석 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Multivariate Cox regression 1/100mm 단위인 TumorSize에 대한 Hazard ratio 해석이 힘들기 때문에, 용이하도록 mm 단위로 수정 Hazard ratio Ulceration: 0.311 TumorSize: 1.001 Gender: 1.583 Ulceration이 없는 경우, 약 0.311배의 사망률이 증가 (있는 경우 3.2배 증가) TumorSize가 1 mm 증가시, 약 1.12배 사망률 증가 남성인 경우 여성에 비해 사망률 1.583배 증가

실습 1. 생존 분석 R프로그래밍 실습 2. 난소암 환자의 BRCA 유전자 돌연변이 생존분석

생존 분석 Data read & summary 총 563명에 대한 clinical data Clinica data PATIENT_BARCODE: 환자 ID OS_MONTHS: 생존 기간 OS_STATUS: 생존 여부 원하는 데이터 추출하기

생존 분석 Mutation data 정제 행(Row) 별로 환자였던 Clinical data와는 다르게, 행 한줄이 한 유전자의 돌연변이를 나타내는 데이터. 따라서 존재하는 돌연변이 중, BRCA에 해당하는 돌연변이가 어떤 환자에서 나타났는지 확인해주어야 한다. BRCA1_idx 라는 변수는, Mutation data 중 BRCA1에 대한 정보인 Row들이 무엇인지 TRUE/FALSE로 벡터를 담는 변수이다. 2번째 코드인 Mutation$case_id[BRCA1_idx] 는 BRCA1 돌연변이를 갖는 모든 case_id (환자 id)를 담는다. BRCA2 유전자에 대해서도 실행한다.

생존 분석 최종적으로 BRCA1, BRCA2 각각 유전자의 돌연변이 유무로 범주형 범수가 생성되었다. Mutation data 정제 Patient 변수는 Clinical data의 row 순서와 동일한 환자의 목록을 담는다. BRCA1_patient 변수는 BRCA1 유전자 돌연변이가 있는 환자들의 목록이다. %in% 는 좌측의 변수 중, 우측 변수에 존재하는 변수들을 TRUE/FALSE로 Return 해주는 연산자이다. 따라서 BRCA1은 Patient 중, BRCA1 유전자 돌연변이가 있는 경우 TRUE, 없는 경우 FALSE가 된다. 최종적으로 BRCA1, BRCA2 각각 유전자의 돌연변이 유무로 범주형 범수가 생성되었다. 이를 활용하여 Survival analysis에 적용한다. # Status는 LIVING = 생존, DECEASED = 사망

생존 분석 BRCA1 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? Cox proportional hazard ratio BRCA1 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? BRCA1 돌연변이를 가지지 않은 환자는 가진 환자보다 몇 배 사망률이 높은가?

생존 분석 BRCA2 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? Cox proportional hazard ratio BRCA2 돌연변이는 환자의 생존에 영향을 준다고 볼 수 있는가? BRCA2 돌연변이를 가지지 않은 환자는 가진 환자보다 몇 배 사망률이 높은가?

생존 분석 BRCA1, BRCA2 돌연변이 유무를 하나의 변수로 나타낼 수 있다. 위의 변수를 만들어 주는 공식은 아래와 같다. BRCA = BRCA1 + (BRCA2 * 2) BRCA1, BRCA2 유전자 중, Hazard Ratio가 더 높은 유전자는 무엇인가? BRCA1, BRCA2 유전자 중, 통계적으로 생존과 더 관련된 유전자는 무엇인가?

생존 분석 BRCA1 + BRCA2 통합 분석

생존 분석 BRCA1 + BRCA2 통합 분석

생존 분석 BRCA1 + BRCA2 통합 분석 BRCA1, BRCA2 유전자 모두에 돌연변이가 없는 환자들은 그렇지 않은 환자들에 비해 사망률이 1.9371배 높다. p.value 0.000499

정리 생존분석에서 종속변수의 특징 중도절단 (Censored) 데이터의 의미 Kaplan meier graph의 특징 Log-rank test의 결과 해석 Cox 비례위험모형 결과 해석 Hazard ratio의 뜻 Cox 모델 결과에서 변수의 유의성과 Hazard ratio