Personalized Mortality Prediction Driven by Electronic Medical Data and a Patient Similarity Metric Joon Lee, David M. Maslove, Joel A. Dubin University of Waterloo, Waterloo, Ontario, Canada PLoS ONE(SCIE), 2015 Speaker Yejin Kim Date 01th Aug 2018
Introduction 연구 배경 임상 결과 예상 예측에서 개별환자의 특성을 고려하여 맞춤 모델을 제공 하는 것은 중요함. 연구 목적 유사한 과거 환자를 식별해 분석하면 사용 가능한 모든 환자를 분석하는 것보다 결과 예측 성능이 향상됨을 증명 (Training data 와 예측을 위한 index patient간의) 유사도 정도와 훈련데이터 크기 사이의 적절한 균형을 찾는 것. 방법과 결과 각 환자와 가장 유사한 환자 식별(patient similarity metric, PSM)해 병원 퇴원후 30일간의 사망 맞춤형 예측 모델 구축 맞춤형 모델과 전체 데이터를 사용한 모델과 비교를 통해 예측성능향상 확인
Used Data 사용 데이터 : MIMIC-II (Intensive Care in Multiparameter Intelligent Monitoring) 특정 기간동안(‘01– ‘08) 보스턴의 대학병원에서 ICU(Intensive Care Unit) 환자를 대상으로 수집된 29,149명의 의료 기록 데이터 *참고사항 : 4000명 까지는 데이터는 승인없이 무료 공개 데이터 베이스내 데이터 범주 일반: 환자 입원 및 퇴원 날짜, 사망날짜, ICD-9코드, 의료 유형 코드, 바이탈사인 생리학: 시간별 생체 신호 측정, 인공호흡기 여부 약물: 약물 명, 제공자 입력 데이터 유체균형: 섭취량(용액, 혈액 등) 산출량(소변, 출혈량 등) 메모: 카테터 여부, 퇴원여부, 진료자 메모, 방사선과 보고서 추출된 변수 심박수, 평균 혈액 압력, 수축기 혈압, 자발 호흡수, 체온, 적혈구, 백혈구, 혈청, 입원유형(선택, 긴급, 응급), 성별, 1차 ICD-9코드, 기계적 인공호흡여부, 생체신호(혈청 칼륩, 혈청 나트륨 등의 혈중 요소 수치)
Patient Similarity metric Patient Similarity Metric (Lee et al., 2015) 𝑃𝑆𝑀 𝑃 1 , 𝑃 2 = 𝑃 1 ∙ 𝑃 2 ∥ 𝑃 1 ∥∥ 𝑃 2 ∥ = 𝑖=1 𝑛 𝑃 1𝑖 × 𝑃 2𝑖 𝑖=1 𝑛 𝑃 1𝑖 2 × 𝑖=1 𝑛 𝑃 2𝑖 2 𝑃 1𝑖 , 𝑃 2𝑖 : 환자 1(2)의 해당 변수에 대한 단일 예측 변수(i) 벡터 PSM은 cos 각도로 계산되므로, -1(두 환자 간의 최소 유사도), +1(최대 유사도) Model Training 특정환자 Index와 모든 환자 사이의 모든 pairwise PSM 계산 계산된 PSM 기준 가장 유사한 N명의 유사한 환자의 데이터(Training Data)를 사용하여 Logistic Regression 및 Decision Tree 모델을 훈련함. 여기서 N명을 변경해가며 예측력이 가장 높은 모델을 찾음.
Results Logistic Regression Decision Tree *SAPS(Simplified Acute Physiology Score) SOFA(Sequential Organ Failure Assessment) Logistic Regression Decision Tree SAPS: 중환자실에 들어온지 24시간후, 환자의 사망률을 0과 163점 사이의 점수로 의료진이 점수를 매김. SOFA: ICU에 머무는 동안 호흡기, 심혈관, 간장, 응고, 신장, 신경 각 6개 장기별 각각 점수를 매겨논 점수
Patient Similarity in Prediction Models Based on Health Data: A Scoping Review Anis Sharafoddini et al. University of Waterloo, Waterloo, ON, Canada JMIR MEDICAL INFORMATICS (ESCI), 2017 Speaker Yejin Kim Date 01th Aug 2018
Introduction 연구 배경 임상 결과 예상 예측에서 개별환자의 특성을 고려한 유사성 기반 예측에서 분석법에 따라 예측결과가 달라질 수 있음. 연구 목적 환자 유사성을 고려한 예측법을 설명한 연구들을 요약하고 검토하는 것. 방법과 결과 초록, 제목, 키워드 검색 및 스크리닝을 통해 22편의 환자 유사성을 고려한 질병 예측에 관련한 연구를 선정함. 해당 문서들을 정리하여 예측 알고리즘과, 누락데이터 필터링, 논문내 주요 데이터 출처 확인, 연구 질환 확인, 유사성 접근법을 확인 및 정리함.
Results 연구들의 주요 연구 질병 Cardiovasc disease(심혈관계 질환), Cancer(암), Diabetes(당뇨), Liver disease(간질환), Renal Failure(신부전)
Patient Similarity Distance-Based Similarity Metrics - Euclidean distance(5) : 0에 가까울 수록 환자간 유사도가 높음. Mahalanobis distance(6): 데이터 속성들간의 Covariance를 반영하여 계산함. Covariance Matric은 전문가 인터뷰를 통해 중요도 부여
Patient Similarity 2) Cosine-Based Similarity Metrics: 두 환자의 벡터값이 양적으로 균등하지 않음을 반영하여 각 벡터의 크기에 상관없이 방향성의 차이만 판단함. 3) Patient Similarity with Drug similarity : Tanimoto 계수를 활용하여 두 약물간의 화학 구조 유사성을 계산