0801 Workshop
Paper 1 Title: Disease prediction by machine learning over big data from healthcare communities(2017) Author: M. Chen et al. 목적 머신러닝을 통하여 생활습관병(고혈압, 당뇨병, 협심증, 심근경색증, 뇌졸중등)의 발발을 효과적으로 예측함. 이 논문에서는 생활습관병중에서도 뇌경색을 탐색함. 데이터 병원데이터 EHR Medical image data Gene data 환자 수: 31919 기간: 3년
Paper 1 방법론 결과 Data imputation 실험 데이터에는 missing data가 많음(human error) 불충분한 데이터는 수정하거나 삭제함. 또한 추가 가능한 데이터들을 integrate함. (ex. 키와 몸무게로 BMI를 구할 수 있음) Naive Bayesian, K-Nearest Neighbor, Decision Tree For Structured data CNN-based diseases risk prediction algorithm For Text data(Unstructured) 결과 Unstructured data에서 CNN을 기반으로 제안한 방법론의 정확성은 0.94로 나옴. Structured data에서 Naive bayesian classification이 가장 정확성이 좋음. 그러나 뇌경색은 복잡한 증상이므로 특정한 환자가 뇌경색에 걸릴 확률이 높고낮음은 정확하게 예측하기 어려움.
Paper 2 Title: Septic shock prediction for patients with missing data(2014) Author: J. Ho et al. 목적 패혈증의 위험이 있는 환자를 조기에 예측하고 이러한 합병증의 영향을 최소화함. 대규모 임상 데이터에 포함된 상당량의 누락 데이터 문제를 어떻게 극복할 수 있는지 탐색함. 데이터 Multiparameter Intelligent Monitoring in Intensive Care II 환자 수: 27,542 기간: 2001~2007 방법론 Missing data imputation Mean imputation K-nearest neighbors 결론 Mean imputation과 KNN 둘 다 missing data imputation에 사용할 수 있지만, 두 가지 방법론은 서로 다른 이유로 차이를 보임. Mean imputation은 모든 환자의 수치가 한 환자의 missing value에 영향을 주지만 KNN은 그 반대임.
Paper 3 Title: Time to CARE: A collaborative engine for practical disease prediction(2009) Author: D. Davis et al. 목적 과거 진료 내역을 기반으로 질병간의 연광성을 탐색하고 추후 발병할 질병에 대해 예측하는 시스템을 구축함. 데이터 환자 수: 13,039,018 각 진료 데이터에는 최대 10개의 진단코드(International classification of disease codes-ICD-9)가 있음. 방법론 Collaborative filtering 특정 사람의 질병을 비슷한 증상을 가진 다른 사람의 질병과 비교하여 특정 사람의 pre질병을 예측함. 가정: 비슷한 증상을 가진 사람들은 같은 질병을 앓고 있을 것이다. 결론 과거 진료 기록이 많을수록 추후 질병을 예측하는데 도움이 됨. 예측은 가능하나 실제로 발병한 질병과 비교해 보았을 때 범위가 너무 넓음.
Yonsei IRB 신청서류