Naive Bayes Classification using DNA-based Probabilistic Learning Method 이제근, 탁민호, 최낙중, 이화진
Advanced Artificial intelligence Introduction Previous Probabilistic Library Model based DNA computing Assuming all attribute is binary High cost in wet-lab experiment Etc. In silico Naive Bayes Classifier Sensitive in the only one missing data x1 x2 x3 class 1 x1 x2 x3 class 1 Advanced Artificial intelligence
Probabilistic Library Library L In Two-class Case Advanced Artificial intelligence
Molecular Updating Rule Update Conditional Probability For the same Mol concentration in all Library Advanced Artificial intelligence
Naive Bayes Classification Advanced Artificial intelligence
Molecular Naive Bayes Classifier The same Mol concentration Modified naive Bayes Classifier Advanced Artificial intelligence
Classification using Molecular Probability Initialize each xi in all Library to nearly uniform value For each <x, yj> in training_examples, Do For each attribute xi in x, Do In the Lyj library, Input the instance xi to the Lyj library C(xi, yj) = (1+η) C(xi, yj) In the others, C(xi, y) = (1+η/2) C(xi, yj) Advanced Artificial intelligence
Advanced Artificial intelligence Simulation - Accuracy Advanced Artificial intelligence
Simulation - Sensitivity Advanced Artificial intelligence
Simulation - Specificity Advanced Artificial intelligence
Before doing DNA computer Library class0과 library class1을 표현할 수 있는 input data에 상보적인 sense single strand DNA들을 design하여 DNA pool을 만든다. Input data(A gene, B gene, ..)로 들어갈 antisense single strand DNA를 design하여 각각의 data들을 표현해 준다. Library class들에 있는 sense sequence들과 input data들의 antisense sequence들의 조합과 증폭을 위해서 필요한 PCR based lab_on_a_chip을 design한다. 마지막 PCR output으로 나오는 결과물을 보기 위해서 capillary electrophoresis based lab_on_a_chip을 준비한다 Advanced Artificial intelligence
Bayes rule based DNA compute chip procedure(1/2) Input data의 class가 1이라면 이 data(antisense ssDNA)들을 library class1에 넣는다. 이때 input data외에 unique primer와 common primer를 넣어준다. Library class0에는 library class1과 total DNA volume을 맞춰주기 위해서 common antisense ssDNA들과 common primer들을 넣어준다. 1번에서 만들어진 library class1 DNA pool을 PCR based lab_on_a_chip 넣어서 30cycles PCR해서 증폭하여 준다.(서로 상보적으로 unique primer와 결합한 DNA만 증폭한다) 2번에서 만들어진 library class0 DNA pool을 PCR based lab_on_a_chip 넣어서 15cycles PCR해서 증폭하여 준다.(상보적으로 결합한 모든 DNA들을 증폭한다) 위 과정이 끝난 뒤에 또 다른 input data를 넣어 주는데 이때 data가 class=0으로 구분되어 있다면 이때 input data들은 library class0으로 들어가게 된다. 그리고 1번단계와 마찬가지로 unique primer와 common primer들을 같이 넣어준다. Advanced Artificial intelligence
Bayes rule based DNA compute chip procedure(2/2) Library class1에는 2번 단계와 마찬가지로 common antisense ssDNA와 common primer들을 넣어 준다. PCR based lab_on_a_chip으로 들어가면 3,4번과 같이 input data가 들어간 library class0는 30cycles PCR되고, library class1은 15cycles PCR되어서 total DNA volume이 일정하게 유지되면서 training을 하게 된다. 이렇게 해서 여러 개의 input data들이 들어오고 나면 training된 DNA computer가 완성된다. 이때 알려지지 않은 data를 library class0과 library class1에 넣어서 output으로 나오는 dsDNA들을 capillary electrophoresis based lab_on_a_chip으로 dsDNA signal을 detection해보면 class0인지 class1인지를 classification할 수 있다. Advanced Artificial intelligence
‘A’ gene data training procedure Input data인 A gene data와 library class DNA pool을 준비한다. X1 X2 X3 X4 X5 CLASS A gene 1 B gene Advanced Artificial intelligence
‘A’ gene data training procedure Input data와 같이 library class1으로 들어갈 common primer와 unique primer 그리고 library class0으로 들어갈 common antisense ssDNA와 common primer들을 준비한다. Advanced Artificial intelligence
Unique primer and antisense sequence Advanced Artificial intelligence
‘A’ gene data training procedure 1,2번에서 준비된 input molecule들이 준비되면 PCR based lab_on_a_chip을 design한다. 이 chip은 input data가 들어가는 library class DNA pool이 input으로 chip안으로 들어갈 때는 30cycles PCR 증폭되게 프로그램 되어있고, input data가 들어가지 않는 library class DNA pool이 input으로 chip으로 들어오면 15cycles PCR 증폭되도록 프로그램 되어 있어야 한다. PCR based lab_on_a_chip은 MEMS(micro electro mechanical systems) 기술을 이용해서 만들어 진다. MEMS기술과 PCR based lab_on_a_chip을 간단하게 그림으로 표현하면 다음과 같다. Advanced Artificial intelligence
MEMS(micro electro mechanical systems) technique Advanced Artificial intelligence
PCR based Lab_on_a_chip Advanced Artificial intelligence
‘A’ gene data training procedure Library class1으로 unique primer와 common primer 그리고 antisense ssDNA sequence가 PCR based lab_on_a_chip에서 조합을 일으키게 된다. Advanced Artificial intelligence
‘A’ gene data training procedure 1~4번의 training 과정이 끝나면 B gene data (class=0)를 input data로 넣으면 data들이 library class1이 아니라 library class0으로 들어가게 해야 한다. 왜냐하면 B gene data의 class는 0으로 구분되어 있으므로 이때 training과정은 1~4번의 반대로 일어나게 된다. 그렇게 해서 계속해서 알려진 input data들을 이용해서 training하게 되면 각각의 library class DNA pool에는 확률적으로 training된 DNA computer가 완성하게 된다. 1~5번의 과정을 여러 번 반복해서 training이 끝나고 난 뒤에, 알려지지 않은 unknown data(test data)를 input으로 넣어서 classification을 하기 위해서는 또 다른 lab_on_a_chip 인 capillary electrophoresis lab_on_a_chip이 필요하다. 이때 과정을 간단하게 그림으로 보면 다음과 같다. Advanced Artificial intelligence
After training DNA computer N gene 1 CLASS=? Advanced Artificial intelligence
After training DNA computer Advanced Artificial intelligence
Advanced Artificial intelligence Result & Discussion DNA molecule을 이용한 Naive Bayes Classification method는 computer simulation결과에서와 같이 좋은 efficiency를 보여주면서 DNA computer의 새로운 발전 방향을 보여준다. 직접 실험은 하지 못했지만 Naive Bayes Classification method 를 biological method로 완벽하게 design한 부분은 지금까지의 DNA computer의 문제점 중에 하나인 data encoding문제에 있어서 보다 짧은 DNA molecule들의 조합을 이용해서 test data를 classification할 수 있다는 점을 이용해 그 한계를 극복해 나아갈 수 있음을 제시해 줬다. 아직까지 어느 곳에서도 PCR based lab_on_a_chip이 생산되지 못 했던 만큼 이번에 design된 lab_on_a_chip은 DNA computer뿐만 아니라 실질적인 biological experimental machine으로 사용될 수 있으므로 상당한 시장성을 가지고 있다고 생각한다. Advanced Artificial intelligence