Introduction to Bioinformatics
Agenda Bioinformatics는 무엇을 하는 것이며, 연구하면 무엇이 좋은가? Bioinformatics team에서는 무엇을 하고 있는가? 유전자의 기능 추론 알고리즘 개발 유전체 분석: DNA 시퀀스의 다형성 발견 및 다형성과 유전기능의 연관성은 무엇인가? 암의 여부/암의 예후/효과적인 치료법의 예측 알고리즘 개발 암의 원인이 되는 유전자는 무엇인가? Text mining을 이용한 비정형적인 생물학 데이터의 정형화
Bioinformatics Biologist의 입장 원래 생물학은: data를 눈으로 관찰 가설 실험을 통한 가설의 검증 결론 도출 생명공학의 발전으로 data가 복잡해지고, 다양해지며, 방대해짐 Data가 눈으로 분석이 안됨 통계 tool 등을 사용하거나 대충 배운 알고리즘을 이용해서 전산 처리 실패가 잦아짐 computer scientist에게 help 요청, 혹은 스스로 전산학을 공부 Bioinformatics 탄생 (Biology에 가까운)
Bioinformatics Computer scientist의 입장 데이터의 의미를 모름 도움이 될만한 database나 algorithm을 만들어도 생물학자들에게는 별로 도움이 안됨 원래 생물학자들과 잘 협력해서 일을 진행하려고 했으나, 그들은 너무 바빠서 붙들고 가르쳐주지 않음 스스로 생물학을 공부 Bioinformatics 탄생 (CS에 가까운)
Bioinformatics Bioinformatics의 두 분야 Bioinformatics의 미래 데이터의 저장: Database modeling issue 개개의 data set들로부터 새로운 정보를 끄집어내보자: Data-mining issue Bioinformatics의 미래 데이터는 더욱 복잡하고 다양하고 방대해져만 가고 있다. 특히 data-mining 분야는 할 것이 더욱 많아진다. 크게 봤을 때, CS와 Bio가 양극으로 발전할수록 중간의 Bioinformatics의 자리는 커진다. 즉, 일거리는 늘어가나 인재는 부족하다.
1. 유전자의 기능 추론 세포 핵 DNA sequence (A, C, G, T) 이중 일부 (1% 미만): 유전자, 인간의 경우 2만~3만개로 추산 유전자: 단백질을 만들기 위한 DNA sub-sequence 왜 중요한가? 단백질을 만들기 때문 단백질: 세포를 이루고, 세포가 기능을 하도록 하는 역할을 함
1. 유전자의 기능 추론 유전자가 얼마나 활발하게 단백질로 변환되었는가? 마이크로어레이 데이터 세포의 종류에 따라, 시간에 따라서 그 양이 변화함 하지만 같이 많이 발현하고 있는 유전자는 같은 기능을 하고 있을 가능성이 크다 Gene Clustering 또한, 같은 발현 패턴을 보이는 유전자는 더욱 같은 기능을 하고 있을 가능성이 크다 Biclustering
1. 유전자의 기능 추론 유전자 A 단백질 a 유전자 B를 억제 혹은 촉진 Time series microarray의 마이닝
2. 유전체 분석 유전체 : DNA sequence 개개인마다 공통적인 부분이 있고, 그렇지 않은 부분이 있음 인종 별로 구분되는 부분이 있고, 그렇지 않은 부분이 있음 이를 DNA sequence polymorphism이라 한다.
2. 유전체 분석 대표적인 DNA sequence polymorphism 연구 방향 SNP : 주위의 sequence는 같은데 어떤 사람은 A로, 다른 사람은 T로 나타나는 부분 CNV : 어느 일정한 부분이 몇 배 더 나타나는 사람이 있고, 아예 나타나지 않는 사람이 있음 연구 방향 Polymorphism을 찾는다. Polymorphism과 disease와의 연관 관계를 찾는다. Polymorphism과 gene과의 연관 관계를 찾는다.
2. 유전체 분석 Polymorphism을 찾는 연구 Polymorphism과 Gene과의 연관성 arrayCGH data를 이용해서 CNV를 찾음 Polymorphism과 Gene과의 연관성 같은 사람에 대해서 gene expression data (마이크로어레이)와 arrayCGH data를 동시에 만듦 CNV를 많이 가진 집단과 그렇지 않은 집단을 구분해줄 수 있는 gene들은 무엇인가? 이러한 gene들은 어떤 일을 하고 있다고 알려졌는가?
3. 암 환자 진단 암환자 VS 정상환자 진단 암환자 및 정상환자로부터 유전자 발현값 측정 microarray data 어느 유전자들이 두 집단을 잘 구분해줄 수 있는가? 이런 유전자들은 어떻게 두 집단을 잘 구분해줄 수 있는가? 어느 정도의 정확도를 보이는가?
3. 암 환자 진단 5년 내로 사망한 환자 VS 완치된 환자 전이가 일어난 환자 VS 그렇지 않은 환자 ……
4. 암의 원인이 되는 유전자는? 수 많은 유전자가 암과 관련이 있다고 의심이 되나, 구체적으로 어떤 것이, 어떻게 연관이 되어 있는지는 아직 알지 못함 특히, 암의 원인이 되는 유전자는 극히 드물게 알려져 있음 마이크로어레이 데이터와 다른 데이터를 합쳐서 암의 기작을 추론하는 방법 연구
5. 텍스트 마이닝 생물학자들은 데이터베이스 모델링에 익숙치 않음 보통은 논문에 텍스트 형식으로 정보를 기록함 (ex. 유전자/단백질의 기능) 이러한 비정형 정보를 데이터베이스화하는 것은 매우 중요함 보통 수작업으로 진행하고 있으나, 한계가 있음 문장 텍스트 마이닝 데이터베이스 모델링