휴먼게놈프로젝트와 컴퓨터 Human genome project and Computer science 2005-12-03 Biocom OB 세미나 93’ 김형용 http://biohackers.net/wiki/HgpAndComputer http://biohackers.net
순서 생물학 백그라운드 Genome의 구조 서열결정작업 HGP 이후의 이야기들 컴퓨터과학의 기여
Genome 게놈? 지놈? 유전자(gene), 유전체(genome)
Great 3 books 우주 – 생명 - 인간
Central Dogma of Molecular Biology
Protein structure 20 Amino acids Sequence specifies conformation RNase
Life DNA’s common method of producing more DNA Review the life
Evolution Self replicator
Chromosome 1 cM ~= 1 Mbps
Gene structure
Junk DNA 전체 Genome의 5%만이 단백질이 되는 영역. 그렇다면 나머지는? Repetitive sequence LINE (>300bps) SINE (300bps), Alu (30000~50000개) Microsatelite
Human genome 3~4x1014 cells (~=245) > 200 cell type 3x109 bps (3Gbps = 3Gbyte) 20000~25000 Genes 98% unknown functional DNA 0.1% difference with you Information theory : 30Mbyte
Human genome project DOE, NHGRI 에서 시작. 2003년 공식 완료. 13년. 7개국 참여 95%나 되는 Junk DNA 를 꼭 그 많은 돈을 들여서 해야만 했는가? 목적 Human DNA 에서 모든 Gene의 동정 30억 염기서열의 결정 Database에 결과의 저장 이를 분석할 수 있는 도구의 향상 관련 윤리적 문제의 연구
History PCR RFLP Genetic marker BAC Shotgun sequencing Whole genome shotgun
Gel Electrophoresis 젤(그물막)에 전하를 띤 물질을 통과시킴으로, 분리하는 방법. 작을수록 멀리~ DNA, Protein
PCR Polymerase Chain Reaction
Genetic marker Polymorphic allele locus
Genetic map
Cloning 무지 작은 저 분자를 하나씩 직접 읽을 수 없다. 따라서, “동일” 한 것들 여러 개를 갖고 실험
Gene cloning Gene cloning 과정 Cloning vector Genome상에서 원하는 영역을 정한다. 원하는 영역을 뽑아낼 수 있는 PrimerDesign을 한다. PCR로 해당영역의 major band를 확인하고, 추출한다. CloningVector에 삽입한다. Selection의 과정을 통해, 해당 유전자가 삽입된 벡터가 들어있는 클론을 선발한다. Cloning vector Plasmid : Cosmid : 30 kb BAC : 350 kb YAC : 2 Mb 이상 PAC : 300 kb
DNA sequencing
DNA sequencing
DNA sequencing Frederic Sanger DNA, Protein 유효길이 700-800bp
Shotgun sequencing 게놈을 읽기 위해 유전학자들은 먼저 게놈을 수천조각으로 부순 뒤, 아무렇게나 잘라졌을 이 조각들을 가지고 시작할 수 밖에 없다. 재조립하기 위해 파괴하는 것, 그것이 분자생물학자들의 저주받을 운명이고 직업적 강박관념이다. -- 다니엘코엥, 휴먼게놈을 찾아서
Genome sequencing Clone by clone method Whole genome shotgun Genetic marker에 따라 BAC 선발 후 shotgun Whole genome shotgun 무작정 shotgun Repeat 로 인한 조립에의 어려움. 컴퓨터만 믿는다.
Current status (since 2003) Human Chromosome 4 Completed, April 2005. Human Chromosome 2 Completed, April 2005. Human Chromosome X Completed, March 2005. Human Chromosome 16 Completed, December 2004. Human Gene Count Estimates Changed to 20,000 to 25,000, October 2004. Human Chromosome 5 Completed, September 2004. Human Chromosome 9 Completed, May 2004. Human Chromosome 10 Completed, May 2004. Human Chromosome 19 Completed, March 2004. Human Chromosome 13 Completed, March 2004. Human Chromosome 6 Completed, October 2003. Human Chromosome 7 Completed, July 2003. Human Chromosome Y Completed, June 2003. Human Genome Project Completion: 1990-2003 (April 2003)
Genome browser UCSC Genome browser NCBI Genome browser Ensembl VistaBrowser
Genetic disease – before HGP
Genetic disease – after HGP
Comparative genomics Synteny (Gene order), Gene duplication, Gene fusion
Comparative genomics
SNP Single Nucleotide Polymorphism 종간 다양성 종내 다양성 염기변화 유전자내 아미노산변화 구조변화
Haplotype
HapMap 일본, 영국, 중국, 캐나다, 미국, 나이지리아 Project의 목표는 MinorAllele의 빈도가 최소 5% 이상이고 평균 간격이 5 kilobase 인 60만개 SNPs을 genotype 하는 것
Transcriptome, Proteome EST DNA chip Proteomics
EST Expression Sequence Tag
Transformational grammar Regular grammar : computer program Context free grammar : DNA Palindrome, “다시 합창합시다” Context sensitive grammar Unrestricted Grammar : 자연어
Sequence alignment
Smith-Waterman algorithm
BLAST Unknown sequence Known sequence Database
Object oriented programming Computer programming paradigm 생명현상의 모델링
마치며… Rosetta stone Programming