제 10장 DNA 서열을 이용한 유전자 구조 예측 방법
< Central dogma > Promoter, exon, intron, polyA signal 30% 정도의 유전자는 TATA box를 가지지 않음. PolyA signal의 존재 유무도 확실하지 않음. 현재 intron / exon을 100% 정확하게 예측할 수 있는 방법이 없음. => 다양한 방법들을 조합적인 방식으로 이용하여 유전자 구조 예측의 신뢰성을 높일 수 있음. < Central dogma >
< Gene-finding strategy > Content-based method (컨텐츠기반의 방법) - 서열의 총체적이고 포괄적인 성질을 분석. - 특정 코돈들이 사용되는 빈도, 반복단위들의 주기성, 서열의 조성적 복잡성, 각 개체의 유사한 코돈을 다른 빈도로 사용. Site-based method (사이트기반의 방법) - 특정 서열, 패턴, 공통서열의 유무. - 전사인자들의 결합부위, poly A트랙, start/stop codons 등. Comparative methods (비교적 방법) - 서열의 상동성에 근거하여 결정. => 최적의 예측을 위해 다양한 방법들을 조합적으로 이용.
< Gene-finding program > GRAIL ( GRAIL1, GRAIL2, GRAIL-EXP ) FGENEH/FGENES MZEF 젠스캔 (GENSCAN) 프로크루스테스 (Procrustes) 진 ID (GeneID) 진파서 (Gene Parser) 흠진 (HMMgene)
< GRAIL > 유전자 예측 분야에서 처음으로 개발되어 널리 보편적으로 사용되어온 방법. GRAIL1: 서열 자체를 고려, 고정된 길이(100bp)의 윈도우들에서 암호부위일 가능성을 찾음. splice junctions, start/stop codons과 같은 특징들을 이용하지 않음. 단일 엑손(single exon)을 검색하는데 적절. GRAIL2: 유전체적 문맥 고려, splice junctions,start/stop codons, polyA signals을 고려 대상으로 함. 모델 유전자 구조를 결정하는데 적절. 최근 GRAIL-EXP로 upgrade.
< FGENEH/FGENES > 구조적인 특징을 검색, 내부 엑손(internal exons)들을 예측하는 방법 (추정 암호화 부위 및 추정 엑손의 5’과 3’인트론 부위) 선별 판별식을 이용 – 주어진 DNA단편이 엑손인지 아닌지 아닌지 두 경우의 수를 판별 => 유전자 모델 예측 FGENES(FGENEH의 확장 프로그램) : 주어진 DNA단편에 복수의 유전자들이 있을 것으로 기대되는 경우 사용
< MZFF > Michel Zhang’s Exon Finder. 2차 판별식 함수라 불리는 기술에 의존. 계측 변수: 엑손 길이, 인트론-엑손, 엑손-인트론 전이, 분지 부위, 3’과 5’ 접합 부위, 엑손, strand, frame scores. 내부 암호화 엑손들을 예측하도록 되어 있고 유전자 구조에 관해서는 어떤 정보도 주지 않음. 단일 엑손들을 발견하기 위한 것이 주목적.
젠스캔 ( GENSCAN ) 완전한 유전자 구조를 예측하도록 설계. 인트론, 엑손, 프로모터 부위, polyA 신호를 동정. 일부분만 있는 유전자 또는 사이에 낀 DNA로 분리되는 복수 유전자들을 나타내는 서열들에 대해 정확한 예측. 어떤 서열이 다양한 문맥 내에 있을 때에도 정확한 예측이 가능 – 유용한 유전자 동정 방법으로 이용. 유전체 서열 조성과 유전자 구조의 ‘확률적 모델’에 기초 => Exon 또는 promoter일 확률을 할당.
프로크루스테스 ( Procrustes ) 유전체 DNA 서열들을 연관된 표적 단백질에 의해 정의된 하나의 패턴에 맞추도록 강요. 후보 단백질에 가장 잘 맞는 예측된 유전자 구조를 찾음. 후보 단백질에 대한 정확도가 높을수록 정확한 구조를 예측. 다른 방법에 의해 얻어진 결과들을 더욱 정교하게 개선하는데 사용될 수 있음.
진 ID 진파서 ( GeneParser ) 흠진 ( HMMgene ) 암호화 가능성의 척도에 기반하여 엑손을 찾음. 위치-가중 행렬 사용 => 주어진 서열 단편이 접합 부위를 나타내는지 평가. 진파서 ( GeneParser ) 부분 공백 점수를 산정. 신경망 접근법 이용. 흠진 ( HMMgene ) Hidden Markov model 사용 . => 주어진 DNA 서열 내의 전체 유전자들을 예측. 같은 부위에 대해 복수 예측들을 해줌 : 한 부위에서 일어날수 있는 모든 가능성에 대한 통찰력을 얻을 수 있음.
< Efficiency of the methods > Predicted Actual Positives (AP) Negatives (AN) Positives (PP) Negatives (PN) TP FP FN TN Sensitivity (Sn) 민감도 : 실제 coding region (exons) 중 coding regions으로 예측된 비율. TP/(TP+FN). Specificity (Sp) 특이성 : 예측한 전체 coding regions 중 실제 coding regions의 비율. TP/(TP+FP). Correlation Coefficient (CC) 상관 계수 : 예측이 맞을 확률. (TP *TN+FP*FN)/√(PP*PN*AP*AN) -1로 부터: 항상 틀리는 경우, +1까지: 항상 옳은 경우. Sensitivity + Specificity 비교 개개의 exon을 가장 잘 찾아낸 것 : MZEF (CCMZEF ~0.79) 유전자 구조 예측을 가장 잘 한 것 : GenScan (CCGENSCAN ~0.86)
< 유전자 동정의 전략과 유의점 > Single exon을 찾는데는 MZEF가 적합. 유전자 구조를 예측하는 데는 GENSCAN이 적합. => 입력 서열에 따라 결과가 좋을 수도 나쁠 수도 있음. G+C 함량에 민감 할수 있음. => GenParser, GRAIL2 : GC함량이 높은 실험세트에서 최상. => GeneID : GC함량이 낮은 실험세트에서 최상. => GENSCAN, HMMgene : GC함량과 관계없이 안정적 실행. 불완전한 콘티그 : MZEF ( 한 개 이상의 exon을 기대하지 않음 ) 이미 완성되었거나 거의 완성된 데이터 : GENSCAN, HMMgene . 한 개 이상의 다른 예측 방법을 사용하여 결과를 보충. 상동성에 기반한 단서를 찾기 위해서 BLAST or FASTA를 수행. PROCRUSTES : 추정 유전자 산물에 대한 정보가 어느 정도 있을 때 . Genotator, GeneMachine : 통합 유형의 프로그램.