제 10장 DNA 서열을 이용한 유전자 구조 예측 방법

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

Ⅱ 세포의 주기와 생명의 연속성 Ⅱ 세포의 주기와 생명의 연속성 - 1. 세포주기와 세포분열.
PRESENTATION EMBEDDED AND BIO DATABASE LAB YONSEI UNIVERSITY, XX JUNGRIM KIM.
측정법에 따른 갑상선자극호르몬 결합억제면역글로블린의 임상적 유용성 검토
유사성 검색 - 1 유전체 정보 의학 2006, 4.17 Kim Do Kyoon.
                                  7장 D/A 변환기 D/A Converter? D/A Converter 원리 Bit 수와 최대범위 및 해상도와의 관계.
Entity Relationship Diagram
제 9 장 구조체와 공용체.
10장 랜덤 디지털 신호처리 1.
Another Detection Methods
Learning Classifier using DNA Bagging
오브젝트 조합 회로 IT CookBook, VHDL을 이용한 디지털 회로 입문.
안재석 ∙ 김지나 ∙ 원우재 국립암센터 핵의학과
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
08. 선천성 및 유소아 질환 1. 선천성 유전질환 1) 유전학적으로 본 병인의 분류
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
23장. 구조체와 사용자 정의 자료형 2.
상관함수 correlation function
Missing Value.
11장. 1차원 배열.
단백질의 정량 -Bradford 법
인터넷응용프로그래밍 JavaScript(Intro).
암 전이 억제 유전자 발굴 및 작동 기전 연구 (Nature지 4월 14일자 발표)
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
군집 분석.
MAGNI 109 THE MAGNI GROUP,ING. (ASTM B 시간 ) 제품 설명: 외관: 성능 데이타:
제 10 장 의사결정이란 의사결정은 선택이다.
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
논리회로 및 실험 조합논리회로 (1) - Adder
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
뇌를 자극하는 Windows Server 장. 원격 접속 서버.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
Clipping 이진학.
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
Decision Tree & Ensemble methods
Antibody Structure and the Generation of B-Cell Diversity
메모리 타입 분석을 통한 안전하고 효율적인 메모리 재사용
Fitting / Matrix / Excel
단백질의 정량 -Bradford 법
고등학교 생물 학습자료 이 자료는 고등학교 ‘생물’ 의 “생명의 연속성” 단원에서 세포 분열에 관한 수업을 위한 것입니다.
제 11장 인자분석(Factor Analysis)
미 술 6 학년 3. 다양한 표현 (1~2/6) 초기화면 다양한 표현 방법 알아보기.
논문작성을 위한 연구모형 설정 양동훈.
WPF 3D 그래픽 발표자 : 조 현 민.
Fucntion 요약.
알고리즘 알고리즘이란 무엇인가?.
데이터 동적 할당 Collection class.
폐결핵 진단을 위한 분자생물학검사 유용성과 한계
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
PCA 개선 서울대학교 박노열.
Chapter 1 단위, 물리량, 벡터.
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
Word2Vec.
Chapter 1 단위, 물리량, 벡터.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
단백질의 정량 -Bradford 법
DNA의 구조와 역할 (1) DNA : 이중 나선 구조로 수많은 뉴클레오타이드의 결합으로 이루어져 있다.
(Adjustment to New Pressures) (New Self-Expectations)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
가천대학교 생명과학과 생물학 및 실험 학기 생물학 및 실험 1 Exp 10. DNA의 구조.
9 브라우저 객체 모델.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
p 감수 분열로 자손 남기기 학습 주제 [개구리 동영상] [매미 동영상]
수치해석 ch3 환경공학과 김지숙.
컴퓨터는 어떻게 덧셈, 뺄셈을 할까? 2011년 10월 5일 정동욱.
강화학습: 기초.
6 객체.
생명의 청사진 분자유전체의학 김 경 원.
Progress Seminar 양승만.
Presentation transcript:

제 10장 DNA 서열을 이용한 유전자 구조 예측 방법

< Central dogma > Promoter, exon, intron, polyA signal 30% 정도의 유전자는 TATA box를 가지지 않음. PolyA signal의 존재 유무도 확실하지 않음. 현재 intron / exon을 100% 정확하게 예측할 수 있는 방법이 없음. => 다양한 방법들을 조합적인 방식으로 이용하여 유전자 구조 예측의 신뢰성을 높일 수 있음. < Central dogma >

< Gene-finding strategy > Content-based method (컨텐츠기반의 방법) - 서열의 총체적이고 포괄적인 성질을 분석. - 특정 코돈들이 사용되는 빈도, 반복단위들의 주기성, 서열의 조성적 복잡성, 각 개체의 유사한 코돈을 다른 빈도로 사용. Site-based method (사이트기반의 방법) - 특정 서열, 패턴, 공통서열의 유무. - 전사인자들의 결합부위, poly A트랙, start/stop codons 등. Comparative methods (비교적 방법) - 서열의 상동성에 근거하여 결정. => 최적의 예측을 위해 다양한 방법들을 조합적으로 이용.

< Gene-finding program > GRAIL ( GRAIL1, GRAIL2, GRAIL-EXP ) FGENEH/FGENES MZEF 젠스캔 (GENSCAN) 프로크루스테스 (Procrustes) 진 ID (GeneID) 진파서 (Gene Parser) 흠진 (HMMgene)

< GRAIL > 유전자 예측 분야에서 처음으로 개발되어 널리 보편적으로 사용되어온 방법. GRAIL1: 서열 자체를 고려, 고정된 길이(100bp)의 윈도우들에서 암호부위일 가능성을 찾음. splice junctions, start/stop codons과 같은 특징들을 이용하지 않음. 단일 엑손(single exon)을 검색하는데 적절. GRAIL2: 유전체적 문맥 고려, splice junctions,start/stop codons, polyA signals을 고려 대상으로 함. 모델 유전자 구조를 결정하는데 적절. 최근 GRAIL-EXP로 upgrade.

< FGENEH/FGENES > 구조적인 특징을 검색, 내부 엑손(internal exons)들을 예측하는 방법 (추정 암호화 부위 및 추정 엑손의 5’과 3’인트론 부위) 선별 판별식을 이용 – 주어진 DNA단편이 엑손인지 아닌지 아닌지 두 경우의 수를 판별 => 유전자 모델 예측 FGENES(FGENEH의 확장 프로그램) : 주어진 DNA단편에 복수의 유전자들이 있을 것으로 기대되는 경우 사용

< MZFF > Michel Zhang’s Exon Finder. 2차 판별식 함수라 불리는 기술에 의존. 계측 변수: 엑손 길이, 인트론-엑손, 엑손-인트론 전이, 분지 부위, 3’과 5’ 접합 부위, 엑손, strand, frame scores. 내부 암호화 엑손들을 예측하도록 되어 있고 유전자 구조에 관해서는 어떤 정보도 주지 않음. 단일 엑손들을 발견하기 위한 것이 주목적.

젠스캔 ( GENSCAN ) 완전한 유전자 구조를 예측하도록 설계. 인트론, 엑손, 프로모터 부위, polyA 신호를 동정. 일부분만 있는 유전자 또는 사이에 낀 DNA로 분리되는 복수 유전자들을 나타내는 서열들에 대해 정확한 예측. 어떤 서열이 다양한 문맥 내에 있을 때에도 정확한 예측이 가능 – 유용한 유전자 동정 방법으로 이용. 유전체 서열 조성과 유전자 구조의 ‘확률적 모델’에 기초 => Exon 또는 promoter일 확률을 할당.

프로크루스테스 ( Procrustes ) 유전체 DNA 서열들을 연관된 표적 단백질에 의해 정의된 하나의 패턴에 맞추도록 강요. 후보 단백질에 가장 잘 맞는 예측된 유전자 구조를 찾음. 후보 단백질에 대한 정확도가 높을수록 정확한 구조를 예측. 다른 방법에 의해 얻어진 결과들을 더욱 정교하게 개선하는데 사용될 수 있음.

진 ID 진파서 ( GeneParser ) 흠진 ( HMMgene ) 암호화 가능성의 척도에 기반하여 엑손을 찾음. 위치-가중 행렬 사용 => 주어진 서열 단편이 접합 부위를 나타내는지 평가. 진파서 ( GeneParser ) 부분 공백 점수를 산정. 신경망 접근법 이용. 흠진 ( HMMgene ) Hidden Markov model 사용 . => 주어진 DNA 서열 내의 전체 유전자들을 예측. 같은 부위에 대해 복수 예측들을 해줌 : 한 부위에서 일어날수 있는 모든 가능성에 대한 통찰력을 얻을 수 있음.

< Efficiency of the methods > Predicted Actual Positives (AP) Negatives (AN) Positives (PP) Negatives (PN) TP FP FN TN Sensitivity (Sn) 민감도 : 실제 coding region (exons) 중 coding regions으로 예측된 비율. TP/(TP+FN). Specificity (Sp) 특이성 : 예측한 전체 coding regions 중 실제 coding regions의 비율. TP/(TP+FP). Correlation Coefficient (CC) 상관 계수 : 예측이 맞을 확률. (TP *TN+FP*FN)/√(PP*PN*AP*AN) -1로 부터: 항상 틀리는 경우, +1까지: 항상 옳은 경우. Sensitivity + Specificity 비교 개개의 exon을 가장 잘 찾아낸 것 : MZEF (CCMZEF ~0.79) 유전자 구조 예측을 가장 잘 한 것 : GenScan (CCGENSCAN ~0.86)

< 유전자 동정의 전략과 유의점 > Single exon을 찾는데는 MZEF가 적합. 유전자 구조를 예측하는 데는 GENSCAN이 적합. => 입력 서열에 따라 결과가 좋을 수도 나쁠 수도 있음. G+C 함량에 민감 할수 있음. => GenParser, GRAIL2 : GC함량이 높은 실험세트에서 최상. => GeneID : GC함량이 낮은 실험세트에서 최상. => GENSCAN, HMMgene : GC함량과 관계없이 안정적 실행. 불완전한 콘티그 : MZEF ( 한 개 이상의 exon을 기대하지 않음 ) 이미 완성되었거나 거의 완성된 데이터 : GENSCAN, HMMgene . 한 개 이상의 다른 예측 방법을 사용하여 결과를 보충. 상동성에 기반한 단서를 찾기 위해서 BLAST or FASTA를 수행. PROCRUSTES : 추정 유전자 산물에 대한 정보가 어느 정도 있을 때 . Genotator, GeneMachine : 통합 유형의 프로그램.