서열정렬과 데이터베이스 2010.11.4 Written By 배형섭.

Slides:



Advertisements
Similar presentations
자동 제어 Sun Moon University 1 of 17 자동제어 목 차 강의 개요 Ch.10 주파수 응답 기법 Ch. 8 근궤적 기법.
Advertisements

Stanford-Berkeley 친선 체육대회안 Aug 20 th, 2005 Stanford Campus.
WEEK 1 DAY 1 COURSE INTRODUCTION
유사성 검색 - 1 유전체 정보 의학 2006, 4.17 Kim Do Kyoon.
Hamming Code 이근용. 2 Error Control Error Detection Parity Check CRC Check Error Correction Hamming Code.
이산수학(Discrete Mathematics)
Maximum Flow.
C++ Tutorial 1 서강대학교 데이터베이스 연구실.
Mathematics for Computer Graphics
Chapter 7 ARP and RARP.
스테레오 비젼을 위한 3장 영상의 효율적인 영상정렬 기법
6.9 Redundant Structures and the Unit Load Method
제 7 장 함수 사용을 통해 엑셀 정복하기.
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.
Protein Sequencing KOREA UNIV. Chem. & Bio Eng 박 기 태.
Entity Relationship Diagram
수치해석 6장 예제문제 환경공학과 천대길.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
10장 랜덤 디지털 신호처리 1.
7장 : 캐시와 메모리.
유사성 검색 분자유전체의학 김윤경.
6장 그룹 함수.
제 5장. Context-Free Languages
Genetic Algorithm 신희성.
Dynamic Programming.
Bioinformatics 자연과학대학 화학과.
정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)
Information Retrieval (Chapter 5: 질의연산)
<소스코딩(Source Coding)> 제4장 가변길이 코드
듣기 퀴즈.
Parallel software Lab. 박 창 규
스케줄링 (Scheduling) 시스템 내부시간(time in the system): 스케줄링 문제
군집 분석.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
Dynamic Programming.
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
식품에 존재하는 물 결합수(bound water): 탄수화물이나 단백질과 같은 식품의 구성성분과 단단히 결합되어 자유로운 이동이 불가능한 형태 자유수(free water): 식품의 조직 안에 물리적으로 갇혀 있는 상태로 자유로운 이동이 가능한 형태.
Statistical inference I (통계적 추론)
스케줄링 (Scheduling) 시스템 내부시간(time in the system): 스케줄링 문제
-느라고 어제 왜 학교에 안 왔어요? 아파서 병원에 가느라고 못 왔어요 Sogang Korean 3B UNIT 6 “-느라고”
5장 동적계획법 (Dynamic Programming)
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
Optimal placement of MR dampers
논문작성을 위한 연구모형 설정 양동훈.
제 8장 서열정렬과 데이터베이스 검색.
2nd day Indexing and Slicing
이산수학(Discrete Mathematics)
7. Quicksort.
Word2Vec.
스케줄링 (Scheduling) 시스템 내부시간(time in the system): 스케줄링 문제
점화와 응용 (Recurrence and Its Applications)
자동제어공학 4. 과도 응답 정 우 용.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
2.7 행렬 (Matrices] 이산수학 (Discrete Mathematics) Matrix Reloaded
이산수학(Discrete Mathematics)
DNA의 구조와 역할 (1) DNA : 이중 나선 구조로 수많은 뉴클레오타이드의 결합으로 이루어져 있다.
2.3 분자생물학 데이터베이스의 새로운 세대 분자유전체의학전공 김현정.
이산수학(Discrete Mathematics) 수열과 합 (Sequences and Summations)
수치해석 ch3 환경공학과 김지숙.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
 6장. SQL 쿼리.
[CPA340] Algorithms and Practice Youn-Hee Han
C++ Espresso 제15장 STL 알고리즘.
6 객체.
생명의 청사진 분자유전체의학 김 경 원.
Chapter 4. Energy and Potential
Traditional Methods – Part 1
Chapter 7: Deadlocks.
Presentation transcript:

서열정렬과 데이터베이스 2010.11.4 Written By 배형섭

Outline 서열분석 목적 Pairwise alignment/Multiple Sequence Alignment dot-matrix representation Needleman-wunsch algorithm Smith-Waterman algorithm PAM BLOSUM

서열분석의 목적 분자생물학의 경험적 지식 사용 - 두 분자가 유사한 서열을 가지면, 진화적인 관계나 물리 화학적인 제약때문에 유사한 3차원구조와 비 슷한 생물학적 기능을 갖기 쉽다. 2. 뉴클레오티드 또는 아미노산 서열로 쓰여진 고차원 의 구조와 기능적인 정보를 밝혀내기 위함 - 구조적, 기능적 속성으로 확장 될 수 있는 서열 특 징을 찾고자 함

서열분석 방법 서열 해석에 대한 두가지 접근법 서열유사성 검색 또는 상동성 검색 모티브 검색 모든 형태의 기능 속성에 대한 경험적인 법칙들을 만드는 것이 가능 하지 않음 여전히 가장 선호 되는 접근 방법

서열 정렬 서열 정렬법 최적의 서열 정렬을 얻는 문제는 전반적인 유사성을 나타내는 점수 함수 (Score Function)를 최적화 하는것 공백은 일치하는 문자쌍의 수를 최대화하거나, 치환, 그리고 삽입/삭제와 같 은 편집 연산의 수를 최소화 하기 위해서 추가 Score Function은 아미노산 또는 뉴클레오티드들 사이의 유사성 측정값과 삽입 및 삭제에 대한 벌점(penalties)을 통해 계산 서열 정렬법 Global 정렬 & Local 정렬 : 전체/부분적인 유사 영역 비교 Pair wise 정렬 & Multiple 정렬: 두개/세개 이상의 서열 정렬 3차원 정렬: 두가지 단백질의 3차원 구조 비교 3차-1차 정렬 : 3차원 구조 라이브러리에 대한 아미노산 서열 비교

Global sequence alignment The best alignment over the entire length of two sequences Suitable when the two sequences are of similar length, with a signicant degree of similarity throughout Example: SIMILARITY PI-LLAR--

Local sequence alignment Involving stretches that are shorter than the entire sequences, possibly more than one. Suitable when comparing substantially different sequences, which possibly differ signicantly in length, and have only a short patches of similarity. For example, the local alignment of SIMILARITY and PILLAR: MILAR ILLAR

Pairwise Alignment

Multiple Alignment

dot-matrix representation

최적 정렬 방법

Dynamic Programming Method 1. Optimal alignment - proven mathmatically to produce the best-scoring between two sequences for a given scoring system 2. Global and local alignment - A global alignment program -> Needleman-Wunsch algorithm - A local alignment program -> Smith-Waterman algorithm 3. Choice in dynamic programming - alignments obtained depend on the choice of a scoring system for comparing character pairs and on penalty scores for gaps 4. Alignments, alignment scores, and alterative alignments - 5. Analysis goals -Dayhoff PAM matrices -> evolutionary model of protein change - BLOSUM matrices -> identify members of the same family

Needleman-wunsch algorithm

The mathematics A matrix D(I, j) indexed by residues of each sequence is built recursively, such that D(i; j) = max D(i-1, j -1) + s(xi,yj) D(i -1 1; j) + g D(i; j -,1) + g subject to a boundary conditions. s(I, j) is the substitution score for residues i and j, and g is the gap penalty

overview The Needleman-Wunsch algorithm consists of three steps: 1. Initialisation of the score matrix 2. Calculation of scores and filling the traceback matrix 3. Deducing the alignment from the traceback matrix

Consider the simple example The alignment of two sequences SEND and AND with the BLOSUM62 substitution matrix and gap opening penalty of 10 (no gap extension): SEND -AND score: +1 A-ND score: +3 the best AN-D score: -3 AND- score: -8

The score and traceback matrices The cells of the score matrix are labelled C(I,j) where i = 1; 2; :::;N and j = 1; 2; :::;M S E N D C(1,1) C(1,2) C(1,3) C(1,4) C(1,5) C(2,1) C(3,1) C(4,1) C(1,1) C(1,2) C(1,3) C(1,4) C(1,5) C(2,1) C(3,1) C(4,1) A N D

Initialization -10 -20 -30 -40 done left up The first row and the the first column of the score and traceback matrices are filled during the initialization S E N D S E N D -10 -20 -30 -40 done left up A N D

Scoring The score matrix cells are filled by row starting from the cell C(2; 2) The score of any cell C(I,j) is the maximum of: qdiag = C(i-1, j-1) + S(I, j) qup = C(i–1, j) + g qleft = C(i, j-1) + g where S(i; j) is the substitution score for Letters i and j, and g is the gap penalty

The value of C(2,2) The calculation for the cell C(2; 2): qdiag = C(1, 1) + S(S, A) = 0 + 1 = 1 qup = C(1, 2) + g = 10 + (-10) = -20 qleft = C(2, 1) + g = 10 + (-10) = -20 Where C(1,1), C(1, 2), and C(2,1) are read from the score matrix, and S(S,A) is the score for the S <-> A taken from the BLOSUM62 matrix.

Filling the score and traceback matrices For the score matrix C(2, 2) = qdiag which is 1. The corresponding cell of the traceback matrix is "diag": S E N D -10 -20 -30 -40 1 done left up diag A N D

The traceback path S E N D A- N D The traceback performed on the completed traceback matrix S E N D done left up diag S E N D A- N D A N D Traceback starts here

The summary The alignment is over the entire length of two sequences: the traceback starts from the lower right corner of the traceback matrix, and completes in the upper left cell of the matrix. The Needleman-Wunsch algorithm works in the same Way regardless of the length or complexity of sequences, and guarantees to find the best alignment. The Needleman-Wunsch algorithm is appropriate for finding the best alignment of two sequences which are (i) of the similar length; (ii) similar across their Entire lengths

Smith-Waterman algorithm

overview Local Alignment 알고리즘 주어진 치환행렬과 갭 감점을 기반으로 두서열의 유 사도가 높은 영역을정렬 최적의점수를기록한서열의정렬을찾아냄 부분적인정렬스코어를가진2차원의테이블을만듦 -테이블안의 각셀은 최적의 부분정렬을 찾아 낼수 있는 스코어를 포함 두서열의 상동성 검색에 사용됨

Smith-Waterman Algorithm

The mathematics

Substitution Matrix

What is Substitution Matrix(Score Matrix)? 정의: -어떤 아미노산이가 다른 아미노산로 치환되었을때, 전체적인 단백질에영향을 미치는 확률적인 정도. -서열정렬시, 아미노산이 서로 비슷한 정도. 치환행렬의 기본형태: log (공통조상에 의한 확률/ 우연에 의한 확률) 가장 단순한 형태: 실무율(all-or-nothing) Uij= 1 or 0 (1 for i=j, 0 for the rest)

PAM (Point Accepted Mutation) Dayhoff 등이 1960년대 중반부터 72개 family 에 속하는 1572개의 단백질 서열데이터와 Pairwise alignment 방법을 이용하여 20가지 아미노산이 치환될 확률을 통계적으로 분석. -PAM1, PAM10, PAM20,…., PAM500 처럼 뒤에 나오는 숫자는 단위 진화시간이 그숫자 만큼 반복 할 경우 나타날 아미노산 치환확률이다. 즉, PAM10은 PAM1 을 10번 곱해서 만들고 PAM1단위의 진화적 시간이 10번 반 복될경우 나타나는 아미노산의 치환확률의 수치화된 표현이 다. -일반적 기본값: PAM120 or PAM250

PAM Unit 1 PAM 이란?: 100 개의 아미노산중 치환돌연변이 가 1개 존재할때(따라서 PAM 단 위는 진화적 거리의 척도로도 사용된다.)

PAM Matrix

PAM Matrix

BLOSUM (Blocks Substitution Matrix) -Steven Henikoff 등이 1992년 PAM을 개선하기 위하여 고안되었고 따라서 PAM보다 우수한결과를 제공한다. -BLOSUM(m) 의 형태: m 은 다중서열일치정도 -일반적 기본값: BLOSUM62 (NCBI의 BLASTP) or BLOSUM50 (FASTA)

BLOSUM 행렬 형성 과정

BLOSUM Matrix

PAM vs. BLOSUM