Protein Sequencing KOREA UNIV. Chem. & Bio Eng. 9849054 박 기 태.

Slides:

Advertisements

Similar presentations

UGT 2B7 enzyme-cofactor complex UGT2B7 vs. SULT1A1 substrate classification.

Advertisements

2012 Knowledge Service Engineering Knowledge Service Engineering.

( 금 ) 정영림 ( , 기기분석학 Instrumental Analysis.

명륜종합사회복 지관. * 강사 : 소 찾는 아이 작가 이상희, 김매화 팀장 외 * 북아트란 : 논술교육의 중요성, 자유로운 사고, 창 의력, 논리력 * 준비물 : 색연필, 사인펜, 연필, 지우개, 딱풀, 가위.

서열정렬과 데이터베이스 Written By 배형섭.

휴먼게놈프로젝트와 컴퓨터 Human genome project and Computer science

정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술

서로를 위한 약속 학교규칙 제·개정에 대한 이해.

인사전략과 인적자원개발 Wisdom21 Management Consulting

15 장. 알고리즘의 설계 알고리즘 설계 학습목표 기본 패턴 패턴의 한계점 일곱 가지 패턴의 알고리즘 설계 기법을 이해한다.

실습 – MODi Eunok Paek Dept. of Computer Science & Engineering

스테레오 비젼을 위한 3장 영상의 효율적인 영상정렬 기법

Euclidean Voronoi Diagram of Atoms and Protein Structure Analysis

인사조직 부분 컨설팅성공사례 ㅡ조직혁신(Organization Innovation) 컨설팅 사례연구ㅡ

13강 실업자의 복지 이수천 Ph.D. 사회복지통계연구소.

NLP 프랙티셔너 코스 NLP연구소 내 삶의 질을 더욱 높이는 최고의 선물, NLP NLP PRACTITIONER COURSE

Marketing 제 2장 마케팅 환경분석.

★ Basic Function4 1 Posting Tips 2 Currency 3 Tax.

분자 동역학 컴퓨팅 전승준 (고려대학교 화학과).

REINFORCEMENT LEARNING

VectorNTI 사용법 교육 Insilicogen, Inc. Consulting Team 이 기 용.

인공지능시스템 (Artificial Intelligent)

제6주차 강의안 글로벌전략의 수립 경동대학교 사회복지경영학부 이광근.

12. 데이터베이스 설계.

분자 동역학 컴퓨팅 전승준 (고려대학교 화학과).

DNA & Double Helix 3 유전학의 놀라운 비밀 - DNA! 진핵세포에 있어서의 유전정보의 흐름.

Chapter 12. Nuclear Magnetic Resonance Spectroscopy (핵 자기 공명 분광학)

제 5장. Context-Free Languages

3.2 구조 및 기능 예측 part 1 (Prediction of Structures and Functions)

비특허문허 검색 Know-How 생명공학 분야 - 신 원 혜 생명공학심사과.

Dynamic Programming.

Current clinical practice for cholecystectomy after ERCP

정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)

Cluster Analysis (군집 분석)

제 11장 교락법과 일부실시법.

2007 겨울 통계강좌 중급과정 제6강 다변량 분석에 대한 이해.

적외선분광광도법 (infrared spectroscopy)

Parallel software Lab. 박 창 규

낮과 밤 알아보기 슬기로운 생활 2학년 1학기 4. 빛과 그림자>낮과 밤( 4/8 )

Lattice and basis (Solid state physics)

과학수업아이디어 우리 몸의 일꾼, 효소 네가 보고 싶다 청담고등학교 우 정 임.

공급사슬 관점의 물류 전략 차시명을 입력합니다..

BASICS OF PROTEIN STRUCTURE

정보 추출기술 (Data Mining Techniques ) : An Overview

-순수관광 목적 방문지역별 여행실태(경기) -

IV. 단백질 합성 4.10 폴리펩티드, 아미노산 및 펩티드 결합 4.11 번역 및 유전암호 4.12 운반 RNA

1. Folding 건축설계 : 최준오교수.

문양세 (1st version: 문성우) (revised by 손시운)

제 1 장. 자료구조와 알고리즘.

분자생물학 데이터베이스의 새로운 세대 정희준

생물분리정제공학 생명체 기본구성분자의 이해.

제 8장 서열정렬과 데이터베이스 검색.

시공 계획 및 계약 관리.

2007년 제약업 : 구조 개편의 원년 리서치센터 황상연( ).

MR 댐퍼의 동특성을 고려한 지진하중을 받는 구조물의 반능동 신경망제어

2013년도 상반기 고객만족도 조사 결과 보고서

2013년도 하반기 고객만족도 조사 결과 보고서

비정규직법의 이해 노 동 부.

5. 구조 데이터베이스 구조모델: 아름답고 신기.

-순수관광 목적 방문지역별 여행실태(경북) -

위험한 유혹, 트랜스지방 Trans Fatty Acid.

Impact Discipleship Training 아홉 번째 모임 2009년 5월 19일

Life Cycle Cost Analysis Process 충북대학교 구조시스템공학과 시스템공학연구실

엔화 대환/대출 자금용도 대상 이자 차액 효과 (A,B,C) 환율 리스크 헷징 (A,B) 엔화의 평균환율 (A,B,C)

4. 분자 상호 작용의 네트워크 분석 4.1 네트워크 표현과 계산

노인학대예방 교육 교육강사 시 설 장 송나겸 보성실버센터.

프로젝트 실행 오류와 해결.

Natural Products Chemistry

사회복지협의회와 지역사회복지협의체.

Presentation transcript:

Protein Sequencing KOREA UNIV. Chem. & Bio Eng. 9849054 박 기 태

Protein Amino acid Peptide Bonding 단백질은 아미노산들이 공유결합으로 연결된 중합체 Amino acid 단백질은 아미노산들이 공유결합으로 연결된 중합체 Side chain에 따라 종류가 달라짐 현재 22개의 종류가 발견 Amino acid Peptide Bonding Polypeptide 형성 일반적으로, amino acid가 50개 이하 : peptide amino acid가 50개 이상 : protein Dehydration Polypeptide

Joseph A. Krzycki Ph.D. 1985. University of Wisconsin-Madison. Associate Professor Department of Microbiology Ohio State University (614) 292-1578 ; Krzycki.1@osu.edu

Amino Acids

Amino Acids (2)

Structures Primary Structure Secondary Structure Amino acid 의 연결순서 Backbone을 이루는 원자들의 규칙적이고 반복적인 배열에 의해 형성된 local structure

Structures (2) Tertiary Structure Quaternary Structure Amino acid들이 공간상에서 특정하게 배열되는 것 (folding of peptide chain) 아미노산의 서열이 최종적인 삼차원 구조 결정 Tertiary structure에 의해 각 Protein의 고유기능 발현 Quaternary Structure Aggregation of two of more peptides

Combination n개의 amino acid로 이루어진 protein의 경우, 20개의 서로 다른 amino acid를 n개 배열하는 조합 = 20n 가지 100개의 amino acid로 구성된 protein의 경우, 가능한 조합은 20100 가지로서 한가지 구조를 검색하는데 10-15초가 걸린다고 했을 때 가능한 모든 구조를 검색하는데 걸리는 시간은 약 1.27 X 10115초 ( 우주의 나이 : 약 1018초) 인체를 구성하는 단백질의 개수는 10만개로 추정되고 있으며, 구조가 밝혀진 것은 20%정도에 불과

Protein Sequence Analysis 실험적 방법 X-Ray Crystallography NMR Spectroscopy 예측적 방법 ab. initio Method Homology Modeling Theading

X-Ray Crystallography 물과 단백질로 이루어진 표본에서 물을 서서히 증발시켜 단결정 생성 결정의 원자를 둘러싸는 전자구름에 반사되는 X선 분석 단백질의 3차원 구조를 알 수 있는 가장 정확한 방법 수용성 단백질에만 적용 RU300, R-AXIS IV++ (Rigaku, Japan)

NMR Spectroscopy 두 수소원자 사이의 핵자기공명을 측정하여 nonzero spin을 가진 단백질 원자핵을 검출하여 모형화 결정을 만들 필요 없음 단백질이 물분자에 의해 완전히 둘러싸여 있어 세포내와 같은 환경에서 분석가능 Amino acid의 길이가 150개 이상인 단백질에는 적용이 어려움

ab. initio Method 기존의 단백질 구조 정보를 이용하지 않고 단백질을 구성하는 원자 수준에서 발생하는 물리 화학적 특성을 계산하여 구조 예측 Anfinsen의 열역학적 가설을 기반 단백질의 3차원구조는 주어진 조건에서 전체 계의 자유에너지가 가장 낮은 구조이다. 3차 구조는 아미노산의 서열(1차 구조)에 의해 결정된다. 단백질 분자의 원자간 상호작용 에너지, 전체 계의 에너지를 단백질 분자의 3차원 구조로 서술하여 그 최소값을 구함 Potential function의 예 V=1/2∑Kb(b-b0)2+1/2∑KΘ(Θ-Θ0)2 + ∑KΦ(nΦ-δ)+∑(Aij/r6ij+ Bij/r12ij + Cij/r10ij+ qiqj/Drij)

Homology Modeling 서열이 비슷한 단백질은 구조와 기능도 비슷한 경우가 많다는 특성을 이용하여 기존의 알려진 단백질 Database(PDB)에서 의미 있는 서열상의 유사성을 찾아내는 과정 Query sequence – base sequence, amino acid sequence Algorithm – Smith Waterman, FASTA, BLAST

Smith-Waterman Dynamic Programming을 이용하여 임의의 서열과 데이터베이스에 저장된 서열들을 비교(PAM, BLUSUM) 비교적 정확한 검색 결과를 얻을 수 있지만 검색하는데 시간이 오래 걸린다. Scoring Matrix 비용(cast) 혹은 가중치(weight)의 개념 도입 W(a,a) =0 W(a,b) =1 W(a, -) = w(- ,b) =1 두 염기서열 비용계 1.AGCACAC-A 2. AG-CACACA A-CACACTA ACACACT-A cost:2 cost:2 적절한 배열(optimal alignment) - 두 염기서열의 배열에 드는 비용이 최소한으로 드는 배열 문제를 해결하기 위해서 그 전 단계 문제의 답이 필요하고 다시 그 전 단계 문제의 답이 필요하여 Recursion으로 반복되는 경우, 가장 기본적인 문제의 답부터 BottomUp 방식으로 계산해 옴으로써 전체 문제를 해결하는 Algorithm. DivideAndConquer와 달리 중복된 계산을 하지 않으며, DivideAndConquer처럼 독립적인 부분문제로 나누어 접근하지 않고 종속적인 문제들의 일련을 순서에 맞게(순행 혹은 역행) 해결해 나간다. -- From DynamicProgramming BLOSUM (BLOks SUbstitution Matrix):1991년에 Altschul 등에 의해 발표된 BLOSUM은 현재 BLAST등의 검색에 제공되며 PAM과 함께 가장 많이 쓰이는 치환 행렬의 한 종류이다. BLOSUM은 Block database로부터 개발된 것으로, Block 데이터베이스는 아미노산 서열 중 다른 부분에 비해 굉장히 보존된 (conserved) 부분만을 모아 만든 데이터베이스이다. 이중 일부는 어떤 기능을 가진 motif로 알려져 있다. PAM이 연관된 서열들과 유추된 서열로부터 치환 확률을 구하는 반면 BLOSUM은 block내에서 아미노산들을 배열한 후 각각의 아미노산들이 짝(pair)을 이루는 확률을 관찰해서 치환 확률을 구한 것이다. 연속적인 치환 행렬을 만들기 위해 서열들을 각각의 block에 clustering을 시키고 clustering percentage는 각각의 group들에 포함시키기 위한 서열들의 최소한의 일치성 (identity)으로 정의한다. 예를 들면 clustering percentage가 35%라면 임의의 서열 A와 B를 배열시켰을 때 적어도 35% 이상의 identity를 가지고 있을 때 같은 group에 포함시키고 BLOSUM35로 정의한다. 또한 임의의 서열 C가 A와 B 둘 중 하나와 35 % 이상의 identity를 가질 경우에 또한 같은 group에 포함 시킨다. 각각의 배열된 아미노산 서열들의 pair들의 갯수를 센 후 서열 A,B,C가 각각 차지하는 비중을 평균하여 측정 행렬 값들을 구한다. 2. Gap penalties Gap penalty는 삽입 혹은 삭제에 의해 생기는 gap에 얼마의 감점 (penalty)를 줄 것인가를 정하는 것이다. 현재의 통계적 계산으로는 gap penalty를 얼마를 줄 것인가에 대한 정확한 해답은 없지만 여러가지 실험적 사실을 통해 -10, -2에서 -14, -4 정도가 적당하다고 한다. 첫 번째 값은 gap이 처음 생길 때 주는 감점이고, 두 번째 값은 그 다음에 생기는 연속적인 gap에 대한 감점이다. 예를 들면 두 개의 서열 사이에 4개의 gap이 있고, -10, -2의 값을 적용하면 전체 gap penalty는 -10+3×(-2) = -16이 된다. 이렇게 다른 값을 적용하는 이유는 진화상에서 처음 gap이 생기기는 힘들지만 그 이후 연속적으로 생기는 gap은 처음에 비해 쉽게 생길 수 있기 때문이다. 큰 gap penalty (예를 들면 -14, -4)는 partial sequence (EST 같은)의 비교에 적당하다. 사용자는 gap penalty를 조정함으로써 sensitivity를 조절 할 수 있다. 예를 들면 FASTA 검색에서 expectation value가 0.2 이하로 연관성이 거의 없는 서열들이 결과로 출력되었을 때 gap penalty의 값을 올림으로서 이런 서열들을 제거 해 나갈 수 있다.

(예) s= AGCACAGA, t=ACACACTA 두 서열이 있을때 s와t를 각각행렬의 축으로 하고 unit cost model(일치=0,치환,삽입,삭제=1)을 이용하여 각각의 행렬의 항들을 채워나간다. (대각선은 일치, 혹은 치환을, 수평선은 삽입을, 수직선은 삭제를 나타낸다.) 대각선에 의해 표시된 행로에 의해 s,t를 배열하면 S = AGCACAC – A T = A - CACACTA

FASTA FASTA는 임의의 서열과 유사성을 가진 서열을 서열 데이터베이스로부터 찾는 프로그램 단백질 서열간의 비교를 위해 제작되었지만 염기 서열간의 비교도 가능 특히 TFASTA의 경우 입력한 단백질 서열과 염기 서열 데이터베이스 간의 비교도 가능 두 서열간의 dot blot을 그림으로서 비교를 시작 Dot blot에서 비슷한 서열을 가진 부분은 대각선으로 표시 문제를 해결하기 위해서 그 전 단계 문제의 답이 필요하고 다시 그 전 단계 문제의 답이 필요하여 Recursion으로 반복되는 경우, 가장 기본적인 문제의 답부터 BottomUp 방식으로 계산해 옴으로써 전체 문제를 해결하는 Algorithm. DivideAndConquer와 달리 중복된 계산을 하지 않으며, DivideAndConquer처럼 독립적인 부분문제로 나누어 접근하지 않고 종속적인 문제들의 일련을 순서에 맞게(순행 혹은 역행) 해결해 나간다. -- From DynamicProgramming BLOSUM (BLOks SUbstitution Matrix):1991년에 Altschul 등에 의해 발표된 BLOSUM은 현재 BLAST등의 검색에 제공되며 PAM과 함께 가장 많이 쓰이는 치환 행렬의 한 종류이다. BLOSUM은 Block database로부터 개발된 것으로, Block 데이터베이스는 아미노산 서열 중 다른 부분에 비해 굉장히 보존된 (conserved) 부분만을 모아 만든 데이터베이스이다. 이중 일부는 어떤 기능을 가진 motif로 알려져 있다. PAM이 연관된 서열들과 유추된 서열로부터 치환 확률을 구하는 반면 BLOSUM은 block내에서 아미노산들을 배열한 후 각각의 아미노산들이 짝(pair)을 이루는 확률을 관찰해서 치환 확률을 구한 것이다. 연속적인 치환 행렬을 만들기 위해 서열들을 각각의 block에 clustering을 시키고 clustering percentage는 각각의 group들에 포함시키기 위한 서열들의 최소한의 일치성 (identity)으로 정의한다. 예를 들면 clustering percentage가 35%라면 임의의 서열 A와 B를 배열시켰을 때 적어도 35% 이상의 identity를 가지고 있을 때 같은 group에 포함시키고 BLOSUM35로 정의한다. 또한 임의의 서열 C가 A와 B 둘 중 하나와 35 % 이상의 identity를 가질 경우에 또한 같은 group에 포함 시킨다. 각각의 배열된 아미노산 서열들의 pair들의 갯수를 센 후 서열 A,B,C가 각각 차지하는 비중을 평균하여 측정 행렬 값들을 구한다. 2. Gap penalties Gap penalty는 삽입 혹은 삭제에 의해 생기는 gap에 얼마의 감점 (penalty)를 줄 것인가를 정하는 것이다. 현재의 통계적 계산으로는 gap penalty를 얼마를 줄 것인가에 대한 정확한 해답은 없지만 여러가지 실험적 사실을 통해 -10, -2에서 -14, -4 정도가 적당하다고 한다. 첫 번째 값은 gap이 처음 생길 때 주는 감점이고, 두 번째 값은 그 다음에 생기는 연속적인 gap에 대한 감점이다. 예를 들면 두 개의 서열 사이에 4개의 gap이 있고, -10, -2의 값을 적용하면 전체 gap penalty는 -10+3×(-2) = -16이 된다. 이렇게 다른 값을 적용하는 이유는 진화상에서 처음 gap이 생기기는 힘들지만 그 이후 연속적으로 생기는 gap은 처음에 비해 쉽게 생길 수 있기 때문이다. 큰 gap penalty (예를 들면 -14, -4)는 partial sequence (EST 같은)의 비교에 적당하다. 사용자는 gap penalty를 조정함으로써 sensitivity를 조절 할 수 있다. 예를 들면 FASTA 검색에서 expectation value가 0.2 이하로 연관성이 거의 없는 서열들이 결과로 출력되었을 때 gap penalty의 값을 올림으로서 이런 서열들을 제거 해 나갈 수 있다. 그려진 대각선들의 합을 계산

FASTA 염기 서열 혹은 단백질 서열간의 유사성 검사 TFASTA 입력한 단백질 서열과 데이터베이스의 염기 서열 translation 시킨 후 유사성 검사 LFASTA 두 단백질 혹은 염기 서열의 부분 유사성 검색(compare local similarity)을 수행한 후 부분 서열 배열(local sequence alignment)의 결과를 보여줌 PFASTA 두 서열의 부분 유사성 검색 후 부분 서열의 결과 를 그림으로 보여줌

BLAST FASTA 의 속도를 높이기 위해 고안된 algorithm Word length를 3(일반적으로 w로 표기)으로 하여 query에서 score가 특정 T보다 큰 words를 찾는다. Word list와 Database를 비교하여 일치하는 부분을 찾는다. 일치된 Word를 중심으로 양방향으로 확장하여 threadhold S 이상의 score를 가지는 alignment를 찾는다.

Threading 대상서열을 이미 알려진 구조에 끼워 맞추어 가장 유사한 구조를 골라내는 방법 해당 원형(template)을 찾은 후에도 서열 구조를 맞추어야 한다. (protein folding 이용) 데이터베이스에서 유사성 있는 sequence를 찾고자 입력하는 sequence를 query sequence라고 합니다. 베이스 시퀀스의 경우 a t g c 의 4개의 문자로만 이루어져 있기 때문에 우연히 매칭이 될 확률이 높은 반면, 아미노산 시퀀스를 사용할 경우 20여개의 문자를 매칭하므로 좀더 엄밀한 매칭이 이루어 질수 있습니다. 시퀀싱에 사용되는 대표적인 알고리즘으로 Smith Waterman, FASTA, BLASTP가 있으며,

Reference http://bric.postech.ac.kr/issue/aminoacid-05.html http://www.chemie.fu-berlin.de/chemistry/bio/amino-acids_en.html http://www.rcsb.org/pdb/ http://www.ksbi.or.kr/database.html http://www.msi.com http://www.accelrys.com/doc/life/quanta2K/protein/22_Using_Modeler.html http://guitar.rockerfeller.edu/modeller/modeller.html http://predictioncneter.llnl.gov http://www.bmm.incept.uk/~3dpssm