제 8장 서열정렬과 데이터베이스 검색
8-1. 서론 서열 정렬법(sequence aligment) : 두 개 이상의 잔기를 가지는 서열간의 정확한 관계를 나타냄. 8-2. 서열정렬의 진화론적 기초 서열 정렬의 목적 : 두 서열간의 유사한 정도를 비교하여 상동성 유무를 결론내리기 위함 초기의 서열정렬 방법 - 서열의 전 범위에 걸쳐 유사성이 쉽게 판별되는 간단한 경우에만 사 용 - 서열의 전 범위에 걸친 정렬인 전역정렬(global alignment)사용
CLUSTAL W
8-3. 단백질의 모듈적 특성 전역정렬 방법(Global alignment method) - 유전자의 엑손/인트론 구조 발견 전에 개발 - 부적절 사용시 부분적인 유사성 놓칠 수 있음 국소정렬(local alignment) - 서열비교에서는 국소정렬이 권장 - 접합 mRNA의 염기서열을 그 염색체 서열과 비교 시 사용 점행렬 서열비교법(dot-matrix representation) - 다양한 곳에서 나타나는 서열 유사성과 이들 사이의 복잡한 상관관계를 잘 보여줌 - 도터(dotter) 프로그램 이용 경로 그래프(path graph) - 분명한 정렬 결과 도출
Dotter program
8-4. 최적 정렬 방법 니들만-운쉬(Needleman-Wunsch) 알고리즘 - 최적 서열정렬을 찾는 문제에 동적 프로그래밍(dynamic programming)이라 불리는 최선-경로전략(best-path strategy)을 적용한 것 - 최적정렬은 두 개의 서열의 처음부터 끝까지 즉, 전역서열을 찾는 것 스미스-워터만(Smith-Waterman) 알고리즘 - 서열의 잘 일치되지 않는 부분에서는 점수가 감소하는 점수가산 체계를 이용 - 최선의 k 국소정렬이 제기 → 후에 발전하여 SIM 알고리즘으로 개발 (라라인<lalign> 프로그램을 사용하면 SIM을 유용하게 수행) 최적 정렬법을 사용하면 항상 최선의 정렬을 얻을 수 있으나 생물학적인 의미 없을 수도 있다.
FASTA & 니들만 운쉬 FASTA
8-5 치환 점수와 공백 벌점 치환행렬의 이용 ; 단백질 비교 시 약한 정렬에 대한 감도를 증가시킴 보존적 치환(conservative substitution) ; 관련 단백질 간에는 특정 아미노산들이 서로 쉽게 치환되어 있는데 이는 비슷한 물리화학적 성질을 가지기 때문 ※예: 소수성인 이소루이신→발린, 극성인 세린→트레오닌으로 치환된 경우 점 순응 돌연변이(point accepted mutation, PAM) - 초기에 널리 사용된 치환행렬 - 한 개의 PAM이란 1%의 아미노산이 변화된 진화적인 분기점을 나타내는 단위 치환빈도 자연빈도(background frequencies) : 적당한 돌연변이가 선택되지 않을 때 각각의 가증한 치환 빈도는 다양한 아미노산의 치환빈도에 영향받음 목적빈도(target frequencies) : 관련 단백질 간에는 단백질의 기능을 심각하게 저해하지 않는 방향으로 치환되는 경향이 관찰됨(점 돌연변이가 진화과정 중에 순응됨) 로그-오드 접근법(log-odd approach) ; 행렬 내의 치환점수가 자연빈도와 목적빈도 비율의 자연로그값에 비례
블로섬 치환행렬(BLOSUM substitution matrix) - 관련이 먼 서열의 국소적 다수정렬(local multiple alignment, 블록스)을 포함하는 블록스 데이터베링스(BLOCKS database)에서 유도됨 -직접적 관찰에 의해 데이터를 만드는 것이 장점 -PAM과 같은 번호가 매겨져 있지만 이 번호는 서열이 가질 수 있는 최대수준의 동일성을 나타내며 여전히 독립적으로 모델에 기여함 공백 벌점 방식 - 공백이 삽입될 때 일정한 값을 감하고 또 공백의 길이에 비례하여 부가적으로 감점을 하는 어파인 공백 벌점(affine gap penalties) - 2가지 변수 ① 공백-시작 벌점(gap-opening penalties)→G ② 공백-연장 벌점(gap-extension penalties)→L - 길이가 n인 공백일 경우의 총 감점 : G + nL - 공백 변수 선정 ; 대부분 경험에 의존하나, G에 대해서는 높은 값을, L에 대해서는 낮은 값을 사용하는 것이 일반적
8-6 정렬의 통계적 유의성 전역정렬의 예상 점수분포 ; 수학적인 이론이 아직 없다. → 동일한 길이와 구성을 가지는 임의의 서열에서 만들어진 여러가지 정렬의 점수와 비교하는 방법이 사용됨 국소정렬의 예상 점수분포 - 킬린 및 알출(Karlin & Altschul)의 통계모델 ; 임의의 국소정렬 점수의 예상분포를 나타낼 수 있는 수학적인 이론을 제공(이런 확률 밀도함수를 극한값 분포<extreme value distribution>) - 극한값 분포의 두 개의 변수 K 와 λ로 나타냄 E-값(기대치,E-value, 통계적 유의성) - 통계적 유의성을 관측된 정렬점수 S값을 예상되는 분포에 연관시켜 계산가능 - S값과 최소한 같은 점수를 가진 정렬의 개수 - 검색공간의 크기(데이터베이스)가 클수록 정렬의 확률도 높아짐 - 모서리 효과(edge effect)를 피하기 위해 국소정렬 길이를 빼야한다 ; 검색공간의 모서리 가까이에서 시작되는 정렬은 유의성있는 점수를 얻기 전에 서열이 끝나는 까닭
; 데이터베이스 내에 존재하는 수백, 수천의 서열 중에 어느 서열이 잠정적으로 특정 서열과 관련이 있는지를 결정하도록 도와줌 8-7 데이터베이스 유사성 검색 ; 데이터베이스 내에 존재하는 수백, 수천의 서열 중에 어느 서열이 잠정적으로 특정 서열과 관련이 있는지를 결정하도록 도와줌 검색의 가장 기본적인 작업 : 검색하려는 검색서열을 데이터베이스 내의 각각의 주서열(subject sequence)과 연속적으로 정렬하는 것 검색의 효율성에 영향을 미치는 요인 - 검색 프로그램 - 서열 데이터베이스의 선택 - 다양한 선택적 파라미터들 - 콘솔 명령어, 웹-기반 형태들, 전자메일 등 언어-기반법(word-based method) - 서열을 단어라는 짧은 연속적인 문자로 나누는 전략에 기반을 둠(1980년 초) - 현재 사용되는 모든 대중 대중적인 검색 프로그램에 사용
8-7-1 파스타(FASTA) - 데이터베이스 유사성 검색에 처음으로 널리 사용된 프로그램 - 감도를 높이기 위해 치환행렬을 사용하여 국소정렬을 찾는 검색을 수행 - 단어 히트(hit, 적중)의 패턴을 사용 - 단어크기 조절하는 ktup 변수에 의해 조절 Ktup 값이 증가→자연 단어 히트(background word hit) 수가 줄게 됨 → 최적 검색량이 감소, 전반적인 검색속도 증가 - 검색시 보이는 단어 히트 모두를 조사하는 것이 아니라 몇 개의 근사 단어 히트(nearby hit)를 포함하는 세그먼트를 먼저 조사 -단백질이 다수의 모듈로 이루어져 있는 경우 ; 의미있는 정렬을 놓칠 수도 있으므로 일치된 서열들을 라라인 프로그램으로 한 단계 더 분석하는 것이 좋다. 파스타 버전 2.0 프로그램 - 각 정렬에 대한 통계적인 유의성 예측이 가능 - Z-점수 계산 : 단순 선형회귀 분석법이 사용
- 데이터베이스 검색을 정밀하게 하고 검색속도를 향상 8-7-2 블라스트(BLAST) - 데이터베이스 검색을 정밀하게 하고 검색속도를 향상 - 연관 단어(neighborhood words)라는 혁신적인 개념이 도입 - 단어를 찾은 후에는 그 값이 최소한의 점수 기준치(cutoff) S와 동일한 부분적 최적 정렬을 찾으려 시도 → 일치, 불일치 및 공백의 삽입에 대하여 증가 점수를 축적하면서 정렬을 좌측 및 우측으로 반복적으로 연장하여 나가는 방법 블라스트의 종류 프로그램 요청서열 데이터베이스 참고 BLASTP 단백질 단백질 관련성이 먼 것을 찾기 위한 치환행 렬을 사용 : 세그(SEG) 여과가 가능 BLASTN 염기 염기 관련성이 멀지 않으며 아주 점수가 높은 매 치에 맞게 설정 BLASTX 염기(번역된) 단백질 새로운 DNA 서열 및 EST 분석에 유용 TBLASTN 단백질 염기(번역된) 데이터베이스 서열 중 기능해석이 없는 코딩 부위를 찾는 데 이용 TBLASTX 염기(번역된) 염기(번역된) EST 분석에 유용성 있으나 많은 계산을 요함 ※ 서버에 위치해 있는 서열 데이터베이스를 이용, 지역적으로 데이터베이스를 유지할 필요 없음
블라스트와 사용 가능한 염기서열 데이터베이스 데이터베이스 내 용 nr EST, STS 및 GSS 부분을 제외한 중복되지 않는 젠뱅크 month nr의 일부분으로 최근 30일 이내에 새로이 등록되거나 갱신된 것 est 젠뱅크 EST 부분(espressed sequence tags) sts 젠뱉크 STS 부분(sequence tagged sites) htgs 젠뱅크 HTG 부분(high-throughput genomic sequences) gss 젠뱅크 GSS 부분(genome ssurrey sequence) ecoli 대장륜(E. coli)의 완전한 유전체 서열 yeast 효모(S. cerevisiae)의 완전한 유전체서열 drosoph 초파리(D. melanogaster)의 완전한 유전체서열 mito 척추동물 미토콘드리아의 오나전한 유전체서열 alu 영장류의 Alu 반복서열 모음 vector 널리 사용되는 클로닝 벡터 모음
8-8 데이터베이스 검색시의 오류 - 젠뱅크와 SWISS-PROT에서 검색 시 : 검색결과의 문제가 발생될 수 있음 리피트마스커(RepeatMasker)프로그램 - 반복 요소 문제는 쉽게 해결가능 - 반복요소와 단순반복서열의 다양한 형태를 확인하고 분류, 차폐함 - 연질차폐에 –xsmall로 표기되는 명령행(command line) 옵션사용가능 ① 경질차폐(hard masking) - 하부서열을 모호성 문자(염기서열;N, 단백질; X)로 대치하는 것 - 확인된 반복서열이 정렬점수에 가산되는 것을 방지 - 정렬점수와 길이가 정렬분류에 사용시 원래의 정렬이 변형될 수 있음 ② 연질차폐(soft-masking) - 잔기를 소문자로 바꾸는 것으로 특정 검색 프로그램 에서만 사용 - 경질차폐서 원래의 정렬이 변형되는 것의 해방책 세그(seg) - 단백질서열을 구성 복잡도가 높거나 낮은 세그먼트로 나누어주는 프로그램 - 데이터베이스 내 단백질 중 절반 이상이 최소한 하나 이상의 LCR(low- complexity region)을 포함함을 밝힘
RepeatMasker
8-9 위치-특이 점수행렬 위치-특이 점수행렬(position-specific scoring matrices,PSSM) - 감추어진 말코브 모델(Hidden Markov model,HMM), 모티프 or 프로필 - 모트프를 따라 각 위치에(각 아미노산에 하나씩) 20개의 치환점수 세트로 구성 - 일반적으로 사용되는 소프트웨어 패키지 흠머(HMMER)는 PSSM을 만들고 사용하는 데 관련된 프로그램 세트를 포함 흠빌드(hmmbuild) : 위치-특이적 점수 계산, HMM 형태의 파일로 저장 흠서치(hmmsearch) : HMM 파일을 서열 데이터베이스에 대한 질의서열로 사용함 흠팸(hmmpfam) : PSSM(HMM)의 데이터베이스에 대해 단일 검색 서열 비교시 사용 위치-특이 반복적 블라스트(Position-Specific Iterated BLAST,PSI-BLAST) - 단일 프로그램 내에서 PSSM을 제조하고 정제하여 검색하는 자동화된 기능 제공
PSSM(position-specific scoring matrices)
8-10 접합정렬 심4(sim4) 프로그램 - mRNA/유전체 정렬을 빠르고 정확하게 수행하여 유전체 해석을 하도록 도 와줌(est_gemone과 est2gen 프로그램 사용) - 명확한 엑손 찾기→ 소실된 엑손 확인위해 엄중도(stringency)를 낮게 해 검색