정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)

정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)
김진숙 한국과학기술정보연구원 바이오인포매틱스센터 종종 발표자는 주제나 어휘에 익숙하지 않은 청중에게 기술적 성격의 자료를 전달해야 합니다. 자료는 복잡하거나 많은 양의 상세 정보를 나타낼 수 있습니다. 기술적인 자료를 효과적으로 발표하려면 Dale Carnegie Training®의 지침 따라 하기를 이용하십시오. 사용 가능한 시간의 양을 고려하여 자료를 구성하도록 준비하십시오. 주제의 범위를 좁히십시오. 프레젠테이션을 명확하게 부분으로 나누십시오. 논리적으로 진행하십시오. 처음부터 끝까지 요점을 유지하십시오. 요약, 주요 단계의 반복, 논리적 결론으로 프레젠테이션을 끝맺음 하십시오. 청중이 시종일관 집중할 수 있도록 하십시오. 예를 들어, 반드시 데이터는 명확하고 정보는 관련이 있도록 하십시오. 상세 정보와 어휘의 수준이 청중에 적합하도록 유지하십시오. 주요 요점과 단계를 뒷받침 하기 위해 시각적 요소를 사용하십시오. 청중의 욕구에 주의를 기울이십시오. 그러면 청중이 이해하는 데 도움이 될 것입니다.

요약 생물서열 데이터베이스가 급격히 증가하면서 보다 다양하고 정확한 서열 분석 요구가 증가하고 있다. 그러나 기존의 생물학 연구 분야에서 널리 이용되는 서열 검색 도구들은 패턴 인식을 기반으로 하는 알고리즘을 사용하고 있으므로 계산복잡도가 매우 크다는 단점을 가지고 있다. 이러한 단점을 보완하고 다양한 서열 분석 결과를 도출할 수 있기 위해서는 생물정보의 분석에 정보기술을 적용하는 BT-IT 융합기술의 필요성이 대두되어 왔다. 그 일례로 단백질 서열로부터의 N-Gram 자질 추출 방법, 정보검색(Information Retrieval) 알고리즘 및 문서분류(Text Categorization) 알고리즘을 단백질 서열 데이터베이스에 적용하는 방법에 대해 설명하고, 정보검색 기반의 단백질 서열 검색 기법과 문서분류 기반의 단백질 서열 분류 기법에 대한 결과를 소개한다.

차례 BLAST(Basic Local Alignment Search Tool) 정보검색 / 문서분류
단백질 서열의 N-Gram 색인 및 검색 KRISTAL-2002 정보검색관리시스템 생물서열 검색 시스템: Bio-KRISTAL 단백질서열 검색시스템 (ProSeS) ProSeS 성능시험 단백질서열 분류시스템 (ProSLP) ProSLP 성능시험 결론 향후 연구방향 소개에서 청중과 주제의 관련성을 전달하십시오. 프레젠테이션의 간략한 시연을 제공하고 이 프레젠테이션이 청중에게 얼마나 중요한지를 입증하십시오. 어휘, 예제, 설명을 선택할 때는 청중의 관심사와 전문가적 지식 수준을 고려하십시오. 주제가 청중에게 중요하다는 점을 강조하면 청중의 주의를 끄는 데 도움을 줍니다.

BLAST BLAST (Basic Local Alignment Search Tool) 가장 널리 사용되는 생물 서열 검색도구
서열간 Local Homology를 기반으로 DNA 및 단백질 서열 검색 3-Gram 색인을 통한 원시적인 색인 방식채택 문자열 비교(Pattern Matching)를 이용하여 유사 서열 검색 Pattern Matching 알고리즘을 사용하기 때문에 계산 복잡도가 매우 높음 이로 인해 NCBI의 GenBank 대상으로 서열을 검색했을 때 수분 ~ 수십 분의 검색시간이 소요됨 기능이 서열 검색에 제한됨 만약 요점, 단계, 주요 아이디어가 여러 개 있으면 여러 장의 슬라이드를 이용하십시오. 청중이 새로운 아이디어를 이해하고, 수행 과정을 배우거나 친숙한 개념에 대해 좀 더 깊이 있게 받아들이는 지를 결정하십시오. 적절한 설명으로 각 요점을 뒷받침하십시오. 책자, 디스크, 전자 메일 또는 인터넷의 기술 지원 데이터를 이용해서 프레젠테이션을 보완하십시오. 청중과 의사 소통을 할 수 있도록 각 각의 요점을 적절히 개발하십시오.

정보검색(Information Retrieval)
문서 자질: 문서내에 출현하는 단어를 추출(색인) 색인 저장: 역파일(Inverted File)로 저장 문서 검색: 역파일로부터 질의 단어 출현 문서 제공 문서집합 역파일 검색 (1) 무당벌레는 화려한 외형때문에 아름… . (무당벌레) 1, 5 (2) 곤충들은 보호색을 띠어 천적을 … 무당벌레 1,5 (천적) 2, 3, 5 (3) 응애와 진딧물 천적인 진디벌을 생산… . (무당벌레&천적) 5 (4) 해오라기는 뚱뚱하고 짧은 다리의 … 천적 2,3,5 (5) . 무당벌레를 이용한 천적농업을 시행… (무당벌레|천적) 5, 1, 2, 3

문서분류(Text Categorization)
문서 자질: 범주가 주어진 문서 내에 출현하는 단어를 추출 자질 선별: 주요 단어를 선정하여 문서의 자질로 표현 자질 저장: 범주-자질 관련 정보를 알고리즘에 따라 다양하게 표현 문서 분류: 범주-자질 정보와 문서의 자질을 비교하여 범주 부여 범주 문서집합 범주-자질 문서분류 무당벌레는 화려한 외형때문에 아름… (곤충) 진딧물의 천적인 무당벌레는 하루에 400마리를 먹어… 범주-자질 데이터베이스 (곤충) 곤충들은 보호색을 띠어 천적을 … (진딧물, 천적, 무당벌레) (곤충) 응애와 진딧물 천적인 진디벌을 생산… (농업) (조류) 해오라기는 뚱뚱하고 짧은 다리의 … 곤충 (95%) 농업 (67%) (농업) 무당벌레를 이용한 천적농업을 시행… (곤충)

정보검색을 이용한 단백질서열 분석 정보검색/문서분류와의 유사성 문제점
단백질 아미노산 서열은 20개 아미노산 코드로 작성된 하나의 문서로 간주할 수 있음 각 서열은 자연어 문서와 마찬가지로 1차원의 문자열로 구성되어 있음  따라서 생물 서열 정보에 대해서도 자연어 대상의 대상의 정보검색모델 및 문서분류 알고리즘을 적용할 수 있음 문제점 자연어와는 달리 구분자가 없어서 색인을 추출하기 용이하지 않음  따라서 서열의 자질을 추출할 수 있는 새로운 방식의 색인 기법이 요구됨 색인을 추출한다고 하더라도 자연어를 대상으로 하는 정보검색 모델이 단백질 서열 검색에 적합하다는 보장이 없음

단백질 서열 색인 TASHNPGGKEHGDFGIGAPAPEDFTDQI TASH NPGG EDFT ASHN PGGK DFTD
중첩 N-Gram 방식 색인 N = 3, 4, 5, 6, 7을 대상으로 함 예: 4-gram을 이용한 아미노산 서열 색인 방법 TASHNPGGKEHGDFGIGAPAPEDFTDQI TASH NPGG EDFT ASHN PGGK DFTD .... SHNP GGKE FTDQ HNPG GKEH TDQI

단백질 서열 검색 벡터공간모델 (Vector Space Model)
두 개의 서열을 색인어의 벡터로 표현하여 두 벡터간의 내적(inner product)을 기본적인 유사도로 함 각 벡터의 원소는 색인어의 출현빈도, 문서빈도, 문서의 길이로 정의되는 색인어 가중치로 표현 장점 정보검색 분야에서 이루어진 다양한 연구 결과를 바탕으로 빠른 검색을 수행할 수 있음 구현이 쉽고, 웹 검색엔진과 같은 대용량 시스템에서 그 성능이 이미 검증되었음 단점 색인어간의 국지성(Locality) 정보를 반영하지 않음 이로 인해 서열 검색에서 유사도가 낮은 서열간의 유사도를 정확하게 계산할 수 없음

단백질 서열 검색: 유사도

KRISTAL-2002 KRISTAL-2002 소개 KISTI가 개발 보급하고 있는 범용 정보검색관리시스템 (Information Retrieval & Management System) 서지정보, Full-text, 학회지 원문, 학위논문 등의 문서에 대한 정보서비스를 지원하기 위해 개발 현재 KISTI의 과학기술정보서비스의 주 정보시스템으로 활용되고 있음 검색모델: 불리안(Boolean) 모델, 벡터공간모델, 확장 불리안 모델 등 서버/클라이언트 구조 채택 문서의 관리를 위한 로깅, 온라인 문서 수정, Consistency Control 등의 기능 제공 (DBMS의 관리 기능) 홈페이지:

Bio-KRISTAL KRISTAL-2002 시스템 기반의 생물정보 검색 시스템 설계 현황
단백질 서열 색인기 (구현 완료) 적용 사례: ProSeS ( DNA 서열 색인기 (설계 및 구현중) 단백질 서열 분류 엔진 (구현 완료) 적용 사례: ProSLP ( DNA/단백질 서열을 위한 신규 검색 모델 (설계중)

Bio-KRISTAL 구조도 … Bio-KRISTAL System Architecture …
Protein Sequence Indexer Protein Sequence Classification Engine DNA/Protein Sequence Retrieval Engine DNA Sequence Indexer KRISTAL-2002 Information Retrieval & Management System Annotation Indexer Fast Information Retrieval Engine Set Manager Data Loader … Retrieval Oriented Storage Engine Catalog DB1 DB2 DBn Set …

단백질 서열 검색 (ProSeS) 단백질서열검색(Protein Sequence Search)
URL: Bio-KRISTAL 기반 PIR-NREF DB 서열 검색 서비스 5-Gram 색인을 기반으로 하는 단백질 서열 검색 서비스 벡터공간모델을 이용한 유사 서열 제공 BLAST의 대안 또는 보완 검색 서비스 제공 부가 서비스 관련 superfamily 정보 제공 단백질 세포내 위치 예측 결과 제공 관련 주제어 제시 현재 종합적인 단백질 분석 서비스를 제공하기 위해 서비스 재설계 및 재개발중임

단백질 서열 검색 (ProSeS) 입력 인터페이스: FASTA 포맷

단백질 서열 검색 (ProSeS) 검색 결과: 간략정보
유사도가 높은 결과부터 NREF ID, 단백질 이름, 종 정보, 가중치 등 간략 정보 표시

단백질 서열 검색 (ProSeS) 검색 결과: Alignment
Smith-Waterman 정렬 알고리즘에 의한 Alignment 결과

단백질 서열 검색 (ProSeS) 부가 분석 서비스: 세포내 위치 예측 결과
부가 분석 서비스: 기능 분류(superfamily 정보)

단백질 서열 검색 (ProSeS) 부가 분석 서비스: 관련 주제어 제시
신규 단백질의 Annotation 보조 도구로서 활용 가능

ProSeS 성능 시험 시험 데이터 집합 (Test Set) 질의: 총 100개의 단백질 서열을 무작위로 선정
PIR-NREF Release 1.26: 단백질 서열 127만건(405M a.a.) 질의: 총 100개의 단백질 서열을 무작위로 선정 대상 N-GRAM 3,4,5,6-Gram 방식에 대해서 성능 비교 비교 방법 : BLAST 검색결과와 대조 100개의 질의 서열에 대한 BLAST 검색결과를 대조구로 하여 ProSeS의 검색결과로부터 11점 평균 정확률 (11-pt. Average Precision)을 측정 (비고) BLAST의 결과가 정답이라는 보장을 할 수 없으나 보편적으로 사용되는 서열 검색 도구이므로 ProSeS 서비스의 개략적인 성능을 알 수 있을 것임

ProSeS 성능 시험 N-Gram 정보 N6-A18: 20개 아미노산 중 V = I, F = Y로 취급 (BLOSUM62 scoring matrix에서 가장 높은 값을 가짐) #Term은 이론적으로 발생할 수 있는 N-Gram의 경우의 수

ProSeS 성능 시험 11-pt. Recall-Precision Graph 11pt. Avg. = 0.63
Pr. at 0.1 = 0.87 11pt. Avg. = 0.63

ProSeS 성능 시험 N-Gram 성능 5-Gram이 가장 좋은 성능을 보여줌 검색 시간: BLAST 대비 38배 빠른 속도
색인 Overhead: 서열의 5.3배 저장공간 및 색인 시간이 추가적으로 필요

ProSeS 성능 시험 결론 토론 시험한 N-Gram 중에서는 5-Gram이 가장 좋은 단백질 검색 성능을 보여주었다.
BLAST와의 검색결과 유사도는 11점 평균 재현율-정확도로 측정했을 때 63%였으며, 상위 10%내에서는 87%의 유사도를 보인다. 검색속도는 BLAST에 비해 38배정도 빨랐다. 토론 상동성(Homology)이 높은 서열에 대한 검색은 BLAST와 거의 동일한 검색결과를 보여주었으나 일부에서 국지적인 상동성(Local similarity)을 보이는 서열에 대한 검색이 BLAST와는 달리 나타나는 경우가 많았다.

단백질 세포내 위치예측(ProSLP) Protein Subcelluar Localization Prediction)
URL: Swiss-Prot DB를 분석하여 위치를 추정할 수 있는 약 52,000개의 단백질 서열 데이터베이스를 기반으로 하여 신규 단백질에 대한 위치예측 기능 제공 kNN (k-Nearest Neighbor) 문서분류 알고리즘을 적용한 단백질 세포내 위치예측 시스템 질의 서열과 가장 유사한 k개의 단백질이 가지는 위치 정보를 이용하여 신규 단백질의 위치 추정 부가 서비스 타 예측 사이트(Psort, Ploc, Predotar 등)에 대한 메타 엔진 기능 수행

단백질 세포내 위치예측(ProSLP) 입력 인터페이스 : FASTA 포맷

단백질 세포내 위치예측(ProSLP) 검색결과

ProSLP 성능 시험 데이터 집합 (부록 참조)

ProSLP 성능 시험 결과 (부록참조)

ProSLP 성능 시험 PLOC 시스템과의 성능 비교

ProSLP 성능 시험 결론 kNN 분류기를 적용한 세포내 위치 예측 시스템은 SLP 데이터 집합에 대해서 93%, PLOC 데이터 집합에 대해 81%의 정확도를 보여주었다. 타 시스템(PLOC 시스템)에 비해서도 높은 성능을 보여주었으며, 52,000건에 이르는 대용량 데이터 집합에 대한 분류가 가능하였다. 토론 kNN 분류기의 경우 데이터 집합의 크기가 클수록 예측 정확도가 높아졌다. 이는 kNN 분류 알고리즘이 예제를 기반하여 결과를 예측하므로 예제가 많을수록 분류 정확도가 높아진다는 것을 의미한다.

결론 N-Gram 색인 방식과 정보검색 알고리즘을 적용한 단백질 서열 검색 결과는 BLAST와 비교했을 때 63%의 유사성을 보여 주었으며, BLASTP에 비해 38배 이상 빠른 검색을 수행하였다. 또한 상동성이 높은 서열에 대한 검색은 BLAST의 결과와 거의 동일하였다. 문서분류 알고리즘을 적용한 단백질 세포내 위치 예측 시스템은 기존의 시스템에 비해 뛰어난 성능과 속도를 보여주었으며 52,000 건에 이르는 대용량 분류 데이터 집합에 대해서도 성공적으로 적용가능하였다. 따라서 다양한 정보기술(IT)을 적용함으로써 보다 효율적인 생물정보 분석 기술이 개발될 수 있을 것으로 예측된다.

향후 연구계획 색인/검색모델 Bio-KRISTAL 확장 단백질 서열 분석 서비스
색인어의 국지성(Locality)을 지원하는 신규 검색모델 혼합 N-Gram 방식의 색인 기법 연구 Bio-KRISTAL 확장 N-Gram 기반의 유전자 염기서열 색인 기법 연구 유전자 염기서열 검색 서비스 구축 단백질 서열 분석 서비스 다양한 단백질 분류(Pfam, Superfamily, Blocks, ProDom, SMART 등)에 따른 신규 단백질의 기능/구조 분류시스템 구축 (참조) 보다 자세한 내용은 부록에 실은 2편의 보고서를 참조하시기 바랍니다.

정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)

Similar presentations

Presentation on theme: "정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)"— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)

Similar presentations

Presentation on theme: "정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)"— Presentation transcript:

Similar presentations

About project

지원