5. 구조 데이터베이스 구조모델: 아름답고 신기
목 차 구조에 대한 서론 PDB-Protein Data Bank—단백질 정보 은행 Brookhaven National Laboratories ->Research Collaboratory for Structural Biology) MMDB-Molecular Modeling Data Base 구조 파일포맷 구조 정보 보기 데이터베이스 구조보기 소프트웨어 고차원 구조 모델링 구조 유사성 검색
Ⅰ.구조에 대한 서론 ⊙3차원 분자 구조 데이터의 개념 생체 고분자 화합물의 구조를 생물 정보학적 관점에서 소개 목적 : 구조적 데이터베이스 기록의 내용 소개 & 소프트웨어들 다루는 방식과 오류 언급 ⊙3차원 분자 구조 데이터의 개념 ◈ 생체 고분자의 3차원 구조 데이터를 기록하는 방법 -서열 완성→ 생체 고분자의 이차원적 그림→ 원자간 거리 측정→ x,y,z좌표 기입 ◈ 3차원 구조 데이터베이스 기록의 두 가지 요소 -화학구조, 원자의 공간에서의 위치->사람이 인식하기에 적절 -단점) 컴퓨터가 인식하기 어려움 →구조 생물 정보학 컴퓨터는 원자, 결합, 좌표, 잔기 분자등의 정보가 encoding 되어야 인식할 수 있고 이러한 필요성 때문에 구조생물 정보학 대두 암호화 단백질 서열정보 단백질 구조분석
⊙ 좌표,서열 및 화학 그래프 ⊙ 원자, 결합 및 완벽성 ◈ 3차원 구조 기록에서 가장 확실한 데이터 : 원자의 공간상의 위치를 말해주는 좌표 데이터 (x,y,z값으로 표현) ◈ 원자의 좌표데이터는 구조기록의 표식정보(labeling information)목록에 첨부 :비가공 서열에서 시작 ◈ 각각의 서열은 상당량의 화학적 테이터를 함축 -서열정보만으로 대략적 그림(sketch)을 그려낼 수 있음 :3차원 구조의 화학적 그래프 부분 ⊙ 원자, 결합 및 완벽성 Connection: 원자간 화학결합 ◈화학규칙 접근법:원자 및 원자결합을 기록한 방법 (C-C결합의 평균거리는 1.5Å) PDB파일포맷의 기본 unknown 잔기 ‘X’로 표시 원자쌍 간의 결합거리와 결합형태에 관한 정보 필요 ◈명시적 결합 접근법: MMDB에서 사용하는 방법(분자구조 묘사) PDB 포맷에서 파생된 파일포맷 형태 화학규칙 접근법 보다 더욱 간단한 소프트웨어
OpenGL과 Cn3D를 사용하여 표시한 인슐린 구조 3INS ▷ 서열을 구조 데이터베이스로 전환함에 있어 해결해야할 문제점 ① 활성 생물학적 단위를 코드화 하지 못함 ② 관찰된 구조와 원래 유전자간의 관련성을 코드화하지 못함
Ⅱ. PDB:구조생물정보학 연구연합의 단백질 데이터 은행 X-선 결정학, NMR 방법, 그리고 분자 모델링 등 기타 방법에 의해 밝혀진 분자 구조의 좌표를 비롯한 단백질 관련 정보를 수록 ⊙ RCSB Database 서비스 ◈ RCSB의 단백질 데이터 은행의 월드와이드 웹 사이트 -3차원 구조 데이터를 투고하고 검색할수 있는 서비스 제공
⊙ PDB질의검색 및 결과보고 ◈3차원 분자구조 찾기 위한 검색엔진 SearchLite - Database를 텍스트로 검색 SearchFields - Database 내에서 특정한 필드를 검색할수 있는 부가적인 기능 제공
◈구조정보의 투고 (autoDep/Input/Tool) -ADIT 서비스: 데이터 포맷이 맞는지 검사 구조와 질을 판단 → automatic validation report 결합거리, 각도, 비틀림 각도, 핵산비교, 결정패킹 등이 포함 ◈ PDB ID 코드 -PDB에 있는 각 구조는 4자리 코드를 이용 (문자A~Z,숫자0~9) ex) 3ins- insulin 4hhb- hemoglobin ◈Database의 검색, PDB파일 읽어들이기, mmCIF파일 읽어들이기 및 링크 -Macromolecular Crystallographic Information File -Structure Explorer : PDB자료 검색에 사용, 링크제공(FSSP(구조적 진화), DALI, protein motion visualization tool)
⊙ 구조 기록의 서열 ◈PDB의 서열정보기록의 형태 ①외형서열(explicit sequence) : 키워드 SEQRES로 시작되는 행에 기재됨 세 개의 문자로 된 아미노산 코드 사용 단점) 일관성 있는 규칙이 없다(비표준 아미노산 코드 사용) 원자의 이름과 원소형태를 분리하여 기록할 수 없다 ②내재서열(implicit sequence) : PDB파일의(x,y,z)데이터에 내재한 입체화학과 각 ATOM 기록의 이름속에 포함 → 외형서열의 문제점 해결& 비표준 아미노산 확인 Cf) NDB http://ndbserver.rutgers.edu/핵산에 대한 구조정보 PDB파일보기 소프트웨어-대부분이 외형서열 SEQRES 정보를 무시, 내재서열 정보만을 이용해 PDB기록의 화학그래프를 재구축함 ex) ELVISISALIVES – ISA 서열에 관한 좌표정보가 없을때→ ELVISLIVES
3TSI실험구조를 이용하여 3차원 구조보기 소프트웨어의 서열 번호매기기 오류검사
⊙ PDB 서열의 검증 서열검증 위해 ATOM 기록에 있는 내재서열 도출해내야함 단백질 구조에 공백존재-내재서열 단편만 존재→외형서열과 반드시 정렬시켜야함 MMBD-검증된 단백질 및 핵산 서열을 검색 주의할점- SWISS-PROT서열이 반드시 구조와 일치하지 않는다,계통분류가 모호함
Ⅲ. MMDB :NCBI의 분자모델링 데이터베이스 ⊙ 구조 기록의 프리 텍스트 검색 ◈MMDB 데이터베이스 검색: NCBI 홈페이지에서 엔트레즈 사용 ◈MMDB 검색항목: PDB 및 MMDB ID 코드, PDB REMARK 원본기록의 free text 저자이름, 참고문헌 ⊙ MMDB 구조요약 ◈MMDB 웹 인터페이스: MMDB 구조기록에 대한 구조요약 페이지 제공 ◈MMDB 구조요약페이지: 단백질 구조 내 chain의 파스타 형식 서열,메드라인 참고문헌 으로의 링크, 구조상에서 특정사슬에 이읏하는 단백질 또는 핵산서열로의 링크 등을 제공 ⊙ PDB 서열에 대한 BLAST:새로운 서열의 유사성 ◈새로운 서열과 관련된 구조는 NCBI 블라스트를 사용 ◈블라스트 데이터베이스: MMDB의 모든 검증된 서열정보사본을 포함함 →파스타 형식의 서열을 입력상자에 붙여 넣은 후 ‘pdb’를 선택 ⊙ Entrez의 연관관계 검색기능:알려진 서열 유사성 ◈ 엔트레즈의 연관관계 검색기능(neighboring facility) : 특정의 단백질 서열과 유사한 서열을 갖는 단백질 구조를 찾을 때 사용
Ⅳ. 구조 파일포맷 ⊙ PDB: protein data bank PDB파일포맷- FORTRAN프로그래머들이 사용한 펀치카드와 같은 컬럼구조 *구조 연구학자-포트란 *생물정보학 분야-C언어 PDB파일포맷-생체 고분자의 결합에 관한 정보가 없다 ⊙ mmCIF: macromolecular crystallographic information file mmCIF파일포맷- STAR구문법의 하위세트에 근거한 것 ⊙ MMDB: molecular modeling database MMDB파일포맷-ASN.1데이터 기술언어 ASN.1파일: 문자파일로 변환, binary file, packed binary file의 형태로 변환 ASN.1으로 포맷된 MMDB파일-mmCIF나 PDB기록에 비해 빠른 입출력가능
Ⅴ. 구조 정보 보기 ⊙ 다양한 표시 형태 ⊙ 데이터를 그림으로 보기:모집단,퇴화 및 역동성 Wire frame model Space filling model α-carbon backbone 리본모델 ⊙ 데이터를 그림으로 보기:모집단,퇴화 및 역동성 ◈X-선과 NMR 방법 : 동조화(synchronize)된 분자집단들의 3차원 구조를 추론하는 기법 → 질서정연한 결정격자 형태를 취해 공간상에 동조화 됨 or 외부자장에 의해 핵 스핀 상태가 정렬되어 행동이 동조화됨 ◈분자모집단을 사용했을 때 파생되는 결과 : 데이터베이스 기록에 퇴화좌표(degenerate coordinates)가 나타남 → 한 원자에 대해 한 개 이상의 좌표가 존재
⊙ NMR 모델과 앙상블 각각의 구조: 모델 → 모델이 모이면 앙상블(ensemble): 대칭적으로 맞지 않은 그럴 뜻한 구조 3차원 구조 X-ray crystallography NMR구조의 한 개의 앙상블에 속한 이미지 -한 분자의 역동적인 변동성을 보여줌 하나의 완전한 이미지 위에 또 다른 이미지를 겹치는 과정을 반복했기 때문이다.-> NMR 도해가 흐리게 보임 정적인 분자의 이미지를 부여함
⊙ 상관성 불규칙성 ⊙ 국소적인 역동성 ◈상관성 불규칙성(correlated disorder) -보통 X-선 결정분석구조: 한가지 모델 -일부 원자들의 하위세트: 퇴화좌표 가짐 화학그래프상에서 한 원자에 대해 한개이상의 좌표가 존재한다는 의미:퇴화좌표 → 상관성 불규칙성과 앙상블은 3차원 분자 그래픽 소프트웨어에서 무시되는 요소 ⊙ 국소적인 역동성 ◈시간-분해 형광 분광학: 잔기의 위치 정렬의 불규일성을 검출 →트립토판 잔기의 회전 이성질체 특성을 발견 ◈ 3차원 구조 데이터를 해석하는 경우 데이터의 불균일성이 존재 한다는 사실 명심해야함
Ⅵ. 데이터베이스 구조보기 소프트웨어 ⊙ 시각화 도구 ⊙ 라스몰과 라스몰 기반의 뷰어 Ⅵ. 데이터베이스 구조보기 소프트웨어 ⊙ 시각화 도구 RCSB 웹사이트는 자바를 기반으로 PDB데이터를 3차원 구조로 보여주는 응용 소프트웨어를 제공 -한계점) 현재 단백질 구조만을 시각화 한다 →RasMol 버전 2.7, WebMol ⊙ 라스몰과 라스몰 기반의 뷰어 ◈ RasMol: PDB파일을 검토할 수 있는 보기용 소프트웨어(viewer) 정보를 자주 재연산하여 데이터베이스 내부의 모순과 불일치를 극복 우수한 출력 포맷을 가지고 있음 *서열의 화학그래프나 PDB파일에서 코딩한 구조를 검증하지 않음 *표준 잔기 검증하지 않음 *외형서열과 내재서열의 정렬을 하지 않음 Postscript ribbon diagram: 출판목적으로 고품질 포스트 스크립트 형식의 리본 도해모델을 만들어 내고자 하는 경우 ◈ Plug-in, Chime, WebMol
⊙ 기타 3차원 구조보기 소프트웨어:Mage,CAD,VRML ⊙ MMDB 뷰어: Cn3D Cn3D(see in 3-D): 3차원 구조보기용 소프트웨어,MMDB데이터 기록을 보는데 사용 모든 결합에 관한 정보가 명확함 Cf) O program (3차원 데이터베이스의 구조를 일관되게 그려냄) ◈ Cn3D의 특징: 3차원 구조를 움직여서 볼 수 있다 ⊙ 기타 3차원 구조보기 소프트웨어:Mage,CAD,VRML ◈ VRML: 3차원 그래픽 표시정보를 가짐 분자의 화학그래프에 내재되어 있는 정보는 담지 않음 다양한 묘사양식을 표시하기 어려움 ◈ CAD: 단백질 구조의 자세한 면을 검토하는 특수한 보기기능, 분석적 기능이 없음 CAD: computer-aided design VRML: virtual reality modeling language ⊙ 발표용 그래픽 자료 ◈ 이미지를 화소(화상을 구성하는 최소단위의 점)로 변환하는 문제점 -고품질의 프린트 해상도:인치당 300~600 dip -모니터 화소수:72도트 ◈ 가장 바람직한 비트맵 사용법: 큰 모니터를 사용하여 이미지에 포함된 화소수를 최대화 하는것 (크게)
Ⅶ. 고차원 구조 모델링 OpenGL에 기초한 프로그램은 여러 OS (매킨토시,리눅스,윈도우)에서 작동 -분자표면생성,여러 단백질의 정렬,점수 함수의 사용, 위치지정 돌연변이 유도 (빠른 모델링), 수정루프(복잡한 모델링) 를 수행함 Swiss PDB view (Deep view)
Ⅷ. 구조 유사성 검색 *서열간 유사성을 검색하는 프로그램 -두 서열을 정렬하는 기능 *구조간 유사성을 검색하는 프로그램 - 두 개의 3차원 구조를 겹쳐보는 기능 ◈구조 유사성 검색 서비스 : 두 구조간의 유사성을 계산할수 있다는 가정에 근거한 것 3차원 단백질 구조-다른구조들과 3차원 겹쳐보기를 행함 -가장 잘 매치되는것을 보고 ◈VAST(Vector Alignment Search Tool), 벡터 정렬 검색 도구: 유사성 지수 제시 (서열정보 사용 안함) -VAST 시스템: *명백히 설정된 유사성 지수를 가져 놀라운 연관성을 얻음 *흥미로운 연관성을 빨리 볼수있고 중복되지 않는 표적물을 보여줌 *도메인에 근거한 구조비교를 제공 *Cn3D와 통합가능