2. 분자생물학 데이터베이스 2.1 역사적인 배경 분자유전체학과 이영애
분자생물학 데이터베이스의 발전 - 19세기: 유전학과 세포생물학 - 20세기: 분자생물학 - 생물학의 기초적인 관찰 - 컴퓨터화된 데이터베이스 (팽창해가는 지식들의 기반)
분자생물학 데이터베이스 문헌 데이터베이스 정보 검색의 목적 도서목록과 온라인 간행물 검색 사실정보 데이터베이스 실험 데이터들의 집합 핵산 염기 서열, 단백질 서열, 3차원 분자 구조 지식 기반 저장된 지식으로부터 새로운 지식 추론을 목적 생물학적 기능들에 대한 지식 표현
<표 2-1> 분자생물학 데이터베이스들의 발전 데이터베이스 종류 데이터 내용 예 1. 문헌 데이터베이스 서지학적 인용 MEDLINE (1971) 2. 사실정보 데이터베이스 핵산서열 GenBank(1982), EMBL(1982), DDBJ(1984) 아미노산 서열 PIR(1968), PRF(1979), SWISS- PROT(1986) 3차원 분자 구조 PDB(1971), CSD(1965) 3. 지식 기반 모티프 라이브러리 PROSITE(1988) 분자 분류 SCOP(1994) 생화학 경로 KEGG(1995) 온라인 간행물
<표 2-2> 중요한 데이터베이스들의 주소 데이터베이스 기관 주소 MEDLINE 국립 의학도서관 www.nlm.nih.gov GenBank 국립 생명공학 정보센터 www.ncbi. nlm.nih.gov EMBL 유럽 생물정보학 연구소 www. ebi.ac.uk DDBJ 일본 국립 유전학 연구소 www. ddbj.nig.ac.jp SWISS-PROT 스위스 생물정보학 연구소 www.expasy.ch PIR 국립 생명의학 연구재단 www-nbrf.georgetown.edu PRF 일본 단백질 연구재단 www.prf.or.jp PDB 구조생명정보학 연구공동체 www.rcsb.org CSD 캠브리지 결정학 데이터센터 www.ccdc.cam.ac.uk
<표 2-3> 새로운 세대의 분자생물학 데이터베이스 정보 데이터베이스 주소 화합물과 반응 LIGAND www.genome.ad.jp/dbget/ligand.html AAindex www.genome.ad.jp/dbget/aaindex.html 단백질 군과 PROSITE www.expasy.ch/sprot/prosite/html 서열 모티프 Blocks www. blocks.fhcrc.org/ PRINTS www.biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/ Pfam www.sanger.ac.uk/Pfam/,pfam.wustl.edu/ ProDom protein.toulouse.inra.fr/prodom.html
<표 2-3> 새로운 세대의 분자생물학 데이터베이스 정보 데이터베이스 주소 3차원 폴드 분류 SCOP scop.mrc-lmb.cam.ac.uk/scop/ CATH www.biochem.ucl.ac.uk/bsm/cath/ 오소로그 유전자 COG www.ncbi.nlm.nih.gov/COG/ KEGG www. genome.ad.jp/kegg/ 생화학 경로 KEGG www. genome.ad.jp/kegg/ WIT www.mcs.anl.gov/WIT2 Ecocyc ecocyc.PangeaSystems.com/ecocyc/ UM-BBD www.labmed.umn.edu/umbbd/ 유전체 다양성 NCBI Taxonomy www.ncbi.nlm.nih.gov/Taxonomy/ OMIM www.ncbi.nlm.nih.gov/Omim
도서목록 데이터베이스 MEDLINE - 1971년 이후 온라인으로 이용 미국 국립보건원(NIH)의 국립의학도서관 (NLM) 통관 -1988년 국립생명공학정보센터(NCBI)로 이관된 후 분자생물학 최고의 데이터베이스 ① DNA 염기 서열, 단백질 서열, 3차원 분자구조 등의 사실 정보 데이터 베이스와 연결 ② 온라인으로 Full text를 제공하는 간행물 출판사와 연결 ③ 인터넷으로 무료로 사용 가능
아미노산 서열 데이터베이스 PIR-International Protein Sequence Database - 1968-1978년 “데이호프”가 “단백질 서열과 구조 도해서” 출판, 1980년대 NBRF 단백질 서열 데이터베이스가 시초 1984년 Protein Information Resource (PIR)이 NIH 지원으로 설립 1988년 독일 뮌헨 단백질 서열 정보센터(MIPS)와 일본 국제 단백질 서열 데이터베이스 (JIPID)와 협력
아미노산 서열 데이터베이스 Protein Research Foundation (PRF) 1975년 일본의 단백질 연구 재단 (PRE)이 “펩티드 정보(Peptide information)” 를 출판 1979년 전산화한 데이터베이스SEQDB와 LITDB 제작 아미노산 서열을 서지학적 정보 부분으로 다룸
아미노산 서열 데이터베이스 SWISS-PROT 1986년 제네바대학에서 제작 데이터의 질적인 면에서 최고 1987년 유럽 분자 생물학연구소(EMBL)과 협력하여 뉴클레오티드 서열 데이터베이스를 번역하여 보완 현재 스위스생물정보학협회(SIB), EMBL의 유럽생물정보학협회 (EBI)와 공동으로 운영
3차원 구조 데이터베이스 Protein Data Bank(PDB) 1971년 북하벤 국립연구소(BNL)에 설립 1999년 구조생물 정보학 연구협력 기구(RCSB)가 운영 - 단백질, RNA, DNA, 탄수화물, 분자 합성물, 바이러스 구조 정보 Cambridge Structural Database(CSD) 1965년 캠브리지대학에 설립 1989년 캠브리지 결정데이터센터(CCDC)에 의해 유지 서지학적, 화학적, 결정학적 데이터와 X-레이, 중성자 회절방법에 의한 3차원 분자좌표 데이터를 포함
뉴클레오티드 서열 데이터베이스 GeneBank -1982년 로스 알라모스 국립연구소 EMBL DDBJ -1992년 NCBI로 이관 EMBL 1982년 유럽 분자생물학 연구소 1994년 EBI로 이관 DDBJ -1984년 일본 DNA 데이터 은행 이들 세 기관이 “국제 뉴클레오티드 서열 데이터베이스 협력기구” 결성하여 매일 데이터를 교환
<그림 2-1> (a) 등록자료의 개수와 (b) 잔기의 개수에서 본 서열과 3차원 구조 데이터베이스들의 성장
플랫 파일 (Flat File) 형식 핵산 서열, 단백질 서열, 3차원 분자 구조 데이터베이스에 널리 사용 데이터 처리 및 이용이 쉬움 서열 데이터베이스 등록자료 내용 ① 명명법, 서지학적 정보 ② 서열 특성에 대한 생물학적 주석을 포함한 특징표 ③ 일차 서열 데이터
GeneBank의 서열데이터베이스 LOCUS DRODPPC 4001 bp mRNA linear INV 26-APR-1993 DEFINITION D.melanogaster decapentaplegic gene complex (DPP-C), complete cds. ACCESSION M30116 VERSION M30116.1 GI:157291 KEYWORDS . SOURCE Drosophila melanogaster (fruit fly) ORGANISM Drosophila melanogaster Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila. REFERENCE 1 (bases 1 to 4001) AUTHORS Padgett,R.W., St Johnston,R.D. and Gelbart,W.M. TITLE A transcript from a Drosophila pattern gene predicts a protein homologous to the transforming growth factor-beta family JOURNAL Nature 325 (6099), 81-84 (1987) PUBMED 3467201 COMMENT Original source text: D.melanogaster, cDNA to mRNA. The initiation codon could be at either 1188-1190 or 1587-1589. FEATURES Location/Qualifiers source 1..4001 /organism="Drosophila melanogaster" /mol_type="mRNA" /db_xref="taxon:7227" mRNA <1..3918 /product="decapentaplegic protein mRNA" CDS 1188..2954 /note="decapentaplegic protein (1188 could be 1587)" /codon_start=1 /protein_id="AAA28482.1" /db_xref="GI:157292" /translation="MRAWLLLLAVLATFQTIVRVASTEDISQRFIAAIAPVAAHIPLA……LGYDAYYCHGKC PFPLADHFNSTNHAVVQTLVNNMNPGKVPKACCVPTQLDSVAMLYL NDQSTVVLKNYQEMTVVGCGCR" ORIGIN 1 gtcgttcaac agcgctgatc gagtttaaat ctataccgaa atgagcggcg gaaagtgagc 61 cacttggcgt gaacccaaag ctttcgagga aaattctcgg acccccatat acaaatatcg 121 gaaaaagtat cgaacagttt cgcgacgcga agcgttaaga tcgccaaaag atctccgtgc 181 ggaaacaaag aaattgaggc actattaaga gattgttgtt gtgcgcgagt gtgtgtcttc 241 agctgggtgt gtggaatgtc aactgacggg ttgtaaaggg aaaccctgaa atccgaacgg …………. 3841 aactgtataa acaaaacgta tgccctataa atatatgaat aactatctac atcgttatgc 3901 gttctaagct aagctcgaat aaatccgtac acgttaatta atctagaatc gtaagaccta 3961 acgcgtaagc tcagcatgtt ggataaatta atagaaacga g //
SWISS-PROT의 서열 데이터 베이스 Features ……….. Sequence information ………….. Entry information Entry name DECA_DROME Primary accession number P07713 Secondary accession numbers P91651 Q6AWM1 Q8I0M7 Q8ITK4 Q9VQC6 Integrated into Swiss-Prot on April 1, 1988 Sequence was last modified on September 13, 2005 (Sequence version 2) Annotations were last modified on March 21, 2006 (Entry version 66) Name and origin of the protein Protein name Protein decapentaplegic [Precursor] Synonym Protein DPP-C Gene name Name: dpp ORFNames: CG9885 From Drosophila melanogaster (Fruit fly) [TaxID: 7227] Taxonomy Eukaryota ; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; Drosophilidae; Drosophila. References [1] NUCLEOTIDE SEQUENCE [MRNA]. DOI=10.1038/325081a0; PubMed=3467201 [NCBI, ExPASy, EBI, Israel, Japan] Padgett R.W., St Johnston R.D., Gelbart W.M.; "A transcript from a Drosophila pattern gene predicts a protein homologous to the transforming growth factor-beta family."; Nature 325:81-84(1987). Features ……….. Sequence information …………..
유전체 데이터베이스 - 생물 종에 대한 유전적 지도, 물리적 지도, 핵산 서열, 아미노산 서열과 같은 여러 종류의 데이터를 포함 다양한 해상력에서의 유전체 구조 다양한 단계에서의 유전체 기능 유전자 기능에 따른 계층적 분류 DNA 칩, 단백질 칩과 같은 실험 방법들로부터 얻은 새로운 종류의 발현 데이터들과 통합 발전
<표 2-4> 라일리(Monica Riley)에 따른 대장균(E. coli) 유전자들의 기능적인 분류