분자생물학 데이터베이스의 새로운 세대 정희준 2006.04.10
원소와 화합물 생물체의 구성 6대 필수원소: 탄소(C), 수소(H), 산소(O), 질소(N), 인(P), 황(S) 알칼리(alkali)금속: 나트륨(Na), 칼륨(K) 알칼린(alkaline) 지각금속: 마그네슘(Mg), 칼슘(Ca) 할로겐(halogen): 염소(Cl) 전이금속: 망간(Mn), 철(Fe), 코발트(Co), 니켈(Ni), 구리(Cu), 아연(Zn), 몰리브덴(Mo)
영양생물 무기영양생물(autotroph) 유기영양생물(heterotroph) 탄소공급원: 이산화탄소(CO2) 에너지원: 빛이나 산화성 무기 화합물 유기영양생물(heterotroph) 탄소공급원: 유기물 에너지원: 유기물
KEGG 내 LIGAND 분자생물학 데이터베이스와 화학물질 데이터베이스 간 간격을 좁히려는 시도의 결실. 화합물들과 살아있는 세포에서의 화학반응들에 대한 정보 제공. 주요 분자생물학 데이터베이스와의 풍부한 상호참조와 함께 효소에 대한 정보 제공.
아미노산 아미노산 아미노산 색인(amino acid index) 20개의 종류로 구분. 각각 서로 다른 곁사슬(side chain, residue). 각 곁사슬의 종류에 따라 다른 물리적, 화학적 특성을 가짐. 아미노산 색인(amino acid index) 친수도 도표(hydropathy plot) 등이 Kyte-Doolittle에 의해 처음 제안 물리화학적, 생화학적 특성이 수치로 나타내어 짐
아미노산 변이 아미노산 변이행렬(mutation matrix) 단백질 서열정렬과 유사성검색에서의 최적화를 위한 지표로 사용. PAM-250 변이행렬 데이호프와 그의 동료들에 의해 만들어짐. 연관도가 높은 단백질 계통도를 만들고 100개의 잔기마다 수용된 각 위치의 돌연변이 자료를 이용.
AAindex 데이터베이스 아미노산 색인들과 변이행렬들의 수집과 분류에 관한 내용 저장. 아미노산 색인 그룹 -나선과 턴 경향성 -평면 경향성 소수성 아미노산 구성 부피
AAindex 데이터베이스 -나선과 턴 경향성 -평면 구형 단백질의 표면에 나선구조가 나타나는 경향을 반영. 소수성과 가까운 관련 평면구조가 구형 단백질의 내부에 묻히는 경향을 반영.
단백질 군과 서열 모티프 아미노산 서열 데이터의 모임은 단백질의 구조, 기능, 그리고 진화에 대한 풍부한 정보를 저장. 유사한 아미노산 서열을 가진 단백질들의 그룹은 종종 비슷한 3차 구조를 가지고 공통의 생물학적 기능을 공유하며, 진화적 연관성을 반영 단백질 군을 2차 데이터베이스 조직하려는 시도가 있었음.
단백질 군과 서열 모티프 단백질 군의 2차 데이터베이스 데이호프와 동료들의 시도 하위군(subfamily): 정렬된 아미노산 서열의 한 쌍이 90% 이상의 동일한 아미노산을 포함. 군(family): 각각의 쌍에 50% 이상의 동일한 아미노산을 갖는 단백질의 그룹. 상위군(superfamily): PAM 변이행렬에 의해 판정되는 의미있는 유사성을 갖는 단백질들의 폭넓은 분류.
단백질 군과 서열 모티프 서열비교의 목적이 기존의 분자진화를 분석하는 것에서부터 기능 유사성 분석등으로 옮겨지고 있음. 서열의 유사성이 매우 낮더라도 서열 모티프(sequence motif)와 같이 부분적으로 보존된 아미노산들을 공유하여 기능을 공유하는 경우도 있음.
단백질 군과 서열 모티프 PROSITE등의 데이터베이스 기능적인 관련과 함께 문헌에 발표된 패턴들을 저장. 새롭게 결정된 서열들의 기능적인 해석을 위해서 라이브러리에 대하여 검색을 실시하는 것이 유용. 따라서 서열 데이터베이스 검색에서 전체 서열 유사성을 찾을 수 없을 때 유용.
단백질 군과 서열 모티프 서열 모티프의 여러가지 표현 공통서열 패턴 프로필 블록 판별함수 공통서열 패턴의 표현은 아미노산의 양적인 측면을 포함하지 않으며 프로필은 아미노산의 관찰된 빈도가 각각의 자기 위치에 통합. 블록 판별함수
단백질 군과 서열 모티프 서열 모티프의 여러가지 표현 아미노산의 삽입과 삭제에 대한 정보는 보다 더 확장된 은닉 마르코프 모델(Hidden Markov Model; HMM)에서 더 잘 표현. 데이터의 표현이 더 유연할수록 시각적인 이해는 어려워지지만 일반적으로 컴퓨터를 이용한 모티프 검색에서는 더 정확한 예측을 얻게 됨.
단백질 3차원 구조의 분류 대부분의 단백질은 구형단백질(globular protein)이나 막단백질(membrane protein)의 범주로 구분. PDB(Protein Data Bank)와 같은 데이터베이스는 단순히 알려진 1차 구조들에 대한 저장소이며 부가적인 가치가 부여된 데이터베이스가 필요함.
단백질 3차원 구조의 분류 -나선구조와 -평면구조는 단백질구조의 구축단위로 인정되어 왔으며 2차구조임. 구형단백질은 2차 구조의 내용이나 정렬에 따라 단백질, 단백질, /단백질, +단백질, 부정형 단백질(irregular protein)으로 분류될 수 있음.
단백질 3차원 구조의 분류 , , /, + 범주에서 접힘과 같은 3차원 구조를 확인하였으며 그러한 결과로 SCOP, CATH와 같은 데이터베이스가 개발되었음. SCOP 데이터베이스는 최상위 수준에서 -나선과 -평면과 같은 체계를 분류하고 그 후 접힘(fold), 상위군(superfaml y), 군(family) 등으로 상위분류체계를 확장하였음.
단백질 3차원 구조의 분류 일반적으로 3차원 구조유사성이 의미있는 서열 유사성이 없는 단백질들 사이에서도 관찰되는 이유: 같은 기원을 갖는 서열들이 기능적으로 분화되어져 왔지만 여전히 구조유사성을 유지하는 발산진화(divergent evolution) 다른 기원을 갖는 서열들이 물리화학적 제약이나 기능적 제약 때문에 공통적인 구조 안으로 모여지는 수렴진화(convergent evolution)
단백질 3차원 구조의 분류 접힘(fold) 2차 구조 요소들의 일정한 정렬이며 상위 2차 구조 또는 구조 모티프라 불림. 나선다발, 샌드위치, /원통, TIM 원통과 같은 일부 접힘들은 물리화학적 제약들을 반영하는 전반적인 골격구조를 나타냄. 특정한 구조는 구조 모티프와 서열 모티프 두 가지 모드에 관련되어 있음.
오소로그와 파라로그 상동성 (Homology) 서열 유사성의 존재를 나타내는데 이용 오소로그 (Othologues) 공통의 조상으로부터 종 부화가 되었기 때문에 서열 유사성을 공유 파라로그 (Paralogues) 일반적으로 유사한 서열을 갖지만 다른 기능을 지님
완전한 유전체 서열 종간의 그리고 종내의 전체 유전자 집합들을 비교하려는 새로운 시도가 시작 기능적으로 연관이 있는 유전자들의 집합에서 더 잘 정의 된다는 새로운 관점이 제시 분자 조립 (molecular assembly)
파라로그는 각각의 유전자에서 보다 유전자들의 집합에서 더 잘 정의 오페론 (operon) 박테리아 유전체 안에서 함께 전사되는 인력의 연결된 유전자들 안에 저장 유전자 복제가 번역(translation) 단위보다 전사(transcription) 단위에서 일어남 융합된 유전자 (fused genes) 유전자들의 융합은 함께 전사가 일어나는 것을 확실하게 하는 기작
반응과 상호 작용 (Reaction and interactions) 단백질의 기능 추상화 수준에 따라 기능의 여부가 달려 있는 불명확한 용어 개개의 분자 수준 한 단백질의 아미노산 서열이 단백질 인산화효소의 것과 매우 유사하다고 한다면, 단백질의 기능은 확인 세포 기능의 수준 인산화된 목표 단백질이 확인되거나 심지어 생화학 경로 안에서 이 단백질의 역할이 확인될때까지 기능 확인 안됨 기능 원래 분자에 의해서 작용을 받거나 관련이 있는 추가된 분자를 내재적으로 요구하는 하나의 작용 또는 관계
LIGAND 데이터베이스 분자 생물학에서 현재 잘 체계화된 유일한 반은 (reaction) 데이터 EC(효소 위원회) 번호 분류에 기초를 두고 있음 EC 1: 산화환원 효소 (Oxidoreductases) EC 2: 운반 효소 (Transferases) EC 3: 가수분해 효소 (Hydrolases) EC 4: 이중결합 효소 (Lyases) EC 5: 이성질체 효소 (Isomerases) EC 6: 접합 효소 (Ligases)
생화학 경로 생화학 경로 화학 물질들의 효소 반은에 대한 물질대사 경로와 고분자의 반응과 상호작용의 조절 경로를 모두 포함 물질 대사 화합물 분자를 분해하는 이화작용 (catabolism) 에너지를 사용하며 화합물 분자를 합성하는 동화작용 (anabolism) 유전정보 전달 경로 DNA 복제, 복구, 재조합을 포함 유전정보 발현 경로 전산, 접합과 전사후 처리과정, 번역, 번역후 처리과정 포함
완전한 유전체 서열 결정 생화학적 경로에 대한 현재 지식 완전한 유전자들의 집합 생명체의 생명 활동과 그것이 서식하는 환경에 대한 완전한 생화학적 네트워크 분석이 가능 생화학적 경로에 대한 현재 지식 성공적인 분석을 수행하기 위해서는 불완전 KEGG와 같은 생화학 경로에 대한 참조 데이터베이스 조직 대상경로의 비교, 예측 및 재구성을 위한 새로운 전산 기술 개발이 필수
유전체 다양성 유전체 다양성 NCBI 분류 데이터베이스 지구상의 수많은 종들의 존재 각각의 종내에서의 다형성 가장 최신의 일치되는 견해를 정리한 데이터베이스 GenBank와 다른 핵산 서열 데이터베이스에 의해 채택
각각의 종 내의 유전적 다형성 다형성 표지의 유전 패턴은 연관 분석을 통한 질병 유전자 확인을 위해 사용 OMIM(Online medlian Inheritance in Man)은 인간의 유전자들과 이와 관련된 질병에 대한 가장 포괄적인 데이터베이스 SNP데이터베이스 인류의 진화 인간의 다양한 질병을 이해하기 위하여 유전된 표현형과 서열 정보를 결합하는 중요한 역할