2.3 분자생물학 데이터베이스의 새로운 세대 분자유전체의학전공 2006-22129 김현정
contents 아미노산 색인 단백질 군과 서열 모티프 (Protein families and sequence motifs) 원소와 화합물 아미노산 색인 단백질 군과 서열 모티프 (Protein families and sequence motifs) 단백질 3차원 구조의 분류 오소로그와 파라로그(Othologues and Paralogues) 반응과 상호작용 (Reaction and interaction) 생화학 경로 유전체 다양성
원소와 화합물 생물체의 구성 - 6가지 필수 원소: 수소(H), 탄소(C), 산소(O), 질소(N), 인(P), 황(S) - 알칼리(alkali)금속, 알칼린(alkaline) 지각금속, 할로겐(halogen), 전이금속 영양 생물 1)무기 영양 생물 - 탄소의 공급원 : 이산화탄소(CO2) 에너지원 : 빛이나 산화성 무기 화합물 2)유기 영양 생물 - 탄소의 공급원& 에너지원 : 유기물
<그림 2-10> => 여섯 가지 필수 원소들의 여러 무기물 형태로부터 얻어지는, 생물에서 중요한 유기화합물들의 종류
아미노산 색인 -1 Amono acid - 유전자 코드에 의해 20개의 아미노산이 지정 Hydrophilic Amino Acids
아미노산 색인- 2 Special amino acid Hydrophobic amino acid
아미노산 색인(amino acid index)-3 - 물리화학적, 생화학적 특성들을 20개의 수치로 나타내어짐 1) 친수도 도표(hydropathy plot) - 카이트(Kyte)와 두리(Doolittle)에 의해 처음 제안 - 세포막 통과 부분(transmembrane segment)을 확인 2) 소수성 색인 - 아미노산 서열을 수치 프로필로 변환 3) 초우- 파스만(Chou-Fasman)방법 - 단백질 2차구조 예측을 위한 방법 - 알려진 단백질 구조에서 각각의 아미노산이 -나선, -평면, 턴(turn)을 형성하는 통계학적 경향성 분석에 기초함
아미노산 색인 -4 아미노산 변이 행렬(mutation matrix) 210개의 수치들로 구성 단백질 서열정렬과 유사성 검색에서 최적화를 위한 지표로 사용 AAindex 데이터 베이스 아미노산 색인들과 변이 행렬들의 수집과 분류에 관한 내용을 담고 있음 5개의 주요 아미노산 색인 그룹 분류 ( -나선과 턴 경향성, -평면 경향성, 소수성, 아미노산 구성, 부피)
단백질 군과 서열 모티프 1) 일차서열 데이터 베이스 - 아미노산 서열 데이터의 모임 - 단백질의 구조, 기능, 진화에 대한 정보를 가지고 있음 2) 단백질군의 2차 데이터베이스 - 데이호프와 그녀의 동료들에 의해서 이루어짐 - 하위군(subfamily) : 아미노산 서열의 한쌍이 90% 이상이 동일한 아미노 산을 포함하고 있는 동질성이 놓은 서열들의 그룹 - 군 (family) : 각각의 쌍에 50% 이상의 동일한 아미노산을 갖는 단백 질이 그룹 - 상위군(superfamily): PAM 변이행렬에 의해 판정되는 의미있는 유사성을 갖는 단백질들의 폭넓은 분류
단백질 군과 서열 모티프 서열 모티프(sequence motif) 단백질 분자에서 기능적으로 중요한 자리 부분적으로 보존된 아미노산 단백질 분자에서 기능적으로 중요한 자리 다른 분자들과의 상호작용을 위한 자리임 서열모티프의 여러가지 표현
서열 모티프(sequence motif) -2 1) 공통서열 패턴 - 아미노산의 선택을 허용 - 각각의 아미노산이 얼마나 자주 나타내는지에 대한 양적인 측정은 포함되지 않음 - 생물의 복잡성을 나타내는 데에는 효자적이지 못함 2) 프로필 - 각각의 아미노산의 관찰된 빈도가 각각의 잔기 위치에 통합되어 있음 3) 으닉 마코프 모델 (Hidden Markov Model) - 아미노산의 삽입과 삭제에 대한 정보가 더욱 잘 표현
단백질 3차원 구조의 분류 구형 단백질 (globular proteins), 막 단백질(membrane proteins)로 구분 구형 단백질의 분류 - 2차구조요소에 따라 5가지로 분류 - 단백질 단백질 / 단백질 + 단백질 부정형 단백질(irregular protein)
오소로그와 파라로그(Othologues and Paralogues) 상동성(homology) 서열 유사성(similarity)의 존재를 나타내는데 이용 1) 오소로그(Othologues) - 공통의 조상으로 부터 종 분화(speciation)로 인한 서열 유사성을 공유 - 서열유사성이 높을 때 기능의 상동성을 의미함 2) 파라로그(Paralogues) 종 안에서의 유전자가 복제된 결과로 유사한 서열을 가짐 다른 기능을 가짐 오소로그와 파라로그는 기능적으로 연관이 있는 유전자들의 집합에서 더 잘 정의 된다는 새로운 관점을 제시
<그림 2-15> (a) F1-F0 ATP 합성효소와 (위) V-type ATP합성효소(아래)에 대한 오소로그 그룹을 보여주는 표 (b) F1-F0 ATP 합성효소의 3차원 구조의 도해.
반응과 상호작용(Reaction and interaction) 단백질이 기능 추상화 수준에 따라 기능의 확인 여부가 달려 있는 불명확한 용어임 원래 분자에 의해서 작용을 받거나 관련이 있는 추가된 분자를 내재적으로 요구하는 하나의 작용(reaction) 또는 관계(relation). 반응(reaction)의 데이터 LIGAND 데이터 베이스와 같은 효소반응에 대한 것임. LIGAND 데이터 베이스는 EC(효소 위원회) 번호 분류에 기초. 6종류로 분류.
생화학 경로(biochemical pathway) - 물질들의 효소반응에 대한 물질대사 경로 + 고분자의 반응과 상호작용의 조절경로 중간 물질 대사 모든 생명체의 생명활동을 유지시키기 위해 보존된 물질 대사의 일부분. 이차물질 대사 - 특정 박테리아에 의한 생분해와 생합성을 포함하는 다양한 추가적인 경로들의 집합 조절 경로는 효소 반응의 경로보다 분자 상호 작용 경로로 분류했지만 그 구분은 명확하지 않음
유전체 다양성 - 수많은 종들의 존재1) 와 각각의 종 내에서의 다형성2)이라는 두가지 요소가 있음 1)첫 번째 측면 – 수많은 종의 생물체 분류
유전체 다양성 2) 각각의 종 내에서의 유전적 다양성 - 인간 유전체의 의학적 결과를 조사하는데 있어서 중요. - 완전한 유전체 서열을 각 개인에 대한 표현임. - 다형성 표지의 유전 패턴은 연관 분석(linkage analysis)을 통한 질병 유전자의 확인을 위해 사용될 수있음 OMIM (Online Medelian Inheitaci in Man) - 인간의 유전자들과 이와 관련된 질병에 대한 데이터베이스 SNP (Single nucleotide polymorphism) - genetic linkage analysis의 유용한 marker -인류의 진화와 질병을 이해하기 위한 중요한 역할