분자 상호 작용의 네트워크 분석 분자유전체의학 문정희.

Slides:



Advertisements
Similar presentations
목성에 대해서 서동우 박민수. 목성 목성은 태양계의 5 번째 궤도를 돌고 있습니다. 또 한 태양계에서 가장 큰 행성으로 지구의 약 11 배 크기이며, 지름이 약 14 만 3,000km 이다. 목성은 태양계의 5 번째 궤도를 돌고 있습니다. 또 한.
Advertisements

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
1. 2 차원 배열  배열은 동일한 데이터 유형으로 여러 개의 변수를 사용할 경우 같은 이 름으로 지정하여 간편하게 사용할 수 있도록 하는 것으로서 앞에서 1 차원 배열을 공부하였습니다.  2 차원 배열은 바둑판을 생각하면 되며, 1 차원 배열에서 사용하는 첨자를 2.
1. 도형의 연결 상태 2. 꼭지점과 변으로 이루어진 도형 Ⅷ. 도형의 관찰 도형의 연결상태 연결상태가 같은 도형 단일폐곡선의 성질 연결상태가 같은 입체도형 뫼비우스의 띠.
Ⅱ 세포의 주기와 생명의 연속성 Ⅱ 세포의 주기와 생명의 연속성 - 1. 세포주기와 세포분열.
유사성 검색 - 1 유전체 정보 의학 2006, 4.17 Kim Do Kyoon.
해시 함수.
제2장 주파수 영역에서의 모델링.
Entity Relationship Diagram
연결리스트(linked list).
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
CHAP 10:그래프 (1) 순천향대학교 하상호.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
CHAP 10: 그래프(part 2) 순천향대학교 하상호.
보고서 #5(제출기한: 10/14) 다음 문제를 해결하시오.
자료구조: CHAP 4 리스트 (3) 순천향대학교 컴퓨터공학과 하 상 호.
Fourier Transform Nuclear Magnetic Resonance Spectrometer
11장. 1차원 배열.
CHAP 10:그래프 (2) 순천향대학교 하상호.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
자바 5.0 프로그래밍.
프로그래밍 개요
암 전이 억제 유전자 발굴 및 작동 기전 연구 (Nature지 4월 14일자 발표)
벡터의 공간 이문현.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
27장. 모듈화 프로그래밍.
8장. 상호 배타적 집합의 처리.
주요 내용 왜 그래프인가? 기본 용어 그래프의 표현 오일러(Euler) 그래프와 해밀턴(Hamilton) 그래프
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋
스크린 샷 클릭가능 클릭시 영한사전 반영.
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
Clipping 이진학.
Chapter 03. 관계 데이터베이스 설계.
식품에 존재하는 물 결합수(bound water): 탄수화물이나 단백질과 같은 식품의 구성성분과 단단히 결합되어 자유로운 이동이 불가능한 형태 자유수(free water): 식품의 조직 안에 물리적으로 갇혀 있는 상태로 자유로운 이동이 가능한 형태.
20 장 네트워킹과 인터네트워킹 장치 20.1 리피터(Repeaters) 20.2 브리지(Bridges)
합집합과 교집합이란 무엇인가? 01 합집합 두 집합 A, B에 대하여 A에 속하거나 B에 속하는 모든 원소로 이루어진 집합을 A와 B의 합집합이라고 하며, 기호 A∪B로 나타낸다. A∪B ={x | x∈A 또는 x∈B}
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
Antibody Structure and the Generation of B-Cell Diversity
Fitting / Matrix / Excel
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
끓는점을 이용한 물질의 분리 (1) 열 받으면 누가 먼저 나올까? 증류.
이차방정식과 이차함수의 관계 이차함수의 그래프와 축의 위치 관계 이차방정식 의 그래프와 축이 만나는 점의 좌표는 이차방정식
알고리즘 알고리즘이란 무엇인가?.
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
문서 클러스터링 일본언어문화학과 서동진.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
DNA의 구조와 역할 (1) DNA : 이중 나선 구조로 수많은 뉴클레오타이드의 결합으로 이루어져 있다.
의미론적 관점 * TV에서 ‘푸른 빛이 아닌 청자빛’이란 표현을 들었을 경우
상관계수.
2.3 분자생물학 데이터베이스의 새로운 세대 분자유전체의학전공 김현정.
7. 힘과 운동 속력이 변하지 않는 운동.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
III. 아름다운 분자 세계 1. 화학 결합 … 01. 분자 구조의 다양성 02. 화학 결합의 성질 03. 이온 결합
4. 분자 상호 작용의 네트워크 분석 4.1 네트워크 표현과 계산
제 4 장 Record.
07. DB 설계 명지대학교 ICT 융합대학 김정호.
이산수학 논리∙명제에서 알고리즘까지 √ 원리를 알면 IT가 맛있다 ehanbit.net.
 6장. SQL 쿼리.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
6 객체.
생명의 청사진 분자유전체의학 김 경 원.
Presentation transcript:

분자 상호 작용의 네트워크 분석 분자유전체의학 문정희

4.1 네트워크 표현과 계산 추상화 수준 DNA  RNA  단백질 서열  구조  기능 상호작용  네트워크  기능 열역학 법칙과 구조 –기능 관계는 단일 단백질 분자에 대한 유전자 정보 발현이 부가적인 흐름을 입증합니다 따라서 유전자(DNA)는 단백질 기능에 대한 모든 정보를 실질적으로 가지고 있으며, 또한 분자간의 상호작용은 네트워크에 얽혀 있고, 이러한 상호작용을 이해하므로써 정보의 흐름을 이해하는것이 필요하다. 생명이 창조되는 데 필요한 분자들의 상호작용 전부에 대한 정보를 유전자가 가지고 있다고 믿기는 힘들다. 반드시 분자들의 상호작용과 반작용의 공간과 시간에 대한 변화에 따라 변화하는 반응들도 반드시 분석에 포함된다.

분자 네트워크 ► 원소 ; 분자 또는 유전자 ► 이항관계: 분자 또는 유전자들간의 상호작용이나 두 원소간의 임 의의 관계 1) 원소 2) 이항관계 3) 네트워크 경로 유전체 집합체 이웃 계층트리 집단 생물학적 기능에 관한 정보는 상호작용하는 네트워크 정보로 쓰여 있다고 생각되며 네트워크는 원소와 이항관계로 이루어져 있다. 워소는 분자 또는 유전자를 말하며, 이항관계는 분자들간 도는 유전자들간의 상호작용이나 두 원소간의 임의의 관계를 말한다. 네트워크의 두가지 범주는 하나는 생물학적 지식을 표현한 것이고 나머지 하나는 이항관계로부터 계산된것이다. 경로 : 분자상호작용의 네트워크를 말하며, 물질 대사 경로, 신호 변환 경로, 세포 순환 경로, 발육 경로와 그 밖에 많은 조절 경로와 같은 세포 작용의 여 러가지 측면이 집적된 지식을 표현한다. 집합체; 분자 상호작용의 다른 네트 워크로써 그 안에서 분자들은 분자 기계장치나 부분 세포 유기체 안에서와 같은 안정된 복합체를 이룬다. 유전체: 유전자들의 네트 워크로써 선형, 원형 염색체내의 유전자들의 물리적 순서를 표현. 다른 형태의 네트워크는 이항관계 들로부터 유도한 것들이다. 다음그림의 다른 형태의 네트워크는 이항관계들로부터 유도한 것들이다. 이웃은 주어진 분자나 유전자에 대한 유사성 관계를 표현한다. 질의서열이 서열 유사성의 이항 관꼐에 의해 다중 서열로 연결되었을때, 서열 유사성의 검사는 이웃 네트워크의 전형적인 예가 된다. 클러스터는 전체 분자나 유전자들의 집합에 관한

그래프 G = (V, E) 점(V; vertex), 선(E; edge) (a) ⓐ (b) 연결 그래프(connected graph) 완비 그래프(complete graph) 방향 그래프(directed graph) 가중치그래프(weighted graph) (a) ⓐ ⓑ ⓒ ⓓ ⓔ ⓕ (b) a b c d e f a, c, d b, e c, d, f a b c d e f a b c d e f 1 0 1 0 1 0 0 0 1 1 0 0 0 0 1 (c) 연결그래프는 임시의 두점 사이에 하나 또는 여러 개의 선들을 통해 연결된 경로가 존재하는 그래프이며, 완비 그래프는 두 점 사이를 연결하는 선이 반드시 존재하는 그래프에 다양한 생물한적 제약을 포함하려면 그래프 구조에 추가적인 다른속성이 필요하며, 이에 방향이 있는 선을 갖기 때문에 분자의 비가역적인 작용 경로를 표현하는데 사용할 수 있는 방향 그래프가 있습니다. 각 선에 가중치를 적용함으로써 신보 변환 경로에서 활성화와 억제를 구별할 수 있다. 가중치 그래프는 유사한 정도를 점수화하거나, 클러스터링 절차에서 점간의 유사성 점수나 거리를 정의하는데 사용하기도 한다. (a)는 가장 직관적이고 그래프의 위상적 특징을 가장 잘 나타낸 표준적인 표현이며, (b)는 각 점들의 연결정보는 연결 리스트로 표현된다. (c) 는 점들을 첨자로 갖는 행렬표, 대응대는 점의 쌍이 있으면1, 그렇지 않으면 0 이항관계의 개념과 그래프의 개념이 자연스럽게 연관되어 있다는 것  G1=(V1, E1), G2=(V2, E2) 는 동형이며 이는 수학적으로 같은 구조이고, 즉 한그래프의 점집합이 다른 그래프의 점집합 사이에 선들의 관계를 유지하는 일대일 대응관계(치환) 이 있다는 것입니다. G1=(V1, E1), G2 = (V2, E2)

◈ 공통 부분 그래프(common subgraph) • 그래프간의 공통의 부분 그래프를 찾는 문제 또는 부분그래프의 동형인쌍을 찾는 문제 (local similarity). • 두 그래프 G1과 G2 와 edge의 부분집합 E1’⊆ E1, E2’⊆ E2 에 대한 부분집합은 G1’ = (V1, E1’), G2’ =(V2, E2’) 정의된다. • 즉 삽입과 삭제가 없는 해당 부분이 완전히 일치하는 쌍을 말하며, 이 일치하는 부분은 여러 조각으로 떨어져 분리되어 있어도 상관없다. • 삽입과 삭제를 허용하려면, 같은 크기(cardinality)를 갖는 점의 부분집합을 고려한다. V1’ ⊆V1, V2 ⊆V2 을 각각의 그래프에서 같은 개수의 점들이 각 그래프에서 선택됨 • 최대 공통 유도 부분그래프는 V1’에서 유도된 G1의 부분그래프와 V2’에서 유도된 G2’에서 유도된 G2의 부분그래프의 동형인 쌍 중에서 크기가 가장 큰 것을 말한다. 경로 대 경로 경로 대 유전체 유전체 대 유전체 클러스터 대 경로 경로-경로, 경로 유전체, 유전체-유전체, 클러스터 – 경로 등의 분자 네트워크는 선이 방향성이 있거나 가중치를 갖기도 합니다 즉 유전체내의 유전자명, 생화학 경로내의 유전자 생성물질명에 따라서 그래프상의 점들의 이름이 바뀔때나 유전자쌍 또는 단백질 쌍의 서열 유사성에 따라서 점들의 이름이 바뀔때, 생물학적 비교문제는 두 그래프 간의 공통의 그래프를 찾는 문제 또는 부분 그래프의 동형인 쌍을 찾는 문제로 바뀌게 됩니다. 즉 서열 분석에서 두 서열의 유사한 부분 서열을 찾는 문제와 유사하게 됩니다. 두 그래프 G1과 G2 와 edge의 부분집합 E1’⊆ E1, E2’⊆ E2 에 대한 부분집합은 G1’ = (V1, E1’), G2’ =(V2, E2’) 정의된다. 즉 삽입과 삭제가 없는 해당 부분이 완전히 일치하는 쌍을 말하며, 이 일치하는 부분은 여러조각으로 떨어져 분리되어 있어도 상관없다. 삽입과 삭제를 허용하려면, 같은 크기(cardinality)를 갖는 점의 부분집합을 고려한다. V1’ ⊆V1, V2 ⊆V2 을 각각의 그래프에서 같은 개수의 점들이 각 그래프에서 선택됨 최대 공통 유도 부분그래프는 V1’에서 유도된 G1의 부분그래프와 ㅍ2’에서 유도된 G2’에서 유도된 G2의 부분그래프의 도인 쌍중에서 크기가 가장 큰것을 말한다.

(A,a) (A,b) (A,c) (A,d) (A,e) (A,f) 경로1 a b c d e f B-a B-b C-d D-f 경로2 (A,a) (A,b) (A,c) (A,d) (A,e) (A,f) (B,a) (B,b) (B,c) (B,d) (B,e) (B,f) (C,a) (C,b) (C,c) (C,d) (C,e) (C,f) (D,a) (D,b) (D,c) (D,d) (D,e) (D,f) (E,a) (E,b) (E,c) (E,d) (E,e) (E,f) 부분경로 B C와 b d 공백없이 일치된 쌍이며 B C D와 b  d f는 공백을 허용한 유사경로의 쌍으로 볼수 있다. 이 경우 공백은 진한 점선으로 표시된 d—f 오 나타난다. 따라서 공백을 허용한 부분 경로 정렬문제의 접근 방법은 인접하지 않는 두점을 가상의 선으로 연결하는것도 고려되는 것이다. 즉 공벽 벌점에 대한 적합한 선 가중치를 갖는 두개의 완비 그래프를 고려하는 것이다. 여기서 특징은 상호 인접한 점들의 클리크인데 5x6개의 점들에서 유도된 그래프로 푠현되며, 대응대는 선을 그어보면 두선이 모두 화살표일 수 있고또는 화살표 하나와 가상의선(공백)일 경우도 있다. 두개의 클리프를 가지고 있는데, 그중 하나인 서로 연결된 점들의 집합 (B,b)(C,d)(D,f)는 최적의 것이다. 이것이 유사한 부분 경로로 구분된다. 따라서 최대의 클리크를 찾는 문제는 NP-완비(nondeterministic polynomial time complete )문제의 범주로 들어가는데, 이슨 비결정 튜링 머신으로 다항 시간안에 풀 수 있다고 여겨지나, 실제로는 극히 어려운 문제중 하나이다. (a) 최대 공통 유도 부분그래프 (b) 최대 클리크( clique)

(b) A-B-C-D-E-F-G-H-I-J-K ⓐ ⓒ ⓑ ⓓ ⓚ ⓔ ⓖ ⓘ ⓗ ⓕ ⓙ 대응 A B C D E F G H I J K A-a B-b C-c D-d … A B C D E F G H I J K 클러스터링 알고리즘 ⓐ ⓒ ⓑ ⓓ ⓚ ⓔ ⓖ ⓘ ⓗ ⓕ ⓙ 경험적인 알고리즘을 이용해서 해결할 수 있는데, 두 그래프의 점간에 대응이 주어지면 연관된 영역을 부분적으로 일치시키려고 한다. 이때 가능한 대응의 수는 매우 제한되어져 있다. 대응에 연결되어 있음을 확인하고, 그 대응의 클러스터를 찾으면 문제를 해결할 수 있다. (b) A-B-C-D-E-F-G-H-I-J-K a-b-c-d-e-f-h-g-j-k-I

◈ 추이페포(Transitive closure) I  j, j  k ; I  k 어떤 그래프에 새로운 선을 전부를 추가한 그래프 ( 3단논법 추이 연산에 의해 닫혀 있는 그래프) ◈ 와셀(Warshall Alg.) for (j = 1; j <= N; j++) for (I = 1; I <= N; i++) if (a[i][j] ) for (k = 1; k <= N; k++) if (a[j][k]) a[i][k] = 1;  O(N3)

◈ 다익스트라(Dijkstra Alg.) 최단거리를 구하는 유명한 알고리즘 Greedy & Dynamic 방법 한 점에서 출발해서 각 정점에 최단거리를 구함

 O(N3) ◈ 플로이드(Folyed Alg.) for (j = 1; j <= N; j++) 모든 점에서 출발해서 출발 한 정점을 제외한 모든 정점을 도착점으로 하는 최단거리를 구하는 알고리즘. 추이폐포의 확장보다 효율적임. for (j = 1; j <= N; j++) for (i = 1; i <= N; i++) if (a[i][j] ) for (k = 1; k <= N; k++) if (a[j][k] > 0) if (!a[i][j] || (a[i][j] + a[j][k] < a[i][k])) a[i][k] = a[i][j] + a[j][k];  O(N3)

◈ 최소확장트리(Minimum spanning tree) 클러스터 분석은 모든 두 점 사이에 거리가 정의되어 있는 기하 공간의 N 개의 점 집합을 수반하며, 이것은 N개의 노드와 N(N-1)/2 개의 선으로 이루어진 완비 가중치 그래프가 된다. 최소 확장 트리( mimimum spanning tree weight graph)가 된다.

2. 이항관계와 연역법 추이폐포(Transitive closure) : - 선(Edge)  이항관계 - 경로(Path)  연역적 단계 - 그래프(Graph)  가능한 연역적 단계의 전체 네트워크 ◈ 다른 형태의 데이터와 지식 - 이항관계로 구성  자동으로 경로계산, 추론

이항관계 (binary relation) 사실관계 (factual relation) 유사관계 (similarity relation) 기능관계 (functional relation) 사실관계는 다른 데이터 베이스 엔트리간의 자명한 링크들을 나타내며, 분자 생물학 데이터 베이스에서 교차-참조정보의 형태로써 저장되어 있다. 유사관계는 서열이나 3차원 구조 데이터베이스와 비교하여 계산적으로 듀도된다.

사실관계 (factual relation) 데이터베이스 엔트리간의 연결 Cross-reference information 형태 - 서열데이터와 그것의 출판정보 - 염기서열과 번역된 아미노산 서열 - 단백질 서열과 3D 구조

유사관계 (similarity relation) 서열이나 3D 구조 데이터베이스와 비교하여 계산적으로 유도 컴퓨터를 이용한 유사성/상보성 - Sequence similarity, 3D structural similarity - 3D structural complementary

유사관계 (similarity relation) DBGET/LinkDB - Precomputed partial transitive closure - Dynamic linking capacity

Example <Figure 4-6> 기질-생성물(substrate-product) 상호작용의 이항관계 집합과 효소목록이 주어진 상태에서, Pyruvate(C00022)로부터 L-alanine(C00041)로의 가능한 반응 경로의 계산 예 (Node – 화합물 Edge - 효소명)

Example ‘효소 E가 화합물 X를 Y로 변환하는 화학적 작용에 촉매역할을 한다.’ : reaction (E, X, Y) path (X,Y,[E])  reaction (E,X,Y) OR path (X,Y,[E|EL])  reaction (E,Z,Y), path (X,Z,EL)

Example 질의 완화 (query relaxation)  이항관계(edge)들의 개수와 검색될 반응공간(graph)의 확장 reaction (E’, X, Y)  reaction (E,X,Y), group (G,E,E’)

Example “B  F” 간의 가상경로  E 와 E’의 기능적 동질성으로부터 추론 기능적 동질성 : - 서열간 유사성 or 서열 모티프

3. 구현(Implemantation) 기능관계 (functional relation) : 전통적인 데이터베이스에서는 계산 불능 다양한 영역으로부터의 기능적 데이터  여러 다른 형태의 이항관계를 계산적으로나 논리적으로 결합하기 위하여 이항관계의 형태로 표현 KEGG : - 추상화 수준 : 분자 네트워크 수준 - 이항관계 : 분자간의 상호작용, 유전자간 상호작용, 분자 또는 유전자간의 다른 관계

KEGG (Kyoto Encyclopedia of Genes and Genomes)

Example - pathway

Example - pathway

유전체-경로 비교 “유전체에서 동시에 조절되는 위치적으로 관련된 일군의 유전자들(오페론 구조)  물질대사 경로에서 하나의 기능적 단위” 에 대응

계층트리 네트워크 표현이 매우 제한적 유전자 목록 : 생화학적 경로 및 집합의 분류에 의한 유전자의 기능적 계층도 분자 목록 : 단백질 분자, RNA 분자, 화합물 등의 기능적이거나 구조적인 분류 계층 트리와 경로간의 비교  구조적으로 유산한 효소들에 의해 촉진된 일련의 반응 단계 존재

KEGG 의 방향

KEGG 의 방향 완전한 유전체 서열로부터 생화학적 네트워크 전체를 예측 생화학적 네트워크에 대한 지식 기반 예측 (knowledge based prediction)의 활용 참조 데이터베이스 (Reference database)