Introduction to Bioinformatics

Slides:



Advertisements
Similar presentations
학 습 목 표 1. 기체의 압력이 기체 분자의 운동 때문임을 알 수 있다. 2. 기체의 부피와 압력과의 관계를 설명할 수 있다. 3. 기체의 부피와 압력관계를 그리고 보일의 법칙을 이끌어 낼 수 있다.
Advertisements

Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Ⅱ 세포의 주기와 생명의 연속성 Ⅱ 세포의 주기와 생명의 연속성 - 1. 세포주기와 세포분열.
PRESENTATION EMBEDDED AND BIO DATABASE LAB YONSEI UNIVERSITY, XX JUNGRIM KIM.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
V. 인류의 건강과 과학 기술 Ⅴ-3. 첨단 과학과 질병 치료 3. 생명을 위협하는 암.
의사 결정 트리(decision tree)
요한복음 3:16.
밥 파이크의 창의적 교수법.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
Learning Classifier using DNA Bagging
Windows Server 장. 사고를 대비한 데이터 백업.
전자기적인 Impedance, 유전율, 유전 손실
Strategies for survival in fast changing industries - Christensen, C. M., Suarez, F. F., & Utterback, J. M. (1998) 이혜선, 김정현.
인생태도 욕구 이론 기본적 인생태도의 개념 : 양친과의 스트로크를 바탕으로 하여 배양되는 자기나 타인 또는 세계에 대한 기본적인 반응이자 태도이다. 또는 그것에 기인하는 자기상(自己像)이나 타인상(他人像)을 말하며 기본적 인생태도 대부분은 부모로부터 어떠한 스트로크(긍정적,
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
컴퓨터과학 전공탐색 배상원.
매듭 이론 Lord Kelvin , Tait ( ), C.N. Little
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
내분비계 99mTcO4- 갑상선 검사[Thyroid scan] 부갑상선 검사 요오드전신 검사
Bioinformatics for Genomic Medicine Do Kyoon Kim
제 1장. 멀티미디어 시스템 개요.
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
이미지 포렌식 작성자: liberte97.
암 전이 억제 유전자 발굴 및 작동 기전 연구 (Nature지 4월 14일자 발표)
군집 분석.
Can Automatic Calculating Machine Be Said To Think?
체 세 포 분 열 배 수 경 중3 과학.
식물은 어떻게 자손을 남길까(1) <생각 열기> 사과, 배, 복숭아 등의 과수나무를 재배하거나
뇌를 자극하는 Windows Server 2012 R2
Association between two measurement variables Correlation
MCL을 이용한 이동로봇 위치추정의 구현 ( Mobile robot localization using monte carlo localization ) 한양대학교 전자전기전공 이용학.
제1장 생산공정 개요.
젠트리피케이션에 대한 인식 분석 경영학부 최은지 경영학부 이창현
Micro Array 활용분야 발표자 : 김민정.
밀도 (1) 부피가 같아도 질량은 달라요 ! 밀도의 측정 밀도의 특징.
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
위치 에너지(2) 들어 올리기만 해도 에너지가 생겨. 탄성력에 의한 위치 에너지.
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
번호 (예: A-01 or B-15) 연구 제목 (예:Identification of EZH2 levels during mammary gland development) 이름 (본인 & 지도교수) 및 소속 (분반 명시, 01반, 02반) (예: Sookmyung Kim and.
고등학교 생물 학습자료 이 자료는 고등학교 ‘생물’ 의 “생명의 연속성” 단원에서 세포 분열에 관한 수업을 위한 것입니다.
Progress Seminar 선석규.
제6과 종말론.
알고리즘 알고리즘이란 무엇인가?.
3-5. 태양계와 행성(2).
물리 현상의 원리 TIME MACHINE.
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
GENOME PROJECT 학부 :생명분자공학부 학번 : 이름 : 최성림.
해부학자.
PCA 개선 서울대학교 박노열.
(생각열기) 요리를 할 때 뚝배기로 하면 식탁에 올라온 후에도 오랫동 안 음식이 뜨거운 상태를 유지하게 된다. 그 이유는?
Support Vector Machine
세포 분열의 필요성 날마다 새롭게! 세포 분열을 통한 생장과 생식 세포의 크기가 작은 이유.
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
학습 주제 p 끓는점은 물질마다 다를까.
DNA의 구조와 역할 (1) DNA : 이중 나선 구조로 수많은 뉴클레오타이드의 결합으로 이루어져 있다.
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
.Net FrameWork for Web2.0 한석수
레크리에이션과 여가 배장섭.
CHAPTER 1 미생물과 미생물학.
세포는 어떻게 분열할까?(2) 양파 뿌리의 체세포 분열 관찰 순서 [ 해리 ] [ 염색 ] [ 고정 ] 학습 주제
학부생 연구원 및 대학원생 모집 DataBio 연구실 (윤영미 교수님) 연구실 소개 연구 과제 모집 대상 혜택 모집 기간
생명의 청사진 분자유전체의학 김 경 원.
친구야 너무 염려 말게나 친구여 너무 염려 말게나 폭풍도 잠시면 지나가고 밝은 빛이 보일거라네 저기 희미하게 등대불이 보이지 않는가.
Presentation transcript:

Introduction to Bioinformatics

Agenda Bioinformatics는 무엇을 하는 것이며, 연구하면 무엇이 좋은가? Bioinformatics team에서는 무엇을 하고 있는가? 유전자의 기능 추론 알고리즘 개발 유전체 분석: DNA 시퀀스의 다형성 발견 및 다형성과 유전기능의 연관성은 무엇인가? 암의 여부/암의 예후/효과적인 치료법의 예측 알고리즘 개발 암의 원인이 되는 유전자는 무엇인가? Text mining을 이용한 비정형적인 생물학 데이터의 정형화

Bioinformatics Biologist의 입장 원래 생물학은: data를 눈으로 관찰  가설  실험을 통한 가설의 검증  결론 도출 생명공학의 발전으로 data가 복잡해지고, 다양해지며, 방대해짐 Data가 눈으로 분석이 안됨  통계 tool 등을 사용하거나 대충 배운 알고리즘을 이용해서 전산 처리  실패가 잦아짐  computer scientist에게 help 요청, 혹은 스스로 전산학을 공부  Bioinformatics 탄생 (Biology에 가까운)

Bioinformatics Computer scientist의 입장 데이터의 의미를 모름  도움이 될만한 database나 algorithm을 만들어도 생물학자들에게는 별로 도움이 안됨  원래 생물학자들과 잘 협력해서 일을 진행하려고 했으나, 그들은 너무 바빠서 붙들고 가르쳐주지 않음  스스로 생물학을 공부  Bioinformatics 탄생 (CS에 가까운)

Bioinformatics Bioinformatics의 두 분야 Bioinformatics의 미래 데이터의 저장: Database modeling issue 개개의 data set들로부터 새로운 정보를 끄집어내보자: Data-mining issue Bioinformatics의 미래 데이터는 더욱 복잡하고 다양하고 방대해져만 가고 있다. 특히 data-mining 분야는 할 것이 더욱 많아진다. 크게 봤을 때, CS와 Bio가 양극으로 발전할수록 중간의 Bioinformatics의 자리는 커진다. 즉, 일거리는 늘어가나 인재는 부족하다.

1. 유전자의 기능 추론 세포  핵  DNA sequence (A, C, G, T) 이중 일부 (1% 미만): 유전자, 인간의 경우 2만~3만개로 추산 유전자: 단백질을 만들기 위한 DNA sub-sequence 왜 중요한가? 단백질을 만들기 때문 단백질: 세포를 이루고, 세포가 기능을 하도록 하는 역할을 함

1. 유전자의 기능 추론 유전자가 얼마나 활발하게 단백질로 변환되었는가?  마이크로어레이 데이터 세포의 종류에 따라, 시간에 따라서 그 양이 변화함 하지만 같이 많이 발현하고 있는 유전자는 같은 기능을 하고 있을 가능성이 크다  Gene Clustering 또한, 같은 발현 패턴을 보이는 유전자는 더욱 같은 기능을 하고 있을 가능성이 크다  Biclustering

1. 유전자의 기능 추론 유전자 A  단백질 a  유전자 B를 억제 혹은 촉진 Time series microarray의 마이닝

2. 유전체 분석 유전체 : DNA sequence 개개인마다 공통적인 부분이 있고, 그렇지 않은 부분이 있음 인종 별로 구분되는 부분이 있고, 그렇지 않은 부분이 있음 이를 DNA sequence polymorphism이라 한다.

2. 유전체 분석 대표적인 DNA sequence polymorphism 연구 방향 SNP : 주위의 sequence는 같은데 어떤 사람은 A로, 다른 사람은 T로 나타나는 부분 CNV : 어느 일정한 부분이 몇 배 더 나타나는 사람이 있고, 아예 나타나지 않는 사람이 있음 연구 방향 Polymorphism을 찾는다. Polymorphism과 disease와의 연관 관계를 찾는다. Polymorphism과 gene과의 연관 관계를 찾는다.

2. 유전체 분석 Polymorphism을 찾는 연구 Polymorphism과 Gene과의 연관성 arrayCGH data를 이용해서 CNV를 찾음 Polymorphism과 Gene과의 연관성 같은 사람에 대해서 gene expression data (마이크로어레이)와 arrayCGH data를 동시에 만듦 CNV를 많이 가진 집단과 그렇지 않은 집단을 구분해줄 수 있는 gene들은 무엇인가? 이러한 gene들은 어떤 일을 하고 있다고 알려졌는가?

3. 암 환자 진단 암환자 VS 정상환자 진단 암환자 및 정상환자로부터 유전자 발현값 측정  microarray data 어느 유전자들이 두 집단을 잘 구분해줄 수 있는가? 이런 유전자들은 어떻게 두 집단을 잘 구분해줄 수 있는가? 어느 정도의 정확도를 보이는가?

3. 암 환자 진단 5년 내로 사망한 환자 VS 완치된 환자 전이가 일어난 환자 VS 그렇지 않은 환자 ……

4. 암의 원인이 되는 유전자는? 수 많은 유전자가 암과 관련이 있다고 의심이 되나, 구체적으로 어떤 것이, 어떻게 연관이 되어 있는지는 아직 알지 못함 특히, 암의 원인이 되는 유전자는 극히 드물게 알려져 있음 마이크로어레이 데이터와 다른 데이터를 합쳐서 암의 기작을 추론하는 방법 연구

5. 텍스트 마이닝 생물학자들은 데이터베이스 모델링에 익숙치 않음 보통은 논문에 텍스트 형식으로 정보를 기록함 (ex. 유전자/단백질의 기능) 이러한 비정형 정보를 데이터베이스화하는 것은 매우 중요함 보통 수작업으로 진행하고 있으나, 한계가 있음 문장  텍스트 마이닝  데이터베이스 모델링