Analysis of Alu repeat elements

Slides:



Advertisements
Similar presentations
문화 마케팅 논문 요약 Fashion market trend 이푸름 이혜민 ㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣㄱㄱㄱㄱㅣ 10.
Advertisements

The Long Terminal Repeat of an Endogenous Retrovirus Induces Alternative Splicing and Encodes an Additional Carboxy-Terminal Sequence in the Human Leptin.
2009 년 6 월 28 일 영어 연합예배 설교 English Joint Service: June 28, 2009 성경 : 마 28:16-20 Bible: Mt. 28:16-20 제목 : 삼위일체 하나님의 초청 Title: The God who is the Holy Trinity.
무엇이 사람과 침팬지를 다르게 만들었을까 ? (DNA 비교에서는 인간과 침팬지의 차이가 거의 나지 않는다.! ?
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
휴먼게놈프로젝트와 컴퓨터 Human genome project and Computer science
공 중 충 돌 예 방 Mid-Air Collision Avoidance
Sources of the Magnetic Field
Gene Cloning.
Talk with handsome Daniel!
Euclidean Voronoi Diagram of Atoms and Protein Structure Analysis
Development and Initial Validation of Quality-of-Life Questionnaires for Intermittent Exotropia Ophthalmology 2010;117:163–168 Pf. 임혜빈 / R2 정병주.
Cellular Automata의 창발적 특성을 정성적 및 morphological 분석방법 이해
Chapter 3 데이터와 신호 (Data and Signals).
GENETIC TECHNOLOGY 생물학개론 15주차 강의
Application of Acoustic Sensing and Signal Processing for PD Detection in GIS 20003년 05월 10일 이 찬 영.
VectorNTI 사용법 교육 Insilicogen, Inc. Consulting Team 이 기 용.
Internet Computing KUT Youn-Hee Han
소재제거 공정 (Material Removal Processes)
EPS Based Motion Recognition algorithm Comparison
외국인과 대화를~~ 대학에서 교환학생을~~
신제품 출시 - EliA PR3S.
Ch3.마디해석법, 메쉬해석법 마디해석법, 초마디 기법, 메쉬해석법, 초메쉬 기법
6장. 물리적 데이터베이스 설계 물리적 데이터베이스 설계
Ch. 5 : Analog Transmission
CAVE : Channel-Aware Buffer Management Scheme for Solid State Disk
제 5장. Context-Free Languages
Genetic Algorithm 신희성.
Y chromosome and Multiplex PCR
Carlos Guimar˜aes1, Daniel Corujo2, Rui L. Aguiar3
Chapter 16 데이터베이스 파일 인덱싱 기법, B-트리 및 B+-트리
Internet Computing KUT Youn-Hee Han
Realistic Projectile Motion
1 도시차원의 쇠퇴실태와 경향 Trends and Features of Urban Decline in Korea
Cluster Analysis (군집 분석)
Electric properties and domain structure in Ba(Ti,Sn)O3 Ceramics
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
Vancomycin 내성 장알균.
Bioinformatics for Genomic Medicine Do Kyoon Kim
계수와 응용 (Counting and Its Applications)
excel macro Arcview Geomania 조사
군집 분석 (Cluster Analysis) 2016년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Medical Instrumentation
제 15 장 거시경제의 측정 PowerPoint® Slides by Can Erbil
군집 분석.
제 6장. 유전체 지도 작성과 지도 데이터베이스.
MRNA Quantification.
Introduction to Programming Language
: Two Sample Test - paired t-test - t-test - modified t-test
XML-II (eXtensible Markup Language) DTD/DOM
생물분리정제공학 생명체 기본구성분자의 이해.
유전자재조합 식품과 알레르기 손 동 화 한국식품개발연구원 KFRI
제 35회 LAB MEETING DIRECT EVIDENCE FOR THE Homo-Pan clade , 8
이산수학(Discrete Mathematics) 비둘기 집 원리 (The Pigeonhole Principle)
이산수학(Discrete Mathematics)
7. Quicksort.
점화와 응용 (Recurrence and Its Applications)
물질(Matter)의 이론 (사물의 본질에 대한 의문)
창 병 모 숙명여대 전산학과 자바 언어를 위한 CFA 창 병 모 숙명여대 전산학과
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
Definitions (정의) Statistics란?
이산수학(Discrete Mathematics)
The general form of 0-1 programming problem based on DNA computing
Bug Localization Based on Code Change Histories and Bug Reports
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
[CPA340] Algorithms and Practice Youn-Hee Han
Progress Seminar 이준녕.
Chapter 2. Coulomb’s Law & Electric Field Intensity
Chapter 4. Energy and Potential
Progress Seminar 이준녕.
Presentation transcript:

Analysis of Alu repeat elements Molecular biology & Phylogeny Laboratory Woo-Yeon Kim

CONTENTS Whole-genome analysis of Alu repeat elements reveals complex evolutionary history INTRODUCTION NEW IDEAS RESULTS DISCUSSIONS Alu repeat analysis in the complete human genome: trends and variations with respect to genomic composition

Genome Research - Letter Supplemental material is available online at www.genome.org

INTRODUCTION

Alu repeats A family of SINEs, short interspersed nuclear elements Replicating via LINE-mediated reverse transcription of an RNA polymerase Ⅲ transcript Roughly 280 bp The history of substitution patterns in the human genome Markers to determine genetic distances between human subpopulations – polymorphic Alu insertions R L Poly A signal AAAAA SINE Structure

K-means Place K points into the space represented by the objects that are being clustered. These points represent initial group centroids. Assign each object to the group that has the closest centroid. When all objects have been assigned, recalculate the positions of the K centroids. Repeat Steps 2 and 3 until the centroids no longer move. This produces a separation of the objects into groups from which the metric to be minimized can be calculated. 1. 여러 데이터가 있을때, 임의로 K개의 군집수를 정하고, 이것의 군집중앙위치를 임의로 정합니다. 2. 각각의 데이터에 대해서, K개의 군집중앙까지의 거리를 구하고, 가장 가까운 군집에 속하게 합니다. 3. 각 군집에 속해진 데이터들을 통해서, 그 데이터로부터 군집중앙까지의 평균을 구해서, 군집중앙을 새롭게 정해줍니다. 4. 만약 새롭게 정해준 군집중앙이 이전의 군집중앙과 동일하다면, 알고리즘은 종료합니다. 5. 동일하지 않다면, 2번의 과정부터 되풀이 하게 됩니다. 이 과정을 거치면, 임의로 정해준 K개의 군집으로 데이터들이 나뉘게 됩니다. 하지만, 이 방법은 앞의 단점에서 말씀드렸듯이 군집수 K를 임의로 정해줘야 한다는 것에 있죠. 그리고, 군집의 갯수(K), 초기 군집 중심의 선택, 어떤 데이터부터 처리를 해줄 것인가 등의 영향을 받게 됩니다. 그래서 이 알고리즘을 적용할때는 서로 다른 초기 군집중심 뿐 아니라 다양한 K값에 대해서 실험을 해봐야 합니다.

NEW IDEAS

An example using real data Only the 5 Alu positions with diagnostic mutations in the Ya5 subfamily (position 91, 98, 146, 175, and 238) Applying k-means clustering, k = 2

Looking for overrepresented pairs Identifying nested subfamilies Computing biprofiles, frequencies of pairs of nucleotide values

RESULTS

Aligned consensus sequences of selected subfamilies Roughly 480,000 full-length Alu elements Recursively split subfamilies Identifying 213 subfamilies

An evolutionary tree of Alu subfamilies

DISCUSSION Significant mutation from the consensus sequence Available detected by a rigorous whole-genome analysis Partial results Not statistically discernible Limitations in this algorithm Limitations – Excluding Insertion/deletion mutations Frequent CpG mutations Mutations to nucleotide values already present in other subfamilies Statistically distinguishable subfamilies Only 19 of the 31 subfamilies currently reported in Repbase Update

Bioinformatics – Discovery Note Online Supplementary data is available at the web page www.igib.res.in/manuscriptdata/aluanalysis.html

Alu distribution in whole genome Chromosome Alu J Alu S Alu Y Other Alus Total Alu No. Chromosome Size (bp) 1 25043 56044 12209 8114 101410 221782893 2 19679 46673 11295 6438 84085 237637456 3 15812 37539 9135 5044 67530 194846173 4 12857 30347 8158 4242 55604 188402715 5 12932 32423 8023 4351 57729 177705559 6 14449 35722 8375 4959 63505 175762617 7 17486 38816 8277 5150 69729 153794793 8 12092 27148 6203 3825 49268 142788062 9 10741 26910 6496 3441 47588 117013362 10 13909 31110 6707 4378 56104 131098977 11 11858 27461 6357 3744 49420 133239679 12 14932 32314 7026 4718 58990 129362603 13 6467 15929 4307 2114 28817 95228136 14 8921 20201 4392 2931 36445 88182284 15 9631 22169 5284 3000 40084 83582680 16 13913 29451 5462 3864 52690 80889146 17 13542 34653 7025 4150 59370 80734148 18 5935 13285 3333 1915 24468 74619305 19 14135 34297 6130 3912 58474 56446152 20 7245 16478 3058 2236 29017 59424940 21 2681 6965 1865 752 12263 33917895 22 5378 13590 3119 1586 23673 33821705 X 11160 25841 5405 3284 45690 147274156 Y 1699 3547 1128 465 6839 22660226 Un 86 226 68 39 419 1374146 1179211 Fig.1. (a) Number of Alu repeats in different chromosomes in human genome with vertical segments representing the numbers corresponding to each Alu subfamily

Alu repeat density and association with genes Fig. 1. (b) Variation in Alu and gene densities in human genome

Alu in intergenic and intragenic regions Variation in Alu contents in Genes of human Genome Alu densities in the intergenic and intragenic regions in human genome

Distribution of Alu subfamilies The most abundant Alu subfamily – Alu S, 6.4 % region of the genome Chromosome Y The most Alu poor chromosome High density Alu Y – very low density Alu S, Alu J Chromosome 13, 9 – similar trend 13 having least density of Alu J Chromosome 8, X High density Alu S, J Very low density Alu Y

Correlation analysis GC content seems to have highest association with Alu density overall, followed by gene density and intron density

DISCUSSION Analysis of Alu distribution in genes Statistically significant correlation between Alu and gene densities A higher Alu density in intragenic regions – These elements are preferred in genes. The highest Alu and gene densities – Chromosome 19, 22 Alu density is correlated in the order GC content > gene density > intron density The abundance of Alu subfamilies – Alu S > Alu J > Alu Y Young subfamilies - Chromosome 9, 13 and Y Old subfamilies – Chromosome 8 and X Higher correlation of older Alus with GC content than younger ones