1 Importing GEO data into MIAME format-based information System
Bioinformatics for Genomic Medicine Yong Jung

2 Background Microarray technology is a powerful approach for genomics research DNA microarray is a high-throughput biomedical technology that monitors gene expression for thousands of genes in parallel. As microarrays are used in variety of biomedical research, we need the systematic management of large amount of gene expression data.

3 GEO & MIAME GEO (Gene Expression Omnibus) – Microarray data repository
SOFT (Simple Omnibus Format in Text) 라는 독자적인 data format을 가지고 있음 MIAME (Minimum Information About Microarray Experiment) Microarray 실험에서 기록해야 할 Data의 종류와 최소한의 필수적인 내용을 정의한 content standard 초창기에는 GEO 나름의 data 표현 방식을 가지고 있었으나, 2005년 5월 31일부터 MIAME 에서 요구하는 새로운 field와 value type을 포함함

4 Motivation MGED (Microarray data를 공유할 수 있도록 표준화하는 단체) 의 표준화 제안이 공식적으로 인정 받게 되면서 표준을 지원하는 마이크로어레이 데이터베이스 개발 노력이 증가하고 있음 단순한 MIAME 데이터 요구를 반영하는 데이터베이스가 대부분이고 표준 데이터 모델이나 형식을 완벽하게 지원해 주는 데이터베이스의 개발은 미비한 상황임 GEO의 풍부한 Data의 양과 MIAME의 표준화된 형식의 만남은 효과적인 생물학적 연구에 핵심적인 기반을 제공하리라 판단됨. 그래서 MIAME를 정확히 따르지 못하고 있는 GEO의 Data를 MIAME format 에 맞추려고 함.

5 Problem MIAME format GEO는 SOFT라는 독자적인 포맷으로 데이터를 저장하고 있으므로 연구자들간의 데이터를 공유하는 데 어려움이 있음 GEO에서 MIAME 표준에 따르는 field를 추가하여 revised format을 발표하였지만, 그러나 정확한 MIAME format에 match되지는 않음 GEO의 총 data의 양 90,000 여 개, 비교적 data입력이 자유로운 편. 방대한 data내에 일관되지 않은 형식들도 많을 것으로 예상 SOFT format in GEO

6 My Approach GEO data의 (attribute, value) 와 MIAME 형식의 (attribute, value)를 비교, matching 구조를 파악. Programming을 통해 방대한 data를 자동적으로 MIAME에 맞출 수 있도록 자동화하도록 한다.

7 References Edgar,R., Domrachev,M. and Lash,A.E. ( (2002) ) Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. Nucleic Acids Res., , 30, , 207–210. Brazma,A., Hingamp,P., Quackenbush,J., Sherlock,G., Spellman,P., Stoeckert,C., Aach,J., Ansorge,W., Ball,C.A., Causton,H.C. et al. ( (2001) ) Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. Nature Genet., , 29, , 365–371.

