Download presentation
Presentation is loading. Please wait.
1
제 4 장 데이터베이스에 유전자 서열 투고하기
2
분자생물학 데이터베이스의 발전 - 19세기: 유전학과 세포생물학 - 20세기: 분자생물학 - 생물학의 기초적인 관찰
- 컴퓨터화된 데이터베이스 (팽창해가는 지식들의 기반)
3
분자생물학 데이터베이스들의 발전 데이터베이스 종류 데이터 내용 예
데이터베이스 종류 데이터 내용 예 1. 문헌 데이터베이스 서지학적 인용 MEDLINE (1971) 2. 사실정보 데이터베이스 핵산서열 GenBank(1982), EMBL(1982), DDBJ(1984) 아미노산 서열 PIR(1968), PRF(1979), SWISS- PROT(1986) 3차원 분자 구조 PDB(1971), CSD(1965) 3. 지식 기반 모티프 라이브러리 PROSITE(1988) 분자 분류 SCOP(1994) 생화학 경로 KEGG(1995) 온라인 간행물
4
- 전체 서열 데이터 게재하지 않고 데이터베이스 등록번호만을 게재 - 저자가 직접 공공 데이터베이스에 서열 투고해야 함
이전의 서열 나타내는 논문 현재 서열 나타내는 논문 Title ,,,,,,, Title ,,,,,,, ATGCGCATGGCC…….………………………….……………………………………………………………………………………………………… AF11596 서열 나타내는 논문 투고시 - 전체 서열 데이터 게재하지 않고 데이터베이스 등록번호만을 게재 - 저자가 직접 공공 데이터베이스에 서열 투고해야 함
5
동일 정보 공유 서열 데이터 투고 DDBJ DDBJ 국제적 협약 EMBL EMBL Database GenBank GenBank
장점 1) 신속하게 서열 데이터 보급 2) 정보의 중복성 없음
6
* 데이터 투고 * 데이터 투고의 공통 원칙 무엇을? 어디에? 한 군데에만 투고해야함
하루안에 등록번호 받을 수 있으며, 완성된 정보는 5~10일안에 사용가능 정보를 계속 갱신해야 함 월드와이드웹, 이메일, 우편(디스켓송부)등의 방법이 있음 * 데이터 투고의 공통 원칙 - 투고되는 정보는 충분한 기능해석 설명이 있어야 함 - 생물학적, 전산적으로 적절한 것 - 다른 과학자들에게 혜택이 돌아가는 것을 허용 - 단백질 데이터베이스, 관련문헌 데이터베이스, 유전체 데이터베이스에 링크 포함항목 : 염기서열, 단백질서열, 코딩영역, 유전자, mRNA 특징, 투고된 서열이 유래한 생물체, 인용 참고문헌, 실험적 상세한 설명 등
7
DNA/RNA 정확성, 신빙성이 중요 서열의 본질 : genomic DNA, mRNA, rRNA, cDNA 합성된 서열인가?
: 합성분자 (단백질 발현 벡터서열과 같이 자연환경에서는 존재하지 않으나 실험적으로 합성된 서열 다른 분과에 등록해야 함 : 컴퓨터가 만든 서열 (consensus sequence)는 수용안됨 : DNA 데이터베이스의 모든서열은 서열분석으로부터 실험적으로 얻은 것임 : 잘개 쪼개서 서열분석 (Shotgun sequencing)한 결과는 됨 서열의 정확성 : 적어도 두번이상 (양방향)서열분석 된 것 : 가능한 한 이미 알려진 제한효소 지도로 점검해야 함
8
생물체 문헌 인용 서열이 밝혀진 생물체 (organism)를 꼭 밝혀야 함
- 단백질 translation이 달라지므로 매우 중요함 - 생물체 지정이 잘못될 경우 translation 할 경우 틀린 유전자암호가 사용되어 translation 된 단백질 산물의 서열이 틀리게 만들어 질 수 있음 - 종, 속을 정확히 기재 문헌 인용 연구 논문, 인용된 기초데이터들 사이에 적절한 연결이 필수적 데이터 투고 시에 임시 저자목록, 임지 제목을 만들어 인용 인용 문헌의 갱신
9
단백질 코딩 서열 염기서열 투고 염기가 coding하는 단백질 서열이 포함됨을 의미
- SWISS-PROT, PIR (단백질 데이터베이스) ; 대부분 DNA 데이터베이스 기록에 존재하는 단백질 서열들로 구성됨 - 단백질 서열이 필수적이지는 않음, 하지만 데이터 투고 과정에서 중요한 검증 절차 될 수 있음 효소의 서열일 경우 정확한 유전자 명명법을 사용해야 함 CDS (coding DNA sequence) - DNA 혹은 RNA와 단백질 서열을 연결 - CDS의 정확한 위치를 찾는 것 정확한 단백질 서열 확인 단백질을 직접 분석한 경우 (DNA 서열없이 투고) SWISS-PROT mRNA Start codon Stop codon CDS
10
테이터 투고방법 1) 웹을 통한 방법 : 방법이 쉬우며 일반적으로 서열을 등록할 때 사용 - DDBJ ; Sakura
1) 웹을 통한 방법 : 방법이 쉬우며 일반적으로 서열을 등록할 때 사용 - DDBJ ; Sakura - EBI : WebIn - NCBI : BankIt 2) 프로그램을 이용한 방법 : multi-platform program으로 여러 서열을 동시에 등록하거나 복잡한 데이터 투고시 사용 - Sequin
11
BankIt 사용방법
14
스크롤바 아래로
16
염기서열 길이 입력
17
등록번호 ; 이 번호를 이용하여 정보 수정 가능함
18
몇 개의 서열을 투고할 것이지 설정
19
등록자 정보 및 연락처
20
서열을 등록할 연구자의 이름 등록
21
생물체 지정 (포맷에는 100개의 생물체가 있으며, 그 외의 것일 경우 따로 입력해야 함)
22
서열에 대한 정확한 정보 입력 서열이 유래한 샘플 서열의 종류 서열 입력
23
단백질의 세포 내 위치 (핵, 세포질)등의 다른 정보가 있을 경우 입력함
몇 개의 특징이 입력될 것인지 설정 한 개 이상의 CDS 첨가 할 수 있음 그 외 다른 정보도 입력 가능
24
Sequin 사용방법 서열기록을 새로 만들거나, 기존 기록을 갱신시키기 위하여 고안된 소프트웨어 컴퓨터 플랫폼에서 작업 가능 적합한 서열 : 고전적 염기서열, Segment 서열 , 긴 서열, 서열세트 등 좀 더 복잡한 데이터를 투고하는 경우에 매우 실용적 특징 1) 염기서열, 단백질 산물 서열, 유전코드 (생물체 이름)만 주어져도 CDS를 통한 interval을 계산해 주어 splicing site와 exon을 구분해 준다. 2) 단백질 서열의 특징을 입력 가능함 (Signal peptide, transmembrane region, cystein disulfide bond 등) 3) 유사서열 그룹을 등록할 경우, 서열 정렬에 대한 정보 투고를 허용함 4) 이미 수록된 Genbank 기록을 편집하고 재투고 할 수 있음 (정보 추가) 5) 파일 저장이 용이하고, 원하는 때에 최종적으로 데이터베이스에 보내면 된다.
25
Sequin 사용방법
27
파일을 다운로드 받을 수 있다.
29
임시제목 입력
30
교신자 정보
31
서열의 저자 및 소속 기관
33
서열 포맷 양식 : 투고되는 형태 설정 Alignment 형식 가능 Original Submission : 일반적인 투고 방법 Third Party Annotation : 실험적으로 증명된 내용을 첨부할때 이용
35
수정을 할 수 있는 편집기능 제공함. 수정 항목의 확인이 끝나면 입력된 데이터를 적절한 구조로 조립함
36
Sequin의 서열 기록 보기 – Genbank 포맷
37
Sequin의 서열 기록 보기 – 그래픽 보기
38
일반적인 DNA 데이터베이스에 투고할 수 없는 서열
sequences of less than 50 bp in length a genomic sequence of multiple exons joined together without the sequence of the intervening introns primer only sequences protein only sequences non-biologically contiguous sequences containing internal unsequenced spacers sequences containing a mix of genomic and mRNA sequence represented as a single sequence Expressed Sequence Tag (EST) submissions (should be submitted through the dbEST system) Genome Survey Sequence (GSS) submissions (should be submitted through the dbGSS system)
Similar presentations