实验1 分子序列数据库记录格式与检索
蛋白质和核苷酸测序技术发明后带来了大量的分子序列数据,对这些数据进行有效管理(如存储、分类)就成为生物信息学的重要任务,因此各类分子数据库陆续建立。数据库由记录(entry)构成,每个数据库记录的格式不一,但通常包括两个部分:原始序列数据和描述这些序列的生物信息学注释。
分子数据库是生命科学数据信息库的集合,种类繁多,主要有核苷酸序列、蛋白质序列与结构初级数据库,以及基于初级数据库建立的二级数据库。GenBank、ENA和DDBJ是三个*著名的核苷酸序列数据库,属于初级数据库,分别由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、欧洲生物信息学研究所(European Bioinfor-matics Institute,EBI)和 日本DNA数据 库(DNA Data Bankof Japan,DDBJ)维护。此外,各种基因组测序计划所产生的数据也是主要初级数据源,例如,包含不同物种基因组序列的EnsemblGenomes、包含不同植物基因组序列的Phytozome,以及模式物种基因组数据库,如拟南芥基因组数据库TAIR、酵母基因组数据库SGD、人类基因组数据库UCSC Genome Browser等。
Swiss-Prot和PIR是国际上两个主要的蛋白质序列数据库。Swiss-Prot主要由日内瓦大学医学生物化学系和EBI合作维护,TrEMBL也是一个蛋白质序列数据库,目前Swiss-Prot和TrEMBL已经合并为UniProKB数据库。2002年PIR与EBI和瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)共享数据资源,建立了通用蛋白质资源数据库UniProt(Universal Protein Resource),统一收集、管理、注释蛋白质序列数据。
蛋白质结构数据库主要可分为:①蛋白质结构分类数据库,如SCOP和CATH;②实验测定蛋白质结构数据库,如PDB。蛋白质功能域数据库主要包括PROSITE、 Pfam、SMART等,它们均属于InterPro功能域联盟。
基因组序列等遗传信息数据是国家安全的重要战略资源。多年来我国专家学者一直呼吁成立中国自己的生物信息数据库,国家基因组科学数据中心(National Genomics Data Center,NGDC)应运而生,其以中国科学院北京基因组研究所(国家生物信息中心)为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。该数据中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据存储、整合与挖掘分析研究体系,研发生物多样性与健康大数据交汇、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。目前,该数据库已被众多主流国际期刊认可。
一、实验目的
本实验以GenBank数据库和拟南芥基因组数据库TAIR为例,从记录格式和数据库关键词检索等方面介绍初级数据库。要求掌握常用数据库的一般检索方法及具备获得信息的能力,熟悉常用分子数据记录格式。
二、数据库、软件和数据
(一)数据库与软件
GenBank、TAIR、文本编辑软件UltraEdit、格式转换软件Seqret。
(二)数据
GenBank记录EF069996、TAIR数据库NHX基因。
三、实验内容
(一)NCBI数据库检索
NCBI数据库信息十分丰富,包含30余种数据库,大体上可以分为六大类:文献书籍(“Literature”)、基因(“Genes”)、蛋白质(“Proteins”)、基因组(“Genomes”)、临床(“Clinical”)和生化代谢(“PubChem”)相关信息(图1.1)。例如,常用的PubMed是免费的文献搜索数据库,Taxonomy为物种分类信息,Nucleotide收录核苷酸数据,Assembly是基因组的拼接组装,SRA(sequence read archive)收录高通量测序仪产生的序列。近些年,在涉及高通量数据的文献中经常看到的NCBI记录号是BioProject,BioProject以某一个实验项目或设计为单元,收录该项目所产生的数据,这些数据可以是不同类型,这样用户进入BioProject记录,即可以追踪至该项目产生的所有数据(如BioSample、SRA、Assembly等)。
在检索框中输入关键字搜索,即获得所有数据库中包含该关键字的记录,如图1.1B所示为以“Oryza sativa”为关键字的搜索结果(2022年3月20日)。点击每一个数据库,可查看该数据库中的所有记录,例如,Nucleotide数据中收录了近300万条包含“Oryza sativa”的记录,这些记录包括不同种类(如DNA、RNA)、不同来源(如EST、GSS等)的数据。获得该结果的另一种方法是在NCBI主界面(图1.1A)“All Databases”中选择Nucleotide数据库,以“Oryza sativa”为关键字进行搜索。
上述搜索结果仅表示包含该关键字的所有记录。如果需要获得来自水稻(Oryza sativa)这个物种中的所有核苷酸序列记录,则可以用“Oryza sativa[Organism]”搜索(图1.2A),或者使用高级搜索“Advanced”模式(图1.2B)。当然,用户也可以根据自己需求对关键字进行不同限定。例如,想获得来自水稻中的所有长度为100~200碱基的核苷酸序列记录,则可以使用关键字“Oryza sativa[Organism] AND 100:200[Sequence Length]”,或者使用“Advanced”模式,限定物种Organism(关键字“Oryza sativa”)和长度Sequence Length(关键字“100:200”)。
(二)NCBI序列记录格式及其转换
GenBank数据库主要采用的是Flat File格式,如图1.3所示。其特点为易被计算机读取且注释信息容易识别,一般分为三个部分,依次为描述部分、注释部分及序列部分。
FASTA格式是用于存储DNA和蛋白质序列的*简明的方法。FASTA格式第一行为描述行,以一个大于符号“>”开始,接着是序列标示符及相关描述,几乎可以是任意字符。所有描述信息必须在第一行完成,然后第二行及之后为序列行,可为碱基或者氨基酸序列。如下所示为GenBank记录号EF069996的FASTA格式:
可以利用文本编辑器进行序列格式间的转换。目前有不少序列格式转换的软件,如Seqret(图1.4)。Seqret提供了50余种不同格式之间的转换。此外,对于Genbank数据库,每条记录页面也提供了Genbank和FASTA两种格式的显示(图1.5)。
(三)NCBI记录下载
对于检索到的序列记录,NCBI数据库界面提供了下载功能。如图1.5所示,右上方箭头指示的“Send to”可将所选记录下载:可以选择下载至本地文件,并选择不同格式(如Genbank或FASTA)。
此外,当需要下载成百上千条序列时,可以利用Batch Entrez功能。只需上传一个文本文件,该文件包含一个列表(即用户需要下载的记录),可以是Accession号、Gi号,或是NCBI里其他数据库的各种标识符,点击“Retrieve”即可(图1.6)。对于更大数据量的下载,NCBI提供了FTP下载或者利用Aspera软件高速下载。
图1.1 NCBI数据库
A.主界面;B.以“Oryza sativa”为关键字搜索获得的记录
图1.2 NCBI数据库中来自水稻(Oryza sativa)的核苷酸序列记录
A.以“Oryza sativa[Organism]”为关键字搜索;B.使用“Advanced”模式搜索
图1.3 GeneBank的Flat File格式示例(记录号EF069996)
展开