**篇 蛋白质组信息学的基础知识
**章 蛋白质组与信息学
2003 年4 月,人类基因组序列图谱基本绘制完成,标志着人类基因组计划(human genome project,HGP)取得了划时代的研究成果,海量的基因序列数据使人类对生命本质的认识达到了前所未有的广度和深度。然而,当人们为基因组计划的辉煌成就欢欣鼓舞时,却不得不面对这样一个严峻的现实:仅从基因组序列的角度根本无法完整、系统地阐明生物体的功能。基因活性和生命活动之间有何相关性?为什么同一基因在不同时期和环境下,其作用截然不同?基因组学的研究尚无法给出这些问题的答案。因为基因只是遗传信息的携带者,而基因编码的产物——蛋白质才是生命存在和运动的物质基础,是细胞增殖、分化、衰老和凋亡等重大生命活动的真正执行者。
传统的蛋白质研究通常只是针对单个蛋白质,然而,生物体生理功能的产生以及病理性的变化往往是由多个蛋白质共同完成的。因此,想要全景式地揭示生命活动的本质,必须将蛋白质的研究方式从传统的“钓鱼”模式转换成“一网打尽”的研究模式,全局性地研究基因组编码的所有蛋白质在不同时间与不同空间的表达和功能。
随着人类基因组计划的逐步完成,生命科学的研究重心已逐渐从遗传信息的揭示转移到分子功能的研究,生命科学已实质性地跨入一个崭新的纪元——“后基因组时代”(post-genome era)。以蛋白质组(proteome)研究为核心内容的“后基因组计划”已拉开序幕,也面临着巨大的挑战。
**节 蛋白质组和蛋白质组学
一、蛋白质组
“蛋白质组”这个概念是1994 年在意大利锡耶纳召开的双向凝胶电泳(二维凝胶电泳)会议上*次提出的,并发表于1995 年7 月的Electrophoresis(《电泳》)上。这个新术语很快获得了国际认可,它指的是一个细胞、组织或完整的生物体在特定时间和特定条件下所表达的全部蛋白质及其活动方式。
蛋白质是生物多样性和复杂性的载体,不同类型的生物系统都有各自的蛋白质组。例如,“细胞蛋白质组”指生物体的某特定种类的细胞在特定环境条件下所表达的全套蛋白质;而生物体中各种不同的“细胞蛋白质组”共同构成了“总蛋白质组”,也就是与该生物体基因组相对应的全部蛋白质产物。不仅完整的细胞有蛋白质组,某些亚细胞生命体系也拥有自己的蛋白质组,如病毒表达的所有蛋白质被称为“病毒蛋白质组”。
值得注意的是,蛋白质组是一个动态的概念,生物体、组织或细胞的蛋白质组的表达内容随着时间、空间和环境条件的改变而有所不同。
二、蛋白质组和基因组的区别
与基因组相对应,蛋白质组也是一个整体的概念,但两者之间也存在不同之处,主要表现在:*先,蛋白质组比基因组更大。人体的每一个细胞都具有与生俱来的完全相同的基因组,但是,不同类型的细胞拥有不同的蛋白质组,基因和蛋白质并非是简单的一一对应关系。基因可以通过mRNA 的选择性剪切、RNA 拼接、转录后调控等途径编码相当于基因总数6 ~ 7 倍的蛋白质。与此同时,蛋白质翻译后修饰(如糖基化、磷酸化、甲基化、乙酰化等)同样增加蛋白质的种类。因此,蛋白质组内的蛋白质数目要远远多于基因组内的基因数目。目前公布的人类基因组全序列图谱显示,人类基因组仅仅包含30 000 ~ 40 000 个开放阅读框(open reading frame,ORF),而人类蛋白质组包含的蛋白质数目估计超过20 万个。
其次,蛋白质组比基因组更复杂。相对基因组而言,蛋白质组更为复杂多变。基因组由核苷酸PPT蛋白质组信息学序列决定,相对比较稳定,而蛋白质在执行生理功能时的表现是多样的、动态的,并不像基因组那样基本固定不变。影响蛋白质组表达的因素是多方面的:细胞培养中,细胞所处的生长阶段、培养条件和细胞种类都成为影响蛋白质表达的因素;多细胞生物在不同的分化阶段,其细胞的蛋白质组所表达的蛋白质的种类、数量亦不同。
正是蛋白质群体在不同时间和空间表达并发挥功能才形成了复杂的生命活动。因此,对生命复杂活动的全面和深入认识,必然要在整体、动态和网络水平上对蛋白质进行系统研究——蛋白质组学研究。
三、蛋白质组学
随着20 世纪90 年代中期“蛋白质组”概念的提出,“蛋白质组学”这门新兴学科也应运而生。
从字面上理解,蛋白质组学就是研究蛋白质组的科学。但是,与传统的蛋白质学科不同,蛋白质组学着眼于一个生物体、组织或细胞的全部蛋白质的整体活动,而非单个蛋白质。因此,蛋白质组学主要是在整体水平上研究细胞内蛋白质的组成、结构及其自身特有的活动规律,旨在阐明生物体全部蛋白质的表达和功能模式,以获得更全面完整的生物学信息。
蛋白质组学的研究任务十分广泛,不仅仅局限于蛋白质的“身份鉴定”,还包括蛋白质的定量检测、细胞内定位、修饰形式、结构和功能模式等,蛋白质群体内相互作用的网络关系也被纳入了蛋白质组学的研究范畴。
可以说,蛋白质组学研究的开展不仅是生命科学研究进入后基因组时代的里程碑,也是后基因组时代生命科学研究的核心内容之一。经过十余年的积累,国际蛋白质组学研究已经进入蓬勃发展时期,一批高水平的研究成果陆续在Cell(《细胞》)、Nature(《自然》)和Science(《科学》)等杂志上发表,特别是在不同组织或细胞中蛋白质的表达、定位、互作网络与功能关系的研究方面,已经取得了一系列突破性的进展。
四、蛋白质组学和基因组学的区别
蛋白质组的复杂性决定了蛋白质组学需要解决的问题远远比基因组学更为烦琐,也更具挑战性。所有的蛋白质组实验研究均面临着两大问题:样品的高复杂性和低丰度。
不同的蛋白质在生物体内具有不同的浓度,转录因子与蛋白质的表达之间存在动态差距,mRNA表达水平并不能预测蛋白质表达水平。而蛋白质组具有物种特异性,表达模式和程度也始终随着许多内部、外部事件而改变。因此,对人类庞大的动态蛋白质组进行分析、解释是一个巨大的挑战,相关方法学和技术亟待发展和完善,降低蛋白质样品的复杂性以及样品的富集技术是亟须解决的两个关键问题。
五、蛋白质组学的分支学科
目前,蛋白质组学的研究对象已涵盖了病毒、原核生物、真核生物等多种生命体系。蛋白质组与其他学科的交叉研究,促进了一些新兴学科的诞生,提出了表达蛋白质组学、结构蛋白质组学、医学蛋白质组学、临床蛋白质组学、功能蛋白质组学和蛋白质相互作用组学、比较蛋白质组学等一系列新概念,推动了蛋白质组学的发展。
(一)表达蛋白质组学
表达蛋白质组学通过二维凝胶电泳技术获得细胞、组织或生物体中的所有蛋白质,并建立蛋白质定量表达图谱。通过互联网在数据库中检索二维凝胶图谱,并进行图谱比对等分析,可以分析蛋白质组表达谱之间的差异,在整个蛋白质组水平上研究细胞通路、生物功能紊乱的机制。例如,对各种疾病组织与正常组织之间蛋白质表达谱差异进行研究,可以找到一些疾病特异性的蛋白质分子,对揭示疾病发生的机制有帮助,目前已应用于肝癌、膀胱癌、前列腺癌等研究中。目前已经建立了一系列二维凝胶电泳参考图谱数据库,如瑞士生物信息研究所的WORLD-2DPAGE 网站上提供了多个此类数据库的链接。
(二)结构蛋白质组学
结构蛋白质组学的任务是在蛋白质组中研究蛋白质的结构和功能,该方法*先需要选择一套能够代表各主要蛋白质家族的蛋白质,然后通过高通量晶体扫描、X 射线衍射分析等技术手段实现蛋白质高级结构的解析。
(三)医学蛋白组学
蛋白质组学技术在药物发现、疾病诊断和药物分子修饰中扮演着重要的角色。
几乎所有的病理过程都伴随着某些蛋白质的种类和数量上的变化,因此,蛋白质被称为基因与疾病的桥梁。通过对蛋白质表达种类和数量变化的分析,可以提供细胞代谢、信号转导和调控网络的信息,并理解这些网络如何在病理中失去功能,又如何通过药物干预和基因干预恢复它们的功能。
因此,蛋白质组学对于疾病诊断、病理研究和药物筛选都具有重要意义。
(四)临床蛋白质组学
临床蛋白质组学主要致力于发现各种与疾病相关的特异性标志蛋白质,广义来说,包括药物潜在靶点的鉴定、疾病诊断、病情发展阶段标记的识别以及医学和环境研究的风险评估。
疾病相关或疾病特异性蛋白质常被称为疾病的“生物标记”。借助于蛋白质组的研究手段,以正常人群和疾病人群的细胞或组织为研究对象,比较蛋白质在表达数量、表达位置和修饰状态上的差异,就可以发现这些“生物标记”,为疾病早期诊断提供了一个灵敏的工具。
除了为疾病的临床诊断提供线索,疾病分子标记还可以作为疾病治疗和药物开发的靶点,为新药研发提供依据。例如,针对蛋白质结构改变而引发的疾病,可以通过找到该缺陷蛋白质并对其构型进行改造,达到治疗效果;针对蛋白质缺失引发的疾病,则可通过模拟该缺失蛋白,设计出针对此类疾病的蛋白质类药物,就有可能实现该疾病的治疗。
2008年7月26日在新疆召开的中国蛋白质组学第六届大会和2008 年8 月28 日在荷兰阿姆斯特丹召开的人类蛋白质组研究组织(human proteome organization,HUPO)第七届世界大会上,临床蛋白质组学都是引人注目的专题,特别是肿瘤蛋白质标记物成为报告的热点之一。目前,卵巢癌、前列腺癌等肿瘤的疾病在国际蛋白质组研究中已经取得初步成果。
(五)功能蛋白质组学
功能蛋白质组学是一种整合蛋白质及其生物功能和相互作用关系的综合研究,旨在回答以下问题:
1. 分子功能 蛋白质能做什么?
2. 生物过程 蛋白质参与了哪一条途径的生化反应?
3. 细胞组分 蛋白质定位在细胞的什么地方?
传统的功能基因组学方法是对细胞内所有的基因进行敲除或使基因失活,每次敲除一个基因,然后针对某个特殊表型进行大规模的高通量筛选,以推测细胞内每个蛋白质的功能。目前,诸如RNA 干扰(RNAi)技术等新兴的基因功能研究方法相继推出,该技术发明人获得了2006 年诺贝尔生理学或医学奖。
(六)蛋白质相互作用组学
过去都认为一个蛋白质对应一个结构,一个结构完成一个功能。但是,越来越多的证据表明,一个蛋白质并不能主宰一个生物事件的发生,一个事件的发生是一群蛋白质协同作用的结果。因此,相互作用的蛋白质网络才是真正能够表现生物学功能的形式。蛋白质相互作用组学就是在原子、分子和细胞层面研究蛋白质 – 蛋白质相互作用的学科。
(七)比较蛋白质组学
一个**的案例,鼠和人的基因组大小相似,都含有约30 亿碱基对,基因的数目也类似,且大部分同源。可是鼠和人的差异却如此之大,这是为什么?这种差异不仅应从基因、DNA 序列找原因,更应考虑到整个蛋白质组的差异,这一研究工作开创了比较蛋白质组学。
比较蛋白质组学被广泛应用于生命起源研究和生物进化等领域。生物进化亲缘关系的研究不再依靠传统的形态学和解剖学手段,而可以根据不同种属蛋白质组表达模式的差异程度,断定它们的亲缘关系,由此得出的系统进化树与用**方法得到的基本相符。这样就可以通过比较蛋白质表达谱来研究物种间的系统发育关系。
通过将酵母、线虫、果蝇、藻类等一系列模式生物和人类的蛋白质组进行比对分析,结果表明,生物的进化伴随着某些特征性保守核心蛋白表达的改变。在同一界中,蛋白质组的相似程度与亲缘关系成正比,共享的保守核心蛋白越多,进化同源性越高。例如,真核生物、多细胞动物、脊索动物和脊椎动物的蛋白质表达谱就呈现出种间差异,脊椎动物基因组编码的全套蛋白质(蛋白质组)比无脊椎动物的蛋白质组更为复杂。
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录