Mol Cell:蛋白质修饰图谱的发现
时间:2021-09-19 20:30:10 热度:37.1℃ 作者:网络
从古细菌到真核生物,蛋白质修饰几乎可以调节生物体细胞生物学活动的各个方面。20世纪初,通过化学水解研究蛋白质的氨基酸组成,发现了共价蛋白质修饰的最早证据。这些发现挑战了经典氨基酸的定义。20世纪后半叶,基于质谱的蛋白质组学的出现和迅速被采用,使得已知的蛋白质修饰的数量出现了爆炸性的增长,目前已计算出500多个离散修饰。现在,数据科学、机器学习和人工智能领域的新计算工具有望让研究人员在发现新的蛋白质修饰和确定其功能方面取得重大进展。
翻译后修饰(PTM)是蛋白质一级结构的共价化学修饰。这些修饰最常发生在蛋白质的侧链或N末端,从而改变其基本化学组成。蛋白质修饰导致的化学组成多样性水平远远高于单独使用标准氨基酸所能达到的水平(图1)。PTMs也是可逆的,这使蛋白质化学和功能的空间和时间控制成为可能。
蛋白质修饰对蛋白质功能产生了广泛且深远的影响。一些修饰具有高度丰富性、高度特异性或高效性,而其他修饰的生理后果尚不清楚或最近才被发现。事实上,随着新的蛋白质修饰被发现,蛋白质修饰的数量继续增加。越来越多的蛋白质修饰使这种调节系统越来越复杂。在这篇综述中,作者首先回顾了关键PTM的历史发现;接下来,作者使用数据科学中的工具来系统地量化共价蛋白质修饰的前世今生;最后,作者展望未来并评估新的数据科学和机器学习(ML)工具将在该领域发挥的作用。
图1 使用标准Corey-Pauling-Koltun着色协议描绘的20种蛋白质氨基酸结构:黑色:碳;红色:氧;蓝色:氮;黄色:硫;细线:单键;粗线:双键;氢被省略。
蛋白质修饰的首次发现
在20世纪,科学界对表征蛋白质的氨基酸组成特别感兴趣。科学家们主要使用酸水解等化学方法,来确定单个氨基酸的化学组成以及蛋白质中氨基酸的丰度。在预期的碳、氮和氧中,一些蛋白质含有异常高水平的磷。通过艰苦的分析化学,Levene和Alsberg最终发现蛋白质卵黄蛋白/卵黄酸中的氨基酸丝氨酸上存在磷酸化(图2)。
鉴于20种经典氨基酸中的一些尚未完全表征,早期发现的磷酸化尤其值得注意。甲硫氨酸和苏氨酸分别在1922年和1935年才被完全表征。最初,磷酸化丝氨酸被视为一种新的氨基酸,而不是一种修饰。因为当时的研究无法确定磷酰基的位置,是存在于丝氨酸的侧链还是其他位置。1932年,洛克菲勒Levene实验室研究员弗里茨·利普曼(Fritz Lipmann)的研究表明,磷酸基团与丝氨酸相连。Lipmann首先证明了离散氨基酸修饰的特异性,为未来扩展已知PTMs范围的研究铺平了道路。
在随后的20年里,新PTMs的发现几乎没有进展(图2):1951年确定的羟赖氨酸的结构和组成,是30年前报告的一种制剂中“不明碱基”明胶。新型氨基酸PTMs的发现和表征进展缓慢且技术难度大。因为PTMs通常在化学计量上很少见,元素与蛋白质相似且不稳定,所以元素分析和核磁共振(NMR)光谱不适合分析大多数PTMs。当时,可逆PTM的概念还没有得到很好的发展,所以一直存在一种观点,将磷酸丝氨酸当作一种独特的氨基酸,而不是经典丝氨酸的可逆修饰。
直到20世纪50年代中期,蛋白质PTM才成为科学文献中的一个独特概念。1956年出现一个重大突破:Dixon等人发现共价酰基丝氨酸修饰是可逆的。后来,研究人员观察到丝氨酸磷酸化也具有类似的可逆性。这些发现为“高能键”的想法提供了支持,即一种可以在分裂时释放能量的想法,作者现在知道这是一种种子概念,可以解释细胞新陈代谢的许多方面,具有奠基意义。
1970年代出现了PTM发现的爆炸式增长,到1980年,目前已知的PTM中约有40%已被发现(图2)。当时,修饰被视为一种增加生命所需化学多样性的手段,而不是蛋白质调节的关键机制。尽管如此,在PTM发现的最初几十年中,发现许多PTM后来被认为是蛋白质功能调节的绝对组成部分。
图2 蛋白质修饰的时间序列发现每年已知的蛋白质修饰的累积数量
有关计算方法和代码,请参见https://github.com/matthewhirschey
氨基酸修饰的提出、描述及发展
科学界继续争论PTMs是对常规氨基酸的修饰,还是构成新的真正的非必需氨基酸。直到1977年,出现一篇关于蛋白质PTMs新兴领域评论,该开创性评论使用“只有20种基因编码氨基酸,却被鉴定出140多种氨基酸”的短语。该篇对氨基酸的化学多样性进行综合整理的早期尝试,通过查阅文献、咨询同事以及字面上的计数,计算了140种不同的氨基酸修饰组合。赖氨酸具有最多的离散修饰,而亮氨酸、异亮氨酸和色氨酸均没有修饰。一些修饰被合理化为有“相当明显的解释”,包括辅酶被共价修饰到同源酶活性位点的蛋白质衍生物。其他例如N-α-乙酰化或许多甲基化和卤化修饰,在当时并没有已知的功能。尽管该目录包括许多今天不被视为PTMs的物质(例如tRNA),但它代表了将PTMs精确定义为一个类别的首批尝试之一。
在1970年代后期,PTMs的概念涵盖了比今天理解的范围更广的蛋白质修饰。例如,信号肽的N端去除被认为与蛋白质磷酸化一样的PTM效应。直到1981年,二硫键的形成才被视为一种类似PTM的催化过程,可能由细胞中的未知物质催化。然而,被认为参与蛋白质催化机制的瞬时半胱氨酸修饰不被认为是PTMs。该领域正在发现并分类以努力解决这些新修改的定义。
质谱蛋白质组学与氨基酸修饰
尽管目前已知的PTMs中几乎有一半在1980年前已被发现(图2),但蛋白质质谱(MS)的出现推进了该领域的快速进展。在此之前,MS主要用于有机化学,合成中间体鉴定和终产物检测,以及天然化合物鉴定。但随着对蛋白质化学理解的进步,蛋白质的分析和修饰为MS的发现做好了准备。电喷雾电离(ESI)的发展彻底改变了MS蛋白质组学领域。该技术由Malcom Dole于1968年首创,可“温和地”电离大分子以供MS分析。2002年诺贝尔化学奖获得者John Fenn和Koichi Tanaka对ESI-MS的进一步开发使PTM可以被灵敏检测,代表了MS技术在蛋白质生物学中的首次应用之一。
然而,这种在PTM研究中的迅速占领主导地位的新技术最初并不能显著提高新PTM的发现率。这是因为大多数基于MS的PTM识别协议需要在样品分析之前对PTM进行富集,而这反过来又需要了解正在富集的修饰。此外,处理MS数据需要选择与感兴趣的特定PTM相对应的目标质量。这两项技术要求,阻碍了对未表征PTM的快速检测。实际上,MS产生的大部分信号仍未映射到已知的肽或肽-PTM复合物,近年来已将其标记为“暗蛋白质组”。
但到1990年代,ESI-MS已鉴定出许多新的PTM(图2)。灵敏度方面的技术进步使基于MS的研究能够量化相对PTM水平和绝对化学计量。随着已知PTM的目录稳步增加,这一新发现的决议也阐明了许多PTM在调节蛋白质活性中的作用。
蛋白质修饰的功能研究进展
蛋白质修饰以各种可以想象的方式影响蛋白质:激活、抑制、易位、降解等。因此,揭示PTM的生物学作用的过程比识别鉴定它们更困难。对PTMs的早期研究只允许对所描述的修饰进行可能的生物学意义推测,并且在许多情况下根本没有尝试分配功能。到1970年代,很少有PTM具有任何明确记录的生物学作用。但蛋白质磷酸化和乙酰化是显著的例外,它们具有重要的功能,并为人类理解健康和疾病提供了重要线索。
最早确定磷酸化和乙酰化细胞功能的研究发表于20世纪中叶的十年之内。这两种修饰的研究需要一个稳定可靠的研究系统、一种可靠的PTM研究方法及可测量的结果。Sutherland、Fischer和Krebs最初发现了磷酸化在磷酸酶a和b相互转化中的作用, Allfrey、Faulkner和Mirsky研究赖氨酸/精氨酸乙酰化。Sutherland和Wosilait从肝组织样本中富集磷酸化酶并测量放射性磷酸盐,得出结论认为磷酸化酶可以“获得”放射性磷酸盐,从而刺激酶活性,并且是可逆的。他们观察到磷酸化受到肾上腺素的刺激,并受到来自肝脏的不明“失活酶”的抑制。为了研究早期组蛋白修饰,Allfrey等人对小牛胸腺细胞核进行了分析,分析了总组蛋白14C-乙酸盐和14C-甲硫氨酸的积累,也可以使用羧甲基纤维素色谱法从中分离出富含赖氨酸/精氨酸的组蛋白。他们表明,这些富含精氨酸/赖氨酸的组蛋白可以在不依赖蛋白质合成的情况下迅速乙酰化,并且乙酰化组蛋白以剂量依赖性方式抑制RNA合成。此时,该领域开始瞥见PTM在酶促和非酶促蛋白活性、代谢调节、染色质动力学以及它们如何整合生理学中必不可少的全身内分泌信号中的复杂和重要作用。
随着MS成为识别和定位蛋白质修饰的主力,蛋白质组范围内磷酸化和赖氨酸乙酰化的位点已经被确认。确定这两个重要PTM的完整图谱是确定蛋白质组中蛋白质修饰的功能后果的关键先决条件。基因组工程的进步、蛋白质修饰酶的发现和表征以及复杂的计算方法已成为确定PTM功能的主流工具,并为更好地了解PTM在人类健康和疾病中的作用铺平了道路。
近期PTM发展迅速,目前已经发现人类蛋白质组包含超过119,000个磷酸化位点。对tau蛋白的研究是关于磷酸化如何改变蛋白质功能和影响健康的一个典型例子。这些疾病统称为tauopathies疾病,其中研究最多的是阿尔茨海默病,PTM集中于这种与神经元和神经胶质细胞骨架相关的内在紊乱的微管结合蛋白。tau在细胞内的积累,早在20世纪就已经描述过,是一种共同的病理特征。这些聚集体中所含tau和其他蛋白质的早期标志性特征之一是高度磷酸化,这先于神经原纤维缠结形成和认知能力下降。此外,tau的修饰与26S蛋白酶体亚基和神经原纤维缠结中的翻译后修饰酶一起积累,因此表明细胞无法降解tau是某些神经退行性疾病中发生的神经毒性的关键。阿尔茨海默病小鼠模型是通过对淀粉样前体蛋白进行基因修饰而开发的,已被用于深入研究体内内源性和疾病相关的tau修饰,这种修饰可以导致致病性淀粉样蛋白Aβ1-42的积累。这导致已知的tau修饰扩大了三分之一。识别这些修饰有助于系统研究特定PTM如何影响tau功能、降解和聚集,并为针对tau激酶抑制的临床试验铺平了道路。此外,由于tau可以用无数PTM修饰35%以上的氨基酸残基,这些修饰包括小的化学基团(磷酸化、乙酰化、甲基化)、蛋白质(泛素化、SUMOylation)和碳水化合物(O-GlcNAcylation、N -糖基化、糖基化),研究tau修饰的多样性揭示了PTM对蛋白质影响的基本复杂性,例如多重修饰的协同和拮抗效应。
组蛋白是可修饰的,并且可以改变染色质动力学,这一发现促进了癌症生物学领域的进步。广泛的表观遗传修饰几乎可以调节癌症的所有特征。美国食品和药物管理局(FDA)已经批准针对负责组蛋白赖氨酸脱乙酰化的化疗药物。对组蛋白修饰功能影响的研究,为洞察其细胞作用机制提供了基础。例如,细胞周期抑制酶p21的表达需要组蛋白H3和H4的过度乙酰化,并且这种蛋白质修饰在具有高水平HDAC表达的癌细胞中被逆转。用HDAC抑制剂辛二酰苯胺异羟肟酸(SAHA;伏立诺他)治疗可逆转H3/4赖氨酸乙酰化的丧失,减少Myc原体占据并增加p21表达,从而减少癌细胞增殖。自2006年以来,伏立诺他(以及其他HDAC抑制剂)已被FDA批准为皮肤T细胞淋巴瘤的抗癌剂,更多HDAC抑制剂正在针对各种癌症类型的临床试验中进行评估。
除了HDAC活性外,乙酰赖氨酸稳态也受赖氨酸乙酰转移酶(KAT)的调节,目前正在积极研究这些酶抑制剂的抗癌作用。赖氨酸乙酰化和赖氨酸去乙酰化都可以作为癌症治疗的目标,这说明PTM在细胞中的功能是复杂的。事实上,基于蛋白质组MS研究表明,赖氨酸乙酰化与广泛的细胞过程有关,包括DNA损伤修复、细胞循环、核糖体功能和肌动蛋白细胞骨架重塑等。
因为PTM对细胞行为产生多种影响,因此蛋白质修饰可以促进人类疾病的发展和进展也就不足为奇了。疾病相关PTM或蛋白质修饰酶的研究为新疗法做出了贡献,并提供了对PTM的基本生物学见解;然而,作者对PTM在人类疾病中的作用的理解是不完整的。
PTM研究图景
自1977年尝试绘制PTM蓝图以来的40多年时间里,蛋白质修饰真正爆炸式研究增加了作者对PTM的丰富性和复杂性的认识(图2)。因此,作者着手更新作者的理解,并系统地量化离散蛋白质修饰的数量和性质。作者使用数据科学的新工具查询了UniProt库,该数据库包含超过6000万个蛋白质序列和相关注释,其中包括翻译后蛋白质修饰的“受控名称表”。通过量化所有蛋白质修饰,作者现在计算了500多个离散修饰(图3A)。尽管此分析中代表了所有20种氨基酸,但丝氨酸、半胱氨酸和赖氨酸在注释修饰中包含的多样性最大。值得注意的是,这个不断增长的蛋白质修饰列表的范围从质量的大幅变化(近900Da)到质量的负变化,与化学损失相吻合(图3B)。下面,作者重点介绍一些最常见和最不常见的氨基酸修饰。
图3 蛋白质修饰的现状
A,在所有20种蛋白质氨基酸中已经描述了大约500种蛋白质修饰;颜色代表最频繁修饰的“关键氨基酸”;分析中不包含蛋白质交联。数据取自https://www.uniprot.org数据库。计算方法和代码见 https://github.com/hirscheylab。B,附加到蛋白质上的大量修饰的分布。线代表质量的频率,缩放到1;rug-plot哈希代表个体质量。分析中不包含蛋白质交联。计算方法和代码同上。
丝氨酸
尽管最常研究丝氨酸磷酸化修饰,但丝氨酸也存在大量其他修饰。作者分析并统计了70个离散修饰(图3A),其中发现了13个丝氨酸修饰含有磷酸盐:1个是单独的磷酸盐,12个是同时含有碳和磷酸盐的修饰。此外,在丝氨酸上存在一系列复杂的碳水化合物修饰。例如,丝氨酸含有O-连接的葡萄糖、半乳糖、氨基葡萄糖和其他复杂的分支碳水化合物。事实上,鉴于这些化学部分的化学多样性和衍生它们的广泛代谢物范围,通常不会报告这些化学部分的质量。因此,该分析可能低估了基于丝氨酸的蛋白质修饰的真实数量。鉴于化学性质相似,苏氨酸和酪氨酸与丝氨酸相差不远,分别占据已知修饰总数的排名列表中的第4位和第6位,在已识别的修饰中有相当大的重叠(图3A)。
半胱氨酸
半胱氨酸的富电子硫醇盐是在氨基酸中发现的最强大的亲和基团,使其能够进行多种化学修饰。研究最多的半胱氨酸修饰包括S-亚硝基化、S-谷胱甘肽化、S-棕榈酰化和S-法尼基化。作者计算出半胱氨酸有57种不同的修饰(图3A),范围从氧化还原损失和增加到长的疏水性脂质修饰。700多种反应性半胱氨酸已被使用化学生物学策略和亲电子探针定位到具有已知药物靶点的蛋白质上,以及“不可成药”的蛋白质上,包括转录因子、接头/支架蛋白和未表征的蛋白质。这些发现支持半胱氨酸可以很容易地成为针对内源性生物修饰靶标,包括该位点及邻近位点的修饰。
赖氨酸
三个最严重修饰的氨基酸中的最后一个是赖氨酸:记录了47个独特的化学部分(图3A)。赖氨酸乙酰化是研究最多的PTM之一,组蛋白赖氨酸的乙酰化是蛋白质修饰的典型例子,具有确定的功能影响。组蛋白赖氨酸的乙酰化被广泛认为是控制染色质进入以调节基因表达的主要机制。在MS的支持下,具有里程碑意义的研究表明广泛的蛋白质赖氨酸乙酰化,包括线粒体蛋白质。在这些发现之后,基于MS的研究继续揭示数百种蛋白质被乙酰化。作为赖氨酸修饰的另一个例子,组蛋白甲基化最早在1960年代早期被观察到。随后的工作表明,赖氨酸(包括单、二和三甲基赖氨酸)上的组蛋白和蛋白质甲基化是人类健康和疾病中的动态组蛋白标记。
其他氨基酸
作者目前对蛋白质修饰的分析与原始概要的一个显著差异是氨基酸化学部分的广度和深度。所有20种蛋白质氨基酸都用注释修饰表示。一些氨基酸修饰非常罕见。在分析中修饰最少的氨基酸苯丙氨酸记录的五种修饰中,只有一种被称为3-羟基苯丙氨酸的修饰与N端无关。这种奇异的修饰在已发表的数据库中很少见,并且没有已知的生物学功能。这体现了在理解蛋白质修饰与功能之间关系方面的持续挑战。尽管MS在测量蛋白质组中的蛋白质修饰方面变得更加复杂和敏感,但作者对这些修饰的功能后果的理解通常需要一次一个的询问方法。
PTM最新进展
大多数新的PTM研究始于预测:发现氨基酸侧链的相似化学特征支持了新的蛋白质修饰的想法;其他人描述了具有PTM转移酶活性的新酶;一些研究描述了代谢物的化学反应性,这会导致蛋白质的虚假修饰。例如,近15年前发现的一类新的半胱氨酸修饰,最初称为S-(2-琥珀酰)半胱氨酸(2SC),但现在更常称为蛋白质琥珀化。这种修饰通过半胱氨酸硫醇基团和三羧酸循环代谢物富马酸盐之间的迈克尔加成反应发生。半胱氨酸和免疫调节代谢物衣康酸盐之间会发生类似的反应,衣康酸盐与富马酸盐一样,是一种具有α,β-不饱和双键的羧酸。
另一个例子是与直链酰基辅酶A相比,特定的羧基酰基辅酶A子集具有更高的反应性。具有四个或五个饱和碳主链的带负电荷的二羧酸酰基辅酶A经历分子内催化(即自水解),形成酸酐和游离辅酶A。这类代谢物包括琥珀酰-CoA、戊二酰-CoA和具有相似结构的CoA,例如HMG-CoA驱动蛋白HMG酰化。
除了反应性酰基辅酶A种类之外,反应性酰基磷酸也修饰蛋白质。1,3-双磷酸甘油酸(1,3-BPG)是一种在糖酵解途径中产生的反应性酰基磷酸代谢物,可与该途径中的几种蛋白质发生非酶促反应并导致3-磷酸甘油基-赖氨酸(pgK)修饰(Moellering和克拉瓦特,2013年)。最近的另一项研究将氨酰tRNA合成酶上的活化氨基酸描述为可以诱导蛋白质修饰的反应性氨酰腺苷酸(He等,2017)。值得注意的是,这项研究发现所有20种蛋白氨酰tRNA都存在广泛的赖氨酸修饰。作者得出结论,活化氨基酸的酰基磷酸酯键可能允许假蛋白质氨酰化。
这种预测方法引导了几个新PTM的发现和验证。具体而言,评估化学相似性具有持续发现的巨大潜力。最近的研究表明,酰基转移酶的杂乱性可以催化将几个酰基基团添加到蛋白质上。因此,作者使用酰基辅酶A在化学上与已知的酶促和/或非酶促衍生的蛋白质修饰相似的基本原理,从人类代谢组数据库中量化了已知的酰基辅酶A代谢物。作者的分析计算了361种酰基辅酶A,涵盖了234个独特的分子量(图4),差异是由于立体异构体具有相同的化学结构但其原子的空间排列不同。这些酰基辅酶A种类具有不同的化学特性,通常根据这些特性分为不同的类别(图4)。通过将人类代谢组数据库中发现的所有酰基辅酶A种类的质量与已知赖氨酸修饰的质量进行比较,作者发现不到10%的重叠(361个中的27个;图5A),表明来自酰基-CoA种类可以在蛋白质上找到。
图4 已知的酰基辅酶A种类
人类所有已知酰基辅酶A代谢物的链长和化学性质。数据来源于https://hmdb.ca。计算方法和代码见https://github.com/matthewhirschey。
图5 预测的蛋白质修饰
A,将来自人类代谢组数据库的酰基辅酶A与已知质量匹配的赖氨酸修饰进行比较。B,查询人类代谢组数据库中已知的活性酰基磷酸酯、硫酯或醛,并绘制附加到蛋白质的可能碳数。数据来源于https://hmdb.ca。计算方法和代码见https://github.com/matthewhirschey。
将这些分析扩展到酰基辅酶A种类之外,上述人类代谢组数据库的调查揭示了600多种具有高反应性的代谢物,在此称为活性碳种类(RACS;图5B)。尽管并非所有这些都与蛋白质修饰有关,但针对这些RACS的研究可能会发现它们附着在蛋白质上。事实上,这种预测策略以前曾用于将赖氨酸戊二酰化鉴定为真正的蛋白质修饰。
尽管需要一次一次修改的方法来验证PTM预测,但最近的一项研究发现这种普遍性的一个例外,其目的是使用多尺度工作流程来表征原核生物中的蛋白质修饰,该分析首先确定了大肠杆菌代谢网络中的调节节点,然后暗示了可以通过蛋白质修饰进行调节的候选物。为了表征修饰位点对细胞的影响,他们使用多重自动化基因组工程(MAGE)来突变给定的氨基酸,以模拟组成性修饰或未修饰的氨基酸。这种方法需要注意的是模拟氨基酸修饰的氨基酸突变不能忠实地再现真实的修饰。然而,他们在汇总筛选中成功评估了细胞适应性的整体变化,并对三种优先考虑的候选大肠杆菌蛋白质进行了后续研究。本研究中的技术发展可能有助于解决研究20种氨基酸的500种离散修饰所固有的复杂性。
PTM的未来
尽管它们很复杂,但蛋白质PTM在细胞行为和人类疾病中发挥的重要作用,使他们正在进行的研究成为生物医学科学的优先事项。从1980年代开始,MS-蛋白质组学研究的广泛应用引起了PTM领域的极大兴趣和了解。尽管MS对PTM研究的贡献很难被夸大,但PTM的动态和不稳定性质继续给科学家带来独特的挑战。肽图算法的新进展正在解决完成PTM领域的艰巨任务。这些努力为作者对PTM生物学的理解再次爆发奠定了基础。
基于MS的蛋白质组学研究的改进,包括PTM的发现,与计算工具的使用密切相关。在基于MS的蛋白质组学开始不到十年后,Sequest被开发用于根据参考蛋白质数据库自动识别蛋白质。Sequest和后来的Mascot中的自动配对肽分配算法,实现了基于MS的蛋白质组学的快速扩展,并为PTM的鉴定提供了一个有吸引力的途径。通过将(观察到的-预期的)质量转移合并到修改后的参考蛋白质组中,可以修改这些算法以检测简单的已知PTM。尽管如此,很大一部分肽段质谱仍然可疑地未分配。为了研究蛋白质组的这种“暗物质”,搜索算法被设置为允许前体离子有更广泛的耐受性,被认为包含修饰的肽,同时仍然保持高度特异性的碎片离子质量设置。这种方法在2015年实现了发现PTM图谱的潜力,当时Sequest搜索空间被扩展以询问±500Da的“开放”前体离子谱,这允许搜索质量修饰对应于90%以上的已知肽段PTM(图3B)。在蛋白质组的这个未探索区域内,发现了与先前未发现的修饰肽相对应的额外184,000个峰。这些修饰包括化学(隔离后)和生物变化,包括罕见但重要的生物修饰,例如甘油磷酸乙醇胺(GPE)修饰的延伸因子1a2。实际上,现有计算工具在暗蛋白质组中的新应用改变了PTM映射的基本方法。
虽然开放搜索彻底改变了PTM的发现和串联MS数据的映射,但仍有一些障碍阻碍了该领域真正破译PTM的格局。最值得注意的是“搜索空间”问题,这是将已知PTM映射到复杂蛋白质混合物中的肽的最大障碍。虽然以前相对简单的修饰,例如丝氨酸残基的磷酸化,可以通过添加或不添加磷酰基的含有丝氨酸的多肽进行研究,但同时映射多个PTM会导致搜索所有质量转移组合的修饰肽空间呈指数增长。这是一个主要障碍,因为它降低了搜索灵敏度,提高了识别修饰肽的错误发现率(FDR),并大大延长了分析给定数据集所需的时间。
第二个主要障碍是发现以前未注释的修改。PTM映射算法根据参考数据库(通常是UniMod)分配修饰,该数据库使用上述“受控词汇表”对要针对每个已识别肽查询的离散修饰质量进行编辑。因此,大多数算法不会自动检测以前未注释的修饰,例如一些最近发现的酰基修饰。相反,这些需要用精确质量手动注释和搜索。此外,对单个肽的两种或多种不同类型的修饰可能无法识别合适的未修饰肽或错误地匹配更大的单个修饰。
目前正在开发的计算工具能够解决上述限制,同时仍然最大化开放搜索空间。例如最近发表的称为TagGraph的方法。为了克服上述当代算法的障碍,开发了具有许多独特特征的TagGraph,将已知的PTM图谱扩展到人类蛋白质组中近40,000种蛋白质修饰。首先,它使用de novo开始和基于字符串的肽匹配相结合的方法,de novo查找与未修饰蛋白质序列完全匹配的短肽序列(“子串”),然后搜索剩余的肽以检查索引上或附近的潜在修饰子集。这种方法减少了算法最初考虑的“肽池”,从而使TagGraph能够在时间尺度上对30个人体组织中的2500万个蛋白质质谱进行深度询问,这比当代搜索算法的能力要快得多。它在人类蛋白质组中描述的40,000个PTM修饰了超过100万个唯一识别的肽,肽总数增加了3倍,而从同一人类蛋白质组数据集中识别的修饰肽增加了10倍。
为了减轻de novo搜索平台中典型的灵敏度损失,TagGraph放弃了统计分析的目标诱饵FDR模型,而是应用一种称为贝叶斯分层期望最大分析的经过验证的ML方法,该方法使用相关肽的14个特征来确定。正因为如此,TagGraph的de novo方法能够处理更广泛的搜索空间,这样做能够发现以前未识别的肽修饰,并大大扩展分配给高度修饰蛋白质的修饰数量。例如,与之前的分析相比,五种主要组蛋白的肽修饰增加了2倍,脯氨酰羟基化增加了10倍。通过继续克服分析大量肽质谱所面临的计算障碍,TagGraph和其他类似工具为作者对PTM领域的了解向前迈进了一大步。
PTM研究的未来将不仅考虑TagGraph等这些程序支持蛋白质组学,而且还考虑MS仪器的哪些方面有助于实现这种成功。例如,在搜索低分辨率质谱时,TagGraph的统计分析性能迅速下降。这种限制凸显了仪器的补充改进对于进一步的进步也是必要的。事实上,色谱分离的改进和高性能质谱仪的开发提供了TagGraph准确性所必需的高分辨率光谱,说明了技术与发现之间的关键联系。
PTM弊端
在过去的50年中,PTM蛋白质组学领域以难以想象的速度发展。串联、高分辨率MS现在很常见,可提供多维色谱分离后未消化的蛋白质混合物的光谱。TagGraph和其他肽识别算法现在可以可靠地注释带有多个PTM的肽而无需样品富集,并且能够从复杂的蛋白质混合物中量化PTM化学计量。因此,PTM领域已经准备好迎接下一次飞跃,它围绕着两个主要问题:PTM图谱是否已被完全谱写?此外也许更重要的是如何在如此广阔的环境中确定单个PTM的功能?
PTM图谱描述到什么程度?作者指出当在HEK293细胞中使用开放式Sequest搜索发现185,000种修饰肽时,事后对修饰谱中特定PTM的封闭搜索返回了几乎两倍的命中数。这表明对暗蛋白质组的高度敏感搜索可能会产生至少两倍多的修饰肽,同时使用TagGraph重新分析该光谱和其他光谱可以提供新信息。然而,即使现代算法能够在整个光谱中识别几乎所有的修饰肽,作者仍远未确定每个修饰的身份或生物学意义。例如,在人类蛋白质组中,TagGraph确定了1700多个单独的质量转移(命中定义为具有≥20个光谱计数),大小范围从-148到+999.4Da,这些都不是已知的修改造成的。尽管这仅占已鉴定的总修改谱的一小部分(5.5%),但它说明了完全了解修改后的人类蛋白质组的化学成分可能有多么困难。
在如此广阔的图谱中,科学家将如何确定单个PTM的重要功能?尽管PTM领域可能永远不会明确完整,但该领域已准备好在作者对PTM功能的理解方面迈出重要的一步。正如前面部分所讨论的,PTM几乎影响细胞功能的各个方面,从酶活性的短期修改到表观基因组的可遗传变化。尽管可以在工作台上以多种方式仔细研究感兴趣的PTM,但数据科学方法对于尝试提名感兴趣的PTM或开始了解新描述的PTM的特定生物学功能变得越来越重要。在对人类蛋白质组的分析中,确定了组织特异性修饰,包括胎儿组织中的组蛋白H4 R56二甲基化。这一发现表明H4 R56在开发中具有独特的功能。在另一个例子中,同一研究基于GO类别中包含的蛋白质的修饰,将PTM丰度与基因本体论(GO)生物过程和细胞区簇相关联。这种方法证实了翻译后精氨酸甲基化在涉及RNA剪接的蛋白质上富集,并且赖氨酸修饰在染色体组织的GO类别中包含的蛋白质上很丰富。
数据科学和机器学习在PTM分析中的应用越来越广泛,包括从初级蛋白质序列和更复杂的蛋白质特征预测功能性PTM。例如,初级序列PTM数据与称为SAPH-ireNN的ML神经网络中的三维(3D)蛋白质结构信息相结合,以预测功能性蛋白质PTM的聚类和相互作用。由于PTM发挥了如此广泛的影响,ML算法也可用于发现蛋白质组学、代谢组学、表观基因组学和转录组学数据集中的模式,这些数据集是在操纵候选PTM后生成的。这种方法已被用于使用多组学数据破译某些小分子抑制剂的作用模式。基于ML的数据集成方法可以提供有关正在研究的PTM的功能影响的有价值的信息,并可以突出特定修改下游的模块。例如,将代谢物数据作为ML训练集可能可以进一步发现代谢物衍生的PTM,例如酰基辅酶A物种,这是一种越来越被认可的PTM来源,可调节广泛的代谢和转录过程。
上面讨论的因素都集中在改进作者对单个时间点的PTM图谱的研究,并在许多单元中平均。最终,需要对蛋白质PTM进行动态的时空研究,以充分了解它们在生理学和疾病方面的复杂作用。在细胞之间或细胞内解析可以决定时间尺度上细胞行为的PTM似乎是不可想象的未来。然而,最近的研究通过利用每个子学科带来的互补优势取得了令人振奋的进步。具体而言,当前的MS成像模式能够解构组织内的空间代谢物分布,单细胞蛋白质组学最近已成为现实,并且随着时间的推移,半胱氨酸氧化的时间分辨率已经在体外和体内实现。或许这个未来并不遥远。
结论
最初磷酸丝氨酸是在对蛋白质卵黄蛋白化学成分的探索中发现的,同时出现了未实现的蛋白质修饰世界。作者对初级氨基酸修饰的图谱理解已经发展到今天已知的500多种修饰(图2)。尽管在新的蛋白质修饰图谱方面取得了进展,但PTMs的广度和深度还需要很长时间才能完善。作者对每种修饰的功能后果的理解相当有限,对修改是否有助于生理途径反馈、是否为病理生理或两者兼有的理解也相当有限。MS的技术进步导致新PTM的快速发现。数据科学和机器学习的最新进展意味着作者正在为PTM发现的第二个拐点铺平道路(图2)。现在,对蛋白质修饰的搜索已经从化学转向计算,从蛋黄蛋白质的组成转向计算机空间中肽质量的组成。对这一新兴生物学领域的持续研究或许会回答这个古老的问题:“它是PTM吗”?
原始出处:
Keenan EK, Zachman DK, Hirschey MD.Discovering the landscape of protein modifications.Mol Cell. 2021 May 6;81(9):1868-1878