编辑
紫罗
蛋白质功能注释高度依赖于计算注释方法。尽管目前已经开发了许多计算工具,然而,大多数现有工具无法准确预测功能注释。因此,蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。
近日,来自伊利诺伊大学厄巴纳香槟分校(UIUC)赵惠民(HuiminZhao)团队,开发了一种名为「启用对比学习的酶注释」(CLEAN,ContrastiveLearning–enabledEnzymeAnnotation)的机器学习算法,可以根据酶的氨基酸序列预测酶的功能,即使这些酶尚未被研究或了解甚少。
研究人员表示,这款名为CLEAN的AI工具在准确性、可靠性和灵敏度方面超过了最先进的工具(BLASTp)。更好地理解酶及其功能将有利于基因组学、化学、工业材料、医学、制药等领域的研究。
「就像ChatGPT使用书面语言的数据来创建预测文本一样,我们正在利用蛋白质的语言来预测它们的活动,」研究负责人、UIUC化学和生物分子工程教授赵惠民说。「几乎每个研究人员在处理新的蛋白质序列时,都想立即知道蛋白质的作用。此外,在为任何应用(生物学、医学、工业)制造化学物质时,该工具将帮助研究人员快速确定合成化学物质和材料所需的适当酶。」
该研究以「Enzymefunctionpredictionusingcontrastivelearning」为题,于年3月30日发布在《Science》上。
蛋白质功能注释面临挑战蛋白质功能注释高度依赖于计算注释方法。然而,基于社区的蛋白质功能注释的批判性评估(CAFA)发现约40%使用现有计算工具自动注释的酶被错误注释。因此,蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。特别是,未充分研究和混杂蛋白质(promiscuousproteins)的蛋白质注释不平等阻碍了生物医学进步和药物发现。
酶学委员会(EnzymeCommission,EC)编号是最著名的酶的数字分类方案,它用四位数字指定酶的催化功能,即酶催化的反应类型。由于目标酶功能的实验表征通常既费力又昂贵,因此开发了许多用于酶功能注释的计算工具。它们包括但不限于基于序列相似性、基于同源性、基于结构和基于机器学习(ML)的方法。
其中,基于序列相似性的蛋白质基本局部比对搜索工具(BLASTp)是使用最广泛的工具。然而,BLASTp等比对工具仅根据序列相似度来标注功能,导致在序列相似度较低时预测结果的可靠性较低。另一方面,几乎所有现有的ML模型都是基于多标签分类框架,并且受到生物学中常见的有限且不平衡的训练数据集的影响。
因此,需要一种准确性更高和EC覆盖率更广的工具来释放当前未表征蛋白质的潜力,并了解蛋白质功能的范围。
CLEAN优于最先进的ML模型在此,赵惠民团队开发了一个名为CLEAN的ML模型,用于酶功能预测。CLEAN基于UniProt的高质量数据进行训练,将氨基酸序列作为输入,并输出按可能性排序的酶功能列表(以EC编号为例)。
与之前开发的将EC数量预测任务构建为多标签分类问题的ML算法不同,CLEAN使用对比学习框架。其训练目标是学习欧几里得距离反映功能相似性的酶的表示空间。
图1:CLEAN对比学习框架。(来源:论文)
为了验证CLEAN的准确性和稳健性,研究人员进行了大量的计算机实验。此外,还向CLEAN提出挑战,要求其为内部收集的所有未表征的卤代酶(总共36个)数据库注释EC编号,然后进行体外实验验证的案例研究。在这些任务中,CLEAN优于其他EC编号注释工具,包括BLASTp和最先进的ML模型。
「我们不是第一个使用AI工具来预测EC数量的人,但我们是第一个使用这种称为对比学习的新深度学习算法来预测酶功能的人。我们发现这种算法比其他人使用的AI工具要好得多。」赵惠民说。「我们不能保证每个人的产品都会被正确预测,但我们可以获得比其他两种或其他三种方法更高的准确率。」
计算和体外实验验证研究人员通过计算和体外实验验证了他们的工具。发现该工具不仅可以预测以前未表征的酶的功能,还可以纠正被领先软件错误标记的酶,并正确识别具有两种或多种功能的酶。
首先,为了系统研究CLEAN的预测性能,研究人员将CLEAN与六种最先进的EC数字注释工具[即ProteInfer、DeepEC、BLASTp、DEEPre、CatFam和ECPred]进行比较。
图2:CLEAN与最先进的EC数预测工具的定量比较。(来源:论文)
对New-和Price-数据集(两个未包含在任何模型开发中的独立数据集用于提供公平和严格的基准研究)的评估表明,在预测新发现蛋白质的功能方面,CLEAN比以前开发的基于ML的模型更精确和可靠,尤其是那些没有已知酶功能的蛋白质。
接下来,研究人员验证CLEAN在使用卤化酶作为概念验证研究分配EC编号时的预测准确性。
卤化酶因其出色的催化剂控制选择性而越来越多地用于生物催化C-H功能化。这些卤化酶要么在UniProt中用未表征/假设的蛋白质标记,要么在文献中有相互矛盾的注释。卤化酶数据集特别具有挑战性,因为卤化酶家族尚未得到充分研究,并且数据库中只有有限数量的卤化酶可用。通过后来的专家策划和实验验证,所有36种卤化酶都用EC编号进行了保密注释。
总的来说,与其他六种常用的计算工具(例如,DeepEC中的~11.1%和ProteInfer中的11.1%到61.1%)相比,CLEAN实现了更好的预测精度(86.7%到%)。结果表明,即使在类似的生物催化反应范围内,CLEAN也可以区分酶的功能。
在36种卤化酶中,三种名为MJ、TTHA和SsFlA的酶显示出相互矛盾的功能。CLEAN在这三种情况下预测了新的EC数量,表明可能会出现其他潜在功能。因此,研究人员进行了体外实验来验证这些预测。
图3:CLEAN对未表征的卤化酶的实验验证。(来源:论文)
研究发现CLEAN相对于其他常用计算工具具有更好的预测准确度,能够高质量的完成以下任务:注释未被充分研究的酶,纠正错误标记的酶,以及识别具有两个或更多EC数字的混杂酶。
未来将预测所有蛋白质功能该团队正在让其他研究人员可以在线访问CLEAN,以确定一种酶的特征或确定一种酶是否能催化所需的反应。
赵惠民表示:「我们相信CLEAN将成为预测查询酶催化功能的强大工具,可以极大地促进功能基因组学、酶学、酶工程、合成生物学、代谢工程和逆转录生物合成的研究。此外,通用语言模型表示加上CLEAN使用的对比学习工作流程可以很容易地适应其他预测任务,不限于酶活性。」
赵惠民说:「我们希望这个工具能被广泛的研究团体广泛使用。通过网络界面,研究人员只需在搜索框中输入序列,就像搜索引擎一样,就能看到结果。我们计划扩展CLEAN背后的AI来表征其他蛋白质,比如结合蛋白。希望进一步开发ML算法,以便用户可以搜索所需的反应,AI将指出合适的酶来完成这项工作。我们希望预测所有蛋白质的功能,这样我们就可以知道一个细胞的所有蛋白质,更好地研究或设计整个细胞,用于生物技术或生物医学应用。」
论文链接: