您现在的位置是:首页 >动态 > 2020-11-11 09:25:41 来源:

机器学习发现潜在的新结核病药物

导读 机器学习是许多生物学家用来分析大量数据的计算工具,可帮助他们识别潜在的新药。麻省理工学院的研究人员现在已经将一种新功能集成到这些类

机器学习是许多生物学家用来分析大量数据的计算工具,可帮助他们识别潜在的新药。麻省理工学院的研究人员现在已经将一种新功能集成到这些类型的机器学习算法中,从而提高了它们的预测能力。

麻省理工学院的研究小组使用这种允许计算机模型考虑其分析数据不确定性的新方法,确定了几种有前途的化合物,这些化合物针对引起结核病的细菌所需的蛋白质。

西蒙斯(Simons)数学教授,计算与生物学小组负责人邦妮·伯杰(Bonnie Berger)表示,这种方法先前已被计算机科学家所采用,但尚未在生物学中普及,也可能被证明对蛋白质设计和许多其他生物学领域有用。在麻省理工学院的计算机科学和人工智能实验室(CSAIL)获得博士学位。

Berger说:“这项技术是机器学习的一个已知子领域的一部分,但是人们还没有将它带入生物学。” “这是一个范式转变,绝对是生物学探索的方式。”

麻省理工学院生物工程学助理教授,MGH,麻省理工学院和哈佛大学拉贡研究所的成员Berger和Bryan Bryson是该研究的高级作者,该研究今天发表在Cell Systems中。麻省理工学院的研究生Brian Hie是该论文的主要作者。

更好的预测

机器学习是计算机建模的一种,其中算法学习基于已看到的数据进行预测。近年来,生物学家已开始使用机器学习来搜索潜在药物化合物的庞大数据库,以发现与特定靶标相互作用的分子。

这种方法的局限性在于,当所分析的数据与所训练的数据相似时,算法表现良好,但它们对评估与已经见过的分子却有很大不同的分子的能力却不是很好。

为了克服这个问题,研究人员使用了一种称为高斯过程的技术,将不确定性值分配给训练算法所依据的数据。这样,当模型分析训练数据时,它们还考虑了这些预测的可靠性。

例如,如果进入模型的数据可以预测特定分子与目标蛋白质的结合强度以及这些预测的不确定性,则模型可以使用该信息对尚未进行的蛋白质-目标相互作用进行预测见过。该模型还估计其自身预测的确定性。在分析新数据时,对于与训练数据完全不同的分子,模型的预测可能具有较低的确定性。研究人员可以使用这些信息来帮助他们确定要对哪些分子进行实验测试。