研究人员开发了一个平台,将自动化实验与人工智能相结合,以预测化学物质如何相互反应,这可以加速新药的设计过程。
预测分子如何反应对于新药物的发现和制造至关重要,但从历史上看,这是一个反复试验的过程,反应经常失败。为了预测分子将如何反应,化学家通常在简化模型中模拟电子和原子,这一过程的计算成本很高,而且通常不准确。
现在,剑桥大学的研究人员受基因组学的启发,开发了一种数据驱动的方法,将自动化实验与机器学习相结合,以了解化学反应性,从而大大加快了这一过程。他们将他们的方法称为化学“反应组”,该方法已在超过 39,000 个药物相关反应的数据集上得到验证。
他们的研究结果发表在《自然化学》杂志上,是剑桥大学和辉瑞公司合作的产物。
“反应组可以改变我们对有机化学的思考方式,”该论文的第一作者、剑桥大学卡文迪什实验室的艾玛·金史密斯博士说。“对化学的更深入了解可以使我们更快地制造药品和许多其他有用的产品。但更根本的是,我们希望产生的理解将有益于任何从事分子研究的人。”
反应组方法从数据中找出反应物、试剂和反应性能之间的相关性,并指出数据本身的差距。数据是通过非常快速或高通量的自动化实验生成的。
“高通量化学已经改变了游戏规则,但我们相信有一种方法可以比从高通量实验的初步结果中观察到的更深入地了解化学反应,”金史密斯说。
“我们的方法揭示了反应成分和结果之间隐藏的关系,”领导这项研究的 Alpha Lee 博士说。“我们训练模型的数据集非常庞大,它将有助于将化学发现过程从试错法带入大数据时代。”
在《自然通讯》上发表的一篇相关论文中,该团队开发了一种机器学习方法,使化学家能够对预先指定的分子区域引入精确的转换,从而实现更快的药物设计。
这种方法允许化学家调整复杂的分子——就像最后一刻的设计改变——而不必从头开始制造它们。在实验室中制造分子通常是一个多步骤的过程,就像建造房子一样。如果化学家想要改变分子的核心,传统的方法是重建分子,就像推倒房子并从头开始重建一样。然而,核心变异对于药物设计很重要。
一类被称为后期功能化反应的反应试图直接将化学转变引入核心,从而避免从头开始。然而,选择性和受控的后期功能化具有挑战性——分子中通常有许多区域可以发生反应,并且很难预测结果。
“后期功能化可能会产生不可预测的结果,而当前的建模方法,包括我们自己的专家直觉,并不完美,”金史密斯说。“更具预测性的模型将为我们提供更好的筛选机会。”
研究人员开发了一种机器学习模型,可以预测分子会在哪里发生反应,以及反应部位如何随着不同反应条件而变化。这使得化学家能够找到精确调整分子核心的方法。
King-Smith 说:“我们根据大量光谱数据对模型进行了预训练,有效地教授了模型的一般化学知识,然后对其进行微调以预测这些复杂的转变。” 这种方法使团队克服了数据量低的限制:科学文献中报道的后期功能化反应相对较少。该团队在多种类药物分子上通过实验验证了该模型,并能够准确预测不同条件下的反应位点。
“机器学习在化学中的应用常常受到与广阔的化学空间相比数据量很小的问题的限制,”李说。“我们的方法——设计从与我们试图解决的问题相似但不相同的大型数据集中学习的模型——解决了这一基本的低数据挑战,并可以释放后期功能化之外的进步。”