LabGenius从事人工智能驱动的科学研究,这些研究工作在过去是无法实现的。
这项事业非常重要。目前,该公司专注于加速研发癌症和炎症性疾病的先进治疗方法,但其原理可以应用得更广泛。
这家位于伦敦的生物技术公司正在利用人工智能、合成生物学和实验室自动化开发下一代抗体疗法。
其所涉及的技术和工艺直到最近才达到这项事业所需的成熟度。
因此,当IPU系统将运行关键人工智能模型训练所需的计算时间减半时,LabGenius的研究人员意识到,他们在创新竞赛中找到了一个新的重要工具。该团队使用了现成的PyTorch版本的Transformer模型BERT,其代码可在Graphcore的GitHub页面上免费获取,使其非常易于使用。
“以前我们使用GPU,要花费大约一个月的时间才能获得一个所有蛋白质的功能模型。通过Graphcore,我们将周转时间减少到了两周左右,因此我们可以更迅速地进行实验,也可以更快地看到结果。”LabGenius前数据科学负责人、机器学习咨询师Katya Putintseva博士表示。
蛋白质问题
众所周知,找到或者设计出具有完全正确质量的蛋白质治疗疾病非常复杂。直到最近几年,我们才看到第一个人工智能设计的小分子进入临床试验,标志着药物研发进入新时代。
即使有了蛋白质设计技术,知道如何精确调整蛋白质的组成氨基酸以改善其功能也是一个巨大的挑战。这超出了人类自身的能力范围,即使在传统计算的帮助下也非常困难,但这个问题非常适合人工智能。
为了利用这项新技术,LabGenius正在创建一个自动化的闭环系统,用于管理实验迭代以及生物实验和机器学习驱动的决策之间的往复沟通。蛋白质被测序,进行智能分析,被修改和重新合成,以寻找完美的蛋白质配方。
亮眼的数据
来到LabGenius实验室的参观者可以看到这个过程中的物理部分:液体处理机将样品托盘装满,机器人手臂将托盘拿起并快速送至下一阶段的实验。
在这里,湿实验室(wet lab)的实验与数据科学相遇。
“与自然语言处理或图像识别相比,人工智能领域内任何生物学挑战的一大问题是缺乏足以代表相关特征的高质量数据。”Putintseva博士解释说,“你可以找到很多数据,但细节决定成败。该数据集是如何产生的?它包含哪些偏差?从中提取的信号在序列空间内能推断出多远?”
LabGenius的机器人平台能够根据机器学习模型所需的质量生成并描述正确类型的数据。
Putintseva博士表示:“我们相信,现在正是在生物学中生成高质量、亮眼的数据集的恰当时机。”
优化和建议
利用其精心选定的高质量数据集,LabGenius能够应用人工智能来解决新型蛋白质疗法开发的两个巨大挑战。
首先是一个经典的人工智能问题:如何在高度复杂的系统中优化许多变量。
“我们将之称为协同优化或多目标优化。”LabGenius技术主管Tom Ashworth表示,“可能你正在尝试优化效力,这可能与分子的亲和力以及它对目标的粘性有关,但同时你也不想破坏它的安全性或诸如稳定性等其他一些特性。”
人工智能也影响着LabGenius如何迭代其实验。
“系统正在研究我们可以改变分子的不同特征,从简单结构的点突变到多模块蛋白质的整体组成和拓扑结构。它正在就下一步设计什么提出建议……了解输入的变化以及其如何映射到输出的变化。”Tom指出。
生物BERT
LabGenius使用Cirrascale IPU云中的Graphcore IPU计算来加速BERT训练。这种Transformer模型在自然语言处理中相当知名,如今也被越来越广泛地应用于包括生物技术领域在内的各个领域中。
根据Putintseva博士的说法,LabGenius的研究人员利用大量已知蛋白质,要求BERT从训练数据中预测被掩盖的氨基酸,有效地学习蛋白质的基本生物物理学。“因为它做到了这一点,该模型的隐藏值帮助我们生成有意义的蛋白质表示,我们随后用它来映射出相关特征。”
LabGenius的研究人员使用GitHub上Graphcore的BERT标准PyTorch部署。由于对代码修改的需求最小,他们能够将注意力集中在确保数据集适合手头的工作上。
Tom Ashworth表示,Graphcore IPU能够在一个需要反复训练的模型上大幅缩短训练时间,为LabGenius在竞争激烈的行业中提供了巨大的优势。
“作为一家初创企业,我们的行动速度有多快,我们的迭代速度有多快,是一切的关键所在。
“Graphcore改变了我们能够做的事情,将模型训练时间从几周缩短到几天。对于我们的数据科学家来说,这确实具有变革意义。他们可以按照他们思考的速度开展更多的工作。对我们来说,这非常有价值。”
LabGenius现在正寻求扩大使用Graphcore训练的BERT模型,包括在研发阶段进一步使用,以及了解其分子的可开发性。此外,它正开始探索在Graphcore系统上建立新的人工智能模型,包括GNN(图神经网络)——IPU在GNN上具有先天的架构优势。