\

两项第一!Graphcore在OGB-LSC中取得佳绩

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

Graphcore拟未在Open Graph Benchmark Large-Scale Challenge(OGB-LSC)中表现出色,获得两项第一。OGB-LSC是人工智能行业中关于图网络模型能力的一项领先测试。

本次测试中,拟未参与了两个类别的提交:分子图的量子性质预测知识图谱补全。在IPU上运行的这两个类别的提交,在各自类别中,均取得了第一名的佳绩。

从分子和蛋白质到社交网络,图神经网络(GNNs)非常适合代表具有不规则结构的现实世界现象,因而也被越来越多地用于药物研发、材料科学和推荐系统等应用。

在OGB-LSC 2022中,拟未的研究人员与Valence Discovery的分子机器学习专家、来自蒙特利尔大学的团队,以及来自人工智能实验室Mila(位于蒙特利尔)的团队携手合作。

在谈及使用拟未系统的体会时,Valence Discovery的研究团队负责人、Mila的副教授Dominique Beaini表示:“当我开始将IPU用于分子性质预测时,我很惊讶地看到,它与传统方法相比在速度上实现了巨大的提升。我非常清楚,有了这样的计算优势,赢得OGB-LSC挑战赛是指日可待的。”

拟未及其合作伙伴的排名超过了微软、腾讯和NVIDIA的团队,以及来自北京大学、中国科学技术大学和加州大学洛杉矶分校的研究人员。

PCQM4Mv2 – 预测分子图的量子性质

PCQM4Mv2定义了一个分子性质预测问题,涉及到构建一个图神经网络来预测HOMO-LUMO能隙(一种量子化学性质),给定的数据集包含340万个标记过的分子。

这种图预测问题发生在广泛的科学领域,如药物研发、计算化学和材料科学。但是,如果使用传统方法运行该问题可能会非常缓慢,甚至可能需要进行昂贵的实验室实验。因此,包括DeepMind、微软和Mila在内的科学驱动型人工智能实验室对OGB-LSC产生了浓厚的兴趣。

我们与Valence Discovery(用于药物研发的分子机器学习领域的领导者)和Mila携手打造了我们的提交。我们认为,他们的现实世界知识和研究专长,再结合超高速的拟未硬件,给我们提供了一个绝佳的机会来构建一些特别的东西。

我们GPS++模型成功的关键是它的混合架构。该架构吸收了传统图神经网络的出色品质,并将其与transformer类型的注意力融合在一起。

从某种意义上说,这种混合是一个自然而然的想法,我们的竞争对手很可能也已经考虑到了。然而,在传统的人工智能加速器上,设计这样一个有效运行的模型是一项艰巨的挑战,使得测试原始科学假设变得不切实际。

IPU的MIMD架构和高存储带宽极大地简化了这种设计工作,使科学家们能够测试新的想法且不受“硬件彩票”(hardware lottery)变化无常的限制。

正如整个现代人工智能的情况一样,提高大模型的速度是实现高水平准确度的关键。然而,在开发此类模型时,能够快速迭代较小的模型以测试假设,并高效地调整大型“生产”模型也非常重要。IPU的灵活性在这里再次发挥了作用:模型可以很容易地在单个IPU,或由16个或更多的IPU组成的Pod上运行,并且不会损失效率。

使用Weights & Biases优秀的超参数扫描工具,我们能够以适度的计算预算,每晚运行数百个小型模型。这使我们能够快速行动,并对我们的决定充满信心。

正如Valence Discovery和Mila的Dominique Beaini所指出的,我们在OGB-LSC开展的成功工作为正在进行的合作铺平了道路:“目前我们正在寻求与拟未的合作,以期在更大的数据集上扩展模型,从而为分子性质预测提供迄今为止最大的预训练GNN。”

如欲了解更多,请见我们的技术报告代码

您也可以在Paperspace上免费体验我们的推理模型训练模型

WikiKG90Mv2 – 预测知识图谱中缺失的事实

WikiKG90Mv2是一个从维基数据中提取出来的数据集。维基数据是用于支持维基百科的知识图谱,它是一个包含6亿个事实的数据库,通常用“三要素”表示:头、关系、尾。例如,杰弗里·辛顿、公民、加拿大。

在许多情况下,实体之间的关系信息是不完整的。知识图谱补全就是推断出这些联系的过程。

训练知识图谱补全模型的标准技术很难应对数据集的规模,因为可训练的参数数量随着数据库中实体数量的增加而增加。

在WikiKG90Mv2上进行训练,我们最大的模型在参数、优化器状态和特征方面消耗了超过300GiB。在不引入不想要的偏差的情况下,对这些模型进行划分以进行分布式训练是很有挑战性的。

我们的分布式训练方案BESS(平衡实体抽样和共享),可以直接解决这些问题,并且无需修改核心模型。

我们从在Bow Pod16的流存储中加以平衡的实体开始,获取了一大批事实和损坏的实体来进行对比,这是由分布在16个IPU上的14.4GB处理器内存储支持的。这些事实和实体通过完全平衡的all-to-all集合在快速的IPU-Links上共享,由模型处理。

这意味着我们可以训练数以百计的模型进行收敛,使我们能够优化10个不同的评分和损失函数组合,以用于我们的最终集成。快速验证使我们在模型的训练过程中获得大量关于模型的信息。

我们的技术要求对处理、分布和存储访问进行细粒度的控制。因此,我们决定直接在Poplar中实施这个模型。Poplar是一个用于编写IPU程序的图计算API。

如欲了解更多,请见我们的技术报告代码

More Posts

ChatGPT开源平替:OpenAssistant OASST1微调版Pythia-12B

Flan-T5:用更小且更高效的LLM实现出色效果

详细攻略:在IPU上以float16精度运行FLAN-T5-XL推理

较小模型,超高性能:DeBERTa和自然语言理解的未来

PackedBert:如何用打包的方式加速Transformer的自然语言处理任务

Pienso为企业提供由云上IPU支持的高效大型语言模型访问

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: