\

布里斯托大学使用IPU攻克粒子物理学中的HPC挑战

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

布里斯托大学的研究人员首次证明了Graphcore的IPU可用于对粒子物理学中发现的一系列复杂的计算任务进行加速。

该团队致力于研究CERN(欧洲核子研究中心)的大型强子对撞机优势(LHCb)实验。其在新发表的论文中详细介绍了研究发现。

粒子物理学倾向于依靠一系列传统的高性能计算(HPC)方法来满足其数据处理需求。但是,随着算法和硬件能够支持更高级的分析,AI解决方案变得越来越普遍。

物理学发生的变化也出现在其他数据密集型的高性能计算应用程序中,引发了对优化这种新方法的新型计算技术的探索。

由乔纳斯·拉德马克(Jonas Rademacker)教授领导的布里斯托大学团队使用Graphcore的IPU,实现了通过神经网络在粒子识别方面的重大改进。这些改进加快了生成对抗网络(GAN)的训练和推理,与GPU相比,性能提升了5.4倍。

研究人员还能够利用IPU的MIMD(多指令多数据)架构来运行卡尔曼滤波——卡尔曼滤波是跨现代物理学和工程学的基础性重要算法。

本文所展示的成就既反映了传统高性能计算问题解决方案的多样性,也反映了Graphcore大规模并行处理器的多功能性。

这项研究是在Graphcore的Mk2 IPU技术宣布之前进行的。与一个NVIDIA P100 GPU相比,该研究仅需使用一个Mk1 GC2 IPU。

使用IPU在所有研究领域获得的卓越成果令人印象深刻,其中一个原因是获得同样成果所需的功耗仅为GPU的一半。

IPU上加速粒子物理学

生成对抗网络

生成对抗网络是一对经过同步训练的网络,其中一个网络生成模拟数据,另一个网络把输出分类为真实类或者伪造类。这些通常用作图像处理中的样式转换,以及在语音合成中使用。但是探索生成对抗网络在生成分析质量数据中的应用近来获得了越来越多的关注。

正如在其论文中介绍的那样,布里斯托大学的研究人员在IPU上部署了生成对抗网络,以模拟粒子并探索轨道重构。

为了确定系统性能、为硬件建模以及了解探测器如何观察到不同粒子,在探测器中模拟粒子行为至关重要。由于每次碰撞产生的相互作用和粒子的组合数量众多,因此这些模拟的计算费用令人难以置信的高昂。

大多数蒙特卡洛粒子物理学模拟中存在着明显的瓶颈,导致巨大的计算成本和较低的总效率。生成对抗网络可以通过扩大仿真过程解决这些瓶颈,因为它们特别擅长对多维、多模式分布进行建模。它们可以生成相关的分布,然后将其用于物理分析。

IPU专为AI工作负载而设计,其性能明显优于GPU,这归功于IPU在较小批尺寸的性能能力 。在训练过程中发现,针对DijetGAN模型的卷积架构和SHiP模型的完全连接架构,IPU分别实现了3.9倍和5.4倍的加速。

图1:DijetGAN和SHiP模型上生成模拟数据时的IPU加速

粒子物理学使用探测器跟踪带电粒子的轨迹。粒子轨道由跨越一系列探测器的各个读数组成,这些读数需要重构为单一的、连贯的轨道,以计算粒子穿越的路径。该数据具有噪声,并且会受到各种散射影响。研究人员证明,生成对抗网络的第二次应用可以纠正散射。这种应用程序需要复杂的模型来生成分析质量的数据,因此需要低时延才能成为解决粒子物理学面临的实时重构挑战的可行解决方案。

IPU最强大的性能来自于较小批尺寸,这对于生成对抗网络的应用尤为重要。生成对抗网络的训练通常以较小批尺寸进行,在较小尺寸的批中可以通过提高吞吐量实现更快的模型训练。

在例如粒子对撞机这种复杂的、不断变化的环境中,这是至关重要的考虑因素。随着条件的变化,定期重新训练和重新调整仿真数据的能力对于高质量分析至关重要。

对于重构算法,可以看到类似的性能,这直接得益于IPU在较小批尺寸上的性能。研究人员发现,对于这个更复杂的生成性网络,IPU的性能在所有批大小上始终优于GPU,其生成速率饱和度高于GPU。

实时重构以小批次进行。IPU明显优于GPU,其最佳吞吐率比GPU高出4.5倍。

这种性能直接转化为较低的时延,这对于任何实时应用程序都是必不可少的。IPU实现的低时延让使用更复杂的模型进行推理成为可能,而GPU则不行。

图2:CPU、GPU和IPU的qSRGAN性能

粒子识别

粒子识别对于处理从HEP(高能物理)实验读取的数据至关重要,主要通过使用包括RNN(递归神经网络)在内的各种神经网络来实现。

推理速度是此类应用程序的关键指标,这是因为无论分类是否以实时的方式运行,都需要筛选大量数据。

研究人员发现,即使在非常小的轻量级网络上,IPU在所有批尺寸的RNN(递归神经网络)上的推理吞吐量也都优于GPU。

图3:递归神经网络每事件执行时间与批尺寸的关系

卡尔曼滤波

卡尔曼滤波在物理学和工程学的众多领域中无处不在。它们对嘈杂的时间序列测量结果进行概率结合,以计算描述基础数据的未知变量的估计值。

研究人员展示了IPU上卡尔曼滤波的实现,这是轨道重构过程的一部分。

在实际实验情况下,重构的卡尔曼滤波阶段是导致总时延的重要因素。随着粒子对撞机的升级,预计会有更高的数据速率,因此减少这一时延是一个主要目标。

图4:卡尔曼滤波的IPU性能与批尺寸的关系

卡尔曼滤波是一种使用传统HPC解决方案的处理过程。IPU独特的MIMD架构非常适合这些类型的算法,因为每个处理器的1216个IPU-Tile都可以彼此独立地处理不同的数据。

每个tile都可用于计算卡尔曼滤波的级数,从而在每个芯片上并行计算1000条以上的轨迹。

随着批尺寸的增加,每个tile可以存储多个轨道。批尺寸为10的结果表明,芯片上的吞吐量接近完美的扩展比例,这是合乎逻辑的,因为每个芯片都是并行执行的。

IPU可用于读取来自对撞机的每个事件的数据,并在单个芯片上并行处理它们,从而消除了可观的数据传输开销。

这一发现在高能物理之外具有重要意义,因为卡尔曼滤波是机器人技术、导航和自动化领域的必备工具。

粒子物理学的未来创新

尽管大型强子对撞机有望解锁宇宙的奥秘,但将粒子放在一起进行物理粉碎只是研究人员正在努力解决的技术挑战的一部分。

欧洲核子研究中心生成了几乎无限数量的实验数据,如果要从中提取有意义的洞见,则需要捕获并处理这些数据。

同时,目前还存在生成和分析模拟粒子事件的并行需求。由于量子力学的概率性和粒子对撞机实验的随机性,模拟数据必须至少比真实数据大一个数量级。

除此之外,这两类数据都呈指数级增长趋势,因此物理学家寻找最先进的系统来解决日益增长的计算不足这一事实也就不足为奇了。

随着粒子物理学进入更多数据的下一阶段,相关研究将需要全新的计算解决方案来继续探索新的发现。这些解决方案基于算法和硬件,并且继续将HPC和加速的AI融合为未来大数据分析的工具包。

布里斯托大学的研究人员证明,在许多领域里,IPU比传统GPU更具竞争优势。他们的工作是有史以来第一项评估IPU在高能物理中的性能的研究,其实验涵盖了粒子物理学分析的整个生命周期,从事件生成和Flavour Tagging到重构和建模。

他们将IPU推广到了传统的机器学习应用之外,确定了较小批尺寸和片上存储可以在较低的时延下实现更高的吞吐量,并且他们探索了MIMD架构为高度并行计算提供的独特可能性。

IPU允许研究人员运行更复杂的算法并加速现有模型。在不断重新定义大数据以寻找宇宙中最基本问题的答案的研究中,这一点至关重要。

有关这些实验的更多信息,可查阅最近的一篇论文。该论文由布里斯托大学的Lakshan Ram Madhan Mohan、Alexander Marshall、Daniel O’Hanlon、Konstantinos Petridis和Jonas Rademacker,以及Graphcore的Samuel Maddrell-Mander、Victoria Rege和Alexander Titterton联合撰写。该论文现已提交同行评议,预发表地址为:arXiv:2008.09210 [physics.comp-ph]。

阅读论文

More Posts

卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进

GACS 2023 | IPU:赋能生成式AI,不止生成式AI

Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖

Graphcore加入PyTorch基金会

促进低精度数字格式使用,Graphcore发布全新Unit Scaling库

情人节之“AI”跨山海——拟未“AI”的故事绘画连载(三)

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: