\

马萨诸塞大学在IPU上加速COVID-19建模

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

来自马萨诸塞大学(UMass)阿默斯特分校 、脸书与Graphcore的研究人员新发表的一篇论文表明,IPU处理器可以大幅加速使用近似贝叶斯计算(Approximate Bayesian Computation ,简称ABC)的COVID-19分析,IPU处理器在COVID-19分析中非常重要。研究结果表明,与CPU相比,IPU的速度提高了30倍,令人印象深刻。与GPU相比,也提高了7.5倍。

Graphcore一直致力于加速机器智能创新,2020年更让这个愿景变得更加急迫与真实。作为一个社会群体,当科学家和研究人员能够加快其工作的计算单元时,我们都会受益匪浅。我们所有人都强烈地感受到探索的紧迫感。

正如大多数人目前所知道的那样,了解传染病在人群中的传播方式以及不同的干预措施如何影响其传播,对于有效地应对大流行病非常重要。出于这一目的,感染率、康复率、阳性检测率、死亡率和检测方案的有效性等参数就格外有用。由于病毒的传播不是宏观层面上的确定性过程,因此研究人员感兴趣的是这些参数的分布而不是点估计。通过了解这些分布,我们可以识别出那些能够观察到与虚假偏差存在显著差异的部分。

马萨诸塞大学(UMass)阿默斯特分校的Sourabh Kulkarni在2020年IEEE ICRC大会上介绍了论文中的发现

使得该建模具有挑战性的因素有两个。当前没有描述病毒传播的“完美”或“正确”的模型,而且一些关键指标尚不清楚。例如,我们不知道被感染但未接受检测或检测结果呈假阴性的人数,也不知道从未接受检测但已康复或死亡的人数。

通过使用被称为近似贝叶斯计算(ABC)的算法,基于模拟的推理领域解决了此类未被观察到的变量的问题。ABC通常在大量CPU上运行。由于目前还没有一个“正确的”模型,因此需要快速计算以确保研究人员可以在不同的建模方法上快速迭代,以确定哪种方法最合适。我们的联合研究表明,IPU可以显著加速ABC算法,使我们能够更快地分析和解释COVID-19爆发背后的流行病学模式。

IPU上的并行ABC推理

图1描述了经统计的COVID-19传输模型,《使用新兴的AI硬件加速基于模拟的推理》这篇论文对主要的ABC算法进行了详细说明,文章作者是SKulkarni、A Tsyplikhin、MM Krell和CAMoritz,该论文发表在2020年IEEE国际重启计算会议(ICRC)上。该代码是开源的,并分享在了Graphcore的GitHub演示存储库中。

图1:《使用新兴的AI硬件加速基于模拟的推理》论文中展示的COVID-19传输模型

简言之,我们在具有两个MK1芯片的单个C2卡上并行运行200,000个模拟,在具有16个IPU的整个服务器上并行运行160万个模拟。每个模拟放出一组不同的随机采样参数。然后,通过仅选择那些在实际观察值的特定阈值内生成观察值的模型参数,我们可以获取模型参数的准确分布。降低此阈值可改善模型拟合,但也会导致所需计算量的增加。图2提供了一个参数分布示例,对比了新西兰和美国最早的100个病例在被发现后的最初49天内的康复率。

图2:新西兰(左)和美国(右)的预估康复率参数分布

将Graphcore的C2卡(2个MK1 IPU)与具有300W相同热设计功率(TDP)的两个Xeon Gold 6248 CPU进行性能对比,可以看到这种并行化将处理速度提高了30倍。在功耗相同的情况下,IPU比英伟达Tesla V100也快了37.5倍。选择该硬件是因为在实验时可供研究人员使用。

驱动加速的原因是什么?

在更详细的跟踪分析中,我们发现,驱动加速的原因有三个:

  • 模拟中的数据阵列非常大,无法完全置于GPU缓存中。这意味着GPU无法从较大批尺寸中受益,并且需要与主存储进行大量相当缓慢的通信,而数据几乎不占用主存储。相反,MK1 IPU将所有数据保留在其较大的片上存储(300MB)中,可将批尺寸增加到其存储极限,并从中受益。
  • GPU需要大量时间来运行模拟,因为它会将指令从存储中提取到加速器芯片,这一过程被称为“内核启动”。相反,指令驻留在IPU存储中,因此不需要传输指令代码,它们占用的空间不到40MB。
  • 使用Graphcore的PopVision计算图分析器(PopVision Graph Analyzer)工具进行的分析表明,模拟需要大量的数据通信。与GPU相比,IPU的片上存储带宽高50倍,计算吞吐量高4倍多。
图3:从我们的PopVision Graph Analyzer工具可以看出,
仅IPU上的通信和数据重排操作会占用大量内存。

未来的应用

这种独特的存储和数据访问方法使IPU上的计算比GPU快了很多。我们希望这种加速对COVID-19建模研究有所裨益,并且期待在未来看到更多此类性质的应用,例如基于运输信息对感染的地域间传播进行建模。这项研究也可以推广到其他需要基于模拟的推理的统计模型,并开发除ABC以外的基于模拟的推理算法的并行版本。

阅读论文

查看代码

More Posts

ChatGPT开源平替:OpenAssistant OASST1微调版Pythia-12B

Flan-T5:用更小且更高效的LLM实现出色效果

详细攻略:在IPU上以float16精度运行FLAN-T5-XL推理

较小模型,超高性能:DeBERTa和自然语言理解的未来

PackedBert:如何用打包的方式加速Transformer的自然语言处理任务

Pienso为企业提供由云上IPU支持的高效大型语言模型访问

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: