\

大规模性能:Graphcore最新MLPerf训练结果

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

Graphcore拟未对MLPerf的最新提交非常清楚地展示了两件事:Graphcore的IPU系统越来越大、越来越高效,同时Graphcore的软件日臻成熟且更快、更容易使用。

软件优化继续带来显著的性能提升,Graphcore的IPU-POD16现在在计算机视觉模型ResNet-50方面的表现优于Nvidia的DGX A100。

在DGX A100上训练ResNet-50需要29.1分钟,而IPU-POD16需要28.3分钟,这是自Graphcore第一次提交以来仅通过软件实现的性能提升,提高了24%。这是一个重要的里程碑,因为ResNet-50传统上一直是GPU的拿手模型。

而Graphcore在IPU-POD64上对ResNet-50的软件驱动性能提升甚至更高,达到41%。

Graphcore最近发布的IPU-POD128和IPU-POD256横向扩展系统也得出了结果,目前Graphcore已直接将它们纳入了MLPerf的“可用”类别,这反映了Graphcore致力于在更大范围内提供出色性能的承诺。

对于Graphcore较大的旗舰系统,在IPU-POD128上训练ResNet-50的时间为5.67分钟,在IPU-POD256上为3.79分钟。

对于自然语言处理(NLP)模型BERT,Graphcore在开放和封闭类别分别提交了IPU-POD16、IPU-POD64和IPU-POD128的结果,Graphcore公开提交的在新的IPU-POD128上的训练时间为5.78分钟,令人印象深刻。

总体而言,与上一轮MLPerf训练相比,IPU-POD16的BERT性能提高了5%,IPU-POD64的BERT性能提高了12%。

MLPerf的封闭分区严格要求提交者使用完全相同的模型实施和优化器方法,其中包括定义超参数状态和训练时期。

开放分区旨在通过在模型实施中提供更大的灵活性来促进创新,同时确保达到与封闭分区完全相同的模型准确性和质量。

通过在开放分区展示BERT训练的结果,Graphcore能够让客户了解产品在实际运行中的性能,从而让他们更倾向于使用此类优化。

新模型在规模上的巨大优势

Graphcore高度支持MLPerf及其组织机构MLCommons。其第三方验证在帮助客户独立评估人工智能计算系统的能力和不同公司提供的软件栈的成熟度方面发挥着重要作用。

客户继续在生产中使用ResNet和BERT等模型的同时,他们也在探索创新的新模型,并期待Graphcore更大的旗舰系统实现大规模机器智能。

虽然不是Graphcore此次MLPerf提交的内容,但创新的计算机视觉EfficientNet B4在Graphcore的旗舰产品IPU-POD256上仅用1.8小时便可完成训练,这是巨大的、真实的性能优势。

针对那些关心绝对吞吐量性能和扩展到更大的IPU-POD系统的客户,Graphcore还在MLPerf之外的一系列模型中看到了令人印象深刻的结果,包括用于自然语言处理的GPT类模型和用于计算机视觉的ViT(Transformer中的视觉)。

通过设计实现大规模高效

任何查看本轮或任何一轮MLPerf原始数据的人都会被与每个制造商系统相关的主机处理器数量所震惊,一些参与者指定要求每两个人工智能处理器配有一个CPU。

而另一方面,Graphcore的主机处理器与IPU的比率始终是最低的。

与其他产品不同,IPU仅使用主机服务器进行数据移动,不需要主机服务器在运行时分派代码。因此,IPU系统需要的主机服务器更少,从而实现了更灵活、更高效的横向扩展系统。

对于像BERT-Large这样的自然语言处理模型,IPU-POD64只需要一个双CPU的主机服务器。ResNet-50需要更多的主机处理器来支持图像预处理,因此Graphcore为每个IPU-POD64指定了四个双核服务器。1比8的比例仍然低于其他所有MLPerf参与者。

事实上,在本轮MLPerf 1.1训练中,Graphcore为BERT提供了最快的单服务器训练时间结果,为10.6分钟。

不懈创新

对Poplar SDK的持续优化,以及新IPU-POD产品的推出,使Graphcore能够为客户提供的人工智能训练能力得到了显著提升。

自Graphcore于2021年初首次提交MLPerf以来,确切的说是今年全年以来所取得的巨大进步,都证明了Graphcore不懈创新的文化。

这种文化从Graphcore在设计系统时做出构架选择就开始了,例如我决定将主机服务器和人工智能计算分解,这是一种与业内其他公司完全不同的方法,但现在正在证明其价值。

坚持不懈的创新也是促使Graphcore至少每三个月推出一次重大软件更新的原因,这些更新带来了性能提升,更不用说与客户一起开展的工作,实施和优化新的IPU模型和工作负载。

这种热情具有感染力。在2021年内,从Hugging FacePyTorch LightningVMwareDocker Hub,无数硬件和软件合作伙伴与Graphcore展开合作,以支持Graphcore的目标,即在易于使用的系统上提供终极的人工智能计算性能,让所有人都可以获得这种性能。

Graphcore在这么短的时间内就取得了如此成就。那么设想一下,一年之后Graphcore又会到达怎样的高度?

More Posts

卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进

GACS 2023 | IPU:赋能生成式AI,不止生成式AI

Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖

Graphcore加入PyTorch基金会

促进低精度数字格式使用,Graphcore发布全新Unit Scaling库

情人节之“AI”跨山海——拟未“AI”的故事绘画连载(三)

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: