今天,我们将分享一系列基于MK2 IPU的机器智能系统的最新性能结果。您会看到我们的IPU-M2000系统明显、全面地优于NVIDIA A100 DGX,并且在某些模型上的性能甚至提高了几个数量级。
通过使用我们的第二代IPU系统,Graphcore客户已经取得了巨大的飞跃——无论他们优先考虑的是更快获取结果的时间、模型准确性、更高的效率、更低的总体拥有成本(TCO),还是通过IPU在AI领域取得新突破的机会。
我们选择了一系列最受欢迎的模型,客户在训练和推理中使用这些模型作为在自然语言处理、计算机视觉等方面的专有生产AI工作负载的代理。
我们很高兴在这篇微信文章中分享使用新的PyTorch框架支持的结果。我们正在继续开发和扩展这一功能,您可以在Graphcore官方网站了解更多信息。
这些结果是在IPU-M2000和IPU-POD64平台上测得的。我们尽可能将IPU的性能与NVIDIA公布的A100 GPU的性能数字进行比较,A100 GPU是DGX A100平台的组成部分。由于很难在差异很大的产品和芯片架构之间进行精确的对比,因此我们选择与价格和功能最为接近的平台进行比较。如果英伟达未发布某一特定模型的结果,则使用实测结果。
Graphcore GitHub网站上的示例存储库提供了所有benchmark测试的代码,您还可以在该网站上找到很多其他模型类型的代码和应用程序示例。
我们在每张图表中都添加了注释,以说明我们的方法,并提供有关批尺寸、数据集、浮点算法、框架等其他信息。除了发布我们的benchmark图表外,我们还在本篇微信文章和我们的网站上以表格格式发布了IPU-M2000和IPU-POD系统的性能数据。我们将添加更多内容,并定期更新结果。
最后,我们还加入了MLCommons——这是独立benchmark测试组织MLPerf的管理机构。我们将于2021年加入MLPerf,在春季提交第一份训练,并将继续构建自己的性能结果。
自然语言处理(NLP)
BERT-Large训练
BERT-Large(来自Transformer的双向编码器表示方法)现已被确立为自然语言处理应用最广的模型之一。
从端到端的BERT-Large收敛训练到参考的准确性,IPU-POD64比DGX A100系统快了5倍以上。为和其他图表中的比较保持一致,我们还提供了双DGX A100系统的训练时间。

BERT-Large推理
推理生产系统的目标通常是在尽可能低的时延下实现尽可能高的吞吐量。例如,搜索引擎公司和许多使用推理的自动化服务都需要近乎实时的响应。
在BERT-Large推理方面,与A100相比,IPU-M2000以最低的时延实现了3.4倍的吞吐量。

计算机视觉
ResNet-50训练
与用于ResNet-50的A100相比,IPU-M2000每秒处理的图像数量是A100的2.6倍。ResNet-50是用于图像分类的通用模型,是整个行业的基准性能指标,已在GPU架构上进行了高度优化。
这里我们展示了使用TensorFlow和PyTorch时在IPU上的结果。

ResNet-50推理
在PyTorch和TensorFlow方面,与发布的A100 80GB GPU结果相比,IPU-M2000以最低的时延提供了4.6倍的高吞吐量,实现了每秒58112张图像的更高的绝对吞吐量。

EfficientNet训练
EfficientNet使用创新的技术(例如组可分离卷积和深度卷积),实现了远高于传统图像分类模型(例如ResNet-50)的每参数准确度。
分组卷积和深度卷积使用较小内核,而较小内核不太适合GPU,因此GPU目前限制了对它们的采用。
相反,像IPU这样的细粒度处理器因其独特的MIMD架构,更适合于分组卷积、深度卷积以及那些更普遍的、本来就不使用密集连续数据结构的稀疏模型。
在标准EfficientNet-B4在PyTorch和TensorFlow上的训练上,和最新GPU相比,IPU-M2000的吞吐量优势是最新GPU的10倍。
借助优化的EfficientNet-B4,IPU-M2000的吞吐量优势是最新GPU的18倍。

借助优化的EfficientNet-B4,IPU-M2000的吞吐量优势是最新GPU的18倍。

EfficientNet-B0推理
我们在推理上的优势更大。在TensorFlow和PyTorch的最低时延比较中,与最新的GPU相比,IPU-M2000的吞吐量提高超60倍,时延降低了16倍。实际上,与最新GPU相比,在任何批尺寸下,IPU-M2000都能以最低的时延提供更高的吞吐量。

ResNeXt-101训练
ResNeXt-101是一种创新模型,可以提高图像分类的准确性。ResNeXt使用深度可分离卷积,使用TensorFlow,其在IPU架构上的性能要比在GPU上好得多,从而使IPU-M2000的吞吐量比A100 GPU提高了3.7倍。

ResNeXt-101推理
在ResNeXt-101推理方面,使用TensorFlow,IPU-M2000的吞吐量提高了40倍,时延降低了10倍。

概率学习
概率模型用于那些基础系统中具有固有随机性的应用程序。他们广泛地被应用于金融领域和科学研究中。但是,许多概率模型与GPU的SIMD/SIMT架构不太吻合,并且运行速度太慢而无法使用。
马尔可夫链蒙特卡洛(MCMC)训练
我们使用现成的TensorFlow概率(TFP)库评估IPU上概率模型的性能,发现一个金融MCMC工作负载在IPU-M2000平台上的训练仅需不到3小时,比最新GPU所需的48小时快了17倍。

语音处理
将书面文本转换成语音是语音技术研究中具有挑战性但极有价值的领域,在大多数垂直行业中都有广泛的用例。
一些文本转语音的模型已引起人们的关注,包括谷歌的Tacotron、百度的Deep Voice和微软的FastSpeech,这些模型可以实现高质量、端到端的语音合成。
Deep Voice 3训练
这里,我们重点关注第三次Deep Voice迭代。Deep Voice 3是完全卷积的模型,并使用注意块将输入文本序列解码为输出音频序列表示方式。《使用IPU加速文本转语音模型》中提供了有关Deep Voice 3实施的更多详细信息。
下图凸显了IPU-M2000在Deep Voice 3模型上的性能优势,与最新GPU相比,其吞吐量提高超过13倍。

时间序列分析
时间序列预测模型可以根据以前的顺序数据预测未来值。LSTM是应用最广泛的时间序列分析模型之一。金融公司尤其依靠LSTM来进行诸如股票价格之类的金融数据进行建模和预测。金融行业使用的LSTM基础方法在arxiv这篇论文内找到。
LSTM推理
下图对比了一个LSTM 2层推理模型中IPU-M2000和最新GPU在不同批尺寸上的吞吐量和时延。在一系列批尺寸上,性能优势均显而易见。在GPU可以实现的最低时延下,IPU-M2000能够以更低的时延实现600倍的吞吐量。

IPU可以实现的未来突破
我们已经看到,在已投入使用的图像处理和语言模型(例如ResNet和BERT)上,IPU提供了最先进的性能。
同样很明显,IPU在几种新的或当前未被充分利用的模型类型中也可以实现巨大的性能提升,这些模型类型表明了机器智能的未来趋势,例如EfficientNet、ResNeXt和MCMC(马尔可夫链蒙特卡洛)基于概率的方法。
我们还在使用稀疏模型进行一些激动人心的开发,并在今天发布的Poplar SDK 1.4中引入了我们广义的稀疏库支持的试用版本。
机器智能创新还处于初期阶段,我们预计未来几年内将出现许多创新。IPU旨在帮助创新者实现这些新突破。
Graphcore的IPU-M2000 and IPU-POD现已发货,并可以通过我们的合作伙伴网络进行订购。欲了解更多信息或与我们的AI专家联系,请点击这里登记你的意向。
*所有产品、系统、软件和结果均基于测量时存在的配置,因此随时可能更改,恕不另行通知。欲了解更多有关方法或结果的信息,请联系我们。