\

用IPU开启机器智能创新之旅:GraphcoreIPU-POD16介绍

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

每天,研究实验室、企业和大学都在将机器智能的创意付诸实现。这些成果正将我们的世界变得更加美好。

我们已经看到,AI帮助我们研发拯救生命的药物以应对严重的疾病,自动驾驶汽车正受益于计算机视觉和智能决策的进步,流行病学家使用Graphcore技术帮助预测COVID-19的传播。

掌握合适的工具是这一研发过程的关键部分。越多人能够获取尖端的AI计算,越多突破性应用程序就能被开发出来。

Graphcore的新型IPU-POD16 DA(Direct Attach,直连)是一种功能强大、结构紧凑且价格实惠的系统,可为创新者提供完美的入门平台,来使用IPU探索新的机器智能方法。

IPU-POD16 DA支持团队从概念验证项目过渡到预生产试点,它在训练和推理工作负载上展现出了更高性能和总体拥有成本优势。

该系统提供了惊人的4 petaFLOPS的FP16.16 AI计算,这要归功于它的4个IPU-M2000刀片服务器。这些刀片服务器直接连接到Graphcore所批准的主机服务器。

其紧凑的5U外形尺寸可在数据中心中提供出色的计算密度,并且由于IPU-POD16 DA的模块化特性,核心IPU-M2000构建块和主机服务器可以轻松地重新配置为未来更大型、交换式的IPU-POD系统里的一部分。

性能

新的benchmark证明了Graphcore IPU-POD16的强大功能。该benchmark展示了一些部署最广泛的训练工作负载在TensorFlow、PyTorch和Graphcore的本机PopART上的运行结果:

设计更优

每个IPU-POD16都由16个 GC200 IPUs提供支持,总共提供23552个独立的并行处理核,能够运行141312个线程。

这使得IPU能够执行细粒度的并行计算,而细粒度的并行计算是处理AI数据和那些可能既不规则又很稀疏的数据结构的关键功能。

Graphcore的高性能 Exchange-MemoryTM为IPU-POD16 DA的处理能力提供了补充,其中包括总共14.4GB的处理器内存储,均匀分布在23552个核中。每个核都有自己的存储块,该存储块位于芯片上与核相邻的地方。这是IPU架构的独特功能,可以以每秒180TB的带宽访问存储。处理器内存储与IPU-POD16的512GB流存储“携手合作”。

跨IPU-POD16 DA的通信在IPU-Fabric间进行,IPU-Fabric是我们的无抖动通信结构,它以2.8Tbps带宽在整个系统范围内拓展了IPU间的连接性。

Graphcore的Poplar SDK可以支持用户掌控IPU-POD16 DA,并释放这种新硬件配置的强大功能。Poplar负责关键功能,例如对编译的通信和计算进行调度,与流行的机器学习框架(例如PyTorch和TensorFlow)集成,以及使用户能够直接使用Python和C ++进行编程。

我们开源的PopLibs Poplar库为最广泛使用的模型实施提供了优化,活跃的机器学习社区也在不断推动它的更新。

Graphcore的虚拟IPU-POD可以实现多租户和多工作负载,以满足客户希望将IPU-POD16 DA的计算资源分配给多个用户或多个任务的需求。

总而言之, 这款由软件Poplar支持的强大的新硬件配置就像一个创新的孵化器,定义下一代机器智能的想法很可能会从一个IPU-POD16 DA上开始实践。

IPU-POD16 DA现已大量交付,用户可在全球范围内通过Graphcore精英合作伙伴计划订购。和我们的市场部客服人员联系,了解更多资讯。

More Posts

ChatGPT开源平替:OpenAssistant OASST1微调版Pythia-12B

Flan-T5:用更小且更高效的LLM实现出色效果

详细攻略:在IPU上以float16精度运行FLAN-T5-XL推理

较小模型,超高性能:DeBERTa和自然语言理解的未来

PackedBert:如何用打包的方式加速Transformer的自然语言处理任务

Pienso为企业提供由云上IPU支持的高效大型语言模型访问

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: