每天,研究实验室、企业和大学都在将机器智能的创意付诸实现。这些成果正将我们的世界变得更加美好。
我们已经看到,AI帮助我们研发拯救生命的药物以应对严重的疾病,自动驾驶汽车正受益于计算机视觉和智能决策的进步,流行病学家使用Graphcore技术帮助预测COVID-19的传播。
掌握合适的工具是这一研发过程的关键部分。越多人能够获取尖端的AI计算,越多突破性应用程序就能被开发出来。
Graphcore的新型IPU-POD16 DA(Direct Attach,直连)是一种功能强大、结构紧凑且价格实惠的系统,可为创新者提供完美的入门平台,来使用IPU探索新的机器智能方法。
IPU-POD16 DA支持团队从概念验证项目过渡到预生产试点,它在训练和推理工作负载上展现出了更高性能和总体拥有成本优势。
该系统提供了惊人的4 petaFLOPS的FP16.16 AI计算,这要归功于它的4个IPU-M2000刀片服务器。这些刀片服务器直接连接到Graphcore所批准的主机服务器。
其紧凑的5U外形尺寸可在数据中心中提供出色的计算密度,并且由于IPU-POD16 DA的模块化特性,核心IPU-M2000构建块和主机服务器可以轻松地重新配置为未来更大型、交换式的IPU-POD系统里的一部分。
性能
新的benchmark证明了Graphcore IPU-POD16的强大功能。该benchmark展示了一些部署最广泛的训练工作负载在TensorFlow、PyTorch和Graphcore的本机PopART上的运行结果:

设计更优
每个IPU-POD16都由16个 GC200 IPUs提供支持,总共提供23552个独立的并行处理核,能够运行141312个线程。
这使得IPU能够执行细粒度的并行计算,而细粒度的并行计算是处理AI数据和那些可能既不规则又很稀疏的数据结构的关键功能。
Graphcore的高性能 Exchange-MemoryTM为IPU-POD16 DA的处理能力提供了补充,其中包括总共14.4GB的处理器内存储,均匀分布在23552个核中。每个核都有自己的存储块,该存储块位于芯片上与核相邻的地方。这是IPU架构的独特功能,可以以每秒180TB的带宽访问存储。处理器内存储与IPU-POD16的512GB流存储“携手合作”。
跨IPU-POD16 DA的通信在IPU-Fabric间进行,IPU-Fabric是我们的无抖动通信结构,它以2.8Tbps带宽在整个系统范围内拓展了IPU间的连接性。
Graphcore的Poplar SDK可以支持用户掌控IPU-POD16 DA,并释放这种新硬件配置的强大功能。Poplar负责关键功能,例如对编译的通信和计算进行调度,与流行的机器学习框架(例如PyTorch和TensorFlow)集成,以及使用户能够直接使用Python和C ++进行编程。
我们开源的PopLibs Poplar库为最广泛使用的模型实施提供了优化,活跃的机器学习社区也在不断推动它的更新。
Graphcore的虚拟IPU-POD可以实现多租户和多工作负载,以满足客户希望将IPU-POD16 DA的计算资源分配给多个用户或多个任务的需求。
总而言之, 这款由软件Poplar支持的强大的新硬件配置就像一个创新的孵化器,定义下一代机器智能的想法很可能会从一个IPU-POD16 DA上开始实践。
IPU-POD16 DA现已大量交付,用户可在全球范围内通过Graphcore精英合作伙伴计划订购。和我们的市场部客服人员联系,了解更多资讯。