\

IPU-POD系列又一个里程碑:IPU-POD128和IPU-POD256发布

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

IPU-POD128和IPU-POD256是Graphcore为扩展AI计算系统而发布的最新、最大型的产品,展现了一个为机器智能横向扩展而从零设计的架构所具有的优势和优点。

IPU-POD128和IPU-POD256分别集成了强大的32 petaFLOPS和64 petaFLOPS的AI计算,Graphcore籍此进一步扩展了其在超级计算机领域的范围。

这些系统非常适合云超大规模企业(Cloud Hyperscaler)、国家科学计算实验室以及在金融服务或制药等市场拥有大型AI团队的企业。例如,新的IPU-POD可以在整个系统中更快地训练基于Transformer的大型语言模型,在生产中运行大规模商业AI推理应用程序,通过将系统划分为更小的灵活vPOD,为更多开发人员提供IPU访问权限,或者通过在整个系统中探索GPT和GNN等新兴模型来实现科学突破。

IPU-POD128IPU-POD256于今日由ATOS和其他系统集成商合作伙伴向客户发货。客户也可在云端购买这两款产品。同时,Graphcore也提供广泛的培训和支持,以帮助客户加快从基于IPU的AI部署中实现价值的时间。

广泛使用的语言和视觉模型的结果显示,该系统具有非常出色的训练性能和高效的扩展能力,随着未来软件的优化,该系统有望进一步提高性能。

除了为集成了处理器端存储的传统大型MatMul模型(如BERT和ResNet50)提供出色性能之外,IPU(智能处理器)还支持更多能够提高稀疏乘法和细粒度计算效率的通用计算类型。EfficientNet系列模型在很大程度上得益于此,但也有各种不是神经网络的机器学习模型,如图神经网络(GNN)。

满足客户需求

众多Graphcore合作伙伴将为他们全球的客户部署IPU-POD256和IPU-POD128系统,Atos也是其中之一。

Atos集团高级副总裁兼HPC和Quantum主管Agnès Boudot表示:“我们十分高兴将Graphcore的IPU-POD128和IPU-POD256系统加入到我们的Atos ThinkAI产品组合中,使我们的客户能够在众多领域更快探索和部署更大、更具创新性的AI模型。”

首批部署IPU-POD128的客户包括韩国科技巨头Korea Telecom(KT),该公司已受益于计算能力的增加:

KT是韩国第一家提供“超大规模AI服务”的公司。所提供的服务使用我们IDC内部专用高密度AI区域中的Graphcore IPU。

许多公司和研究机构目前正在使用上述服务开展研究和PoC或者在IPU上进行测试。

为了不断满足日益增长的超大规模AI HPC环境市场需求,我们正在与Graphcore合作,将我们的IPU-POD64升级为IPU-POD128,以增加为客户所提供的“超大规模AI服务”。

KT公司云/数字体验业务部高级副总裁Mihee Lee表示:“通过此次升级,预计我们的AI计算规模将增加至32 petaFLOPS的AI计算,使更多元的客户能够使用KT的先进AI计算技术进行大规模AI模型训练和推理。”

可扩展性和灵活性

IPU-POD128和IPU-POD256的发布突出显示了Graphcore在AI旅程的每个阶段为客户提供服务的承诺。

IPU-POD16仍然是理想的探索平台,IPU-POD64适用于想要建立AI计算的客户,而现在的IPU-POD128和IPU-POD256适合需要实现进一步快速增长的客户。

与其他IPU-POD系统一样,AI计算和服务器的解聚意味着IPU-POD128和IPU-POD256可以在优化后,为不同的AI工作负载提供最大性能,实现最佳总体拥有成本(TCO)。例如一个以自然语言处理(NLP)为主的系统可以只使用2台服务器;而更多的数据密集型任务,例如计算机视觉任务等可以使用8台服务器。

此外,系统存储可以使用来自Graphcore最近宣布的存储合作伙伴所提供的技术,围绕特定的AI工作负载进行优化。

POD背后的性能

​将Graphcore计算扩展到IPU-POD128和IPU-POD256需要大量使能技术支持,其中既包括硬件技术也包括软件技术:

软件

与所有Graphcore硬件一样,IPU-POD128和IPU-POD256是与Poplar软件栈共同设计的。

我们已在多个Poplar软件版本中引入支持我们横向扩展系统的实现的功能,包括我们最新的SDK 2.3。我们在此展示了虽非IPU-POD128和IPU-POD256所独有,但与它们高度相关的部分。

  • Graphcore通信库(Graphcore Communication Library,GCL)是一个用于管理IPU之间的通信和同步的软件库。它的用途是实现IPU系统的高性能横向扩展。在编译时,可以指定程序运行所需的IPU数量,这或将IPU分布在1个以上的IPU-POD上。该程序将自动、透明地在各IPU-POD上运行,提供更高的性能和吞吐量,同时不增加开发者的成本和复杂性。
  • PopRun和PopDist:PopRun和PopDist使开发者可以在多个IPU-POD系统上运行其应用。

PopRun是一个用于启动IPU-POD系统上的分布式应用的命令行工具,并且开发者可以使用Poplar分布式配置库(PopDist)提供的一组API轻松准备用于分布式执行的应用。

当使用大型系统(如IPU-POD128和IPU-POD256)时,PopRun将自动在位于另一个互连IPU-POD的主机服务器上启动多个实例。根据应用类型,启动多个实例可以提高性能。通过PopRun,开发者能够在主机服务器上启动多个实例并支持NUMA,实现最佳NUMA节点布局。

IPU-Fabric

GW-Link扩展机架之间的IPU-Link

IPU-POD128和IPU-POD256的生产供应代表着在数据中心扩展IPU系统的下一项重大进展。

可以在多机架系统中提供AI计算的原因之一是Graphcore的IPU-Fabric。IPU-Fabric由一系列通过AI优化的基础架构技术组成,其设计用途是实现IPU间的无缝、高性能通信。

IPU-POD16IPU-POD64等系统中可以看到,我们使用64GB/秒的IPU-Link实现机架内的IPU通信。

IPU-POD128和IPU-POD256是Graphcore第一批使用Gateway Link的主要产品。这种水平机架到机架的连接方式通过常规100Gb以太网隧道扩展IPU-Link。

每个IPU-M2000上的IPU-Gateway负责管理通信。通过IPU-M2000的双QSFP/OSFP IPU-GW连接器建立连接,并且该连接器支持标准100Gb交换机。

IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256现已从ATOS和全球其他系统集成商合作伙伴处向客户发货,并可从Cirrascale进行云端购买。

More Posts

ChatGPT开源平替:OpenAssistant OASST1微调版Pythia-12B

Flan-T5:用更小且更高效的LLM实现出色效果

详细攻略:在IPU上以float16精度运行FLAN-T5-XL推理

较小模型,超高性能:DeBERTa和自然语言理解的未来

PackedBert:如何用打包的方式加速Transformer的自然语言处理任务

Pienso为企业提供由云上IPU支持的高效大型语言模型访问

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: