IPU-POD16开启了机器智能创新的新世界。IPU-POD16由4个相互连接的IPU-M2000和一个由您预选的主流品牌主机服务器构建而成。即日起您可以从我们全球渠道合作伙伴和系统集成商网络购买基于云端或数据中心的IPU-POD16。

我们看到速度提升了约5倍,这意味着一位研究人员现在可以运行的试验量是过去的五倍,也意味着我们可以加快整个研发过程,最终在我们的产品中得到更好的模型。
医疗行业
生物技术、制药和医疗保健提供商选择IPU-POD16,以AI驱动业务转型
金融行业
银行、保险公司和资产管理公司可以用IPU-POD16系统为AI实验室带来超强性能
制造业
将智能应用于工业,发现人类肉眼无法识别的材料和设备缺陷
性能

生态体系
软件工具和集成可为从开发到部署的整个AI生命周期提供支持,有效提高了生产率和AI基础设施效率,且更加简单易用

IPU | 16个GC200 IPU |
IPU-M2000 | 4台IPU-M2000 |
Exchange-Memory | 1038.4GB(包括14.4GB处理器内存储和1024GB流存储) |
性能 | 4 petaFLOPS FP16.16 1 petaFLOPS FP32 |
IPU核 | 23,552 |
线程 | 141,312 |
IPU-Fabric | 2.8Tbps |
Host-Link | 100 GE RoCEv2 |
软件 | Poplar TensorFlow, PyTorch, PyTorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, HALO OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus以及Grafana Slurm, Kubernetes OpenStack, VMware ESG |
系统重量 | 66kg+主机服务器 |
系统尺寸 | 16U+主机服务器和交换机 |
主机服务器 | 从Graphcore合作伙伴选择获批准的主机服务器 |
散热 | 风冷 |
可选切换版本 | 请联系Graphcore销售人员 |
MLPERF结果
Division | Model | MLPerf Quality Target | Platform | SDK Version | Framework | MLPerf ID | Dataset | Precision | Time to Train (mins) |
---|---|---|---|---|---|---|---|---|---|
Closed | ResNet50 v1.5 | 75.90% classification | IPU-POD16 | SDK 2.3.0 | TensorFlow | 1.1-2040 | ImageNet2012 | 16.16 | 28.33 |
Closed | BERT | 0.72 Mask-LM accuracy | IPU-POD16 | SDK 2.3.0 | PopART | 1.1-2039 | Wikipedia | 16.16 | 32.70 |
Open | BERT | 0.72 Mask-LM accuracy | IPU-POD16 | SDK 2.3.0 | PopART | 1.1-2088 | Wikipedia | 16.16 | 26.05 |
MLPerf名称和标识是MLCommons协会在美国和其他国家的商标。保留所有权利。
严禁未经授权使用。更多信息请参见www.mlperf.org。
SDK BENCHMARK
Model | Variant | Platform | SDK Version | Framework | Dataset | Batch Size | Precision | Throughput (items/sec) |
---|---|---|---|---|---|---|---|---|
BERT Large | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | PopART | Wikipedia | 65,536 | 16.16 | 3738 |
BERT Large | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | Wikipedia | 65,600 | 16.16 | 3704 |
BERT Large | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | PyTorch | Wikipedia | 65,536 | 16.16 | 3582 |
BERT Large | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | PopART | Wikipedia | 16,384 | 16.16 | 1063 |
BERT Large | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | Wikipedia | 16,400 | 16.16 | 1025 |
BERT Large | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | PyTorch | Wikipedia | 16,384 | 16.16 | 1012 |
BERT Large | Fine-Tuning (SL384 - SQuAD) | IPU-POD16 | SDK 2.4.0 | PopART | SQuAD | 256 | 16.16 | 884 |
BERT Large | Fine-Tuning (SL384 - SQuAD) | IPU-POD16 | SDK 2.4.0 | PyTorch | SQuAD | 256 | 16.16 | 744 |
BERT Base | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | PopART | Wikipedia | 65,536 | 16.16 | 11991 |
BERT Base | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | Wikipedia | 65,280 | 16.16 | 11647 |
BERT Base | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | TensorFlow2 | Wikipedia | 65,280 | 16.16 | 11035 |
BERT Base | Ph1 Pre-Training (SL128) | IPU-POD16 | SDK 2.4.0 | PyTorch | Wikipedia | 65,536 | 16.16 | 11184 |
BERT Base | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | PopART | Wikipedia | 16,384 | 16.16 | 3545 |
BERT Base | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | Wikipedia | 16,320 | 16.16 | 3288 |
BERT Base | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | TensorFlow2 | Wikipedia | 16,320 | 16.16 | 3155 |
BERT Base | Ph2 Pre-Training (SL384) | IPU-POD16 | SDK 2.4.0 | PyTorch | Wikipedia | 16,384 | 16.16 | 3334 |
BERT Base - HuggingFace | Fine-Tuning (SL384 - SQuAD) | IPU-POD16 | SDK 2.4.0 | TensorFlow2 | SQuAD | 320 | 16.16 | 375 |
GPT2 | GPT2-medium | IPU-POD16 | SDK 2.3.0 | PyTorch | Wikipedia | 65,536 | 16.16 | 2540 |
ResNet-50 v1.5 | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | ImageNet2012 | 1,920 | 16.16 | 30690 | |
ResNet-50 v1.5 | IPU-POD16 | SDK 2.4.0 | PyTorch | ImageNet2012 | 16,384 | 16.16 | 25534 | |
ResNeXt101 | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | ImageNet2012 | 768 | 16.16 | 9023 | |
EfficientNet-B4 | G16-EfficientNet | IPU-POD16 | SDK 2.4.0 | TensorFlow1 | ImageNet2012 | 6,144 | 16.16 | 6379 |
EfficientNet-B4 | G16-EfficientNet | IPU-POD16 | SDK 2.4.0 | PyTorch | ImageNet2012 | 1,024 | 16.32 | 4311 |
ViT | Vision Transformer | IPU-POD16 | SDK 2.3.0 | PyTorch | ImageNet1k | 65,536 | 16.16 | 6535 |
Mini DALL-E | IPU-POD16 | SDK 2.4.0 | PyTorch | COCO 2017 | 6,144 | 16.16 | 815 | |
FastSpeech2 | IPU-POD16 | SDK 2.4.0 | TensorFlow2 | LJ Speech | 64 | 16.16 | 1141 | |
Conformer | IPU-POD16 | SDK 2.4.0 | PyTorch | AiShell1 | 96 | 16.16 | 3395 |
要了解更多性能结果,请访问我们的性能结果页面

IPU-POD64
探索 IPU-POD64 加快您的AI项目落地与生产速度,更快实现业务价值。IPU-POD64强大而灵活,是企业通过数据中心、私有云或公有云实现领先世界的AI性能的重要一环。无论您是运行大型语言模型还是依赖于快速和准确的视觉模型,IPU-POD64都能快速提供结果,并为您提供探索未来创新AI解决方案的良机。 世界领先的视觉和语言性能 细粒度计算和稀疏开启全新创新

IPU-POD128
扩展 IPU-POD128 当您准备进行扩展时,可选择在企业数据中心、私有云或公有云部署IPU-POD128。IPU-POD128把完成大型语言训练所需的时间从数月到数周缩短至数小时或几分钟,为您带来效率和生产力的巨大提升。IPU-POD128可大规模用于AI。 出色的扩展性和超高速性能 提供综合全面的系统集成支持以实现在数据中心的安装。

IPU-POD256
扩展 IPU-POD256 当您准备探索AI超级计算时,可选择在企业数据中心、私有云或公有云部署IPU-POD256。IPU-POD256把完成大型语言训练所需的时间从数月到数周缩短至数小时或几分钟,为您带来效率和生产力的巨大提升。IPU-POD256可大规模用于AI。 超级计算规模的IPU 以全球领先的语言和视觉性能实现新型和新兴模型