开始使用IPU-POD128增加云端或数据中心的AI计算能力。
IPU-POD128在设计上可以直接部署并与标准数据中心基础架构有效集成,包括VMWare虚拟化平台、OpenStack。由于带有Slurm和Kubernetes支持,因此可以轻松实现应用部署、扩展和管理的自动化。Virtual-IPU™技术提供安全多租户配置。开发者可以在多个IPU-POD内/跨多个IPU-POD建立模型副本,并在多个IPU-POD上为超大模型配置IPU。

为了持续支持日益增长的超大规模AI HPC环境市场需求,我们正在与Graphcore合作,将我们的IPU-POD64升级为IPU-POD128,这将增加我们为客户提供的“超大规模AI服务”。通过这次升级,我们预计我们的AI计算规模将增加至32 petaFLOPS的AI计算,使更多不同的客户能够使用KT最先进的AI计算进行大规模AI模型的训练和推理。
语言
如今,自然语言处理(NLP)为金融公司和生物技术领导者提供了商业价值,为纵向扩展以及超大规模计算企业提供了商业价值,改善了互联网搜索情感分析、欺诈检测、聊天机器人、药物发现等等。无论您是在生产中运行大型BERT模型还是开始研究GPT类模型或GNN(图神经网络),您都可以选择IPU-POD128。
视觉
先进的计算机视觉技术正在推动医学成像、索赔处理、宇宙学、智慧城市、自动驾驶等领域的突破。ResNet50等传统网络领先世界的性能,以及EfficientNet等新兴高精度模型已经可以在IPU-POD128上大规模运行。
科学研究
国家实验室、大学和研究机构正在使用IPU-POD128解决物理学、天气预报、计算流体动力学、蛋白质折叠、石油和天然气勘探等方面的问题。您可以充分利用IPU的大规模精细计算构建新兴计算图神经网络(GNN)和概率模型、探索稀疏性并实现HPC和AI的融合。
性能
无论您是想探索创新模型和新的可能性,还是想加快训练时间或者提高吞吐量或性价比,您都能获得全球领先的结果。

广泛的生态体系
从开发到部署,各种软件工具和集成支持AI生命周期的每一个环节,提高生产力和AI基础架构效率,并使AI变得更容易使用

IPU | 128个GC200 IPU |
IPU-M2000 | 32台IPU-M2000 |
Exchange-Memory | 8307.2GB(包括115.2GB处理器内存储和8192GB流存储) |
性能 | 32 petaFLOPS FP16.16 8 petaFLOPS FP32 |
IPU核 | 188,416 |
线程 | 1,130,496 |
IPU-Fabric | 2.8Tbps |
Host-Link | 100 GE RoCEv2 |
软件 | Poplar TensorFlow, PyTorch, PyTorch Lightning, Keras, Paddle Paddle, Hugging Face, ONNX, HALO OpenBMC, Redfish DTMF, IPMI over LAN, Prometheus以及Grafana Slurm, Kubernetes OpenStack, VMware ESG |
系统重量 | 900kg+主服务器和交换机 |
系统尺寸 | 32U+主机服务器和交换机 |
主机服务器 | 从Graphcore合作伙伴选择获批准的主机服务器 |
散热 | 风冷 |
可选切换版本 | 请联系Graphcore销售人员 |
MLPERF结果
Division | Model | MLPerf Quality Target | Platform | SDK Version | Framework | MLPerf ID | Dataset | Precision | Time to Train (mins) |
---|---|---|---|---|---|---|---|---|---|
Closed | ResNet50 v1.5 | 75.90% classification | IPU-POD128 | SDK 2.3.0 | TensorFlow | 1.1-2044 | ImageNet2012 | 16.16 | 5.67 |
Closed | BERT | 0.72 Mask-LM accuracy | IPU-POD128 | SDK 2.3.0 | PopART | 1.1-2043 | Wikipedia | 16.16 | 6.86 |
Open | BERT | 0.72 Mask-LM accuracy | IPU-POD128 | SDK 2.3.0 | PopART | 1.1-2087 | Wikipedia | 16.16 | 5.88 |
MLPerf名称和标识是MLCommons协会在美国和其他国家的商标。保留所有权利。
严禁未经授权使用。更多信息请参见www.mlperf.org。
SDK BENCHMARK
Model | Variant | Platform | SDK Version | Framework | Dataset | Batch Size | Precision | Throughput (items/sec) |
---|---|---|---|---|---|---|---|---|
BERT Large | Ph1 Pre-Training (SL128) | IPU-POD128 | SDK 2.4.0 | PopART | Wikipedia | 65,536 | 16.16 | 24424 |
BERT Large | Ph1 Pre-Training (SL128) | IPU-POD128 | SDK 2.4.0 | TensorFlow1 | Wikipedia | 66,560 | 16.16 | 24900 |
BERT Large | Ph1 Pre-Training (SL128) | IPU-POD128 | SDK 2.4.0 | PyTorch | Wikipedia | 65,536 | 16.16 | 22402 |
BERT Large | Ph2 Pre-Training (SL384) | IPU-POD128 | SDK 2.4.0 | PopART | Wikipedia | 16,384 | 16.16 | 7127 |
BERT Large | Ph2 Pre-Training (SL384) | IPU-POD128 | SDK 2.4.0 | TensorFlow1 | Wikipedia | 16,640 | 16.16 | 7292 |
BERT Large | Ph2 Pre-Training (SL384) | IPU-POD128 | SDK 2.4.0 | PyTorch | Wikipedia | 16,384 | 16.16 | 6500 |
GPT2 | GPT2-medium | IPU-POD128 | SDK 2.3.0 | PyTorch | Wikipedia | 65,536 | 16.16 | 18842 |
ResNet-50 v1.5 | IPU-POD128 | SDK 2.4.0 | TensorFlow1 | ImageNet2012 | 5,120 | 16.16 | 205006 | |
EfficientNet-B4 | G16-EfficientNet | IPU-POD128 | SDK 2.4.0 | TensorFlow1 | ImageNet2012 | 6,144 | 16.16 | 48015 |
ViT | Vision Transformer | IPU-POD128 | SDK 2.3.0 | PyTorch | ImageNet1k | 65,536 | 16.16 | 46320 |
要了解更多性能结果,请访问我们的性能结果页面

IPU-POD16
探索 IPU-POD16 作为探索AI的理想选择,IPU-POD16提供强大的算力、性能和灵活性,可满足您从试验到投产整个过程中对快速跟踪IPU原型和速度的各种要求。无论您是探索语言和视觉的GNN(图神经网络)和LSTM(长短期记忆人工神经网络),还是开拓全新的领域,简单易用的IPU-POD16都是您借助IPU构建更富创新的优秀AI解决方案的不二之选。 快速高效的稠密矩阵模型 擅长稀疏和细粒度计算

IPU-POD64
探索 IPU-POD64 加快您的AI项目落地与生产速度,更快实现业务价值。IPU-POD64强大而灵活,是企业通过数据中心、私有云或公有云实现领先世界的AI性能的重要一环。无论您是运行大型语言模型还是依赖于快速和准确的视觉模型,IPU-POD64都能快速提供结果,并为您提供探索未来创新AI解决方案的良机。 世界领先的视觉和语言性能 细粒度计算和稀疏开启全新创新

IPU-POD256
扩展 IPU-POD256 当您准备探索AI超级计算时,可选择在企业数据中心、私有云或公有云部署IPU-POD256。IPU-POD256把完成大型语言训练所需的时间从数月到数周缩短至数小时或几分钟,为您带来效率和生产力的巨大提升。IPU-POD256可大规模用于AI。 超级计算规模的IPU 以全球领先的语言和视觉性能实现新型和新兴模型