\

超大模型时代,IPU助力碳中和的可持续未来 | Graphcore @IIC

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

赫拉利在《未来简史》中写到,在石器时代,人们平均每天消耗4000卡路里的热量。今天,人们使用冰箱、电视、汽车等等,生活水平显著提高的同时,热量消耗也成倍增长。近日火爆的ChatGPT等大规模生成式AI,又将为热量消耗带来哪些影响?

有估算称,ChatGPT的制造设备、模型训练、运行三者相加的总碳排放超过814.61吨。这相当于上百辆万级公里数的汽车一年的碳排放。然而,ChatGPT还只是刚刚开始。AI算法模型的参数规模每3个月提高一倍,未来可能将会有万亿、十万亿、百万亿,甚至更多的参数。这样的增长下,其能源消耗是不是可持续的?

“密集计算是不可持续的,如何从高效能的角度来考虑产品。这是我们当时在架构IPU的时候主要考虑的点。”3月29日,Graphcore拟未总裁、大中华区总经理卢涛受邀参加2023国际集成电路展览会暨研讨会,并在第二届“碳中和”暨绿色能源电子产业可持续发展高峰论坛中发表演讲时这样指出。演讲中,卢涛分析了芯片行业中每瓦性能的缓慢提升速度,并分享了IPU采用的高效内存方式和能够充分利用能效的芯片架构。他指出,新时代的高效能半导体产品是能够充分利用可用能耗的产品。

芯片发展中的能耗:缓慢的每瓦性能提升

模型规模的增加意味着更多的AI算力需求。摩尔定律指出,集成电路上可以容纳的晶体管数目大约每经过18个月到24个月便会增加一倍。换言之,处理器的性能大约每两年翻一倍。

如今,摩尔定律放缓,处理器性能的提升不再那么规律。但是,比摩尔定律更加缓慢的是芯片每瓦性能的提升。从65纳米到14纳米,每个芯片每年有30%的晶体管数量的提升,但是每瓦的性能提升却只有15%。

不同浮点精度下能耗不一样。在50W/1GHz/cm^2的情况下,FP16.32每时钟周期消耗为2pJ,FP32每时钟周期消耗8pJ,FP64每时钟周期就要消耗32pJ。这样推算,在200W的8平方厘米裸片上,它有近70%的面积是暗硅。这样处理器在运行时发挥的效能是非常有限的。

不同内存的能耗:如何高效能打破内存墙?

在做计算的时候,不管是AI计算还是通用计算,是在电脑CPU里还是在手机CPU里,将数据从内存搬运到计算核心的这个过程都是能量消耗“大户”。

不同内存介质之间的能量消耗不同,譬如说DDR4内存条,将1B数据从DDR搬运到计算核心大概需要320pJ,而HBM则大概需要64pJ到10pJ。如果是片内SRAM,它搬运1B数据需要的能耗可以降低到1pJ。

这意味着在同样的能耗预算下,使用片内SRAM所能获得的内存访问的访存带宽要远高于使用DDR所能获得的,实现更高的每瓦性能。

AI计算中,我们经常提到“内存墙”。做AI计算,就要考虑如何以更高的效能撞击这堵墙。IPU的片内SRAM存储达到900M、速率高达65TB/s,彻底打破了内存墙的瓶颈。

充分利用可用能耗:新时代高效能计算平台

在新时代,什么才是高效能的计算平台?如果4400瓦的机柜在部署后不到4400瓦,那它就存在浪费的情况。如果设计能达到100T的算力,而大部分运行的时候只有75T,那就存在设计算力指标与实际运行指标不符的情况。

了解芯片上不同负载的能耗特点,将有利于充分发挥能效。被用于运算和存储两种不同的用途时,同样晶体管的能耗不同。如果分配10%的面积给RAM,RAM所消耗的能耗将少于总能耗的10%。

一个典型的GPU大概有10%的面积分配给RAM,35%给类似机器学习的一些算术单元,剩余55%的暗硅用来做一些图形或HPC的计算单元。

IPU更加专注于AI工作负载,并根据存算功耗特点,将暗硅用于存储,采取了“75%做存储、25%做运算”的架构设计,从而支持高效AI的实现。

更高每瓦性能:IPU助力AI高效能

IPU采用MIMD设计,适合精细化、高性能的计算。它采用了大型的片上分布式SRAM,可以让模型和数据紧密耦合,适合人工智能及图计算。

此前,拟未发布了世界首款3D WoW处理器Bow IPU,有1472个独立的运算核心,8832个并行线程,可以处理近9千个不同的任务。以Bow IPU为核心,拟未打造了Bow-2000基础构建块,通过IPU Gateway把4颗Bow IPU连接在一起,可以非常方便地扩展至Bow Pod系统,进行大规模训练。

在Wafer-on-Wafer MK2 IPU的基础上,拟未还推出了C600推训一体加速卡,主打推理,兼做训练,增加了用于低精度和混合精度AI的FP8,可提供FP8浮点运算560 TFLOPS以及FP16浮点运算280 TFLOPS的AI计算能力,功耗185瓦。如今市场上的许多旗舰GPU产品是310T FP16,功耗达300瓦。因此,C600在功耗方面表现出色。

除了硬件,IPU也具有完备的软件,目前针对主流应用框架和模型,可以通过工具化的方式,一键把AI模型转化部署到IPU上,对80%的模型可以实现一键转换,零代码迁移,并且模型性能也非常好。

提高能效是节能减碳中的一项重要方向。在当前的模型运算中,IPU的架构充分利用了存算能耗特点,充分发挥芯片可用能效,并采用符合AI工作负载的存储方式,以高能效打破“内存墙”,为当前的模型运算提供更好的性能和更优的每瓦性能。

新摩尔定律指出,宇宙智能数量每18个月翻一番。在超大规模模型时代,IPU的优势会进一步放大,支持超大模型实现更低的运行能耗,从“芯”开始,可持续发展。

More Posts

卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进

GACS 2023 | IPU:赋能生成式AI,不止生成式AI

Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖

Graphcore加入PyTorch基金会

促进低精度数字格式使用,Graphcore发布全新Unit Scaling库

情人节之“AI”跨山海——拟未“AI”的故事绘画连载(三)

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: