\

实现零代码模型推理部署,Graphcore PopRT正式推出

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

当你和ChatGPT聊天时,你有没有想过,在那个闪烁的光标背后,正在发生什么?

ChatGPT在收到你的输入指令后,到生产出答案的过程就是推理。AI 推理是将用户输入的数据,通过训练好的模型产生有价值信息的过程。在LLM类模型应用、自动驾驶、量化交易、搜索、推荐等很多场景中,对于AI推理效率的要求非常高。为进一步帮助克服AI应用部署的时延痛点,Graphcore搭配C600推出了高性能推理SDK——PopRT,帮助开发者实现零代码推理部署已经训好的模型,同时带来低时延和高吞吐量,极大缩短AI业务商业变现时间窗口,为企业用户赢得市场先机

PopRT构成

PopRT包括转换器、编译器和运行时:

  • 转换器
    • 提供对op-fusion、constant-folding等广泛使用的优化方法内置支持
    • 提供对FP16和FP8训练后量化的内置支持,这种训练后量化可以实现更低的时延和更高的吞吐量,并且精度损失很小
    • 支持将多个模型融合为一个
  • 编译器
    • 支持模型切分和流水线
    • 为运行时导出PopEF(Poplar可执行格式)
  • 运行时
    • 支持自动批处理
    • 支持移除填充以减少对自然语言处理(NLP)模型的无用计算(或通过移除填充对自然语言处理模型进行更有效的推理)
    • 支持针对CV(计算机视觉)模型的多模型推理

部署和运行

Graphcore始终坚持降低IPU的使用门槛,广泛支持各类主流的机器学习框架,让开发者能够在自己熟悉的环境中工作,专注创新。

PopRT优化模型可与英伟达Triton和TF-Serving一起部署,并可以通过PopRT运行时API很容易地与第三方框架和服务平台集成。

PopRT编译和运行过程

优化推理性能

搭配Grapchore C600高端推训一体加速卡,PopRT使得开发者可以“一键”零代码部署已经训练好的AI应用,可以大幅加速计算机视觉、自动语音识别、自然语言处理(BERT、GPT类)、多模态和推荐系统的AI应用的部署速度,加速整个数据中心的各项工作负载,缩短研发到商用的时间。

欲了解各类模型在C600的优异性能,请联系info_china@graphcore.ai

在C600上使用PopRT

C600是拟未为云和数据中心打造的高端推训一体加速卡,主打推理,兼做训练,可以支持各种主流的AI应用,在搜索和推荐等业务上别具优势。为了使得C600在推理场景发挥更大效能,PopRT在C600的基础上进一步针对推理进行了优化,低时延和高吞吐使得用户可以高效地进行推理,一键部署已经训好的模型。

现在,15亿参数量的GPT2-XL已经在C600上成功部署(详情请见本次推送首条)。在PopRT的加持下,GPT2-XL的推理延时在C600上已经达到1 ms/token的水平。这意味着在实际应用场景中,模型可以快速响应用户的请求,极大提高用户体验。

【教程】在 C600上快速使用PopRT:https://docs.graphcore.ai/projects/poprt-user-guide/zh_CN/latest/(请至Github见最新教程)

如欲了解PopRT的更多详情,请访问:https://github.com/graphcore/PopRT

More Posts

ChatGPT开源平替:OpenAssistant OASST1微调版Pythia-12B

Flan-T5:用更小且更高效的LLM实现出色效果

详细攻略:在IPU上以float16精度运行FLAN-T5-XL推理

较小模型,超高性能:DeBERTa和自然语言理解的未来

PackedBert:如何用打包的方式加速Transformer的自然语言处理任务

Pienso为企业提供由云上IPU支持的高效大型语言模型访问

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: