\

拟未:为未来的基础模型做好准备

作者:

分享  

Share on weixin
Share on weibo
Share on linkedin

订阅

在两年前发表的一篇影响深远的论文中,OpenAI介绍了GPT-3,这是他们的1750亿参数文本生成模型。

此后不久,经过完全训练的GPT-3开始通过API提供,让研究人员、媒体和公众见证了这一模型类别所提供的广度非凡的功能,从生成莎士比亚十四行诗到将普通英语指令变成HTML。

从那时起,大型语言模型就在围绕前沿人工智能的公共讨论中占据了主导地位,并推动了诸如无监督学习等重要概念的普及。

“大型模型”一词已经开始让位于“基础模型”,后者更好地描述了其广泛的实用性和创建专门衍生的潜力。

大型也是一个相对的概念,正如我们将在后面讨论的那样,基础模型不一定要不断地增加规模,尽管到目前为止的趋势都是规模不断增加。

鉴于这类模型的重要性,客户经常向我们询问这些模型也就不足为奇了。本文将对大型/基础模型、它们的效用和未来发展方向,以及Graphcore拟未在未来几年将如何在这些模型上提供性能和效率优化的系统进行高层次的介绍。

更深入的理解

本质上,GPT-3是一个文本预测模型,能够接受初始用户提示,并根据对文本内部关系、上下文和用户提供的任何明确指示的丰富理解,生成后续语言。

应用范围可以从“简单”的句子完成到复杂的调换,如文本总结。

训练GPT-3的数据集的规模(3000亿个标记——约2250亿个词)使其能够跨越广泛的领域,而不需要进行微调。

作为微调的替代,用户可以通过在提示中包括任务和预期输出的例子以及添加一个具体要求来增强输出,这被称为“小样本学习”,例如:

新兴的能力

Wei等人在他们的论文《大型语言模型的新兴能力》中把GPT3处理小样本学习的能力描述为一种“新兴”能力。按照论文作者的定义,这种能力是大型模型的一种属性,其产生或出现是无法预测的。

这种能力将通过在不同数据体上训练大型模型的结果而呈现出来,这是人工智能这方面引起如此多关注的原因之一。

在同一篇论文中,作者推测了这种能力在未来可能发生的变化:“尽管我们可能注意到一种新出现的能力是在某种规模下发生的,但这种能力有可能后来在较小的规模下实现。换言之,模型规模不是解锁新能力的唯一因素。随着训练大型语言模型科学的发展,某些能力可能会通过新的架构、更高质量的数据或改进的训练程序为小型模型解锁。”

计算成本

在使用较小模型的同时实现“大模型”能力的潜力是诱人的,原因有很多,尤其是作为解决与大模型指数级增长相关的计算负担螺旋式上升的一种手段。

2018年的BERT-Large拥有3.55亿个参数,训练时间约为6.16 PetaFLOP/天。到2020年,GPT-3需要大约3640 PetaFLOP/天来训练。后者的实际训练费用尚未公开,估计在1000万至2000万美元之间。

使用越来越大的模型产生的费用有可能成为人工智能创新的阻力,即使对大型技术公司和研究机构来说也是如此,因此越来越需要在模型设计和它们运行的计算平台上找到新的效率。

还有一个问题是,谁能参与到开发基础模型的业务中来。减少计算负担会产生大众化的效果,确保更广泛的人工智能从业者能够参与其中。

模型效率

寻求模型设计效率的工作已经取得了重大进展。

DeepMind在Chinchilla上的工作表明,目前的模型训练不足,通过在更多的文本上训练较小的模型,而不是增加整个模型的规模,可能会取得更好的结果。

正如2022年的论文《超越神经缩放定律:通过数据修剪战胜幂律缩放》中所示,提高训练数据的质量也有助于产生显著的效率。

Aleph Alpha是一家开发前沿自然语言处理模型的德国公司,正在研究大型模型的稀疏化,这可能会给该领域带来进一步的效率。该公司选择与拟未合作开展这项工作,是因为它认识到提供高效人工智能的全新方法依赖于对计算硬件和创新模型设计的全新认识。

硬件共同设计

计算系统在实现大型模型人工智能的持续、快速演进上发挥了多方面的作用。

架构创新可以带来“直接”的性价比优势,有效回应了不断增长的对计算的需求。拟未 IPU有许多这样的特点,包括它创新地将片上SRAM和片外DRAM耦合起来,以取代昂贵的HBM。

我们最近推出的Bow IPU还采用了先进的wafer-on-wafer生产工艺,将计算性能进一步提高了40%,电源效率提高了16%。

在处理大型模型时,这种效率的累积价值变得非常重要。

同样重要的是,通过硬件和软件设计来满足当前和新兴的人工智能的具体要求,我们能够实现创新的方法,比如稀疏性,在一个良性循环中,提供更有效、功能更强的模型。我们在下面的“必然之选”中进一步讨论这个问题。

这些都可以被视作硬件效率和硬件支持的人工智能创新。

入时

我们有充分的理由追求基础模型的进步。

开始出现的最有前景的功能之一是多模态;一个单一的、训练过的模型能够适应不同类型或“模式”的数据,如文本、图像、音频以及最近增加的类型——视频。

最重要的是,这些模式可以相互作用,从而产生诸如用文本描述图像内容的能力。这是MAGMA实现的功能之一,MAGMA是由拟未的合作伙伴Aleph Alpha创建的一个多模态模型。

本文的封面图片是使用Midjourney的图像生成机器人从文本输入“太空中的梦想”生成的。

在关于多模态BEiT模型的论文中,Wang等人描述了用于语言的遮蔽技术如何也可以应用于图像以训练视觉transformer。在他们的研究中,图像被视为一种“外语”。

他们还指出,“扩大模型规模和数据规模普遍提高了基础模型的泛化质量,因此我们可以将它们转移到各种下游任务中”。

这一观察结果支持了这样一个观点:在未来几年,将有公司或组织专门训练多模态基础模型,也将有公司或组织利用这些模型的派生子集,而整个业务有可能就建立在这些基础之上。

谷歌研究院在2022年开发的DreamBooth允许用户通过添加自己的照片来有效地微调文本到图像生成模型,将它们整合到预先训练的多模态模式中。然后,用户可以生成以他们介绍的 “人物”为特色的人工智能艺术。

拟未正积极致力于大型模型的微调。我们最近在Hugging Face上发表了检查点,用于6B参数模型GPT-J的微调版本,在GLUE MNLI数据集上进行了训练。MNLI的任务是将两个被称为假设和前提的句子作为输入,并决定这些句子是包含(支持)、中立(涵盖不同的主题)还是相互矛盾。

为了使用生成语言模型完成这项任务,我们创建了一个包含两个句子的风格化提示字符串。模型输出的第一个词就是结果。

提示:"mnli hypothesis: <hypothesis-sentence> premise: <premise-sentence> target:"

输出:" {entailment|neutral|contradiction}|<|endoftext|>" 

为了继续发展基础模型,寻找计算效率将至关重要 ,对于未来的模型制作者和模型使用者来说都是如此。

拟未的技术有助于确保创建基础模型的能力始终保持相对广泛的可访问性,支持包含语言、文化和其他差异的模型的开发。同时,还可以降低从事基础模型派生工作的人员参与门槛。

必然之选

人工智能的发展方向涉及几个汇聚的创新流,包括专家混合(任务被导向最合适的模型)、稀疏化和多模态。

目标是可以通过特定路线引导任务的系统,而不是激活整个模型,类似于大脑的工作方式。这可以大量增加功能,而不会相应增加计算需求。

这种方法被认为是选择性、有条件的稀疏性或者像谷歌研究院所描述的“Pathways”。

拟未CTO Simon Knowles在ScaledML 2021的主旨演讲中指出,如果我们希望实现大脑规模的机器智能,并且具有许多可以解锁的功能,这种技术就必不可少。

模型将不再受计算的限制,而是取决于是否有大量的存储来保存模型状态。

拟未的IPU芯片和系统架构的设计考虑到了这些要求。

我们的客户也证明了IPU适合于运行混合专家模型,并且释放出更先进的多模态和稀疏模型的潜力

这些特点为拟未的下一代计算系统Good™ Computer(古德计算机)提供了大量的信息。其系统架构由使用了新的wafer-on-wafer逻辑栈的IPU构建,并结合大量存储,是为下一代人工智能定制,不受传统处理器设计的影响。

呼之欲出

我们在这里概述的基础模型人工智能的演变以及其相关的计算要求,有望证明我们对拟未IPU和相关系统的信心。

在未来的几个月里,我们将宣布GPT-3规模模型的IPU专门训练,支持大型模型的微调,并越来越关注多模态。同时,我们正在开发选择性和大型混合专家模型的新方法。

新兴能力将带来当下无人能预见的用途,这正是大型/基础模型人工智能令人兴奋的原因之一。但我们知道,要达到这个目标还需要什么,而拟未正为此努力,使未来成为现实。

More Posts

卢涛:后登纳德时代,IPU架构引领Transformer向高阶版演进

GACS 2023 | IPU:赋能生成式AI,不止生成式AI

Graphcore携手Pienso荣获CogX最佳创新类别的自然语言处理奖

Graphcore加入PyTorch基金会

促进低精度数字格式使用,Graphcore发布全新Unit Scaling库

情人节之“AI”跨山海——拟未“AI”的故事绘画连载(三)

获取最新的GRAPHCORE资讯

在下方注册以获取最新的资讯和更新:




    获取最新的GRAPHCORE资讯

    在下方注册以获取最新的资讯和更新: