Graphcore和Hugging Face大大扩展了Hugging Face Optimum的可用模式和任务范围。Hugging Face Optimum是一个用于性能优化的开源库。开发人员现在可以便捷地获取各种现成的Hugging Face Transformer模型。这些模型经过优化,可以在Graphcore IPU上提供出色的性能。
开发人员现在可以获取10个模型,包括在Optimum Graphcore推出不久后面世的BERT Transformer模型,这些模型涵盖自然语言处理(NLP)、语音和计算机视觉,带有IPU配置文件和随时可用的预训练和微调模型权重。
新的Optimum模型
计算机视觉
ViT(Vision Transformer)是图像识别领域的一项突破,它以transformer机制为主要组成部分。图像输入到ViT时被分成小块,类似于语言系统中处理单词的方式。每个小块都被Transformer编码(嵌入),然后可以单独处理。
自然语言处理
GPT-2(生成性预训练Transformer 2)是一个文本生成transformer模型,以自我监督的方式在一个非常大的英语数据语料库中进行预训练。这意味着它只对原始文本进行了预训练,没有以任何人工方式对其进行标记(这就是为什么它可以使用大量的公开数据),并通过自动程序从这些文本中生成输入和标签。更确切地说,它被训练成通过猜测句子中的下一个单词来从提示中生成文本。
RoBERTa(稳健优化的BERT方法)是一个(像GPT-2一样的)transformer模型,以自我监督的方式在一个大型英语数据语料库上进行预训练。更确切地说,RoBERTa是用掩蔽语言建模(MLM)目标进行预训练的。以一个句子为例,该模型随机地掩蔽了输入中15%的单词,然后通过该模型运行整个被掩蔽的句子,且必须预测被掩蔽的单词。Roberta可用于掩蔽语言建模,但主要是为了在下游任务中进行微调。
DeBERTa(带有分散注意力的解码增强型BERT)是一个用于自然语言处理任务的预训练神经语言模型。DeBERTa使用两项新技术对2018年的BERT和2019年的RoBERTa模型进行了调整,大大提高了模型预训练的效率和下游任务的性能。这两项新技术分别是一种分散的注意力机制和一种增强的掩码解码器。
BART是一个具有双向(类似BERT)编码器和自回归(类似GPT)解码器的transformer encoder-encoder(seq2seq)模型。BART通过以下方式进行预训练:(1)用任意的噪声函数破坏文本;(2)学习一个模型来重建原始文本。BART在对文本生成(如总结、翻译)进行微调时特别有效,并且对理解任务(如文本分类、问题回答)也很有效。
LXMERT(从Transformer学习跨模态编码器表征)是一个学习视觉和语言表征的多模态transformer模型。它有三个编码器:物体关系编码器、语言编码器和跨模态编码器。它通过掩蔽语言建模、视觉-语言文本对齐、ROI-特征回归、掩蔽视觉-属性建模、掩蔽视觉-物体建模和视觉-问题回答目标的组合进行预训练。它在VQA和GQA视觉问题回答数据集上取得了先进的结果。
T5(文本到文本转移Transformer)是一个革命性的新模型,可以把任何文本转换成机器学习格式,用于翻译、问题回答或分类。它引入了一个统一的框架,将所有基于文本的语言问题转换为用于转移学习的文本到文本格式。通过这种做法,它简化了一种在不同的自然语言处理任务中使用相同的模型、目标函数、超参数和解码程序的方法。
语音
HuBERT(隐藏单元BERT)是一个自我监督的语音识别模型,在音频上进行预训练,从连续输入中学习一个综合的声学和语言模型。HuBERT模型在Librispeech(960小时)和Libri-light(60,000小时)基准10分钟、1小时、10小时、100小时和960小时的微调子集,与先进的wav2vec 2.0性能相匹配甚至有所改进。
Wav2Vec2是一个用于自动语音识别的预训练自监督模型。Wav2Vec2使用一种新颖的对比性预训练目标,从大量未标记的语音数据中学习强大的语音表征,然后在少量转录的语音数据上进行微调,性能优于最好的半监督方法,同时在概念上更简单。
Hugging Face Optimum Graphcore:
打造坚实的合作伙伴关系
Graphcore作为创始成员于2021年加入Hugging Face硬件合作伙伴计划,两家公司的共同目标是为寻求利用机器智能力量的创新者减少障碍。
从那时起,Graphcore和Hugging Face进行了广泛的合作,使IPU上的transformer模型训练变得快速和简单,并于去年推出了第一款Optimum Graphcore模型(BERT)。
事实证明,Transformer对广泛的功能都非常有效,包括特征提取、文本生成、情感分析、翻译等等。像BERT这样的模型被Graphcore客户广泛用于包括网络安全、语音呼叫自动化、药物研发和翻译在内的众多应用中。
优化它们在现实世界中的性能需要大量的时间、精力和技能,这是许多公司和组织无法企及的。Hugging Face提供Transformer模型开源库,从而直接解决了这些问题。将IPU与HuggingFace集成使开发人员不仅可以利用模型,还可以利用HuggingFace Hub中可用的数据集。
开发人员现在可以使用Graphcore系统来训练10种不同类型的先进Transformer模型,并以最小的编码复杂度访问数千个数据集。通过这种合作关系,我们为用户提供了工具和生态系统,可以轻松下载和微调先进的预训练模型,以适应各种领域和下游任务。
带来Graphcore最新硬件和软件
Hugging Face不断增加的用户已经能够从IPU技术的速度、性能以及功率和成本效率中受益,而Graphcore最近发布的硬件和软件组合将释放更多潜力。
在硬件方面,Bow IPU于3月发布,现已交付给客户,它是世界上第一个使用Wafer-on-Wafer(WoW)3D堆叠技术的处理器,将已经被充分证明的IPU优势提升到了新的水平。每个Bow IPU在计算架构和芯片实现、通信和存储方面都实现了突破性的进步,可提供高达350 teraFLOPS的人工智能计算——性能提升40%——与上一代IPU相比,电源效率提高了16%。重要的是,由于不需要更改代码,Hugging Face Optimum用户可以从上一代IPU无缝切换到Bow处理器。
软件在解锁IPU功能方面也发挥着至关重要的作用。Optimum可以通过Graphcore易于使用的Poplar SDK提供即插即用体验,该SDK本身已完成2.5版的重大更新。由于Poplar与包括PyTorch、PyTorch Lightning和TensorFlow在内的标准机器学习框架完全集成,以及配有Docker和Kubernetes等编排和部署工具,Poplar可以轻松地在先进的硬件上训练领先的模型工具。Poplar与这些被广泛使用的第三方系统兼容,使开发人员可以轻松地从其他计算平台迁移模型,并开始利用IPU的高级AI功能。
启用Hugging Face的Optimum Graphcore模型
如果您有兴趣将IPU技术的优势与transformer模型的优势相结合,您可以从Hugging Face的网站下载最新的Optimum Graphcore模型,或从Hugging Face的GitHub上的Optimum存储库中访问代码。
此外,Graphcore还建立了一个广泛的开发人员资源页面,您可以从中找到IPU模型花园。模型花园是一个部署就绪的机器学习应用程序的存储库,包括计算机视觉、自然语言处理、计算图网络等。您还能在开发人员资源页面找到一系列文档、教程、操作方法视频、网络研讨会等。您也可以从该页面访问Graphcore的GitHub存储库和Hugging Face Optimum模型的完整列表。