微软分享史上最大基于 Transformer 架构的语言生成模型

微软 AI＆Research 今天分享了有史以来最大的基于 Transformer 架构的语言生成模型 Turing NLG（下文简称为 T-NLG），并开源了一个名为 DeepSpeed 的深度学习库，以简化对大型模型的分布式培训。

基于 Transformer 的架构，意味着该模型可以生成单词来完成开放式文本任务。除了完成未完成的句子外，它还可以生成对输入文档的问题和摘要的直接答案。

去年 8 月，英伟达曾宣布已训练世界上最大的基于 Transformer 的语言模型，当时该模型使用了 83 亿个参数，比 BERT 大 24 倍，比 OpenAI 的 GPT-2 大 5 倍。

而此次微软所分享的模型，T-NLG 的参数为 170 亿个，是英伟达的 Megatron（现在是第二大 Transformer 模型）的两倍，其参数是 OpenAI 的 GPT-2 的十倍。微软表示，T-NLG 在各种语言建模基准上均优于最新技术，并在应用于许多实际任务（包括总结和问题解答）时表现出色。

不过，像 Google 的 Meena 一样，最初使用 GPT-2，T-NLG 最初只能在私人演示中共享。

微软 AI 研究应用科学家 Corby Rosset 在博客文章中写道：" 除了通过汇总文档和电子邮件来节省用户时间之外，T-NLG 还可以通过为作者提供写作帮助，并回答读者可能对文档提出的问题，由此来增强 Microsoft Office 套件的使用体验。"

具有 Transformer 架构的语言生成模型可以预测下一个单词。它们可用于编写故事，以完整的句子生成答案以及总结文本。

微软表示，他们的目标是在任何情况下都能够像人类一样直接，准确，流畅地做出响应：以前，问题解答和摘要系统依赖于从文档中提取现有内容，这些内容可以作为备用答案或摘要，但它们通常看起来不自然或不连贯。使用 T-NLG 这样的自然语言生成模型，可以自然地总结或回答有关个人文档或电子邮件主题的问题。

来自 AI 领域的专家告诉 VentureBeat，2019 年是 NLP 模型开创性的一年——使用 Transformer 架构无疑是 2019 年最大的机器学习趋势之一，这导致了语言生成领域和 GLUE 基准测试领导者的进步，Facebook 的 RoBERTa、谷歌的 XLNet 和微软的 MT-DNN 都纷纷加入到各类基准测试榜首的争夺当中。

同样是在今天，微软还开源了一个名为 DeepSpeed 的深度学习库。该学习库已针对开发人员进行了优化，以提供低延迟、高吞吐量的推理。

DeepSpeed 包含零冗余优化器（ZeRO），用于大规模训练具有 1 亿个或更多参数的模型，微软过去曾用它训练 T-NLG。

微软表示，DeepSpeed 和 ZeRO 使得他们能够降低模型并行度（从 16 降低到 4），将每个节点的批处理大小增加四倍，并将训练时间减少了三分之二；DeepSpeed 使用更少的 GPU 可以使大型模型的训练效率更高。

开发人员和机器学习从业人员都可以使用 DeepSpeed 和 ZeRO，因为培训大型网络（例如利用 Transformer 架构的网络）可能会很昂贵，并且可能会遇到大规模问题。

另外，Google 的 DeepMind 今天也发布了一种新的远程内存模型 Compressive Transformer，以及一种针对书本级语言建模的新基准 PG19。

工具：作品在线观看

女优：最新作品观看

中文：国语在线观看

展开全文

官方“拆机”：小米 10 散热系统详细科普

鼻窦炎患者福音！科学家发现新治疗方法：效果好无副作用

OPPO 申请了一项独特的智能机手写笔收纳专利

亚马逊人类 API 宣言

凉凉的大会：英特尔宣布退出 MWC 2020

OPPO Find X2 高清渲染图曝光

病毒从哪里来？

笔记本电脑的摄像头为什么还是 100 万像素？

苹果或于 3 月发布低价新 iPhone，欲提升 iPhone 总体销量

远程办公的“正确姿势”是什么？

趣图

段子

老司机

视频

内涵日报