微軟分享超大基于Transformer架構(gòu)的語言生成模型

作者：周蕾 2020-02-11 09:30:08

微軟 AI＆Research 今天分享了有史以來最大的基于 Transformer 架構(gòu)的語言生成模型 Turing NLG（下文簡(jiǎn)稱為T-NLG）

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

微軟 AI＆Research 今天分享了有史以來最大的基于 Transformer 架構(gòu)的語言生成模型 Turing NLG（下文簡(jiǎn)稱為T-NLG），并開源了一個(gè)名為 DeepSpeed 的深度學(xué)習(xí)庫，以簡(jiǎn)化對(duì)大型模型的分布式培訓(xùn)。

　　基于 Transformer 的架構(gòu)，意味著該模型可以生成單詞來完成開放式文本任務(wù)。除了完成未完成的句子外，它還可以生成對(duì)輸入文檔的問題和摘要的直接答案。

　　去年 8 月，英偉達(dá)曾宣布已訓(xùn)練世界上最大的基于 Transformer 的語言模型，當(dāng)時(shí)該模型使用了 83 億個(gè)參數(shù)，比 BERT 大 24 倍，比 OpenAI 的 GPT-2 大 5 倍。

　　而此次微軟所分享的模型，T-NLG 的參數(shù)為 170 億個(gè)，是英偉達(dá)的 Megatron（現(xiàn)在是第二大 Transformer 模型）的兩倍，其參數(shù)是 OpenAI 的 GPT-2 的十倍。微軟表示，T-NLG 在各種語言建?；鶞?zhǔn)上均優(yōu)于最新技術(shù)，并在應(yīng)用于許多實(shí)際任務(wù)（包括總結(jié)和問題解答）時(shí)表現(xiàn)出色。

　　不過，像 Google 的 Meena 一樣，最初使用 GPT-2，T-NLG 最初只能在私人演示中共享。

　　微軟 AI 研究應(yīng)用科學(xué)家 Corby Rosset 在博客文章中寫道：“除了通過匯總文檔和電子郵件來節(jié)省用戶時(shí)間之外，T-NLG 還可以通過為作者提供寫作幫助，并回答讀者可能對(duì)文檔提出的問題，由此來增強(qiáng) Microsoft Office 套件的使用體驗(yàn)。”

　　具有 Transformer 架構(gòu)的語言生成模型可以預(yù)測(cè)下一個(gè)單詞。它們可用于編寫故事，以完整的句子生成答案以及總結(jié)文本。

　　微軟表示，他們的目標(biāo)是在任何情況下都能夠像人類一樣直接，準(zhǔn)確，流暢地做出響應(yīng)：以前，問題解答和摘要系統(tǒng)依賴于從文檔中提取現(xiàn)有內(nèi)容，這些內(nèi)容可以作為備用答案或摘要，但它們通?？雌饋聿蛔匀换虿贿B貫。使用T-NLG 這樣的自然語言生成模型，可以自然地總結(jié)或回答有關(guān)個(gè)人文檔或電子郵件主題的問題。

　　來自 AI 領(lǐng)域的專家告訴 VentureBeat，2019 年是 NLP 模型開創(chuàng)性的一年——使用 Transformer 架構(gòu)無疑是 2019 年最大的機(jī)器學(xué)習(xí)趨勢(shì)之一，這導(dǎo)致了語言生成領(lǐng)域和 GLUE 基準(zhǔn)測(cè)試領(lǐng)導(dǎo)者的進(jìn)步，F(xiàn)acebook 的 RoBERTa、谷歌的 XLNet 和微軟的 MT-DNN 都紛紛加入到各類基準(zhǔn)測(cè)試榜首的爭(zhēng)奪當(dāng)中。

　　同樣是在今天，微軟還開源了一個(gè)名為 DeepSpeed 的深度學(xué)習(xí)庫。該學(xué)習(xí)庫已針對(duì)開發(fā)人員進(jìn)行了優(yōu)化，以提供低延遲、高吞吐量的推理。

　　DeepSpeed 包含零冗余優(yōu)化器（ZeRO），用于大規(guī)模訓(xùn)練具有 1 億個(gè)或更多參數(shù)的模型，微軟過去曾用它訓(xùn)練T-NLG。

　　微軟表示，DeepSpeed 和 ZeRO 使得他們能夠降低模型并行度（從 16 降低到4），將每個(gè)節(jié)點(diǎn)的批處理大小增加四倍，并將訓(xùn)練時(shí)間減少了三分之二；DeepSpeed 使用更少的 GPU 可以使大型模型的訓(xùn)練效率更高。

　　開發(fā)人員和機(jī)器學(xué)習(xí)從業(yè)人員都可以使用 DeepSpeed 和 ZeRO，因?yàn)榕嘤?xùn)大型網(wǎng)絡(luò)（例如利用 Transformer 架構(gòu)的網(wǎng)絡(luò)）可能會(huì)很昂貴，并且可能會(huì)遇到大規(guī)模問題。

　　另外，Google 的 DeepMind 今天也發(fā)布了一種新的遠(yuǎn)程內(nèi)存模型 Compressive Transformer，以及一種針對(duì)書本級(jí)語言建模的新基準(zhǔn) PG19。

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

微軟瀏覽器 Windows

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟分享超大基于Transformer架構(gòu)的語言生成模型