自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="l61l8"><rt id="l61l8"></rt></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

作者：機器之心編輯部 2021-12-10 15:46:18

新聞人工智能

大規(guī)模語言模型性能固然好，但計算和資源成本太高了，有沒有方法可以更有效地訓(xùn)練和使用 ML 模型呢？

近幾年，我們已經(jīng)看到模型規(guī)模越來越大，例如 2018 年誕生的 GPT 具有 1.17 億參數(shù)，時隔一年，2019 年 GPT-2 參數(shù)量達到 15 億，2020 年更是將其擴展到 1750 億參數(shù)的 GPT-3。據(jù)了解，OpenAI 打造的超級計算機擁有 285000 個 CPU 核以及 10000 個 GPU，供 OpenAI 在上面訓(xùn)練所有的 AI 模型。

大型語言模型雖然訓(xùn)練昂貴，但也有其重要的一面，例如可以在各種任務(wù)中執(zhí)行小樣本學(xué)習(xí)，包括閱讀理解、問答。雖然這些模型可以通過簡單地使用更多參數(shù)來獲得更好的性能。但是有沒有方法可以更有效地訓(xùn)練和使用這些模型呢？

為了回答這個問題，谷歌推出了具有萬億權(quán)重的通用語言模型 (Generalist Language Model，GLaM)，該模型的一大特點就是具有稀疏性，可以高效地進行訓(xùn)練和服務(wù)（在計算和資源使用方面），并在多個小樣本學(xué)習(xí)任務(wù)上取得有競爭力的性能。

我們來看一下 GLaM 模型的具體情況。

數(shù)據(jù)集

谷歌首先構(gòu)建了一個高質(zhì)量的、具有 1.6 萬億 token 的數(shù)據(jù)集，該無標(biāo)簽數(shù)據(jù)集很大一部分來自 Web 頁面，其范圍從專業(yè)寫作到低質(zhì)量的評論和論壇頁面。此外，谷歌還開發(fā)了一個文本質(zhì)量過濾器，該過濾器是在維基百科和書籍文本數(shù)據(jù)集上訓(xùn)練而成，由于過濾器訓(xùn)練的數(shù)據(jù)集質(zhì)量很高，所以谷歌將其過濾 Web 網(wǎng)頁內(nèi)容的質(zhì)量。最后，谷歌應(yīng)用這個過濾器來生成 Web 網(wǎng)頁的最終子集，并將其與書籍和維基百科數(shù)據(jù)相結(jié)合來創(chuàng)建最終的訓(xùn)練數(shù)據(jù)集。

GLaM 模型架構(gòu)

GLaM 是混合專家模型 (MoE) ，這種模型可以被認(rèn)為具有不同的子模型（或?qū)＜遥?，每個子模型都專門用于不同的輸入。每一層的專家由一個門控網(wǎng)絡(luò)控制，該門控網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。對于每個 token（通常是一個詞或詞的一部分），門控網(wǎng)絡(luò)選擇兩個最合適的專家來處理數(shù)據(jù)。完整的 GLaM 總共有 1.2T 參數(shù)，每個 MoE 包含 64 個專家，總共 32 個 MoE 層，但在推理期間，模型只會激活 97B 的參數(shù)，占總參數(shù)的 8%。

GLaM 的體系架構(gòu)，每個輸入 token 都被動態(tài)路由到從 64 個專家網(wǎng)絡(luò)中選擇的兩個專家網(wǎng)絡(luò)中進行預(yù)測。

與 GShard MoE Transformer 類似，谷歌用 MoE 層替換其他 transformer 層的單個前饋網(wǎng)絡(luò)（人工神經(jīng)網(wǎng)絡(luò)最簡單的一層，如上圖藍(lán)色方框中的 Feedforward 或 FFN）。MoE 層有多個專家，每個專家都是具有相同架構(gòu)但不同權(quán)重參數(shù)的前饋網(wǎng)絡(luò)。

盡管 MoE 層有很多參數(shù)，但專家是稀疏激活的，這意味著對于給定的輸入 token，只使用兩個專家，這樣做的優(yōu)勢是在限制計算的同時給模型提供更多的容量。在訓(xùn)練期間，每個 MoE 層門控網(wǎng)絡(luò)都經(jīng)過訓(xùn)練，使用它的輸入來激活每個 token 的最佳兩位專家，然后將其用于推理。對于 MoE 層的 E 專家來說，這本質(zhì)上提供了 E×(E-1) 個不同前饋網(wǎng)絡(luò)組合的集合，而不是經(jīng)典 Transformer 中的一個組合，從而帶來更大的計算靈活性。

最終學(xué)習(xí)到的 token 表示來自兩個專家輸出的加權(quán)組合，這使得不同的專家可以激活不同類型的輸入。為了能夠擴展到更大的模型，GLaM 架構(gòu)中的每個專家都可以跨越多個計算設(shè)備。谷歌使用 GSPMD 編譯器后端來解決擴展專家的挑戰(zhàn)，并訓(xùn)練了多個變體（基于專家規(guī)模和專家數(shù)量）來了解稀疏激活語言模型的擴展效果。

評估設(shè)置

谷歌使用 zero-shot 和 one-shot 兩種設(shè)置，其中訓(xùn)練中使用的是未見過的任務(wù)。評估基準(zhǔn)包括如下：

完形填空和完成任務(wù)；
開放域問答；
Winograd-style 任務(wù)；
常識推理；
上下文閱讀理解；
SuperGLUE 任務(wù)；
自然語言推理。

谷歌一共使用了 8 項自然語言生成（NLG）任務(wù)，其中生成的短語基于真值目標(biāo)進行評估（以 Exact Match 和 F1 measure 為指標(biāo)），以及 21 項自然語言理解（NLU）任務(wù)，其中幾個 options 中的預(yù)測通過條件對數(shù)似然來選擇。

實驗結(jié)果

當(dāng)每個 MoE 層只有一個專家時，GLaM 縮減為一個基于 Transformer 的基礎(chǔ)密集模型架構(gòu)。在所有試驗中，谷歌使用「基礎(chǔ)密集模型大小 / 每個 MoE 層的專家數(shù)量」來描述 GLaM 模型。比如，1B/64E 表示是 1B 參數(shù)的密集模型架構(gòu)，每隔一層由 64 個專家 MoE 層代替。

谷歌測試了 GLaM 的性能和擴展屬性，包括在相同數(shù)據(jù)集上訓(xùn)練的基線密集模型。與最近微軟聯(lián)合英偉達推出的 Megatron-Turing 相比，GLaM 使用 5% margin 時在 7 項不同的任務(wù)上實現(xiàn)了不相上下的性能，同時推理過程中使用的算力減少了 4/5。

此外，在推理過程中使用算力更少的情況下，1.2T 參數(shù)的稀疏激活模型（GLaM）在更多任務(wù)上實現(xiàn)了比 1.75B 參數(shù)的密集 GPT-3 模型更好的平均結(jié)果。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

NLG（左）和 NLU（右）任務(wù)上，GLaM 和 GPT-3 的平均得分（越高越好）。

谷歌總結(jié)了 29 個基準(zhǔn)上，GLaM 與 GPT-3 的性能比較結(jié)果。結(jié)果顯示，GLaM 在 80% 左右的 zero-shot 任務(wù)和 90% 左右的 one-shot 任務(wù)上超越或持平 GPT-3 的性能。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

此外，雖然完整版 GLaM 有 1.2T 的總參數(shù)，但在推理過程中每個 token 僅激活 97B 參數(shù)（1.2T 的 8%）的子網(wǎng)。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

擴展

GLaM 有兩種擴展方式：1) 擴展每層的專家數(shù)量，其中每個專家都托管在一個計算設(shè)備中；2) 擴展每個專家的大小以超出單個設(shè)備的限制。為了評估擴展屬性，該研究在推理時比較每個 token 的 FLOPS 相似的相應(yīng)密集模型。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

通過增加每個專家的大小，zero-shot 和 one-shot 的平均性能。隨著專家大小的增長，推理時每個 token 預(yù)測的 FLOPS 也會增加。

如上圖所示，跨任務(wù)的性能與專家的大小成比例。在生成任務(wù)的推理過程中，GLaM 稀疏激活模型的性能也優(yōu)于 FLOP 類似的密集模型。對于理解任務(wù)，研究者觀察到它們在較小的規(guī)模上性能相似，但稀疏激活模型在較大的規(guī)模上性能更好。

數(shù)據(jù)效率

訓(xùn)練大型語言模型計算密集，因此提高效率有助于降低能耗。該研究展示了完整版 GLaM 的計算成本。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

模型推理（左）和訓(xùn)練（右）的計算成本（GFLOPS）。

這些計算成本表明 GLaM 在訓(xùn)練期間使用了更多的計算，因為它在更多的 token 上訓(xùn)練，但在推理期間使用的計算卻少得多。下圖展示了使用不同數(shù)量的 token 進行訓(xùn)練的比較結(jié)果，并評估了該模型的學(xué)習(xí)曲線。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token，稀疏激活型和密集模型在 8 項生成任務(wù)上的平均 zero-shot 和 one-shot 性能。

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token，稀疏激活型和密集模型在 21 項理解任務(wù)上的平均 zero-shot 和 one-shot 性能。

結(jié)果表明，稀疏激活模型在達到與密集模型相似的 zero-shot 和 one-shot 性能時，訓(xùn)練時使用的數(shù)據(jù)顯著減少。并且，如果適用的數(shù)據(jù)量相同，稀疏型模型的表現(xiàn)明顯更好。

最后，谷歌對 GLam 的能效進行了評估：

1.2萬億參數(shù)：谷歌通用稀疏語言模型GLaM，小樣本學(xué)習(xí)打敗GPT-3

訓(xùn)練期間，GLaM 與 GPT-3 的能耗比較。

雖然 GLaM 在訓(xùn)練期間使用了更多算力，但得益于 GSPMD（谷歌 5 月推出的用于常見機器學(xué)習(xí)計算圖的基于編譯器的自動化并行系統(tǒng)）賦能的更高效軟件實現(xiàn)和 TPUv4 的優(yōu)勢，它在訓(xùn)練時耗能要少于其他模型。

責(zé)任編輯：張燕妮來源：機器之心Pro

谷歌模型人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="krxdv"><rp id="krxdv"></rp></cite>