自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

新聞 人工智能
大規(guī)模語言模型性能固然好,但計算和資源成本太高了,有沒有方法可以更有效地訓(xùn)練和使用 ML 模型呢?

 [[439859]]

近幾年,我們已經(jīng)看到模型規(guī)模越來越大,例如 2018 年誕生的 GPT 具有 1.17 億參數(shù),時隔一年,2019 年 GPT-2 參數(shù)量達到 15 億,2020 年更是將其擴展到 1750 億參數(shù)的 GPT-3。據(jù)了解,OpenAI 打造的超級計算機擁有 285000 個 CPU 核以及 10000 個 GPU,供 OpenAI 在上面訓(xùn)練所有的 AI 模型。

大型語言模型雖然訓(xùn)練昂貴,但也有其重要的一面,例如可以在各種任務(wù)中執(zhí)行小樣本學(xué)習(xí),包括閱讀理解、問答。雖然這些模型可以通過簡單地使用更多參數(shù)來獲得更好的性能。但是有沒有方法可以更有效地訓(xùn)練和使用這些模型呢?

為了回答這個問題,谷歌推出了具有萬億權(quán)重的通用語言模型 (Generalist Language Model,GLaM),該模型的一大特點就是具有稀疏性,可以高效地進行訓(xùn)練和服務(wù)(在計算和資源使用方面),并在多個小樣本學(xué)習(xí)任務(wù)上取得有競爭力的性能。

我們來看一下 GLaM 模型的具體情況。

數(shù)據(jù)集

谷歌首先構(gòu)建了一個高質(zhì)量的、具有 1.6 萬億 token 的數(shù)據(jù)集,該無標(biāo)簽數(shù)據(jù)集很大一部分來自 Web 頁面,其范圍從專業(yè)寫作到低質(zhì)量的評論和論壇頁面。此外,谷歌還開發(fā)了一個文本質(zhì)量過濾器,該過濾器是在維基百科和書籍文本數(shù)據(jù)集上訓(xùn)練而成,由于過濾器訓(xùn)練的數(shù)據(jù)集質(zhì)量很高,所以谷歌將其過濾 Web 網(wǎng)頁內(nèi)容的質(zhì)量。最后,谷歌應(yīng)用這個過濾器來生成 Web 網(wǎng)頁的最終子集,并將其與書籍和維基百科數(shù)據(jù)相結(jié)合來創(chuàng)建最終的訓(xùn)練數(shù)據(jù)集。

GLaM 模型架構(gòu)

GLaM 是混合專家模型 (MoE) ,這種模型可以被認(rèn)為具有不同的子模型(或?qū)<遥?,每個子模型都專門用于不同的輸入。每一層的專家由一個門控網(wǎng)絡(luò)控制,該門控網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)激活專家。對于每個 token(通常是一個詞或詞的一部分),門控網(wǎng)絡(luò)選擇兩個最合適的專家來處理數(shù)據(jù)。完整的 GLaM 總共有 1.2T 參數(shù),每個 MoE 包含 64 個專家,總共 32 個 MoE 層,但在推理期間,模型只會激活 97B 的參數(shù),占總參數(shù)的 8%。

GLaM 的體系架構(gòu),每個輸入 token 都被動態(tài)路由到從 64 個專家網(wǎng)絡(luò)中選擇的兩個專家網(wǎng)絡(luò)中進行預(yù)測。

與 GShard MoE Transformer 類似,谷歌用 MoE 層替換其他 transformer 層的單個前饋網(wǎng)絡(luò)(人工神經(jīng)網(wǎng)絡(luò)最簡單的一層,如上圖藍(lán)色方框中的 Feedforward 或 FFN)。MoE 層有多個專家,每個專家都是具有相同架構(gòu)但不同權(quán)重參數(shù)的前饋網(wǎng)絡(luò)。

盡管 MoE 層有很多參數(shù),但專家是稀疏激活的,這意味著對于給定的輸入 token,只使用兩個專家,這樣做的優(yōu)勢是在限制計算的同時給模型提供更多的容量。在訓(xùn)練期間,每個 MoE 層門控網(wǎng)絡(luò)都經(jīng)過訓(xùn)練,使用它的輸入來激活每個 token 的最佳兩位專家,然后將其用于推理。對于 MoE 層的 E 專家來說,這本質(zhì)上提供了 E×(E-1) 個不同前饋網(wǎng)絡(luò)組合的集合,而不是經(jīng)典 Transformer 中的一個組合,從而帶來更大的計算靈活性。

最終學(xué)習(xí)到的 token 表示來自兩個專家輸出的加權(quán)組合,這使得不同的專家可以激活不同類型的輸入。為了能夠擴展到更大的模型,GLaM 架構(gòu)中的每個專家都可以跨越多個計算設(shè)備。谷歌使用 GSPMD 編譯器后端來解決擴展專家的挑戰(zhàn),并訓(xùn)練了多個變體(基于專家規(guī)模和專家數(shù)量)來了解稀疏激活語言模型的擴展效果。

評估設(shè)置

谷歌使用 zero-shot 和 one-shot 兩種設(shè)置,其中訓(xùn)練中使用的是未見過的任務(wù)。評估基準(zhǔn)包括如下:

  • 完形填空和完成任務(wù);
  • 開放域問答;
  • Winograd-style 任務(wù);
  • 常識推理;
  • 上下文閱讀理解;
  • SuperGLUE 任務(wù);
  • 自然語言推理。

谷歌一共使用了 8 項自然語言生成(NLG)任務(wù),其中生成的短語基于真值目標(biāo)進行評估(以 Exact Match 和 F1 measure 為指標(biāo)),以及 21 項自然語言理解(NLU)任務(wù),其中幾個 options 中的預(yù)測通過條件對數(shù)似然來選擇。

實驗結(jié)果

當(dāng)每個 MoE 層只有一個專家時,GLaM 縮減為一個基于 Transformer 的基礎(chǔ)密集模型架構(gòu)。在所有試驗中,谷歌使用「基礎(chǔ)密集模型大小 / 每個 MoE 層的專家數(shù)量」來描述 GLaM 模型。比如,1B/64E 表示是 1B 參數(shù)的密集模型架構(gòu),每隔一層由 64 個專家 MoE 層代替。

谷歌測試了 GLaM 的性能和擴展屬性,包括在相同數(shù)據(jù)集上訓(xùn)練的基線密集模型。與最近微軟聯(lián)合英偉達推出的 Megatron-Turing 相比,GLaM 使用 5% margin 時在 7 項不同的任務(wù)上實現(xiàn)了不相上下的性能,同時推理過程中使用的算力減少了 4/5。

此外,在推理過程中使用算力更少的情況下,1.2T 參數(shù)的稀疏激活模型(GLaM)在更多任務(wù)上實現(xiàn)了比 1.75B 參數(shù)的密集 GPT-3 模型更好的平均結(jié)果。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

NLG(左)和 NLU(右)任務(wù)上,GLaM 和 GPT-3 的平均得分(越高越好)。

谷歌總結(jié)了 29 個基準(zhǔn)上,GLaM 與 GPT-3 的性能比較結(jié)果。結(jié)果顯示,GLaM 在 80% 左右的 zero-shot 任務(wù)和 90% 左右的 one-shot 任務(wù)上超越或持平 GPT-3 的性能。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

此外,雖然完整版 GLaM 有 1.2T 的總參數(shù),但在推理過程中每個 token 僅激活 97B 參數(shù)(1.2T 的 8%)的子網(wǎng)。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

擴展

GLaM 有兩種擴展方式:1) 擴展每層的專家數(shù)量,其中每個專家都托管在一個計算設(shè)備中;2) 擴展每個專家的大小以超出單個設(shè)備的限制。為了評估擴展屬性,該研究在推理時比較每個 token 的 FLOPS 相似的相應(yīng)密集模型。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

通過增加每個專家的大小,zero-shot 和 one-shot 的平均性能。隨著專家大小的增長,推理時每個 token 預(yù)測的 FLOPS 也會增加。

如上圖所示,跨任務(wù)的性能與專家的大小成比例。在生成任務(wù)的推理過程中,GLaM 稀疏激活模型的性能也優(yōu)于 FLOP 類似的密集模型。對于理解任務(wù),研究者觀察到它們在較小的規(guī)模上性能相似,但稀疏激活模型在較大的規(guī)模上性能更好。

數(shù)據(jù)效率

訓(xùn)練大型語言模型計算密集,因此提高效率有助于降低能耗。該研究展示了完整版 GLaM 的計算成本。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

模型推理(左)和訓(xùn)練(右)的計算成本(GFLOPS)。

這些計算成本表明 GLaM 在訓(xùn)練期間使用了更多的計算,因為它在更多的 token 上訓(xùn)練,但在推理期間使用的計算卻少得多。下圖展示了使用不同數(shù)量的 token 進行訓(xùn)練的比較結(jié)果,并評估了該模型的學(xué)習(xí)曲線。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token,稀疏激活型和密集模型在 8 項生成任務(wù)上的平均 zero-shot 和 one-shot 性能。

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

隨著訓(xùn)練中處理了更多的 token,稀疏激活型和密集模型在 21 項理解任務(wù)上的平均 zero-shot 和 one-shot 性能。

結(jié)果表明,稀疏激活模型在達到與密集模型相似的 zero-shot 和 one-shot 性能時,訓(xùn)練時使用的數(shù)據(jù)顯著減少。并且,如果適用的數(shù)據(jù)量相同,稀疏型模型的表現(xiàn)明顯更好。

最后,谷歌對 GLam 的能效進行了評估:

1.2萬億參數(shù):谷歌通用稀疏語言模型GLaM,小樣本學(xué)習(xí)打敗GPT-3

訓(xùn)練期間,GLaM 與 GPT-3 的能耗比較。

雖然 GLaM 在訓(xùn)練期間使用了更多算力,但得益于 GSPMD(谷歌 5 月推出的用于常見機器學(xué)習(xí)計算圖的基于編譯器的自動化并行系統(tǒng))賦能的更高效軟件實現(xiàn)和 TPUv4 的優(yōu)勢,它在訓(xùn)練時耗能要少于其他模型。

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2021-09-08 17:23:33

谷歌模型開發(fā)

2021-08-12 16:27:04

模型人工智能深度學(xué)習(xí)

2022-12-27 13:36:09

2022-03-24 10:35:38

人工智能模型代碼

2022-08-25 15:05:23

AI論文

2021-07-13 17:38:49

算法語言模型GPT-4

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2025-01-27 00:57:43

2021-03-23 15:21:00

人工智能機器學(xué)習(xí)技術(shù)

2023-02-25 21:45:55

模型AI

2022-04-01 15:30:18

語言模型自然語言AI

2022-03-14 09:33:56

神經(jīng)網(wǎng)絡(luò)模型人工智能

2021-01-13 15:16:45

谷歌架構(gòu)開發(fā)者

2020-06-15 10:42:42

谷歌Android開發(fā)者

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2023-07-13 12:54:42

GPT-4OpenAI

2023-03-01 16:15:16

2021-09-30 11:20:01

AI 數(shù)據(jù)人工智能

2024-10-18 11:12:44

點贊
收藏

51CTO技術(shù)棧公眾號