自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

新聞 人工智能
本文中,Quoc Le 等來自谷歌的研究者探索了一種簡單的方法來提高大型語言模型在零樣本情況下的性能,從而擴大受眾范圍。

  [[422681]]

在 NLP 領(lǐng)域,pretrain-finetune 和 prompt-tuning 技術(shù)能夠提升 GPT-3 等大模型在各類任務(wù)上的性能,但這類大模型在零樣本學習任務(wù)中的表現(xiàn)依然不突出。為了進一步挖掘零樣本場景下的模型性能,谷歌 Quoc Le 等研究者訓練了一個參數(shù)量為 1370 億的自回歸語言模型 Base LM,并在其中采用了全新的指令調(diào)整(instruction tuning)技術(shù),結(jié)果顯示,采用指令調(diào)整技術(shù)后的模型在自然語言推理、閱讀理解和開放域問答等未見過的任務(wù)上的零樣本性能超越了 GPT-3 的小樣本性能。

大規(guī)模語言模型(LM)已經(jīng)被證明可以很好的應(yīng)用到小樣本學習任務(wù)。例如 OpenAI 提出的 GPT-3 ,參數(shù)量達 1,750 億,不僅可以更好地答題、翻譯、寫文章,還帶有一些數(shù)學計算的能力等。在不進行微調(diào)的情況下,可以在多個 NLP 基準上達到最先進的性能。

然而,像 GPT-3 這樣的大規(guī)模語言模型在零樣本(zero-shot)學習任務(wù)中表現(xiàn)不是很突出。例如,GPT-3 在執(zhí)行閱讀理解、問答和自然語言推理等任務(wù)時,零樣本的性能要比小樣本(few-shot)性能差很多。

本文中,Quoc Le 等來自谷歌的研究者探索了一種簡單的方法來提高大型語言模型在零樣本情況下的性能,從而擴大受眾范圍。他們認為 NLP 任務(wù)可以通過自然語言指令來描述,例如「這部影評的情緒是正面的還是負面的?」或者「把『how are you』譯成漢語」。

該研究采用具有 137B 參數(shù)的預(yù)訓練模型并執(zhí)行指令調(diào)整任務(wù),對 60 多個通過自然語言指令表達的 NLP 任務(wù)進行調(diào)整。他們將這個結(jié)果模型稱為 Finetuned LANguage Net,或 FLAN。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強
  • 論文地址:https://arxiv.org/pdf/2109.01652.pdf
  • GitHub 地址:https://github.com/google-research/flan.

為了評估 FLAN 在未知任務(wù)上的零樣本性能,該研究根據(jù) NLP 任務(wù)的任務(wù)類型將其分為多個集群,并對每個集群進行評估,同時在其他集群上對 FLAN 進行指令調(diào)整。如下圖 1 所示,為了評估 FLAN 執(zhí)行自然語言推理的能力,該研究在一系列其他 NLP 任務(wù)(如常識推理、翻譯和情感分析)上對模型進行指令調(diào)整。由于此設(shè)置確保 FLAN 在指令調(diào)整中未見自然語言推理任務(wù),因此可以評估其執(zhí)行零樣本自然語言推理的能力。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

評估表明,F(xiàn)LAN 顯著提高了模型(base 137B 參數(shù))的零樣本性能。在 25 個評估任務(wù)中,F(xiàn)LAN 零樣本在 19 項任務(wù)上優(yōu)于具有 175B 參數(shù) GPT-3 零樣本,甚至在許多任務(wù)(如 ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA 和 StoryCloze)上也顯著優(yōu)于 GPT-3 小樣本。在消融研究中,研究發(fā)現(xiàn)在指令調(diào)整中增加任務(wù)集群的數(shù)量,可以提高模型在未見過的任務(wù)的性能,并且指令調(diào)整的好處只有在模型規(guī)模足夠大的情況下才會出現(xiàn)。

該研究實證結(jié)果強調(diào)了語言模型使用自然語言指令描述任務(wù)的能力。更廣泛地說,如圖 2 所示,指令調(diào)整結(jié)合了預(yù)訓練微調(diào)(pretrain–finetune)特點,并通過使用 finetune 監(jiān)督來提高語言模型響應(yīng)推理時文本交互的能力。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

FLAN:用指令調(diào)整改進零樣本學習

指令調(diào)整的動機是提高語言模型響應(yīng) NLP 指令的能力,旨在通過使用監(jiān)督來教 LM 執(zhí)行以指令描述的任務(wù)。語言模型將學會遵循指令,即使對于未見過的任務(wù)也能執(zhí)行。為了評估模型在未見過的任務(wù)上的性能,該研究按照任務(wù)類型將任務(wù)分成多個集群,當其他集群進行指令調(diào)整時,留出一個任務(wù)集群進行評估。

任務(wù)和模板

該研究將 62 個在 Tensorflow 數(shù)據(jù)集上公開可用的文本數(shù)據(jù)集(包括語言理解和語言生成任務(wù))聚合到一起。下圖 3 顯示了該研究使用的所有數(shù)據(jù)集;每個數(shù)據(jù)集被歸類為十二個任務(wù)集群之一,每個集群中的數(shù)據(jù)集有著相同的任務(wù)類型。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

該研究將任務(wù)定義為由數(shù)據(jù)集給出的一組特定的輸入 - 輸出對。對于每個任務(wù),研究者手動編寫十個獨特的模板,使用自然語言指令描述任務(wù)。十個模板大多描述的是原始任務(wù),但為了增加多樣性,研究者為每個任務(wù),提供了最多三個「變更任務(wù)(turned the task around)」的模板,下圖 4 給出了自然語言推理任務(wù)的多個指令模板。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

訓練細節(jié)

模型架構(gòu)和預(yù)訓練。在實驗中,該研究使用密集的從左到右、僅解碼器、137B 參數(shù)的 transformer 語言模型。該模型在一組網(wǎng)絡(luò)文檔(包括含計算機代碼的文檔)、對話數(shù)據(jù)和 Wikipedia 上進行預(yù)訓練,這些文檔使用 SentencePiece 庫 (Kudo & Richardson, 2018),被 tokenize 為 2.81T BPE token 和 32K token 的詞表。大約 10% 的預(yù)訓練數(shù)據(jù)是非英語的。這個數(shù)據(jù)集不像 GPT-3 訓練集那么干凈,而且還混合了對話和代碼。

實驗結(jié)果

研究者分別在自然語言推理、閱讀理解、開放域問答、常識推理、共指消解和翻譯等多項任務(wù)上對 FLAN 的性能進行了評估。對于每一項任務(wù),他們報告了在所有模板上性能的平均和標準誤差,這代表了給定典型自然語言指令時 FLAN 的預(yù)期性能。

自然語言推理任務(wù)

下表 1 展示了不同模型自然語言推理測試的結(jié)果,其中給定一個前提與假設(shè)——模型必須確認在給定前提為真的情況下假設(shè)也為真??梢钥吹剑現(xiàn)LAN 在所有情況下均表現(xiàn)出強大的性能。

盡管在 CB 和 RTE 的不同模板的結(jié)果中存在高方差,但 FLAN 在沒有任何 prompt 工程時依然在四個數(shù)據(jù)集上顯著優(yōu)于零樣本和小樣本 GPT-3。在具有最佳 dev 模板時,F(xiàn)LAN 在五個數(shù)據(jù)集上優(yōu)于小樣本 GPT-3。FLAN 甚至在 ANLI-R3 數(shù)據(jù)集上超越了監(jiān)督式 BERT。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

閱讀理解和開放域問答任務(wù)

在閱讀理解任務(wù)上,模型被要求回答關(guān)于給定文章段落的問題,結(jié)果如下表 2 所示。FLAN 在 BoolQ 和 OBQA 數(shù)據(jù)集上顯著優(yōu)于 GPT-3。在使用最佳 dev 模板時,F(xiàn)LAN 在 MultiRC 數(shù)據(jù)集上略優(yōu)于小樣本 GPT-3。

對于開放域問答任務(wù),F(xiàn)LAN 在 ARC-easy 和 ARC-challenge 數(shù)據(jù)集上顯著優(yōu)于零樣本和小樣本 GPT-3。在 Natural Questions 數(shù)據(jù)集上,F(xiàn)LAN 優(yōu)于零樣本 GPT-3,弱于小樣本 GPT-3。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

常識推理和共指消解任務(wù)

不同模型在五個常識推理數(shù)據(jù)集上的結(jié)果如下表 3 所示,F(xiàn)LAN 在 StoryCloze 數(shù)據(jù)集上優(yōu)于 GPT-3,在 CoPA 和 PiQA 數(shù)據(jù)集上媲美 GPT-3。但在 HellaSwag 和 ReCoRD 數(shù)據(jù)集上,Base LM 和 FLAN 均弱于 GPT-3。

在兩個共指消解任務(wù)上,具有最佳 dev 模板的 FLAN 在 Winogrande 數(shù)據(jù)集上優(yōu)于零樣本 GPT-3,但在 WSC273 數(shù)據(jù)集上,Base LM 和 FLAN 均弱于 GPT-3。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

翻譯

研究者還在 GPT-3 論文中評估的三個數(shù)據(jù)集上測試了 FLAN 的機器翻譯性能,這三個數(shù)據(jù)集分別是 WMT’14 法語 - 英語以及 WMT’16 的德語 - 英語和羅馬尼亞語 - 英語。

測試結(jié)果如下表 4 所示,Base LM 的零樣本翻譯性能弱,但小樣本翻譯結(jié)果媲美 GPT-3。FLAN 在六個評估指標中的五個上優(yōu)于小樣本 Base LM。與 GPT-3 類似,F(xiàn)LAN 在翻譯成英語任務(wù)上展示出了強大的性能,并且與監(jiān)督式翻譯基線相比具有優(yōu)勢。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

其他實驗

由于該論文的核心問題是指令調(diào)整如何提高模型在未見過任務(wù)上的零樣本性能,因此該研究的第一個消融實驗研究了指令調(diào)整中使用的集群和任務(wù)數(shù)量對性能的影響。

圖 5 顯示了實驗結(jié)果。與預(yù)期一致,研究者觀察到 3 個 held-out 集群的平均性能隨著向指令調(diào)整添加額外的集群和任務(wù)而提高(情感分析集群除外),證實了所提指令調(diào)整方法有助于在新任務(wù)上提升零樣本性能。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

下圖 6 結(jié)果表明,對于較大規(guī)模的模型,指令調(diào)整填充了一些模型容量,但也教會了這些模型遵循指令的能力,允許模型將剩余的容量泛化到新任務(wù)。

零樣本性能超越小樣本,谷歌1370億參數(shù)新模型比GPT-3更強

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2021-12-10 15:46:18

谷歌模型人工智能

2024-03-15 15:15:31

模型訓練

2023-04-10 09:23:36

模型AI

2023-02-24 10:22:15

2025-02-06 11:25:50

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2022-08-25 15:05:23

AI論文

2022-03-24 10:35:38

人工智能模型代碼

2022-10-24 10:27:37

谷歌模型

2021-08-19 15:48:05

增量攻擊網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2024-06-25 09:35:04

模型訓練

2022-06-13 11:57:04

谷歌模型計算

2025-02-08 11:12:34

ZAPS影像模型

2021-08-12 16:27:04

模型人工智能深度學習

2021-07-24 10:19:14

AI 數(shù)據(jù)克隆

2021-10-25 09:06:29

模型人工智能計算

2025-01-27 00:57:43

2013-07-08 10:08:40

海量樣本篩選大數(shù)據(jù)

2024-08-28 14:20:00

數(shù)據(jù)模型

2021-07-28 11:54:09

阿里云AI自然語言理解
點贊
收藏

51CTO技術(shù)棧公眾號