自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

新聞
谷歌研究科學(xué)家Quoc V. Le近期提出了一個(gè)1370億參數(shù)語(yǔ)言模型FLAN,探討了一種提高語(yǔ)言模型zero-shot學(xué)習(xí)能力的新方法。

[[423619]]

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

谷歌研究科學(xué)家Quoc V. Le近期提出了一個(gè)1370億參數(shù)語(yǔ)言模型FLAN,探討了一種提高語(yǔ)言模型zero-shot學(xué)習(xí)能力的新方法。

研究表明,指令微調(diào)(instruction tuning)——在通過(guò)指令描述的任務(wù)集合上對(duì)語(yǔ)言模型進(jìn)行微調(diào),可以極大地提高未見(jiàn)過(guò)的任務(wù)的零樣本場(chǎng)景下的性能

論文鏈接:https://arxiv.org/pdf/2109.01652v1.pdf

我們采用一個(gè)1370億參數(shù)量的預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)自然語(yǔ)言指令模板對(duì)60多個(gè)NLP任務(wù)進(jìn)行指令微調(diào)。我們把這個(gè)模型稱為Finetuned LAnguage Net(FLAN),研究人員在未見(jiàn)過(guò)的任務(wù)類型上對(duì)這個(gè)指令微調(diào)過(guò)的模型進(jìn)行了評(píng)估。

結(jié)果表明,F(xiàn)LAN極大地提高了其未調(diào)整的對(duì)應(yīng)模型的性能,并且在我們?cè)u(píng)估的25個(gè)任務(wù)中,有19個(gè)任務(wù)超過(guò)了零樣本設(shè)定下參數(shù)為1750億的GPT-3。

在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上,F(xiàn)LAN甚至以很大的優(yōu)勢(shì)超過(guò)了小樣本GPT-3。消融研究顯示,任務(wù)數(shù)量和模型規(guī)模是指令微調(diào)成功的關(guān)鍵因素。

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

圖1:上面:指令微調(diào)和FLAN概述。指令微調(diào)是在以指令描述的任務(wù)集合上對(duì)預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行微調(diào)。在推理中,我們對(duì)一個(gè)未見(jiàn)過(guò)的任務(wù)類型進(jìn)行評(píng)估;例如,如果在指令微調(diào)期間沒(méi)有學(xué)習(xí)過(guò)自然語(yǔ)言推理(NLI)任務(wù),我們可以用NLI任務(wù)對(duì)模型進(jìn)行評(píng)估。下面:與零樣本 GPT-3 和小樣本GPT-3相比,零樣本FLAN在未見(jiàn)過(guò)的任務(wù)類型上的表現(xiàn)。

1

引言

規(guī)模化的語(yǔ)言模型(LM),如GPT-3,已經(jīng)被證明可以很好地進(jìn)行few-shot學(xué)習(xí)。然而,它們?cè)趜ero-shot學(xué)習(xí)方面卻不是很成功。例如,在閱讀理解、回答問(wèn)題和自然語(yǔ)言推理等任務(wù)上,GPT-3在零樣本場(chǎng)景下的學(xué)習(xí)性能比小樣本差很多。其中一個(gè)潛在原因是:如果沒(méi)有小樣本的示范,那么在與預(yù)訓(xùn)練數(shù)據(jù)的格式不同的指示上,模型就很難取得良好的表現(xiàn)。

本文中,我們探索了一種簡(jiǎn)單的方法來(lái)提高大型語(yǔ)言模型的零樣本性能。我們利用了NLP任務(wù)可以通過(guò)自然語(yǔ)言指令來(lái)描述的直覺(jué),比如 "這個(gè)電影評(píng)論是正面情緒的還是負(fù)面的?"或者 "把'你好嗎'翻譯成中文"。

我們采用了一個(gè)參數(shù)為1370億的預(yù)訓(xùn)練語(yǔ)言模型,并對(duì)該模型進(jìn)行指令微調(diào)——對(duì)60多個(gè)通過(guò)自然語(yǔ)言指令表達(dá)的NLP任務(wù)的集合進(jìn)行微調(diào)。我們把這個(gè)模型稱為Finetuned LAnguage Net(FLAN)。

為了評(píng)估FLAN在未見(jiàn)過(guò)的任務(wù)上的零樣本性能,我們將NLP任務(wù)根據(jù)其任務(wù)類型分為幾個(gè)群組,并對(duì)某個(gè)群組進(jìn)行評(píng)估之前,在所有其他群組上對(duì)FLAN進(jìn)行指令微調(diào)。

例如,如圖1所示,為了評(píng)估FLAN執(zhí)行自然語(yǔ)言推理的能力,我們先在一系列其他NLP任務(wù)上對(duì)模型進(jìn)行指令微調(diào),如常識(shí)推理、翻譯和情感分析。由于這種設(shè)置確保了FLAN在指令微調(diào)中沒(méi)有學(xué)習(xí)過(guò)任何自然語(yǔ)言推理任務(wù),因此我們可以再評(píng)估其進(jìn)行零樣本自然語(yǔ)言推理的能力。

評(píng)估表明,F(xiàn)LAN極大地提高了基礎(chǔ)1370億參數(shù)模型在零樣本場(chǎng)景下的性能。在我們?cè)u(píng)估的25個(gè)任務(wù)中的19個(gè)任務(wù)里,零樣本場(chǎng)景下的FLAN也優(yōu)于參數(shù)為1750億參數(shù)的GPT-3,甚至在一些任務(wù)上,如ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze,也明顯優(yōu)于小樣本GPT-3。在消融實(shí)驗(yàn)中,我們發(fā)現(xiàn)在指令微調(diào)中增加任務(wù)群的數(shù)量可以提高未學(xué)習(xí)任務(wù)的性能,而且只有在有足夠的模型規(guī)模時(shí),指令微調(diào)的優(yōu)點(diǎn)才會(huì)顯現(xiàn)。 

我們的實(shí)證結(jié)果強(qiáng)調(diào)了語(yǔ)言模型執(zhí)行用自然語(yǔ)言指令描述的任務(wù)的能力。更為廣泛的結(jié)論是,如圖2所示,通過(guò)微調(diào)的方式進(jìn)行監(jiān)督,來(lái)提高語(yǔ)言模型對(duì)推理-時(shí)間文本交互的反應(yīng)能力,指令微調(diào)結(jié)合了預(yù)訓(xùn)練調(diào)整和prompting范式中吸引人的特點(diǎn)。

用于加載FLAN的指令微調(diào)數(shù)據(jù)集的源代碼:https://github.com/google-research/flan 

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

圖2:比較指令微調(diào)與預(yù)訓(xùn)練-調(diào)整和prompting的關(guān)系。

 

2

指令微調(diào)提高了零樣本學(xué)習(xí)的效果

進(jìn)行指令微調(diào)是為了提高語(yǔ)言模型對(duì)NLP指令的反應(yīng)能力。我們想通過(guò)監(jiān)督來(lái)指引語(yǔ)言模型執(zhí)行指令描述的任務(wù),使其學(xué)會(huì)遵循指令,對(duì)與未見(jiàn)過(guò)的任務(wù)也是如此。為了評(píng)估模型在未見(jiàn)過(guò)的任務(wù)上的表現(xiàn),我們按任務(wù)類型將任務(wù)進(jìn)行分組,并將每個(gè)任務(wù)組單獨(dú)進(jìn)行評(píng)估,同時(shí)對(duì)其余所有分組進(jìn)行指令微調(diào)。

2.1 任務(wù)&模板 

從零創(chuàng)建一個(gè)具有大量任務(wù)的可行的指令調(diào)整數(shù)據(jù)集需要集中大量資源。因此,我們選擇將現(xiàn)有研究創(chuàng)建的數(shù)據(jù)集轉(zhuǎn)化為指令格式。我們將Tensorflow數(shù)據(jù)集上公開(kāi)的62個(gè)文本數(shù)據(jù)集,包括語(yǔ)言理解和語(yǔ)言生成任務(wù),匯總成一個(gè)集合。圖3展示了我們使用的所有數(shù)據(jù)集;每個(gè)數(shù)據(jù)集都被歸入十二個(gè)任務(wù)群組中的一個(gè),每個(gè)群組中的數(shù)據(jù)集都屬于同一任務(wù)類型。

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

圖3:本文中使用的任務(wù)集群(藍(lán)色為NLU任務(wù);茶色為NLG任務(wù))。

我們將任務(wù)設(shè)定為由基于數(shù)據(jù)集轉(zhuǎn)換的一組特定的輸入-輸出對(duì)(例如,我們認(rèn)為RTE和ANLI是獨(dú)立的任務(wù),盡管它們的涵義有交叉)。

對(duì)于每一項(xiàng)任務(wù),我們都會(huì)把它們組成十個(gè)不同的用自然語(yǔ)言指令來(lái)描述任務(wù)的模板。這十個(gè)模板中的大部分都描述了原始任務(wù),但為了增加多樣性,每個(gè)任務(wù)中最多包含三個(gè) "反轉(zhuǎn)任務(wù) "的模板(例如,對(duì)于情感分類,我們包括要求生成負(fù)面電影評(píng)論的模板)。

然后,我們?cè)谒腥蝿?wù)的集合上對(duì)預(yù)訓(xùn)練的語(yǔ)言模型進(jìn)行指令微調(diào),每個(gè)任務(wù)中的例子都通過(guò)隨機(jī)選擇的指令模板進(jìn)行格式化。圖4展示了一個(gè)自然語(yǔ)言推理任務(wù)的多個(gè)指令模板。

 

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

 

圖4:描述一個(gè)自然語(yǔ)言推理任務(wù)的多個(gè)指令模板。

2.2 評(píng)估分割法

我們對(duì)FLAN在指令微調(diào)中沒(méi)有訓(xùn)練過(guò)的任務(wù)上的表現(xiàn)很感興趣,因此,對(duì)未見(jiàn)過(guò)的任務(wù)的定義至關(guān)重要。 

之前的一些工作通過(guò)不允許同一數(shù)據(jù)集出現(xiàn)在訓(xùn)練中來(lái)對(duì)未見(jiàn)過(guò)的任務(wù)進(jìn)行分類,而我們利用圖3中的任務(wù)集群,使用一個(gè)更為保守的定義。

在這項(xiàng)工作中,如果在指令微調(diào)期間沒(méi)有訓(xùn)練過(guò)T所屬的任何集群的任務(wù),我們才認(rèn)為任務(wù)T在評(píng)估時(shí)是合適的。例如,如果任務(wù)T是一個(gè)文本蘊(yùn)涵任務(wù),那么在指令微調(diào)數(shù)據(jù)集中不會(huì)出現(xiàn)文本蘊(yùn)涵任務(wù),我們只對(duì)所有其他集群的任務(wù)進(jìn)行指令調(diào)整。 

使用這個(gè)定義,為了評(píng)估FLAN在跨越c個(gè)集群的任務(wù)上的性能,我們執(zhí)行了c個(gè)集群間分割的指令微調(diào),在指令微調(diào)過(guò)程中,每種分割都會(huì)有不同的集群。

2.3 有選擇的分類

一個(gè)給定任務(wù)所期望的輸出空間是幾個(gè)給定類別中的一個(gè)(如分類)或自由文本(如生成)。由于FLAN是純解碼器語(yǔ)言模型的指令微調(diào)版本,它自然可以生成自由文本,因此對(duì)于期望輸出為自由文本的任務(wù)不需要再做進(jìn)一步修改。 

對(duì)于分類任務(wù),先前Brown等人的工作使用了等級(jí)分類方法,例如,只考慮兩個(gè)輸出("是 "和 "不是"),將概率較高的一個(gè)作為模型的預(yù)測(cè)。

雖然這個(gè)程序在邏輯上是合理的,但它并不完美,因?yàn)榇鸢傅母怕寿|(zhì)量可能有一個(gè)不理想的分布(例如,大量替代性的 "是 "的表達(dá)方式,比如“對(duì)”、“正確”,可能降低分配給 "是 "的概率質(zhì)量)。

因此,我們加入了一個(gè)選項(xiàng)后綴,即在分類任務(wù)的末尾加上OPTIONS標(biāo)記,以及該任務(wù)的輸出類別列表。這使得模型知道在響應(yīng)分類任務(wù)時(shí)需要哪些選擇。圖1中的NLI和常識(shí)性的例子顯示了選項(xiàng)的使用。 

2.4 訓(xùn)練細(xì)節(jié)

模型架構(gòu)和預(yù)訓(xùn)練。在我們的實(shí)驗(yàn)中,我們使用了一個(gè)密集的從左到右的、只有解碼器的1370億參數(shù)的Transformer語(yǔ)言模型。這個(gè)模型在網(wǎng)絡(luò)文檔(包括那些帶有計(jì)算機(jī)代碼的文檔)、對(duì)話數(shù)據(jù)和維基百科上進(jìn)行了預(yù)訓(xùn)練,使用SentencePiece庫(kù)(Kudo & Richardson, 2018)將其標(biāo)記為2.81T BPE tokens,詞匯量為32K tokens。大約10%的預(yù)訓(xùn)練數(shù)據(jù)是非英語(yǔ)的。這個(gè)數(shù)據(jù)集不像GPT-3的訓(xùn)練集那樣單一,也有對(duì)話和代碼的混合物,因此我們預(yù)計(jì)一開(kāi)始這個(gè)預(yù)訓(xùn)練的語(yǔ)言模型在NLP任務(wù)上的零樣本和小樣本性能會(huì)略低。因此,我們把這個(gè)預(yù)訓(xùn)練的模型稱為基礎(chǔ)語(yǔ)言模型(Base LM)。這個(gè)模型以前也曾被用于程序合成。

指令微調(diào)程序。FLAN是Base LM的指令微調(diào)版本。我們的指令微調(diào)管道混合了所有的數(shù)據(jù)集,并從每個(gè)數(shù)據(jù)集中隨機(jī)抽取例子。一些數(shù)據(jù)集有超過(guò)1000萬(wàn)個(gè)訓(xùn)練實(shí)例(例如翻譯),因此我們將每個(gè)數(shù)據(jù)集的訓(xùn)練實(shí)例數(shù)量限制在3萬(wàn)個(gè)。其他數(shù)據(jù)集的訓(xùn)練例子很少,為了防止這些數(shù)據(jù)集被邊緣化,我們遵循實(shí)例-比例混合方案(examples-proportional mixing scheme),混合率最大為3000。我們的微調(diào)程序中使用的輸入和目標(biāo)序列長(zhǎng)度分別為1024和256。我們使用打包的方法將多個(gè)訓(xùn)練實(shí)例合并成一個(gè)序列,并用一個(gè)特殊的序列末端標(biāo)記將輸入和目標(biāo)分開(kāi)。

 

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

 

 

 

表1: 自然語(yǔ)言推理的結(jié)果。對(duì)于FLAN,我們既報(bào)告了最多10個(gè)模板的平均值(代理沒(méi)有prompt工程的預(yù)期性能),也報(bào)告了在驗(yàn)證集上性能最高模板的測(cè)試集性能。三角形表示比小樣本GPT-3有改進(jìn)。上箭頭↑表示只比零樣本GPT-3有改進(jìn)。

 

 

表2: 閱讀理解和開(kāi)放領(lǐng)域問(wèn)題回答的結(jié)果。

 

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

 

表3: 常識(shí)推理和核心推理的結(jié)果(準(zhǔn)確率單位為%)。

 

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

 

表4:WMT'14 En/Fr、WMT'16 En/De和En/Ro的翻譯結(jié)果(BLEU)。

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

 

圖5:在指令微調(diào)中增加額外的任務(wù)群,可以提高在留出任務(wù)群上的零樣本性能。

 

 

有了“大數(shù)據(jù)”,還需“多任務(wù)”,谷歌AI大牛Quoc V. Le發(fā)現(xiàn)大模型零樣本學(xué)習(xí)能力的關(guān)鍵

 

圖6:(A)在不同的模型規(guī)模下,指令微調(diào)時(shí)訓(xùn)練過(guò)任務(wù)的性能都得到了改善。(B)指令微調(diào)對(duì)未見(jiàn)任務(wù)性能的影響取決于模型規(guī)模。雖然指令調(diào)整有助于大型模型對(duì)新任務(wù)的歸納,但對(duì)于小型模型來(lái)說(shuō),它實(shí)際上損害了對(duì)未見(jiàn)任務(wù)的泛化能力,可能是因?yàn)樗械哪P湍芰Χ急挥脕?lái)學(xué)習(xí)指令微調(diào)任務(wù)的集合了。

 

表5:FLAN對(duì)通過(guò)指令微調(diào)獲得的連續(xù)輸入的反應(yīng)比Base LM更好。

 

3

討論

本文探討了零樣本場(chǎng)景下一個(gè)簡(jiǎn)單的問(wèn)題:指令微調(diào)語(yǔ)言模型是否能提高其執(zhí)行未見(jiàn)任務(wù)的能力?我們?cè)贔LAN上的實(shí)驗(yàn)表明,指令微調(diào)提高了對(duì)未微調(diào)模型的性能,并在我們?cè)u(píng)估的大多數(shù)任務(wù)上超過(guò)了零樣本場(chǎng)景下的GPT-3。通過(guò)消融研究,我們了解到,未見(jiàn)任務(wù)的性能隨著指令調(diào)諧中使用的任務(wù)集群的數(shù)量的增加而提高,而且有趣的是,指令微調(diào)的優(yōu)點(diǎn)只有在模型規(guī)模足夠大時(shí)才會(huì)出現(xiàn)。此外,F(xiàn)LAN似乎比未修改的基礎(chǔ)模型對(duì)指令微調(diào)的反應(yīng)更好,顯示了指令微調(diào)的另一優(yōu)點(diǎn)。

我們研究中的一個(gè)局限是:對(duì)任務(wù)分組時(shí)存在一定程度的主觀性(例如,情感分析可以被看作是閱讀理解的一個(gè)小子集),因?yàn)闆](méi)有公認(rèn)的方法來(lái)處理兩個(gè)任務(wù)之間的相似性。因此,我們根據(jù)文獻(xiàn)中公認(rèn)的分類方法將任務(wù)分配到群組中,當(dāng)任務(wù)可能屬于多個(gè)群組時(shí),我們采取了保守的方法(例如,在評(píng)估閱讀理解和常識(shí)推理時(shí),將閱讀理解與常識(shí)推理排除在指令微調(diào)之外)。作為另一個(gè)限制,我們使用簡(jiǎn)短的指令(通常是一句話)來(lái)描述熟知的NLP任務(wù)。其他任務(wù)可能需要更長(zhǎng)或更具體的指令來(lái)充分描述,同時(shí)還要有涉及實(shí)例的解釋;我們把這些情況留給未來(lái)的研究工作。

本文顯示的結(jié)果為未來(lái)的研究提出了幾個(gè)方向。盡管FLAN在60多個(gè)數(shù)據(jù)集上進(jìn)行了指令微調(diào),但這些數(shù)據(jù)集只覆蓋了10個(gè)任務(wù)群(加上一些雜項(xiàng)任務(wù)),考慮到這樣一個(gè)模型可以用于所有潛在的任務(wù),因此這個(gè)數(shù)字相對(duì)較小。有可能通過(guò)更多的指令微調(diào)任務(wù)來(lái)進(jìn)一步提高性能,例如,這些任務(wù)可以以自監(jiān)督的方式生成。除了收集更多的任務(wù),探索多語(yǔ)言環(huán)境也很有價(jià)值,例如,我們可以提出這樣的疑問(wèn):在高資源語(yǔ)言的監(jiān)督數(shù)據(jù)上的指令調(diào)整是否會(huì)提高低資源語(yǔ)言的新任務(wù)的性能?最后,有監(jiān)督數(shù)據(jù)的指令微調(diào)模型也有可能被用來(lái)改善模型在偏見(jiàn)和公平方面的行為。

責(zé)任編輯:張燕妮 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2025-02-06 11:25:50

2021-10-25 09:06:29

模型人工智能計(jì)算

2025-02-07 10:10:05

MusicMagus擴(kuò)散模型音樂(lè)編輯

2024-03-15 08:00:00

模型數(shù)據(jù)

2024-06-25 09:35:04

模型訓(xùn)練

2024-11-04 15:54:16

2022-09-28 15:34:06

機(jī)器學(xué)習(xí)語(yǔ)音識(shí)別Pytorch

2024-09-12 08:00:00

2024-03-15 12:49:40

AI訓(xùn)練

2024-11-06 16:00:00

AI訓(xùn)練

2022-06-13 11:57:04

谷歌模型計(jì)算

2023-07-12 09:00:00

自動(dòng)語(yǔ)音識(shí)別機(jī)器學(xué)習(xí)

2023-05-22 09:19:19

2025-02-08 11:12:34

ZAPS影像模型

2024-11-18 08:40:00

2023-02-24 10:22:15

2024-11-20 16:51:00

目標(biāo)檢測(cè)模型

2024-08-28 14:20:00

數(shù)據(jù)模型

2021-09-08 17:23:33

谷歌模型開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)