自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

算力就這么點(diǎn),如何提升語(yǔ)言模型性能?谷歌想了個(gè)新點(diǎn)子

人工智能 新聞
語(yǔ)言模型越來(lái)越厲害,也越來(lái)越大。如何在不擴(kuò)大規(guī)模的情況下提升模型性能?谷歌AI想出了一個(gè)「強(qiáng)強(qiáng)聯(lián)合」的好點(diǎn)子。

近年來(lái),語(yǔ)言模型(LM)在自然語(yǔ)言處理(NLP)研究中變得更加突出,在實(shí)踐中也越來(lái)越有影響力。一般來(lái)說(shuō),擴(kuò)大模型的規(guī)模已被證明可以提升在一系列NLP任務(wù)中的性能。

不過(guò),擴(kuò)大模型規(guī)模的挑戰(zhàn)也是顯而易見(jiàn)的:訓(xùn)練新的、更大的模型需要大量的計(jì)算資源。此外,新的模型往往是從頭開(kāi)始訓(xùn)練的,無(wú)法利用以前的模型的訓(xùn)練權(quán)重。

對(duì)于這個(gè)問(wèn)題,谷歌的研究人員探討了兩種互補(bǔ)的方法,在不額外消耗大量計(jì)算資源的情況下,大幅提高現(xiàn)有語(yǔ)言模型的性能。

首先,在 「Transcending Scaling Laws with 0.1% Extra Compute」一文中,研究人員介紹了UL2R,這是一個(gè)輕量級(jí)的第二階段預(yù)訓(xùn)練模型,使用一個(gè)混合enoisers目標(biāo)。UL2R提高了一系列任務(wù)的性能,甚至在以前具有接近隨機(jī)性能的任務(wù)上釋放出突發(fā)性能。

論文鏈接:?https://arxiv.org/pdf/2210.11399.pdf?

另外,在「Scaling Instruction-Finetuned Language Models」中,探討了在一個(gè)以指令為措辭的數(shù)據(jù)集上微調(diào)語(yǔ)言模型的問(wèn)題,這個(gè)過(guò)程我們稱(chēng)為 "Flan"。這種方法不僅提高了性能,而且還提高了語(yǔ)言模型對(duì)用戶(hù)輸入的可用性。

圖片

論文鏈接:?https://arxiv.org/abs/2210.11416?

最后,F(xiàn)lan和UL2R可以作為互補(bǔ)技術(shù)結(jié)合在一個(gè)名為Flan-U-PaLM 540B的模型中,該模型在一系列具有挑戰(zhàn)性的評(píng)估基準(zhǔn)中,比未經(jīng)調(diào)整的PaLM 540B模型表現(xiàn)高出10%。

UL2R的訓(xùn)練

傳統(tǒng)上,大多數(shù)語(yǔ)言模型都是在因果語(yǔ)言建模目標(biāo)上進(jìn)行預(yù)訓(xùn)練,使模型能夠預(yù)測(cè)序列中的下一個(gè)詞(如GPT-3或PaLM)或去噪目標(biāo),其中模型學(xué)習(xí)從損壞的單詞序列中恢復(fù)原句(如T5)。

盡管在語(yǔ)言建模目標(biāo)中存在一些權(quán)衡,即因果關(guān)系的語(yǔ)言模型在長(zhǎng)句生成方面表現(xiàn)更好,而在去噪目標(biāo)上訓(xùn)練的語(yǔ)言模型在微調(diào)方面表現(xiàn)更好,但在之前的工作中,研究人員表明,包括這兩個(gè)目標(biāo)的混合enoisers目標(biāo)在兩種情況下都能取得更好的性能。

不過(guò),在不同的目標(biāo)上從頭開(kāi)始對(duì)大型語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,在計(jì)算上是很困難的。因此,我們提出了UL2修復(fù)(UL2R),這是一個(gè)用UL2目標(biāo)繼續(xù)預(yù)訓(xùn)練的附加階段,只需要相對(duì)較少的計(jì)算量。

我們將UL2R應(yīng)用于PaLM,并將產(chǎn)生的新語(yǔ)言模型稱(chēng)為U-PaLM。

在實(shí)證評(píng)估中,我們發(fā)現(xiàn),只需少量的UL2訓(xùn)練,模型就會(huì)有大幅改善。

例如,通過(guò)在PaLM 540B的中間檢查點(diǎn)上使用UL2R,可以達(dá)到PaLM 540B在最終檢查點(diǎn)的性能,同時(shí)使用了2倍的計(jì)算量。當(dāng)然,將UL2R應(yīng)用于最終的PaLM 540B檢查點(diǎn)也會(huì)帶來(lái)巨大的改進(jìn)。

圖片

PaLM 540B和U-PaLM 540B在26個(gè)NLP基準(zhǔn)上的計(jì)算與模型性能對(duì)比。U-PaLM 540B繼續(xù)訓(xùn)練PaLM,計(jì)算量非常小,但在性能上有很大的提升。

使用UL2R的另一個(gè)好處是,它在一些任務(wù)上的性能比純粹在因果語(yǔ)言建模目標(biāo)上訓(xùn)練的模型好得多。例如,有許多BIG-Bench任務(wù)具備所謂「新興能力」,即只有在足夠大的語(yǔ)言模型中才有的能力。

雖然最常見(jiàn)的發(fā)現(xiàn)新興能力的方式是通過(guò)擴(kuò)大模型規(guī)模,但UL2R實(shí)際上可以在不擴(kuò)大模型規(guī)模的情況下激發(fā)新興能力。

圖片

比如在BIG-Bench的導(dǎo)航任務(wù)中,衡量模型進(jìn)行狀態(tài)跟蹤的能力,除了U-PaLM,所有模型的訓(xùn)練FLOPs少于10^23個(gè)。另一個(gè)例子是BIG-Bench的Snarks任務(wù),該任務(wù)衡量模型檢測(cè)諷刺語(yǔ)言的能力。

對(duì)于來(lái)自BIG-Bench的兩種能力,展示了新興的任務(wù)性能,U-PaLM由于使用了UL2R目標(biāo),所以在較小的模型規(guī)模下實(shí)現(xiàn)了新興性能。

指令微調(diào)

在第二篇論文中,我們探討了指令微調(diào),這涉及到在一組以指令為措辭的NLP數(shù)據(jù)集上對(duì)LM進(jìn)行微調(diào)。

在之前的工作中,我們將指令微調(diào)應(yīng)用于62個(gè)NLP任務(wù)的137B參數(shù)模型,比如回答一個(gè)小問(wèn)題,對(duì)電影表達(dá)的情感進(jìn)行分類(lèi),或者將句子翻譯成西班牙語(yǔ)等。

在這項(xiàng)工作中,我們?cè)诔^(guò)1.8K的任務(wù)上微調(diào)了540B參數(shù)的語(yǔ)言模型。此外,以前的工作只對(duì)有少量例證的語(yǔ)言模型(如MetaICL)或無(wú)例證的零例證語(yǔ)言模型(如FLAN、T0)進(jìn)行微調(diào),而我們對(duì)兩者的組合都進(jìn)行了微調(diào)。

我們還包括思維鏈微調(diào)數(shù)據(jù),這使得模型能夠進(jìn)行多步驟推理。我們把我們改進(jìn)的方法稱(chēng)為 "Flan",用于微調(diào)語(yǔ)言模型。

值得注意的是,即使在1.8K的任務(wù)上進(jìn)行微調(diào),與預(yù)訓(xùn)練相比,F(xiàn)lan只用了一小部分的計(jì)算量(對(duì)于PaLM 540B,F(xiàn)lan只需要預(yù)訓(xùn)練計(jì)算量的0.2%)。

圖片

在1.8K個(gè)以指令形式表述的任務(wù)上對(duì)語(yǔ)言模型進(jìn)行微調(diào),并在新任務(wù)上對(duì)模型進(jìn)行評(píng)估,這些任務(wù)不包括在微調(diào)中。分別在有/無(wú)示例的情況下進(jìn)行微調(diào)(即0-shot 和 few-shot),以及有/無(wú)思維鏈的情況下進(jìn)行微調(diào),使模型可以在一系列評(píng)估場(chǎng)景中推廣開(kāi)來(lái)。

本文中,一系列規(guī)模的LM進(jìn)行了指令-微調(diào),目的是研究同時(shí)擴(kuò)大語(yǔ)言模型的規(guī)模和增加微調(diào)任務(wù)數(shù)量的共同效果。

圖片

例如,對(duì)于PaLM類(lèi)語(yǔ)言模型,包括8B、62B和540B參數(shù)規(guī)格。在四個(gè)具有挑戰(zhàn)性的基準(zhǔn)評(píng)估標(biāo)準(zhǔn)(MMLU、BBH、TyDiQA和MGSM)上評(píng)估了我們的模型,發(fā)現(xiàn)擴(kuò)大參數(shù)數(shù)量和微調(diào)任務(wù)數(shù)量都能提高在此前未見(jiàn)的新任務(wù)上的性能表現(xiàn)。

擴(kuò)大到540B的參數(shù)模型和使用1.8K的微調(diào)任務(wù)都能提高性能。上圖y軸是四個(gè)評(píng)估套件(MMLU、BBH、TyDiQA和MGSM)的歸一化均值。

除了更好的性能之外,指令微調(diào)LM能夠在推理時(shí)對(duì)用戶(hù)的指令做出反應(yīng),而不需要少量的示例或提示工程。這使得LM在一系列的輸入中更加方便用戶(hù)。例如,沒(méi)有指令微調(diào)的LM有時(shí)會(huì)重復(fù)輸入或不能遵循指令,但指令微調(diào)可以減輕這種錯(cuò)誤。

圖片

我們的指令微調(diào)語(yǔ)言模型Flan-PaLM與沒(méi)有指令微調(diào)的PaLM模型相比,對(duì)指令的反應(yīng)更好。?

強(qiáng)強(qiáng)聯(lián)合,實(shí)現(xiàn)「1+1>2」

最后,我們表明,UL2R和Flan可以結(jié)合起來(lái)訓(xùn)練Flan-U-PaLM模型。

由于Flan使用來(lái)自NLP任務(wù)的新數(shù)據(jù),并能實(shí)現(xiàn)零點(diǎn)指令跟蹤,我們將Flan作為UL2R之后的次選方法。

我們?cè)俅螌?duì)四個(gè)基準(zhǔn)套件進(jìn)行評(píng)估,發(fā)現(xiàn)Flan-U-PaLM模型優(yōu)于只有UL2R(U-PaLM)或只有Flan(Flan-PaLM)的PaLM模型。此外,當(dāng)與思維鏈和自洽性相結(jié)合時(shí),F(xiàn)lan-U-PaLM在MMLU基準(zhǔn)上達(dá)到了新的SOTA,得分達(dá)到75.4%。

圖片

與只使用UL2R(U-PaLM)或只使用Flan(Flan-U-PaLM)相比,將UL2R和Flan(Flan-U-PaLM)結(jié)合起來(lái)會(huì)帶來(lái)最佳性能:四個(gè)評(píng)估套件(MMLU、BBH、TyDiQA和MGSM)的歸一化平均值。

總的來(lái)說(shuō),UL2R和Flan是兩種互補(bǔ)的方法,用于改進(jìn)預(yù)訓(xùn)練的語(yǔ)言模型。UL2R使用相同的數(shù)據(jù)使LM適應(yīng)denoisers的混合目標(biāo),而Flan則利用超過(guò)1.8K NLP任務(wù)的訓(xùn)練數(shù)據(jù)來(lái)教模型遵循指令。

隨著語(yǔ)言模型變得更大,像UL2R和Flan這樣無(wú)需大量計(jì)算就能提高一般性能的技術(shù),可能會(huì)變得越來(lái)越有吸引力。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-10-18 18:23:58

2022-08-16 14:49:18

模型研究

2022-07-11 10:23:42

云原生Python多核CPU

2024-12-17 14:39:16

2024-03-27 13:34:00

模型訓(xùn)練

2021-04-15 10:21:51

敏捷性CIOIT領(lǐng)導(dǎo)人

2022-11-25 17:24:20

谷歌研究

2023-04-14 14:42:07

騰訊人工智能

2019-12-17 16:04:25

微軟

2025-02-12 08:21:55

OllamaChatboxDeepSeek

2022-06-08 09:33:08

運(yùn)營(yíng)商算力網(wǎng)絡(luò)東數(shù)西算

2022-10-21 08:17:13

MongoDB查詢(xún)Document

2021-11-19 11:16:29

Git命令Linux

2025-03-21 10:32:49

2014-12-16 10:55:06

硅谷

2024-02-19 07:10:00

視覺(jué)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)