自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不用RLHF,匹敵GPT-4!Meta重磅發(fā)布LIMA 65B,1000個(gè)樣本性能飛升,LeCun轉(zhuǎn)贊

人工智能
RLHF并沒(méi)有那么重要!Meta最新650億參數(shù)模型LIMA,僅用1000個(gè)樣本,實(shí)現(xiàn)與GPT-4相匹敵的性能。

人人都知,讓ChatGPT稱(chēng)霸天下的秘密武器,就是人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)。

而現(xiàn)在,Meta AI等機(jī)構(gòu)的爆火研究LIMA直接打破這一規(guī)則,直言RLHF并沒(méi)有那么重要!

論文一出,直接在AI圈炸了鍋!

就連LeCun忍不住發(fā)推炫一番:LIMA:LLaMa-65B+1000監(jiān)督樣本=GPT-4/Bard級(jí)別的性能。

圖片

正如標(biāo)題所稱(chēng),LIMA是「Less is More for Alignment」,暗示著一個(gè)強(qiáng)大的預(yù)訓(xùn)練AI模型,通過(guò)幾個(gè)樣本就足以實(shí)現(xiàn)高質(zhì)量的結(jié)果。

而LIMA僅在1000個(gè)精心挑選的樣本上微調(diào)LLaMa-65B,而且無(wú)需RLHF,就實(shí)現(xiàn)了與GPT-4和Bard相媲美的性能。

圖片

論文地址:https://arxiv.org/abs/2305.11206

論文中,研究人員將這一突破稱(chēng)為「表面對(duì)齊假設(shè)」(Superficial Alignment Hypothesis)。

實(shí)驗(yàn)證明了,大語(yǔ)言模型在預(yù)訓(xùn)練階段就已習(xí)得大部分知識(shí),僅用有限的指令微調(diào)數(shù)據(jù),足以教會(huì)模型產(chǎn)生高質(zhì)量的內(nèi)容。

高質(zhì)量的數(shù)據(jù)就可以克服小樣本量?訓(xùn)練這樣模型的成本是多少,這是否意味著小型LLM玩家可以與OpenAI/谷歌競(jìng)爭(zhēng)?

圖片

還有網(wǎng)友質(zhì)疑,GPT-4在57%情況中擊敗LIMA,還能說(shuō)性能相當(dāng)?

圖片

RLHF并非王者?

大語(yǔ)言模型經(jīng)過(guò)預(yù)訓(xùn)練,能在大規(guī)模上預(yù)測(cè)下一個(gè)token,讓其學(xué)習(xí)通用表征。這些表征可以轉(zhuǎn)移到幾乎任何語(yǔ)言理解或生成任務(wù)中。

為了實(shí)現(xiàn)這種轉(zhuǎn)移,人們已經(jīng)提出各種「對(duì)齊」語(yǔ)言模型的方法,主要側(cè)重在百萬(wàn)級(jí)token上進(jìn)行指令調(diào)優(yōu)。

而最近采用較多的是,從人類(lèi)反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)。這些反饋便是在與人類(lèi)標(biāo)注者進(jìn)行數(shù)百萬(wàn)次互動(dòng)中收集的。

ChatGPT令人深刻的表現(xiàn),主要?dú)w功于RLHF。根據(jù)OpenAI的思路,RLHF分為三步。

圖片

然而,現(xiàn)有的對(duì)齊方法代價(jià)是高昂的,需要大量算力,以及專(zhuān)門(mén)的數(shù)據(jù)才能實(shí)現(xiàn)像ChatGPT一樣的性能。

Meta AI卻要逆行其道,證明了,一個(gè)預(yù)訓(xùn)練語(yǔ)言模型可以通過(guò)簡(jiǎn)單地微調(diào)精心挑選的1000個(gè)樣本,就能實(shí)現(xiàn)強(qiáng)大的性能。

在此,研究人員提出「表面對(duì)齊假設(shè)」(Superficial Alignment Hypothesis),假設(shè)「對(duì)齊」可以是一個(gè)簡(jiǎn)單的過(guò)程,。

在這個(gè)過(guò)程中,模型的知識(shí)和能力幾乎完全是在預(yù)訓(xùn)練期間學(xué)習(xí)的,而「對(duì)齊」只告訴模型學(xué)習(xí)與用戶(hù)交互的風(fēng)格或格式

圖片

為了驗(yàn)證這個(gè)假設(shè),Meta等研究者挑選了1000個(gè)近似于真實(shí)用戶(hù)提示,以及高質(zhì)量響應(yīng)的樣本。

他們從其他研究論文、WikiHow、StackExchange和Reddit等來(lái)源進(jìn)行手動(dòng)挑選,訓(xùn)練數(shù)據(jù)的總量大約是750,000個(gè)token。

圖片

訓(xùn)練提示(輸入)、響應(yīng)(輸出)以及測(cè)試提示的來(lái)源

此外,研究者手動(dòng)編寫(xiě)了250個(gè)提示和響應(yīng)的樣本,同時(shí)對(duì)任務(wù)的多樣性進(jìn)行了優(yōu)化。

最后,研究人員對(duì)預(yù)訓(xùn)練LLaMa 65B模型在1000個(gè)樣本集上進(jìn)行微調(diào),并進(jìn)行了人類(lèi)評(píng)估。

評(píng)估結(jié)果

Meta將LIMA與5個(gè)模型基準(zhǔn)進(jìn)行了比較:(在2023年4月期間,對(duì)所有基準(zhǔn)的響應(yīng)進(jìn)行了采樣)

Alpaca 65B——利用52,000個(gè)樣本對(duì)LLaMa 65B微調(diào)后得到的大模型

DaVinci003——基于RLHF訓(xùn)練的大語(yǔ)言模型

Bard——基于谷歌的PaLM模型

Claude——通過(guò)強(qiáng)化學(xué)習(xí)Constitutional AI訓(xùn)練的52B參數(shù)模型

GPT-4——目前使用RLHF訓(xùn)練的最強(qiáng)的模型

為了比較LIMA和其他SOTA模型,Meta為每個(gè)測(cè)試提示生成一個(gè)單一的響應(yīng)。

然后,要求人類(lèi)參與者將LIMA的輸出與每個(gè)基準(zhǔn)進(jìn)行比較,并標(biāo)記他們更喜歡哪一個(gè)。

在人類(lèi)偏好研究中,盡管Alpaca 65B的訓(xùn)練數(shù)據(jù)量是LIMA的52倍,但它產(chǎn)生的輸出往往比LIMA的不如人意。

圖片

讓人大跌眼鏡的是,DaVinci003也是同樣的情況,雖然程度較小。該模型使用了RLHF進(jìn)行訓(xùn)練,這本應(yīng)是一種更優(yōu)越的對(duì)齊方法。

而B(niǎo)ard在42%的時(shí)間中,其產(chǎn)生的回答優(yōu)于LIMA。這也意味著,剩下的58%時(shí)間里,LIMA的響應(yīng)至少和Bard一樣優(yōu)秀。

最后,研究者發(fā)現(xiàn),雖然Claude和GPT-4通常表現(xiàn)得比LIMA更好,但在一些情況下,LIMA實(shí)際上能產(chǎn)生更好的回答。

另外,諷刺的是,在GPT-4的偏好研究中,有19%的時(shí)間,GPT-4更喜歡LIMA的輸出。

圖片

「表面對(duì)齊假設(shè)」

Meta將這一發(fā)現(xiàn)定義為「表面對(duì)齊假設(shè)」(Superficial Alignment Hypothesis)。

它表明,所謂預(yù)訓(xùn)練后的對(duì)齊階段,主要是讓模型學(xué)會(huì)一種特定的風(fēng)格或格式,這種風(fēng)格或格式在與用戶(hù)交互時(shí)可以被模型回憶起來(lái)。

因此,「微調(diào)」更多是關(guān)于風(fēng)格,而不是實(shí)質(zhì)。

LIMA的結(jié)果表明,實(shí)際上,利用簡(jiǎn)單的方法就可以解決對(duì)齊和微調(diào)AI模型這類(lèi)復(fù)雜問(wèn)題。

這與諸如OpenAI的RLHF那些,特別繁瑣和復(fù)雜的微調(diào)過(guò)程,形成了鮮明的對(duì)比。

不過(guò),LIMA也不是萬(wàn)能的。Meta認(rèn)為,該方法存在兩個(gè)明顯的局限:

第一,用高質(zhì)量的示例構(gòu)建數(shù)據(jù)集是一種非常具有挑戰(zhàn)性的方法,很難擴(kuò)展。

第二,LIMA并不像已經(jīng)有產(chǎn)品的模型那樣強(qiáng)大,比如GPT-4。

團(tuán)隊(duì)表示,雖然LIMA的生成結(jié)果,在大部分情況下質(zhì)量都很高。但一個(gè)「對(duì)抗性的提示」或一個(gè)「不走運(yùn)的樣本」,依然會(huì)讓模型產(chǎn)生不理想的答案。

Yann LeCun對(duì)GPT-4和類(lèi)似模型背后努力的相對(duì)貶值采取了務(wù)實(shí)的看法。

他將大型語(yǔ)言模型看作是近期的一個(gè)元素,至少在中期內(nèi)不會(huì)「在沒(méi)有重大變化」的情況下發(fā)揮作用。

以上,主要評(píng)估是根據(jù)最先進(jìn)的模型對(duì)LIMA進(jìn)行評(píng)估,但需要明確的是,其中一些模型實(shí)際上已經(jīng)在訓(xùn)練期間使用了數(shù)百萬(wàn)真實(shí)用戶(hù)的提示。

對(duì)此,研究人員通過(guò)手動(dòng)分析50個(gè)隨機(jī)示例來(lái)進(jìn)行絕對(duì)的評(píng)估。

并將每個(gè)示例標(biāo)記成3個(gè)類(lèi)別:Fail,響應(yīng)不符合提示符的要求;Pass,響應(yīng)符合;Excellent,對(duì)提示提供了優(yōu)秀的響應(yīng)。

實(shí)驗(yàn)結(jié)果顯示,50%的LIMA回答被認(rèn)為是優(yōu)秀的,它能夠遵循所有的50個(gè)分析提示中的44個(gè)。

圖片

如下,LIMA針對(duì)育兒建議和生成食譜的示例進(jìn)行的輸出。

圖片


另外,一個(gè)僅在1000個(gè)樣本上微調(diào)的模型在多輪對(duì)話(huà)中表現(xiàn)又如何?

在零樣本上,LIMA的響應(yīng)出奇地連貫,并引用了前面對(duì)話(huà)的信息。在10次對(duì)話(huà)中,LIMA有3次未能遵循提示。

為了提高對(duì)話(huà)能力,研究人員收集了30個(gè)多輪對(duì)話(huà)。其中10個(gè)是由作者手動(dòng)編寫(xiě),20個(gè)來(lái)自Stack Exchange,并根據(jù)助手風(fēng)格進(jìn)行編輯。

研究者使用組合的1,030個(gè)示例對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),得到一個(gè)新版本的LIMA,并針對(duì)相同的提示進(jìn)行了10次實(shí)時(shí)對(duì)話(huà)。

實(shí)驗(yàn)發(fā)現(xiàn)加入這30個(gè)示例后生成質(zhì)量顯著提升,優(yōu)質(zhì)響應(yīng)比例從45.2%提高到76.1%!

圖片

LIMA如何以「少」勝「多」

團(tuán)隊(duì)通過(guò)消融實(shí)驗(yàn),研究了訓(xùn)練數(shù)據(jù)多樣性、質(zhì)量和數(shù)量的影響。

Meta發(fā)現(xiàn),為了對(duì)齊目的,提高輸入多樣性和輸出質(zhì)量有可測(cè)量的正面效應(yīng),而單獨(dú)增加數(shù)量卻沒(méi)有。

實(shí)驗(yàn)設(shè)置

團(tuán)隊(duì)在各種數(shù)據(jù)集上微調(diào)了一個(gè)擁有70億參數(shù)的LLaMa模型,并控制了相同的超參數(shù)。

團(tuán)隊(duì)對(duì)每個(gè)測(cè)試集提示抽取5個(gè)回應(yīng),并通過(guò)讓ChatGPT(GPT-3.5 Turbo)在1-6的Likert量表上評(píng)級(jí)回應(yīng)的幫助性來(lái)評(píng)估回應(yīng)質(zhì)量。

多樣性

為了測(cè)試提示多樣性的影響,同時(shí)控制質(zhì)量和數(shù)量,團(tuán)隊(duì)比較了在質(zhì)量過(guò)濾后的Stack Exchange數(shù)據(jù)和wikiHow數(shù)據(jù)上的訓(xùn)練效果。

圖5顯示,更多樣的Stack Exchange數(shù)據(jù)顯著提升了模型的性能。

質(zhì)量

為了測(cè)試響應(yīng)質(zhì)量的影響,團(tuán)隊(duì)從Stack Exchange抽取了2000個(gè)沒(méi)有任何質(zhì)量或風(fēng)格過(guò)濾的示例,并比較了在這個(gè)數(shù)據(jù)集和過(guò)濾后的數(shù)據(jù)集上訓(xùn)練的模型。

圖5顯示,在過(guò)濾和未過(guò)濾的數(shù)據(jù)源上訓(xùn)練的模型之間存在著0.5點(diǎn)的差異。

圖片

數(shù)量

在眾多機(jī)器學(xué)習(xí)設(shè)置中,都會(huì)采用增加示例數(shù)量的策略,來(lái)提升性能。

為了測(cè)試其影響,團(tuán)隊(duì)從Stack Exchange中抽取了呈指數(shù)增長(zhǎng)的訓(xùn)練集。

但實(shí)際上,如圖6所示,數(shù)據(jù)翻倍的訓(xùn)練集并未改善響應(yīng)質(zhì)量。

如此一來(lái)也暗示了,對(duì)齊的規(guī)模法則不必然只受數(shù)量影響,而更可能是在保持高質(zhì)量響應(yīng)的同時(shí),提升提示的多樣性。

圖片

作者介紹

Chunting Zhou是Meta AI的一名研究科學(xué)家。

2022年5月,她在卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)研究所獲得博士學(xué)位,在那里從事自然語(yǔ)言處理工作,導(dǎo)師是Graham Neubig。Zhou的主要研究興趣在于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的交叉領(lǐng)域,并對(duì)開(kāi)發(fā)對(duì)分布變化具有魯棒性的方法感興趣,目的是學(xué)習(xí)模型能夠在各種群體中表現(xiàn)統(tǒng)一。

此外,Zhou還研究生成模型,及其在自然語(yǔ)言處理任務(wù)中的應(yīng)用。

圖片

參考資料:

https://arxiv.org/abs/2305.11206

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-01-18 13:38:00

AI數(shù)據(jù)

2023-04-10 09:23:36

模型AI

2023-09-11 15:57:16

人工智能模型GPT-4

2024-06-28 12:31:22

2023-11-01 19:03:58

GPT-4

2023-06-19 08:19:50

2024-04-19 10:32:08

2023-08-14 08:04:13

2023-10-31 15:26:02

阿里云通義千問(wèn)

2024-02-07 12:13:03

AI模型

2025-04-16 09:35:03

2023-10-11 13:09:09

OpenAI模型GPT-4

2024-04-19 14:52:13

MetaGPT-4模型

2023-04-04 09:09:10

GPT-4編程程序員

2021-09-08 17:23:33

谷歌模型開(kāi)發(fā)

2024-06-05 08:29:35

2023-11-26 17:14:05

2023-03-15 07:49:57

GPT-4ChatGPT

2023-03-16 17:28:59

技術(shù)AI

2023-07-12 16:10:48

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)