自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI慢思考蒸餾進(jìn)快思考,Llama2躍升至GPT-4水平,不寫過程也能做對題

人工智能
研究人員通過把AI的“慢思考”結(jié)果蒸餾進(jìn)“快思考”,讓Llama2表現(xiàn)提升了257%,變得比GPT4還能打,同時還能降低推理成本。

《思考快與慢》中人類的兩種思考方式,屬實是被Meta給玩明白了。

研究人員通過把AI的“慢思考”結(jié)果蒸餾進(jìn)“快思考”,讓Llama2表現(xiàn)提升了257%,變得比GPT4還能打,同時還能降低推理成本。

圖片

這里的快慢兩種思考方式,指的就是2002年諾貝爾經(jīng)濟(jì)學(xué)獎得主丹尼爾·卡尼曼推廣的系統(tǒng)1和系統(tǒng)2——

簡單說,系統(tǒng)1是簡單無意識的直覺,速度更快;系統(tǒng)2則是復(fù)雜有意識的推理,準(zhǔn)確性更強(qiáng)。

Meta所做的“蒸餾”,就是用系統(tǒng)2生成數(shù)據(jù),然后對用系統(tǒng)1推理的模型進(jìn)行微調(diào)。

有網(wǎng)友看了后表示,這種模式和人類很像,一旦解決了一個難題,再解決(相似的問題)就變得簡單了。

圖片

將系統(tǒng)2蒸餾到系統(tǒng)1

對于大模型而言,模仿人類的“系統(tǒng)2”的方式有很多種,在模型中所處的環(huán)節(jié)也不盡相同,這里作者一共研究了四種:

  • CoT,即Chain of Thought,思維鏈,從提示詞入手讓模型逐步思考。
  • S2A,即System 2 Attention,由Meta自己提出,直接修改了模型的注意力機(jī)制,屏蔽與任務(wù)無關(guān)的信息。
  • RaR,即Rephase and Respond,先對問題進(jìn)行重新表述,再根據(jù)重述后的問題生成答案。
  • BSM,即Branch-Solve-Merge,將復(fù)雜任務(wù)分解為多個分支,針對每個分支獨立生成評分,再將各個分支的評分綜合。

圖片

但從整體流程上看則是殊途同歸,各種“系統(tǒng)2方法”都會在未標(biāo)注數(shù)據(jù)集上生成推理結(jié)果。

在這過程當(dāng)中,模型會在給出結(jié)果的同時生成詳細(xì)的中間推理步驟,但研究人員只保留最終的輸出結(jié)果。

然后就得到了輸入-系統(tǒng)2輸出的數(shù)據(jù)對,可以視為一種無監(jiān)督的“偽標(biāo)簽”,將這些數(shù)據(jù)對收集起來,就形成初步的蒸餾數(shù)據(jù)集。

當(dāng)然了,這步得到的數(shù)據(jù)還不能直接拿來微調(diào)系統(tǒng)1模型,需要進(jìn)行過濾以確保其擁有足夠高的質(zhì)量。

過濾的具體依據(jù),是一致性和魯棒性。

一致性篩選當(dāng)中,對每個輸入樣本,都會用系統(tǒng)2模型采樣生成多個輸出,然后通過多數(shù)投票等方法進(jìn)行比較,如果大多數(shù)都一致,則認(rèn)為該輸出是可靠的;

魯棒性篩選是對一個輸入樣本進(jìn)行適當(dāng)?shù)臄_動,如改變無關(guān)細(xì)節(jié)、調(diào)整詞序等,然后觀察系統(tǒng)2模型在擾動前后的輸出是否一致。

篩選后的高質(zhì)量蒸餾數(shù)據(jù),就可以對系統(tǒng)1模型進(jìn)行無監(jiān)督微調(diào)了。

微調(diào)過程可以看作是一種知識蒸餾,但又與與傳統(tǒng)的知識蒸餾不同,這里兩種系統(tǒng)使用的是同一個基礎(chǔ)模型。

系統(tǒng)1模型的目標(biāo)是直接學(xué)到系統(tǒng)2模型的輸出行為,而不是中間的復(fù)雜推理過程,在后續(xù)推理時也不需要執(zhí)行系統(tǒng)2的推理步驟,而是直接生成輸出。

但從輸出質(zhì)量上來看,表現(xiàn)卻能接近系統(tǒng)2模型,也就是實現(xiàn)了系統(tǒng)2能力向系統(tǒng)1的轉(zhuǎn)移。

那么,為什么要專門收集數(shù)據(jù)去微調(diào)系統(tǒng)1模型,而不直接用系統(tǒng)2模型推理呢,作者也給出了解釋。

道理其實很簡單,從系統(tǒng)2的另一個名字“慢系統(tǒng)”當(dāng)中,很容易就能看出答案:

因為系統(tǒng)2的速度慢,在實時交互、移動設(shè)備部署等場景下,模型的延遲可能是無法接受的。

另外,由于需要輸出完整的推理過程,系統(tǒng)2輸出的token長度也是系統(tǒng)1的數(shù)百倍。

就像開頭那位網(wǎng)友說的,系統(tǒng)2把復(fù)雜的推理解決了,再將數(shù)據(jù)喂給系統(tǒng)1,問題對其而言也會變得容易。

從表現(xiàn)上看,這樣的模式也確實讓系統(tǒng)1模型的表現(xiàn)大幅進(jìn)步,甚至超過了真·系統(tǒng)2模型。

讓Llama2超越GPT-4

針對前面四種不同的系統(tǒng)2方法,研究人員分別使用不同的數(shù)據(jù)集,在不同的任務(wù)上進(jìn)行了測試。

針對BSM方法,作者采用的數(shù)據(jù)集是Open Assistant 2和MT-bench,評估了模型作為“評判者”時的表現(xiàn)。

可以看到,在兩個數(shù)據(jù)集中,Llama-2的表現(xiàn)(人類一致性)分別從32.0%和28.1%,提高到了58.4%和72.4%,最高增幅達(dá)到了257%,比CoT方法更加有效。

而且,微調(diào)后的模型均超過了系統(tǒng)1版的GPT-4,甚至達(dá)到了GPT-4配合CoT的水準(zhǔn)。

同時(改變選項位置后的)不一致性也大幅降低,而且和系統(tǒng)2相比,Token數(shù)量少到幾乎可以忽略不計。

圖片

同時針對MT-Bench不同的子類任務(wù),作者也分別分析了各種方法的人類一致性。

圖片

接下來是S2A方法,它主要解決的是模型偏見問題,因此評估時采用了帶偏見的TriviaQA任務(wù)。

結(jié)果蒸餾后的準(zhǔn)確率達(dá)到81.3%,超過了原始S2A的76%,生成的token數(shù)量也從147個減少到了56個。

圖片

RaR的測試目標(biāo)則是完成一些推理任務(wù),這里作者測試了Last letter concatenation和Coin flip。

在Letter任務(wù)中,蒸餾后的系統(tǒng)模型準(zhǔn)確率從30%飛升到了98%,也超過了系統(tǒng)1自蒸餾的69.5%,同時也優(yōu)于原始的RaR方式。

而在Coin flip任務(wù)里,蒸餾后的準(zhǔn)確率達(dá)到 75.69%,也與接近2-步原始RaR的77.2%接近,但生成的token數(shù)量大幅減少。

圖片

不足的一點是,CoT的蒸餾效果與另外三種大相徑庭,作者發(fā)現(xiàn),在數(shù)學(xué)推理任務(wù)上,CoT的推理能力很難遷移到系統(tǒng)1當(dāng)中。

在GSM8K數(shù)據(jù)集上,蒸餾后的模型在k=1時準(zhǔn)確率僅為7.13%,k=10時也只有7.35%,甚至不如沒蒸餾之前的版本。

圖片

所以,作者認(rèn)為,接下來的研究目標(biāo)是進(jìn)一步明確這種蒸餾的應(yīng)用場合,找到更類似于人類學(xué)習(xí)的方式。

論文地址:https://arxiv.org/abs/2407.06023

參考鏈接:https://x.com/emollick/status/1810659417634869610。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2023-07-25 09:23:23

Llama 2GPT-4

2024-02-07 12:13:03

AI模型

2023-08-11 13:17:12

AI模型

2023-08-21 10:36:23

2023-12-11 12:46:42

GPT-4LLaMA2模型

2023-09-11 15:57:16

人工智能模型GPT-4

2024-04-19 10:32:08

2023-07-19 11:43:59

AIGPT-4

2023-06-19 08:19:50

2024-01-12 19:07:26

GPT-4AI產(chǎn)品

2023-05-29 09:29:52

GPT-4語言模型

2023-06-08 11:27:10

模型AI

2023-08-25 13:12:59

AI開源

2025-04-16 09:35:03

2023-07-24 14:26:58

OpenAIGPT-4Karpathy

2023-08-15 15:03:00

AI工具

2025-03-27 03:22:00

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-09-11 13:28:00

AI模型

2024-05-13 12:38:08

AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號