自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度揭秘CoT!普林斯頓耶魯發(fā)布最新報(bào)告:大模型既有記憶推理、也有概率推理

人工智能 新聞
研究人員通過案例研究,利用大型語言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思維鏈(CoT)提示在解碼移位密碼任務(wù)中的表現(xiàn);CoT提示雖然提升了模型的推理能力,但這種能力并非純粹的符號推理,而是結(jié)合了記憶和概率推理的復(fù)雜過程。

「推理」是非常能展現(xiàn)「人類智能」的一項(xiàng)能力,需要結(jié)合現(xiàn)有證據(jù)和過去的經(jīng)驗(yàn),以邏輯和系統(tǒng)的方式思考某件事情,進(jìn)而做出決策。

大型語言模型(LLMs)以其通用性,在多項(xiàng)任務(wù)上都取得了出色的性能,雖然思維鏈(CoT)提示已經(jīng)證明了大模型具備多步推理能力,但這種能力到底來自于「抽象泛化」(abstract generalization)還是「淺層啟發(fā)式」(shallow heuristics),仍然沒有定論。

為了深入理解影響 CoT 推理的因素,普林斯頓大學(xué)、耶魯大學(xué)的研究人員最近發(fā)布了一項(xiàng)案例研究,使用三個(gè)大模型(GPT-4、Claude 3 和 Llama 3.1)利用CoT提示來執(zhí)行解碼移位密碼(decoding shift ciphers)的符號推理任務(wù)。

圖片

論文地址:https://arxiv.org/abs/2407.01687

文中只關(guān)注這一個(gè)簡單的任務(wù),能夠系統(tǒng)地分析出影響 CoT 性能的三個(gè)因素:任務(wù)的預(yù)期輸出(概率)、模型在預(yù)訓(xùn)練期間隱式學(xué)習(xí)的內(nèi)容(記憶),以及數(shù)量推理中涉及的中間操作(噪聲推理)。

實(shí)驗(yàn)結(jié)果顯示,這些因素可以極大地影響模型的準(zhǔn)確率,并且可以得出結(jié)論,CoT提示帶來的性能提升,既反映了模型在推理過程中有記憶的因素,也有真實(shí)推理的概率因素。

研究方法

以往的方法在研究模型推理能力時(shí),往往在一系列復(fù)雜的推理任務(wù)上進(jìn)行評估,其中任務(wù)的多樣性和復(fù)雜性可能會(huì)掩蓋CoT推理背后的影響因素,所以這篇論文只關(guān)注一個(gè)相對簡單的任務(wù):使用移位密碼編碼的文本進(jìn)行破譯(deciphering text encoded with a shift cipher)。

使用移位密碼(shift cipher)來編碼消息的過程為,將每個(gè)字母替換為在字母表中向前移動(dòng)一定數(shù)量位置(shift_level)的另一個(gè)字母;解碼則為相反的操作,即向后移動(dòng)。

圖片

這種密碼也可以稱為旋轉(zhuǎn)密碼(rotation ciphers),過程等價(jià)于將字母表向前旋轉(zhuǎn)一定數(shù)量的步rot-k,其中k對應(yīng)于shift_level

例如,給定測試詞「FDW」并使用rot-3加密(shift_level = 3),解碼需要將每個(gè)字母向后移動(dòng)3步,即F → C,D → A,W → T,最后獲得解碼輸出「CAT」。

在實(shí)驗(yàn)設(shè)計(jì)時(shí),研究人員給大模型輸入一個(gè)使用移位密碼編碼的單詞,并要求模型對文本進(jìn)行解碼以恢復(fù)原始單詞。

任務(wù)動(dòng)機(jī)

研究人員使用移位密碼任務(wù)的主要出發(fā)點(diǎn)在于「任務(wù)復(fù)雜性」和「任務(wù)頻率」之間存在明顯的分離。

解密任務(wù)的復(fù)雜性也可以動(dòng)態(tài)變化,移位級別(shift level)更高的密碼,需要更多中間步驟,也更復(fù)雜;不同的移位級別在互聯(lián)網(wǎng)文本中的頻率也不同,在大型語言模型的訓(xùn)練數(shù)據(jù)中也是如此。

比如rot-13在互聯(lián)網(wǎng)論壇中廣泛用于隱藏文本,如謎題解答和劇透,而rot-3和rot-1通常用在解密教程中(rot-3也被稱為凱撒密碼)。

此外,移位密碼有助于研究概率的影響,因?yàn)檎_答案可以是任意字符串,可以很容易地調(diào)節(jié)字符串的概率,并且生成樣本和正確性驗(yàn)證也很容易。

最重要的是,解碼信息時(shí),每個(gè)字母都是一個(gè)獨(dú)立的步驟,更容易分析。

CoT在移位密碼上的影響

數(shù)據(jù)

研究人員構(gòu)建了一個(gè)數(shù)據(jù)集,每個(gè)單詞包含7個(gè)字母(從詞表中組合3個(gè)字母和4個(gè)字母的單詞),用GPT-4分詞器后為2個(gè)token,以控制與分詞器無關(guān)的因素。

使用GPT-2計(jì)算對數(shù)概率,用句子「The word is "WORD"」的對數(shù)概率減去「The word is」的對數(shù)概率,然后把單詞按其對數(shù)概率評分,并按降序排列。

通過選擇等距的對數(shù)概率值作為中心,形成了五個(gè)區(qū)間,其中區(qū)間1具有最高的概率,區(qū)間5具有最低的概率,再手動(dòng)檢查了數(shù)據(jù)集中的單詞,并進(jìn)行了篩選,以確保沒有使用不恰當(dāng)?shù)膯卧~,其中每個(gè)區(qū)間包含150個(gè)單詞。

數(shù)據(jù)集中總共包含150個(gè)樣本,劃分為兩個(gè)子集:1)包含100個(gè)單詞以評估GPT-4;2)包含50個(gè)單詞,用于評估擬合到GPT-4在100個(gè)單詞子集上表現(xiàn)的邏輯回歸模型。

最后在1-25移位級別上生成來自5個(gè)概率區(qū)間的單詞的移位密碼編碼版本,作為模型的輸入;評估只運(yùn)行一次,基于100個(gè)樣本報(bào)告準(zhǔn)確率。

評估提示

研究人員使用多種不同的提示對數(shù)據(jù)集的性能進(jìn)行了評估:

1. 標(biāo)準(zhǔn)(standard)提示,只有任務(wù)描述和演示但沒有推理步驟的提示;

圖片

2. 文本思維鏈(Text-CoT),使模型逐個(gè)字母解碼消息。

圖片

要想正確得到推理步驟,模型必須在預(yù)訓(xùn)練期間學(xué)會(huì)字母表。

3. 數(shù)學(xué)思維鏈(Math-CoT),模型需要將每個(gè)字母轉(zhuǎn)換為數(shù)字,然后通過數(shù)字應(yīng)用算術(shù)來執(zhí)行移位,再將結(jié)果轉(zhuǎn)換回字母;提示中還指定了字母和位置之間的映射。

圖片

4. 數(shù)字序列思維鏈(Number-CoT),該任務(wù)基于數(shù)字域(即輸入和輸出是數(shù)字序列),與移位密碼同構(gòu);推理需要對數(shù)字序列中的輸入元素應(yīng)用算術(shù)運(yùn)算以獲得相應(yīng)的輸出序列。

圖片

實(shí)驗(yàn)結(jié)果

研究人員使用了開源和閉源模型進(jìn)行實(shí)驗(yàn):GPT-4(gpt-4-0613),Claude 3(claude-3-opus-20240229),以及Llama-3.1-405B-Instruct,其中溫度設(shè)置為0,并將max_new_tokens設(shè)置為200。

在使用標(biāo)準(zhǔn)提示時(shí),GPT-4在大多數(shù)移位級別上的準(zhǔn)確率為零,但當(dāng)使用文本CoT時(shí),其準(zhǔn)確率大幅提升(平均準(zhǔn)確率達(dá)到32%),跟以前的研究結(jié)果相同,即CoT對移位密碼很有幫助,但仍然遠(yuǎn)非完美;但在使用數(shù)字CoT時(shí),GPT-4的表現(xiàn)結(jié)果幾乎達(dá)到了完美。

圖片

上述結(jié)果顯示,如果CoT提示中用到的是符號推理,那GPT-4的推理能力就會(huì)很完美;而事實(shí)上沒有得到完美分?jǐn)?shù),也表明了CoT推理并非純粹的符號推理。

盡管如此,CoT也很明顯優(yōu)于標(biāo)準(zhǔn)提示,所以CoT推理不太可能僅僅是簡單的記憶。

如果CoT推理既不是簡單的記憶也不是純粹的符號推理,那會(huì)是什么?

推理過程分解

研究人員考慮了大型語言模型(LLMs)可能采用的四種推理過程:

1. 符號推理(Symbolic reasoning)是使用離散的、確定性的推理規(guī)則。移位密碼可以通過簡單的符號算法完美解碼,因此一個(gè)使用完全系統(tǒng)化推理的系統(tǒng)應(yīng)該達(dá)到100%的準(zhǔn)確率。


2. 噪聲推理(Noisy reasoning)類似于符號推理,但增加了噪聲,導(dǎo)致推理過程中每個(gè)中間操作出錯(cuò)的可能性。如果系統(tǒng)使用噪聲推理,那應(yīng)該看到隨著需要執(zhí)行的操作數(shù)量的增加,準(zhǔn)確率會(huì)下降;移位密碼可以測試出這種可能性:通過改變移位級別,可以調(diào)節(jié)每個(gè)推理步驟中需要執(zhí)行的操作數(shù)量,并觀察準(zhǔn)確率是否相應(yīng)變化。

3. 記憶(Memorization)策略,模型可以記住在預(yù)訓(xùn)練中遇到的任務(wù),但無法泛化到新任務(wù)。如果LLMs所做的只是記憶,應(yīng)該看到在預(yù)訓(xùn)練中經(jīng)常遇到的情況比那些不經(jīng)常遇到的任務(wù)表現(xiàn)更好。

之前有研究表明,13是自然語料庫中最常見的移位級別,在一些網(wǎng)絡(luò)社區(qū)中很常見。

4. 概率推理(Probabilistic reasoning)將任務(wù)框架為選擇給定輸入下最可能的輸出,推理會(huì)受到輸出的先驗(yàn)概率的影響,概率推理器應(yīng)該隨著正確答案的先驗(yàn)概率增加,準(zhǔn)確率也會(huì)有所提升。

圖片

對比假設(shè)準(zhǔn)確率,研究人員發(fā)現(xiàn),隨著移位級別的增加,準(zhǔn)確率通常會(huì)下降,代表LLM在執(zhí)行噪聲推理,并且是雙向噪聲推理,模型可以對字母進(jìn)行向前或向后的移位來解碼消息,例如,向后移動(dòng)25個(gè)字母和向前移動(dòng)1個(gè)字母相同,但后者的中間步驟更少;雙向性質(zhì)的具體表現(xiàn)為,當(dāng)移位級別從20變?yōu)?5時(shí),準(zhǔn)確率會(huì)增加。

其次,模型進(jìn)行概率推理的證據(jù)是,準(zhǔn)確率在最高概率區(qū)間(區(qū)間1)遠(yuǎn)高于最低概率區(qū)間(區(qū)間5),其中「高概率」大多為常見的單詞,如{'mariner', 'shrines', 'paywall', ...},而「低概率」的情況大多是無意義的字母序列,如{'xcbrouw', 'jsxrouw', 'levjspx', ...}。

最后,雖然移位級別13比其他移位級別需要更多的推理步驟,但移位級別13上的準(zhǔn)確率存在一個(gè)峰值,代表模型執(zhí)行了記憶(13是自然語料庫中最常見的移位級別)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-09-23 09:40:00

AI數(shù)學(xué)模型

2022-07-26 09:56:48

模型AI

2023-09-12 14:45:18

2025-02-14 10:23:00

LLM模型谷歌

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2024-09-23 08:24:06

CoT解密技術(shù)

2024-02-01 08:34:30

大模型推理框架NVIDIA

2023-12-05 13:25:00

數(shù)據(jù)訓(xùn)練

2023-08-27 15:28:53

人工智能語言模型

2024-01-24 13:11:00

AI模型

2024-07-19 09:59:31

2025-02-12 12:04:54

2024-09-05 12:27:17

2023-05-22 15:17:02

谷歌AI

2023-11-19 23:36:50

2025-04-08 09:16:00

推理模型AI

2025-03-25 09:50:23

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2024-03-26 09:11:13

TensorFlow深度學(xué)習(xí)Pipeline

2025-02-13 08:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號