自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

田淵棟團(tuán)隊(duì)論文火了!連續(xù)思維鏈優(yōu)于CoT,打開LLM推理新范式

人工智能 新聞
為了探索 LLM 在不受限制潛在空間中的推理潛力,而非使用自然語言,來自 Meta、加州大學(xué)圣地亞哥分校的研究者提出了一種新的范式 ——Coconut(連續(xù)思維鏈,Chain of Continuous Thought),來探索 LLM 在潛在空間中的推理。

在認(rèn)知科學(xué)領(lǐng)域,關(guān)于語言是用于思考還是用于交流的辯論一直持續(xù)。

隨著 LLM 和 CoT 的興起,語言已經(jīng)成為機(jī)器推理的默認(rèn)媒介 —— 但它真的是最佳方法嗎?

一般而言,LLM 被限制在語言空間(language space)內(nèi)進(jìn)行推理,并通過思維鏈(CoT)來表達(dá)推理過程,從而解決復(fù)雜的推理問題。 

然而,語言空間可能并不總是最適合推理的。例如,很多單詞 token 主要用于文本連貫性,而不是推理本身,而一些關(guān)鍵 token 則需要復(fù)雜的規(guī)劃,這種差異給 LLM 帶來巨大的挑戰(zhàn)。 

為了探索 LLM 在不受限制潛在空間中的推理潛力,而非使用自然語言,來自 Meta、加州大學(xué)圣地亞哥分校的研究者提出了一種新的范式 ——Coconut(連續(xù)思維鏈,Chain of Continuous Thought),來探索 LLM 在潛在空間中的推理。

圖片

  • 論文標(biāo)題:Training Large Language Models to Reason in a Continuous Latent Space
  • 論文地址:https://arxiv.org/pdf/2412.06769

Coconut 涉及對(duì)傳統(tǒng) CoT 過程的簡單修改:Coconut 不再通過語言模型頭(language model head)和嵌入層將隱藏狀態(tài)與語言 token 進(jìn)行映射,而是直接將最后的隱藏狀態(tài)(即連續(xù)思維)作為下一個(gè) token 的輸入嵌入(如圖 1 所示)。 

這種修改將推理從語言空間中解放出來,并且由于連續(xù)思維是完全可微的,因此可以通過梯度下降對(duì)系統(tǒng)進(jìn)行端到端優(yōu)化。為了增強(qiáng)潛在推理的訓(xùn)練,本文采用了多階段訓(xùn)練策略,該策略有效地利用語言推理鏈來指導(dǎo)訓(xùn)練過程。

這種范式帶來了高效的推理模式,與基于語言的推理不同,Coconut 中的連續(xù)思維可以同時(shí)編碼多個(gè)潛在下一步,從而實(shí)現(xiàn)類似于 BFS(breadth-first search)的推理過程。盡管模型在初始階段可能做出不正確的決策,但它可以在連續(xù)思維中保持許多可能的選項(xiàng),并通過推理逐步排除錯(cuò)誤路徑,這一過程由一些隱含的價(jià)值函數(shù)引導(dǎo)。這種高級(jí)的推理機(jī)制超越了傳統(tǒng)的 CoT,即使模型并沒有顯式地接受訓(xùn)練或指示以這種方式操作。 

實(shí)驗(yàn)表明,Coconut 成功增強(qiáng)了 LLM 的推理能力。對(duì)于數(shù)學(xué)推理(GSM8k),使用連續(xù)思維被證明有利于提高推理準(zhǔn)確率,這與語言推理鏈的效果相似。通過鏈接更多連續(xù)思維,可以擴(kuò)展和解決日益具有挑戰(zhàn)性的問題。

在邏輯推理方面,包括 ProntoQA 和本文新提出的 ProsQA,這需要更強(qiáng)的規(guī)劃能力,Coconut 及其一些變體甚至超越了基于語言的 CoT 方法,同時(shí)在推理過程中生成的 token 明顯更少。

這項(xiàng)研究在 X 上的討論量非常高,其中單人轉(zhuǎn)發(fā)的瀏覽量就高達(dá) 20 多萬。

圖片


連續(xù)思維鏈:Coconut


方法概述。在 Coconut 方法中,LLM 在語言模式和潛在模式之間切換(圖 1):

  • 在語言模式下,該模型作為標(biāo)準(zhǔn)語言模型運(yùn)行,自回歸生成下一個(gè) token。
  • 在潛在模式下,它直接利用最后一個(gè)隱藏狀態(tài)作為下一個(gè)輸入嵌入。這個(gè)最后的隱藏狀態(tài)代表當(dāng)前的推理狀態(tài),稱為連續(xù)思維。

特殊 token < bot >、< eot > 分別用于標(biāo)記潛在思維模式的開始和結(jié)束。

圖片

訓(xùn)練。本文專注于問題 - 解決設(shè)置,其中模型接收問題作為輸入,并通過推理過程生成答案。作者利用語言 CoT 數(shù)據(jù)來監(jiān)督連續(xù)思維。如圖 2 所示,在初始階段,模型在常規(guī) CoT 實(shí)例上進(jìn)行訓(xùn)練。在后續(xù)階段,即第 k 階段,CoT 中的前 k 個(gè)推理步驟被替換為 k × c 個(gè)連續(xù)思維,其中 c 是一個(gè)超參數(shù),用于控制替換單個(gè)語言推理步驟的潛在思維的數(shù)量。

圖片

推理過程。Coconut 的推理過程類似于標(biāo)準(zhǔn)的語言模型解碼過程,不同之處在于,在潛在模式下,本文直接將最后一個(gè)隱藏狀態(tài)作為下一個(gè)輸入嵌入。這樣做面臨的挑戰(zhàn)是確定何時(shí)在潛在模式和語言模式之間切換。當(dāng)專注于問題 - 解決設(shè)置時(shí),本文會(huì)在問題 token 后立即插入一個(gè) < bot >token。對(duì)于 < eot >,作者考慮兩種潛在策略:a) 在潛在思維上訓(xùn)練二元分類器,使模型能夠自主決定何時(shí)終止?jié)撛谕评?,?b) 始終將潛在思維填充到恒定長度。本文發(fā)現(xiàn)這兩種方法效果都相當(dāng)好。除非另有說明,本文在實(shí)驗(yàn)中使用第二種選項(xiàng)以簡化操作。

實(shí)驗(yàn)

研究團(tuán)隊(duì)通過三個(gè)數(shù)據(jù)集驗(yàn)證了大語言模型在連續(xù)潛空間中進(jìn)行推理的可行性。實(shí)驗(yàn)主要評(píng)估模型生成答案的準(zhǔn)確性和推理效率。

實(shí)驗(yàn)涉及兩類主要任務(wù):數(shù)學(xué)推理和邏輯推理。數(shù)學(xué)推理使用 GSM8k 數(shù)據(jù)集。邏輯推理則采用了兩個(gè)數(shù)據(jù)集:5-hop ProntoQA 與該團(tuán)隊(duì)自行開發(fā)的 ProsQA。

ProntoQA 給出一個(gè)層級(jí)分類的知識(shí)結(jié)構(gòu),要求模型判斷不同類別之間的從屬關(guān)系是否正確。而 ProsQA 中是更具挑戰(zhàn)性的推理任務(wù),包含許多隨機(jī)生成的有向無環(huán)圖,要求模型進(jìn)行大量規(guī)劃和搜索。

實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)設(shè)置方面,研究采用預(yù)訓(xùn)練的 GPT-2 模型,學(xué)習(xí)率為 1×10^?4,批量大小為 128。

對(duì)于數(shù)學(xué)推理任務(wù),每個(gè)推理步驟使用 2 個(gè)潛在思維向量表示,整個(gè)訓(xùn)練過程分為 4 個(gè)漸進(jìn)式階段。

在邏輯推理任務(wù)中,每步使用 1 個(gè)潛在思維向量,訓(xùn)練分為 7 個(gè)漸進(jìn)式階段,逐步增加難度。所有實(shí)驗(yàn)均在標(biāo)準(zhǔn)訓(xùn)練流程后繼續(xù)訓(xùn)練至第 50 輪,并通過在驗(yàn)證集上評(píng)估準(zhǔn)確率來選擇性能最佳的模型檢查點(diǎn)用于最終測試。

基線方法和各種版本的 Coconut

為了全面評(píng)估方法效果,研究團(tuán)隊(duì)設(shè)置了以下基線方法進(jìn)行對(duì)比:

1. 傳統(tǒng)的 CoT:使用完整的思維鏈進(jìn)行訓(xùn)練,讓模型生成每一步的推理過程

2. No-CoT:模型直接生成最終答案,不要求中間推理步驟

3. iCoT:采用漸進(jìn)式策略,逐步移除推理鏈中的步驟

4. Pause token:在問題和答案之間插入特殊的暫停 token

同時(shí),他們還評(píng)估了 Coconut 的三個(gè)變體版本:

1. 無課程學(xué)習(xí)版本:跳過漸進(jìn)訓(xùn)練,直接采用最終階段的訓(xùn)練方式

2. 無思維版本:移除連續(xù)思維表示,僅保留分階段訓(xùn)練機(jī)制

3. 思維替換版本:用特殊 token 替代連續(xù)思維的表示方式

結(jié)果與討論

圖片

表 1 展示了所有數(shù)據(jù)集的整體結(jié)果。連續(xù)思維有效增強(qiáng)了大語言模型的推理能力,這從其相比無 CoT 基線的一致性提升可以看出。在 ProntoQA 和 ProsQA 上,其表現(xiàn)甚至超過了 CoT。

研究團(tuán)隊(duì)從實(shí)驗(yàn)中得出了以下幾個(gè)關(guān)鍵結(jié)論:

連續(xù)思維的「鏈?zhǔn)健菇M合增強(qiáng)了推理能力。

在傳統(tǒng) CoT 中,輸出 token 會(huì)作為下一步的輸入,這被既有的研究證明可以增加模型的有效深度和表達(dá)能力。

該團(tuán)隊(duì)進(jìn)一步探索了這一特性是否也適用于潛空間推理,因?yàn)檫@意味著這種方法可以通過鏈接多個(gè)潛在思維來解決更復(fù)雜的問題。

在 GSM8k 數(shù)據(jù)集的實(shí)驗(yàn)中,Coconut 的表現(xiàn)優(yōu)于其他采用類似策略訓(xùn)練的架構(gòu),特別是超過了最新的 iCoT 基線,也顯著優(yōu)于同樣能增加計(jì)算能力的 Coconut(pause as thought)變體。

雖然此前的研究已經(jīng)證明特殊的 token 可以解決高度并行化的問題,該研究團(tuán)隊(duì)的結(jié)果顯示 Coconut 架構(gòu)在一般問題上更有效,比如數(shù)學(xué)應(yīng)用題這種后續(xù)步驟高度依賴前序步驟的問題。

此外,當(dāng)調(diào)整控制每個(gè)語言推理步驟對(duì)應(yīng)潛在思維數(shù)量的參數(shù) c 時(shí)(見圖 3),隨著 c 從 0 增加到 1 再到 2,模型性能穩(wěn)步提升。這表明類似 CoT 的鏈?zhǔn)叫?yīng)在潛空間中也存在。

圖片

潛在空間推理在規(guī)劃密集型任務(wù)中優(yōu)于語言推理。復(fù)雜推理往往要求模型「前瞻」并評(píng)估每一步的合理性。在研究團(tuán)隊(duì)的數(shù)據(jù)集中,GSM8k 和 ProntoQA 由于問題結(jié)構(gòu)直觀且分支有限,相對(duì)容易預(yù)測下一步。相比之下,ProsQA 的隨機(jī)生成 DAG 結(jié)構(gòu)顯著挑戰(zhàn)了模型的規(guī)劃能力。

如表 1 所示,CoT 相比 No-CoT 并無明顯改進(jìn)。然而,Coconut 及其變體和 iCoT 在 ProsQA 上大幅提升了推理能力,表明潛空間推理在需要大量規(guī)劃的任務(wù)中具有明顯優(yōu)勢。

模型仍需指導(dǎo)來學(xué)習(xí)潛在空間推理

理想情況下,模型應(yīng)該能通過問答數(shù)據(jù)的梯度下降自動(dòng)學(xué)習(xí)最有效的連續(xù)思維(即無課程學(xué)習(xí)版本的 Coconut)。然而,實(shí)驗(yàn)結(jié)果顯示這種訓(xùn)練方式的表現(xiàn)并不優(yōu)于 no-CoT。將訓(xùn)練分解按照目標(biāo)劃分為多階段課程,Coconut 在各種任務(wù)中都取得了最佳性能。

連續(xù)思維是推理的高效表示

雖然連續(xù)思維最初并不是為了轉(zhuǎn)換成具體的語言文字而設(shè)計(jì)的,但該團(tuán)隊(duì)發(fā)現(xiàn)它可以用來直觀地解釋推理過程。

圖 4 展示了一個(gè)由 Coconut(c=1)解決的數(shù)學(xué)應(yīng)用題案例研究。第一個(gè)連續(xù)思維可以解碼為「180」、「180」(帶空格)和「9」等 token。這個(gè)問題的推理過程應(yīng)該是 3×3×60=9×60=540,或 3×3×60=3×180=540。

這恰好對(duì)應(yīng)了解題過程中的第一步中間計(jì)算結(jié)果(3×3×60 可以先算出 9 或 180)。更重要的是,連續(xù)思維能夠同時(shí)包含多種不同的解題思路,這種特性使它在需要復(fù)雜規(guī)劃的推理任務(wù)中表現(xiàn)出色。

圖片

理解 Coconut 中的潛在推理機(jī)制

接下來,作者使用 Coconut 的一個(gè)變體對(duì)潛在推理過程進(jìn)行了分析。

模型:Coconut 允許通過在推理期間手動(dòng)設(shè)置 < eot > 的位置來控制潛在思維的數(shù)量。當(dāng)強(qiáng)迫 Coconut 使用 k 個(gè)連續(xù)思維時(shí),該模型預(yù)計(jì)將從第 k + 1 步開始,用語言輸出剩余的推理鏈。實(shí)驗(yàn)采用 k∈{0,1,2,3,4,5,6} 在 ProsQA 上測試 Coconut 的變體。

 圖 5 展示了在 ProsQA 上對(duì)不同推理方法的對(duì)比分析。隨著更多的推理在連續(xù)思維中進(jìn)行(k 值增加),最終答案的準(zhǔn)確率(圖 5 左)以及正確推理過程的比例(圖 5 右中的 Correct Label 和 Correct Path)都得到了提高。此外,幻覺(Hallucination)和錯(cuò)誤目標(biāo)(Wrong Target)的發(fā)生率也下降。這也表明,當(dāng)更多的推理發(fā)生在潛在空間中時(shí),模型的規(guī)劃能力得到了提升。 

圖片

圖 6 為一個(gè)案例研究,其中 CoT 產(chǎn)生了幻覺,Coconut(k = 1)導(dǎo)致錯(cuò)誤的目標(biāo),但 Coconut(k = 2)成功解決了問題。在此示例中,模型無法準(zhǔn)確確定在早期步驟中選擇哪條邊。但是,由于潛在推理可以避免在前期做出艱難的選擇,因此模型可以在后續(xù)步驟中逐步消除不正確的選項(xiàng),并在推理結(jié)束時(shí)實(shí)現(xiàn)更高的準(zhǔn)確率。

圖片

潛在搜索樹的解釋

由于連續(xù)思維可以編碼多個(gè)潛在的下一步,潛在推理可以被解釋為一個(gè)搜索樹,而不僅僅是推理「鏈」。以圖 6 為例,第一步可以選擇 Alex 的任一子節(jié)點(diǎn):{lempus, sterpus, zhorpus, grimpus}。

圖片

圖 7 左側(cè)展示了所有可能的分支。同樣,第二步的前沿節(jié)點(diǎn)是 Alex 的孫節(jié)點(diǎn)(圖 7 右側(cè))。

圖片

與標(biāo)準(zhǔn)廣度優(yōu)先搜索不同,模型展現(xiàn)出優(yōu)先探索有希望的節(jié)點(diǎn)同時(shí)剪枝不相關(guān)節(jié)點(diǎn)的能力。通過分析模型在語言空間的后續(xù)輸出,研究團(tuán)隊(duì)發(fā)現(xiàn)了模型的偏好。例如,當(dāng)模型在一個(gè)潛在思維后切換回語言空間(k=1),它會(huì)以結(jié)構(gòu)化格式預(yù)測下一步。通過檢查概率分布,研究團(tuán)隊(duì)得到了根節(jié)點(diǎn) Alex 的子節(jié)點(diǎn)的數(shù)值(圖 7 左)。同樣,當(dāng) k=2 時(shí),也獲得了所有前沿節(jié)點(diǎn)的預(yù)測概率(圖 7 右)。

圖 8 展示了模型如何在潛在思維空間中進(jìn)行推理。在第一個(gè)潛在思維階段,模型會(huì)同時(shí)考慮多個(gè)可能的推理方向,保持思維的多樣性。到了第二個(gè)潛在思維階段,模型會(huì)逐步縮小范圍,將注意力集中在最可能正確的推理路徑上。這種從發(fā)散到收斂的推理過程,體現(xiàn)了模型在潛在空間中的推理能力。

為什么潛在空間更適合規(guī)劃?

在這一節(jié)中,研究團(tuán)隊(duì)探討了潛在推理在規(guī)劃中的優(yōu)勢。例如,圖 6 中的「sterpus」是葉節(jié)點(diǎn),無法通向目標(biāo)節(jié)點(diǎn)「bompus」,容易被識(shí)別為錯(cuò)誤選項(xiàng)。相比之下,其他節(jié)點(diǎn)有更多后續(xù)的節(jié)點(diǎn)需要探索,推理難度更大。

研究團(tuán)隊(duì)通過測量節(jié)點(diǎn)在樹中的高度(到葉節(jié)點(diǎn)的最短距離)來量化探索潛力。他們發(fā)現(xiàn)高度較低的節(jié)點(diǎn)更容易評(píng)估,因?yàn)樘剿鳚摿τ邢?。在圖 6 中,模型對(duì)高度為 2 的「grimpus」和「lempus」節(jié)點(diǎn)表現(xiàn)出更大的不確定性。

為了更嚴(yán)格地驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)分析了測試集中第一步和第二步潛在推理過程中模型預(yù)測概率與節(jié)點(diǎn)高度之間的相關(guān)性。圖 9 揭示了一個(gè)規(guī)律:當(dāng)節(jié)點(diǎn)高度較低時(shí),模型會(huì)為錯(cuò)誤節(jié)點(diǎn)分配較低值,為正確節(jié)點(diǎn)分配較高值。

圖片

然而,隨著節(jié)點(diǎn)高度增加,這種區(qū)分變得不那么明顯,表明評(píng)估難度增大。總之,這些發(fā)現(xiàn)突出了利用潛在空間進(jìn)行規(guī)劃的優(yōu)勢。模型通過延遲做出決策,并在潛在推理過程中不斷探索,最終將搜索推向樹的終端狀態(tài),從而更容易區(qū)分出正確和錯(cuò)誤的節(jié)點(diǎn)。

更多研究細(xì)節(jié),請(qǐng)參閱原文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-19 09:48:07

2024-02-26 00:20:00

AI模型

2024-09-20 15:35:33

2023-12-07 06:51:18

AI模型

2024-12-18 14:53:28

2023-06-12 09:57:22

AIChatGPT

2023-03-17 08:28:17

GPT-4AI

2025-02-17 09:30:00

AI訓(xùn)練模型

2024-10-28 08:50:00

2023-06-30 09:49:23

模型Meta

2024-10-17 14:10:00

模型訓(xùn)練

2025-03-25 09:12:00

LIMAI模型

2025-02-07 16:07:39

2025-03-12 09:48:19

2025-02-13 09:00:00

2023-06-28 18:10:27

羊駝家族大模型集體進(jìn)化

2023-08-04 13:42:41

2021-10-28 15:41:07

計(jì)算機(jī)AI 技術(shù)

2025-03-07 11:06:06

大型語言模型AICoD

2024-10-16 13:50:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)