自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek R1也會大腦過載?過度思考后性能下降,少琢磨讓計(jì)算成本直降43%

人工智能 新聞
本文使用的評分系統(tǒng)與人類專家評估密切相關(guān),并證實(shí)了該系統(tǒng)在評估「LRM 傾向于內(nèi)部模擬而不是環(huán)境交互」的可靠性。他們使用系統(tǒng)分析了 4018 條軌跡,并創(chuàng)建了一個綜合性開源數(shù)據(jù)集,以推進(jìn)在智能體環(huán)境中平衡推理與行動的研究。

原來,大型推理模型(Large Reasoning Model,LRM)像人一樣,在「用腦過度」也會崩潰,進(jìn)而行動能力下降。

近日,加州大學(xué)伯克利分校、UIUC、ETH Zurich、CMU 等機(jī)構(gòu)的研究者觀察到了這一現(xiàn)象,他們分析了 LRM 在執(zhí)行智能體任務(wù)過程中存在的推理 - 行動困境,并著重強(qiáng)調(diào)了過度思考的危險(xiǎn)。


  • 論文標(biāo)題:The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
  • 論文鏈接:https://arxiv.org/pdf/2502.08235

在「單機(jī)模式」下,這些模型在實(shí)時互動的環(huán)境中仍是「思想上的巨人,行動中的矮子」。模型在面對任務(wù)時總要糾結(jié):是擼起袖子直接干,還是推演清楚每一步之后再下手?

那么想要讓 LRM 作為智能體的大腦,讓它們把現(xiàn)實(shí)世界中的臟活累活都解決了。并且,在同時獲取信息、保持記憶并作出反應(yīng)的復(fù)雜環(huán)境中,這些具備思考能力的 AI 應(yīng)當(dāng)如何平衡「想」和「做」的關(guān)系?

為了回答這些問題,研究者首次全面調(diào)研了智能體任務(wù)中的 LRM(包括 o1、DeepSeek R1、 Qwen2.5 等)以及它們存在的推理 - 行動困境。他們使用了現(xiàn)實(shí)世界的軟件工程任務(wù)作為實(shí)驗(yàn)框架,并使用 SWE-bench Verified 基準(zhǔn)以及 OpenHands 框架內(nèi)的 CodeAct 智能體架構(gòu)。

研究者創(chuàng)建了一個受控環(huán)境,其中 LRM 必須在信息收集與推理鏈之間取得平衡,同時在多個交互中個保持上下文。這樣一來,適當(dāng)?shù)钠胶庾兊弥陵P(guān)重要,過度內(nèi)部推理鏈可能會導(dǎo)致對環(huán)境做出錯誤假設(shè)。

從觀察結(jié)果來看,在推理 - 行動困境中,LRM 表現(xiàn)出了一致的行為模式,即傾向于內(nèi)部模擬而不是環(huán)境交互。它們會耗費(fèi)大把時間來構(gòu)建復(fù)雜的預(yù)測行動鏈,而不是適應(yīng)實(shí)際的系統(tǒng)響應(yīng)。研究者將這種現(xiàn)象稱為過度思考

為了對過度思考進(jìn)行量化,研究者使用 LLM-as-a-judge 開發(fā)并驗(yàn)證了一個系統(tǒng)評估框架。該框架確定了三種關(guān)鍵模式,分別如下:

  • 分析癱瘓(Analysis Paralysis)
  • 惡意行為(Rogue Actions)
  • 過早放棄(Premature Disengagement)

本文使用的評分系統(tǒng)與人類專家評估密切相關(guān),并證實(shí)了該系統(tǒng)在評估「LRM 傾向于內(nèi)部模擬而不是環(huán)境交互」的可靠性。他們使用系統(tǒng)分析了 4018 條軌跡,并創(chuàng)建了一個綜合性開源數(shù)據(jù)集,以推進(jìn)在智能體環(huán)境中平衡推理與行動的研究。

研究者的統(tǒng)計(jì)分析結(jié)果揭示了過度思考行為的兩種不同模式。首先,回歸分析表明,無論是推理還是非推理模型,過度思考與問題解決率之間存在顯著的負(fù)相關(guān)性(如圖 1), 后者隨著過度思考的增加而出現(xiàn)急劇的性能下降。

其次,直接比較表明,推理模型始終表現(xiàn)出更高的過度思考分?jǐn)?shù),幾乎是非推理模型的三倍,如表 2 所示。這意味著,推理模型更容易受到過度思考的影響。

因此,針對智能體環(huán)境中 LRM 的過度思考現(xiàn)象,研究者提出了兩種潛在的方法來緩解,分別是原生函數(shù)調(diào)用和選擇性強(qiáng)化學(xué)習(xí)。這兩種方法都可以顯著減少過度思考,同時提高模型性能,尤其是函數(shù)調(diào)用模型顯示出了有潛力的結(jié)果。

至于解決 LRM 的過度思考問題有哪些好處?研究者表示可以帶來巨大的實(shí)際效益,比如運(yùn)行具有強(qiáng)推理能力的 o1 可以實(shí)現(xiàn) 29.1% 的問題解決率,但成本為 1400 美元;相比之下,運(yùn)行較低推理能力的 o1 變體可以實(shí)現(xiàn) 21.0% 的問題解決率,成本只有 400 美元,降低了 3.5 倍。

另外,與使用成本高昂的強(qiáng)推理配置相比,生成兩個較少推理量的解決方案(總計(jì) 800 美元)并選擇其中過度思考分?jǐn)?shù)較低的一個,則可以實(shí)現(xiàn) 27.3% 的問題解決率。這種簡單的策略幾乎與強(qiáng)推理配置的表現(xiàn)相當(dāng),同時將計(jì)算成本降低了 43%。

過度思考

本文觀察到,在智能體決策任務(wù)中,LRM 不斷面臨推理 - 行動困境,必須在以下兩者之間進(jìn)行基本權(quán)衡:

  • 與環(huán)境的直接交互,模型執(zhí)行動作并接收反饋。
  • 內(nèi)部推理,模型在采取行動之前對假設(shè)性結(jié)果進(jìn)行推理。

過度思考的表現(xiàn)

本文對智能體與環(huán)境之間的交互進(jìn)行了詳盡分析。其中日志捕獲了智能體行為、環(huán)境反饋以及(如果可用的話)智能體推理過程的完整序列。本文系統(tǒng)地分析了這些軌跡,以理解過度思考的模式。

通過分析,本文識別出了 LRM 智能體軌跡中三種不同的過度思考模式:

  • 分析癱瘓(Analysis Paralysis),即智能體花費(fèi)過多的時間規(guī)劃未來步驟,卻無法行動;
  • 過早放棄(Premature Disengagement),即智能體基于內(nèi)部預(yù)測而非環(huán)境反饋提前終止任務(wù);
  • 惡意行為(Rogue Actions),面對錯誤,智能體嘗試同時執(zhí)行多個動作,破壞了環(huán)境的順序約束。

這些行為在圖 4 中得到了具體展示。

分析癱瘓:大型推理模型(LRMs)傾向于將注意力從立即行動中轉(zhuǎn)移到精心策劃的未來規(guī)劃上。它們可以生成越來越復(fù)雜的動作序列,但在系統(tǒng)地執(zhí)行這些動作時卻遇到困難(見圖 4a)。它們沒有去解決眼前的錯誤,而是構(gòu)建出通常未被執(zhí)行的復(fù)雜規(guī)劃,導(dǎo)致陷入一個沒有進(jìn)展的規(guī)劃循環(huán)中。

惡意行為:本文觀察到有些智能體故意在單一步驟中生成一系列相互依賴的動作,而不等待環(huán)境的反饋(見圖 4b)。盡管它們之前已經(jīng)表現(xiàn)出對逐步交互需求的認(rèn)識,模型仍然繼續(xù)構(gòu)建復(fù)雜的動作序列,這些序列假定了每個前一步驟的成功,有效地用內(nèi)部模擬代替了真實(shí)的環(huán)境反饋。

過早放棄:大型推理模型(LRMs)有時僅基于它們對問題空間的內(nèi)部模擬來終止任務(wù),要么直接放棄,要么通過委托假設(shè)的動作序列來實(shí)現(xiàn)(見圖 4c)。

量化過度思考

為了量化過度思考行為,本文開發(fā)了一種基于 LLM 評估者的系統(tǒng)性評分方法。該評估者分析模型軌跡中上述描述的模式,并分配一個 0 到 10 的分?jǐn)?shù),分?jǐn)?shù)越高表明過度思考行為越嚴(yán)重。每個分?jǐn)?shù)都附帶詳細(xì)的理由,解釋識別了哪些模式及其嚴(yán)重程度。

與非推理模型相比,推理模型一貫顯示出更高的過度思考得分。

評估框架和結(jié)果

在評估環(huán)節(jié),研究者使用 SWE-bench Verified 分析了 LRM 在代理環(huán)境中的性能,比較了推理模型和非推理模型,旨在回答以下研究問題: 

  • 問題 1:過度思考是否會影響代理性能?
  • 問題 2:它對不同模型有何影響?
  • 問題 3:我們能否減輕過度思考?

研究者在所有模型中使用本文評估方法生成并評估了 3908 條軌跡,且公開了每條軌跡及其相應(yīng)的過度思考得分以及得分背后的原因。

這些分析揭示了有關(guān)語言模型中過度思考的三個關(guān)鍵發(fā)現(xiàn):對模型性能的影響、在不同模型類型中的不同普遍程度、對模型選擇的實(shí)際影響。

如圖 3 所示,可以看出來,過度思考始終影響著所有評估模型的性能,推理優(yōu)化模型比通用模型表現(xiàn)出更高的過度思考傾向(如圖 1 所示)。

過度思考和問題解決

如圖 1 所示,研究者觀察到過度思考與 SWE-bench 的性能之間存在很強(qiáng)的負(fù)相關(guān)關(guān)系。隨著過度思考的增加,推理模型和非推理模型的性能都有所下降,但模式明顯不同。

過度思考和模型類型

對于推理模型和非推理模型中的過度思考,研究者提出了三點(diǎn)主要看法。

首先,非推理模型也會過度思考,這很可能是由于它們潛在的推理能力。最近的研究表明,非推理模型也表現(xiàn)出推理能力。

其次,推理模型的過度思考得分明顯高于非推理模型,如表 3 所示。由于這些模型經(jīng)過明確的推理訓(xùn)練,并通過模擬環(huán)境互動產(chǎn)生擴(kuò)展的思維鏈,因此它們更有可能出現(xiàn)過度思考的表現(xiàn)。

最后,研究者還觀察到,如表 1 中的 beta 系數(shù)所示,過度思考的非推理模型在問題解決方面會出現(xiàn)嚴(yán)重退化。Beta 系數(shù)越低,說明過度思考對性能的影響越大。研究者的猜測是,由于非推理模型沒有經(jīng)過推理訓(xùn)練,它們無法有效地處理推理鏈,因此表現(xiàn)出更差的結(jié)果。

過度思考和模型規(guī)模

此處的評估檢查了三個規(guī)模變體(32B、14B、7B)的兩個模型系列:非推理的 Qwen2.5- Instruct 和推理的 R1-Distill-Qwen。

如圖 6 所示,分析表明,模型規(guī)模與過度思考行為之間存在負(fù)相關(guān)。研究者假定,較小的模型在環(huán)境理解方面有困難,導(dǎo)致它們更依賴于內(nèi)部推理鏈,增加了它們過度思考的傾向。

不過,模型大小與過度思考之間的關(guān)系在不同類型的模型中表現(xiàn)不同。如表 3 所示,推理模型和非推理模型的過度思考得分都隨著模型大小的減小而增加,其中推理模型一直表現(xiàn)出更容易過度思考。然而,隨著模型規(guī)模的進(jìn)一步縮小,推理模型與非推理模型之間的過度思考得分差距也明顯縮小。較小模型的過度思考行為趨向于高過度思考得分,這可能是由于它們在處理環(huán)境復(fù)雜性方面都存在困難。當(dāng)面對環(huán)境互動中的反復(fù)失敗時,這些模型似乎會退回到其內(nèi)部推理鏈,而忽視外部反饋。雖然這種模式與研究者的觀察結(jié)果一致,但還需要進(jìn)一步的研究來確認(rèn)其根本原因。

過度思考和 token 使用

分析表明,低推理努力程度的 o1 模型的過度思考得分比高推理嘗試程度的模型高出 35%。如表 4 所示,兩種配置的平均過度思考得分差異具有統(tǒng)計(jì)學(xué)意義,這表明增加 token 分配可能會減少代理上下文中的過度思考。

這個發(fā)現(xiàn)對最近一些研究中推理 token 使用量的增加與過度思考相關(guān)的觀點(diǎn)提出了質(zhì)疑。相反,本文研究結(jié)果表明,擁有更多的推理 token 可以有效地抑制過度思考,從而突出了結(jié)構(gòu)化推理過程在模型表現(xiàn)中的重要性。

過度思考和上下文窗口

研究者還分析了不同上下文窗口大?。◤?8K 到 32K token)的模型。在比較架構(gòu)和大小相似但上下文窗口不同的模型時,他們發(fā)現(xiàn)上下文窗口大小與過度思考得分之間沒有明顯的相關(guān)性。

由此推測,這種不相關(guān)性可能是因?yàn)檫^度思考行為更多地受到模型的架構(gòu)設(shè)計(jì)和訓(xùn)練方法的影響,而不是其上下文能力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-20 15:32:28

2025-01-27 12:30:07

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2013-04-24 09:44:19

云計(jì)算成本模式云計(jì)算成本云計(jì)算成本分析

2025-04-03 09:42:05

2025-02-18 10:54:04

2025-02-11 08:35:30

2025-02-25 09:13:16

2025-02-11 16:11:12

2025-02-17 00:00:05

IDEADeepSeek

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-04-21 08:42:00

模型開源AI

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2025-02-17 09:33:00

AI算法模型

2025-02-07 13:10:06

2010-05-14 09:02:03

云計(jì)算成本

2013-08-19 08:58:00

云計(jì)算成本服務(wù)器虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號