自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從想太多到想不透?DeepSeek-R1等長推理模型也存在「思考不足」問題

人工智能 新聞
騰訊 AI Lab 與蘇州大學(xué)、上海交通大學(xué)聯(lián)合團隊最新發(fā)現(xiàn),長推理模型也存在思考不足問題。

本文將介紹首個關(guān)于長推理模型 “思考不足” 現(xiàn)象的工作。該工作由騰訊 AI Lab 與蘇州大學(xué)、上海交通大學(xué)團隊共同完成。本文的通訊作者為涂兆鵬,騰訊專家研究員,研究方向為深度學(xué)習(xí)和大模型,在國際頂級期刊和會議上發(fā)表學(xué)術(shù)論文一百余篇,引用超過 9000 次。擔任 SCI 期刊 NeuroComputing 副主編,多次擔任 ACL、EMNLP、ICLR 等國際頂級會議領(lǐng)域主席。第一作者為蘇州大學(xué)博士生王越,騰訊 AI Lab 高級研究員劉秋志、徐嘉豪、梁添,以及上海交通大學(xué)博士生陳星宇、何志威。

圖片

  • 論文題目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
  • 論文地址:https://arxiv.org/pdf/2501.18585

背景與動機

長推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等,因其展現(xiàn)出類似人類的深度思考能力而備受關(guān)注。這些模型通過長時間推理(Inference-Time Scaling),能夠在解碼階段不斷思考并嘗試新的思路來優(yōu)化自身的答案質(zhì)量。然而,長推理模型在推理過程中所有的思考是否高效,這一問題仍未得到充分探索。

此前,騰訊 AI Lab 的研究團隊發(fā)現(xiàn),長推理模型在面對簡單問題時,其思考行為會出現(xiàn)大量重復(fù),從而浪費大量計算資源 [5](o1 也會「想太多」?騰訊 AI Lab 與上海交大揭秘 o1 模型過度思考問題)。而在面對難題時,長推理模型的思考模式是否高效依然是一個疑問。基于此,該研究團隊進一步深入研究,試圖揭示長推理模型在復(fù)雜問題上的表現(xiàn)及其潛在問題。

思考不足是長推理模型的 “注意力缺陷多動障礙”

研究團隊的最新研究顯示,長推理模型在推理過程中往往頻繁地進行思路跳轉(zhuǎn),無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。研究團隊首先將 “思路(thought)” 定義為模型在推理策略中產(chǎn)生的中間認知步驟。長推理模型常常通過使用 “alternatively” 等術(shù)語來切換推理思路。例如,在下圖所示的例子中,模型可能會從代數(shù)操作轉(zhuǎn)向幾何解釋,再到優(yōu)化策略。這種思路切換使得長推理模型能夠更廣泛地探索潛在的解決方案,展示了其在解決復(fù)雜問題時的靈活性。

圖片

研究人員統(tǒng)計了在 MATH500 測試集的不同難度級別下,生成回答時的平均思路和 token 數(shù)量:

圖片

顯然,隨著難度增加,所有模型產(chǎn)生的推理思路也有所增多,并且這一趨勢與生成 token 數(shù)量的增長一致。這表明,隨著問題復(fù)雜性的增加,模型更傾向于頻繁切換思路,從而能夠動態(tài)調(diào)整推理過程,以應(yīng)對更具挑戰(zhàn)性的問題。

那么,長推理模型是否會在思路切換的過程中提升其準確率呢?圍繞這一問題,研究團隊在 AIME24、Math500-Hard 和 GPQA Diamond 等測試集上,對正確回答和錯誤回答的平均思路數(shù)量以及 token 數(shù)量進行了深入分析,結(jié)果如下圖所示:

圖片

圖片

相較于正確答案,長推理模型在錯誤回答中往往會出現(xiàn)更多的推理思路切換。這導(dǎo)致了回答長度顯著增長,但準確性卻未能相應(yīng)提升。平均而言,長推理模型在 AIME24 上的錯誤回答中因頻繁思路切換,生成的 token 數(shù)量比正確回答多出 225%,思路數(shù)量增加了 418%。相比之下,傳統(tǒng)的 LLM(如 Qwen-Math-72B 和 Llama3.3-79B)在正確與錯誤回答之間的回答長度沒有顯著差異。

這一趨勢表明,盡管模型被設(shè)計為動態(tài)調(diào)整其認知過程來解決問題,但更頻繁的思路切換并不一定能提升準確性。換句話說,在處理難題時,長推理模型也存在 “注意力缺陷多動障礙” 的問題。研究團隊將這種現(xiàn)象命名為 “思考不足”(Underthinking),即長推理模型在推理過程中頻繁地進行思路跳轉(zhuǎn),無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。實際上,模型可能在消耗額外計算資源(通過增加生成的 token 體現(xiàn))時,未能提供更精確的解決方案。這些發(fā)現(xiàn)表明,在面對復(fù)雜問題時,除了探索額外的認知途徑外,更需要以更有針對性和高效的方式進行操作,才能在推理復(fù)雜的問題時提升準確性。

量化 “思考不足”

研究團隊認為,頻繁切換思路而得出錯誤答案的行為,可能源于以下兩個原因:一是真正的思考不足,即模型雖然找到了一條有希望的思路,但未能持續(xù)深入地堅持下去;二是對問題缺乏深入理解,從而盲目探索各種無效的方法。

為了進一步厘清這些可能性,研究團隊提出了一個評估框架,用于評估一條被放棄的推理路徑是否足以得出正確的答案。通過關(guān)注模型是否能夠持續(xù)遵循和深化一條 “看起來有希望的思路”,可以識別思考不足的情況。具體而言,研究團隊使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 來判斷一個思路是否能得到正確答案。

為了驗證模型回答中的初步想法是否正確,下圖展示了在錯誤回答中不同位置思路的正確比例。

圖片

結(jié)果顯示,在各種模型的初步想法中,相當一部分的解題思路是正確的,但遺憾的是,模型并沒有深入思考這些解題思路,而是過早地放棄了。這一現(xiàn)象表明,模型需要增強持續(xù)深入且準確地探索特定推理路徑的能力,而不是輕易轉(zhuǎn)向其他思路。

此外,研究團隊還分析了不同模型的錯誤回答中正確思路比例的分布情況,如下圖所示:

圖片

觀察發(fā)現(xiàn),超過 70% 的錯誤回答中至少包含一個正確的思路。此外,在這些回答中,有超過 50% 的回答其正確思路的比例達到 10% 以上。這表明,雖然長推理模型能夠成功找到正確的推理思路,但它們往往難以沿著這些路徑持續(xù)深入,進而得出正確的結(jié)論。這一現(xiàn)象凸顯了鼓勵模型保持并拓展其最初正確思路的重要性,以便將這些正確思路整合為準確的最終答案。

基于上述觀察結(jié)果,研究團隊提出了第一個針對長推理模型思考不足的指標(Underthinking Score),表示為圖片。該指標的計算公式為:

圖片

其中,N 是測試集中的錯題數(shù)量,圖片是第 i 個錯題的回答 token 數(shù)量,圖片是從該回答開始到第一個正確想法為止的 token 數(shù)量(包括第一個正確想法)。如果第 i 個回答中沒有正確的思路,則 圖片 ,表示模型對該問題缺乏理解,因此無法認為是 “思考不足”。直觀地說,如果一個模型在回答過程中最初產(chǎn)生了正確的思路,但隨后轉(zhuǎn)向其他思路并最終未能得出正確答案,那么此后生成的 token 對于最終達到正確答案并無實質(zhì)性貢獻。這種情況下,由于缺乏足夠的思考深度,模型的推理過程被認為是低效的。具體而言,圖片值低表示更高的推理效率,這意味著在錯誤回答中,有更大比例的 token 能夠為正確思路的形成提供支持;圖片值高表示較低的推理效率,意味著有更大比例的 token 未能有效助力于正確思路的生成,即模型可能因頻繁切換思路而生成大量冗余或不相關(guān)的 token。

借助這一指標,研究人員能夠定量地評估模型在錯誤回答中的推理效率。下表展示了不同模型的準確率(越高性能越強)和思考不足得分圖片(越小越能充分思考):

圖片

結(jié)果表明,單純增大模型尺寸并不能避免思考不足,模型準確率的提升也不一定會減少該現(xiàn)象。由此可見,我們需要深入探索思考不足這一復(fù)雜現(xiàn)象,從而在訓(xùn)練模型的過程中,不僅使其能夠給出正確的答案,還能具備高效的推理能力。

緩解思考不足:引入思路轉(zhuǎn)換懲罰

為了緩解長推理模型的思考不足現(xiàn)象,研究團隊提出了一種懲罰思路轉(zhuǎn)換的解碼策略,稱為 “Thought Switching Penalty”(TIP)。該策略通過在生成過程中對思路切換施加懲罰,鼓勵模型在深入探索每個推理路徑后再考慮其他替代方案。

在標準的解碼過程中,在位置 t 生成 token v 的概率是通過對輸出層的 logits 使用 softmax 函數(shù)計算的:

圖片

其中 圖片是位置 t 關(guān)于 token v 的 logit(未歸一化的分數(shù))。為了鼓勵模型在切換思路之前更深入地探索當前思路,研究團隊引入了一個對與思路轉(zhuǎn)換相關(guān)的表達懲罰。具體而言,設(shè)圖片 是與思路切換相關(guān)的詞匯集合(例如,“alternatively”),作者們修改了 logits 如下:

圖片

其中:圖片(懲罰強度)是一個控制對思路切換標記施加懲罰強度的參數(shù)。較大的圖片會導(dǎo)致這些詞語的 logits 減少更多,使它們被選中的可能性降低;圖片(懲罰持續(xù)時間)指定了從思路開始位置 圖片起的懲罰生效的位置數(shù)。較大的圖片會延長懲罰的范圍,進一步阻止過早的思路切換;當圖片時,懲罰被禁用,解碼過程退化為標準解碼算法。

調(diào)整后的 logits圖片減少了在指定窗口內(nèi)生成思路切換標記的概率,從而鼓勵模型在繼續(xù)擴展當前思路之前不進行切換。新的概率分布變?yōu)椋?/span>

圖片

TIP 策略通過懲罰機制抑制模型生成思路轉(zhuǎn)換相關(guān)的詞語,從而鼓勵模型在生成文本時保持其原始的推理路徑,并進行更深入的思考,避免頻繁的策略切換和表面化的推理模式。下圖展示了 QwQ-32B-Preview 在加入了 TIP 策略之后的結(jié)果:

圖片

結(jié)果顯示,通過引入 TIP 策略,即使不進行模型微調(diào)也能在 MATH500-Hard、GPQA Diamond 和 AIME2024 上獲得準確率提升并減少思考不足。

總結(jié)

騰訊 AI Lab 與蘇州大學(xué)、上海交通大學(xué)聯(lián)合團隊最新發(fā)現(xiàn),長推理模型也存在思考不足問題。具體體現(xiàn)為長推理模型在推理過程中頻繁地進行思路跳轉(zhuǎn),無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。研究團隊將這種現(xiàn)象命名為 “思考不足”(Underthinking)。

研究團隊首先觀察到長推理模型頻繁切換思路的現(xiàn)象,并進一步發(fā)現(xiàn)這一現(xiàn)象由思考不足導(dǎo)致。為了定量評估思路切換的問題,研究團隊引入了一種新穎的思考不足指標,為推理效率低下提供了量化評估框架。同時,研究團隊提出了一種緩解思考不足的簡單有效方案 —— 帶有思路切換懲罰(Thought Switching Penalty,TIP)的解碼方法。該方法鼓勵模型在考慮替代方案之前,徹底探索每一條推理思路,從而無需額外的微調(diào)就能提高模型的準確性。

這項研究不僅揭示了長推理模型在推理過程中的不足之處,還提供了一種實用的解決方案,有助于顯著提升模型在處理復(fù)雜問題時的表現(xiàn)。展望未來,研究者將繼續(xù)探索模型中的自適應(yīng)機制,以實現(xiàn)對思路轉(zhuǎn)變的自我調(diào)節(jié),進一步提高長推理模型的推理效率。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-03-06 17:29:21

2025-04-07 09:23:00

大模型LLM推理

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-24 14:05:00

LLM模型AI

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-02-21 10:34:49

2025-02-13 08:51:23

DeepSeek大模型

2025-03-06 10:14:39

2025-01-08 13:08:55

2025-02-19 08:00:00

2025-03-06 09:55:49

2025-04-11 14:54:44

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-04-11 12:04:58

2025-03-19 09:20:00

2025-02-08 09:44:11

DeepSeekAI模型

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號