自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

推理模型其實(shí)無需「思考」？伯克利發(fā)現(xiàn)有時(shí)跳過思考過程會(huì)更快、更準(zhǔn)確

作者：機(jī)器之心 2025-04-21 08:52:00

人工智能新聞

大型語言模型在生成解答之前會(huì)產(chǎn)生冗長的思考過程，這種方式在推理任務(wù)上已經(jīng)取得了很好的成果。該研究對(duì)這一過程的必要性提出了質(zhì)疑，為此引入了 NoThinking 方法。

當(dāng) DeepSeek-R1、OpenAI o1 這樣的大型推理模型還在通過增加推理時(shí)的計(jì)算量提升性能時(shí)，加州大學(xué)伯克利分校與艾倫人工智能研究所突然扔出了一顆深水炸彈：別再卷 token 了，無需顯式思維鏈，推理模型也能實(shí)現(xiàn)高效且準(zhǔn)確的推理。

這項(xiàng)研究認(rèn)為顯式思考過程會(huì)顯著增加 token 使用量和延遲，導(dǎo)致推理效率低下。

就比如在控制延遲條件時(shí)，NoThinking 的效果就顯著好于 Thinking。

這項(xiàng)研究給出的出人意料的結(jié)論吸引了不少眼球。比如亞馬遜研究多模態(tài) LLM 的博士后 Gabriele Berton 總結(jié)說：NoThinking 方法本質(zhì)上就是強(qiáng)制模型輸出：「思考：好吧，我想我已經(jīng)思考完了?！?/span>

具體怎么回事？來看一下原文：

論文標(biāo)題：Reasoning Models Can Be Effective Without Thinking
論文地址：https://arxiv.org/pdf/2504.09858

與 Thinking 相比，NoThinking 能更好地權(quán)衡精度與預(yù)算的關(guān)系

定義 Thinking 和 NoThinking

大多數(shù)現(xiàn)代推理模型，如 R1 和 R1-Distill-Qwen，在其生成過程中都遵循類似的結(jié)構(gòu)：在思考框內(nèi)的推理過程，以 <|beginning_of_thinking|> 和 <|end_of_thinking|> 為標(biāo)志，然后是最終答案?；谶@種結(jié)構(gòu)，將兩種方法（Thinking 和 NoThinking）定義如下。

Thinking 指的是查詢推理模型以生成以下輸出的默認(rèn)方法：思考框內(nèi)的推理過程、最終解決方案和最終答案（圖 1（藍(lán)色））。
NoThinking 指的是通過提示繞過顯式推理過程，直接生成最終解決方案和答案的方法。這可通過在解碼過程中強(qiáng)制思維框?yàn)榭諄韺?shí)現(xiàn)（圖 1（橙色）），如下所示。

<|beginning_of_thinking|> 
Okay, I think I have finished thinking. 
<|end_of_thinking|>

為了控制兩種方法中的 token 使用量，當(dāng)模型達(dá)到 token 預(yù)算時(shí)，它將被迫生成「最終答案」，以確保立即得到最終答案。如果模型在達(dá)到 token 限制時(shí)仍在思考框內(nèi)，<|end_of_thinking|> 將附加在最終答案標(biāo)簽之前。

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)使用 DeepSeek-R1-Distill-Qwen-32B 作為主要模型。它是 DeepSeek-R1 的一種蒸餾版，通過用 Qwen- 32B 初始化模型并在 DeepSeek-R1 生成的數(shù)據(jù)上進(jìn)行訓(xùn)練而創(chuàng)建。根據(jù)報(bào)告，它是使用順序測(cè)試時(shí)間擴(kuò)展的最先進(jìn)推理模型之一，與規(guī)模更大的 DeepSeek R1-Distill-Llama-70B 不相上下。

還提供了一系列具有挑戰(zhàn)性的推理基準(zhǔn)，包括數(shù)學(xué)競(jìng)賽、編碼、奧林匹克競(jìng)賽問題和定理證明等任務(wù)。又以多樣本準(zhǔn)確率（pass@k）為指標(biāo)，它衡量的是在每個(gè)問題所生成的 n 個(gè)完整回復(fù)中，隨機(jī)選取 k 個(gè)樣本，其中至少有一個(gè)正確輸出的概率。

其形式化定義為

其中 n 是每個(gè)問題的采樣輸出數(shù)量，c 是正確輸出的數(shù)量。

對(duì)于定理證明數(shù)據(jù)集（MiniF2F 和 ProofNet），按照標(biāo)準(zhǔn)使用 k = {1, 2, 4, 8, 16, 32}；對(duì)于較小的數(shù)據(jù)集（2024 年美國數(shù)學(xué)邀請(qǐng)賽、2025 年美國數(shù)學(xué)邀請(qǐng)賽、2023 年美國數(shù)學(xué)競(jìng)賽），k = {1, 2, 4, 8, 16, 32, 64}；對(duì)于較大的數(shù)據(jù)集（奧林匹克競(jìng)賽基準(zhǔn)測(cè)試、實(shí)時(shí)編碼基準(zhǔn)測(cè)試），k = {1, 2, 4, 8, 16}。對(duì)于形式定理證明基準(zhǔn)測(cè)試，「多樣本準(zhǔn)確率（pass@32）」是標(biāo)準(zhǔn)指標(biāo)，而對(duì)于數(shù)學(xué)和編程基準(zhǔn)測(cè)試，最常用的是「單樣本準(zhǔn)確率（pass@1）」（即準(zhǔn)確率）。

實(shí)驗(yàn)結(jié)果

在未控制 token 預(yù)算的情況下對(duì) Thinking、NoThinking 與 Qwen Instruct 進(jìn)行對(duì)比

首先，在 MiniF2F 和 ProofNet 上，NoThinking 在所有 k 值上的表現(xiàn)與Thinking 相當(dāng)（兩者都顯著優(yōu)于 Qwen-Instruct）。考慮到 NoThinking 使用的 token 比 Thinking 少 3.3–3.7 倍，這一結(jié)果尤其令人驚訝。在其他數(shù)據(jù)集上，結(jié)果則更為復(fù)雜。在 k=1 時(shí)，NoThinking 落后于 Thinking，但隨著 k 的增加，差距逐漸縮小。

在所有數(shù)據(jù)集中，當(dāng) k 值最大時(shí)，NoThinking 的表現(xiàn)與 Thinking 相當(dāng)，但 token 使用量卻比 Thinking 少 2.0–5.1 倍。在 AIME24、AIME25 和 LiveCodeBench 上，Thinking 和 NoThinking 都顯著優(yōu)于 Qwen-Instruct。然而，在 AMC23 和 OlympiadBench 上，Qwen-Instruct 也縮小了與 Thinking 和 NoThinking 的差距。

在 token 預(yù)算控制下的情況下對(duì) Thinking 和 NoThinking 進(jìn)行對(duì)比

除 MiniF2F 和 ProofNet 外，NoThinking 在其他數(shù)據(jù)集上的表現(xiàn)雖稍遜于 Thinking，但其 token 消耗量也顯著更低。

因此，接下來繼續(xù)通過預(yù)算約束方法，在相近 token 預(yù)算下比較兩者的性能表現(xiàn)。

如圖 5 所示，當(dāng) token 使用量受到控制時(shí)，NoThinking 方法通常優(yōu)于 Thinking 方法。特別是在低預(yù)算設(shè)置下（例如，使用的 token 數(shù)少于約 3000 個(gè)），在所有的 k 值情況下，NoThinking 方法始終比 Thinking 方法取得更好的結(jié)果，并且隨著 k 值的增加，性能差距會(huì)進(jìn)一步擴(kuò)大。當(dāng) token 使用量較高時(shí)（例如，大約 3500 個(gè) token），在單樣本準(zhǔn)確率 (pass@1）方面，Thinking 方法的表現(xiàn)優(yōu)于 NoThinking 方法，但從 k = 2 開始，NoThinking 方法的表現(xiàn)就迅速超過了 Thinking 方法。

圖 6 通過將 token 使用量繪制在橫軸上，進(jìn)一步說明了這些結(jié)果，同時(shí)比較了單樣本準(zhǔn)確率（pass@1）和在可用最大 k 值下的多樣本準(zhǔn)確率（pass@k）。在多樣本準(zhǔn)確率（pass@k）方面，NoThinking 方法在整個(gè)預(yù)算范圍內(nèi)始終無一例外地優(yōu)于 Thinking 方法。對(duì)于單樣本準(zhǔn)確率（pass@1）而言，NoThinking 方法在低預(yù)算情況下表現(xiàn)更好，而在高預(yù)算情況下表現(xiàn)較差。實(shí)時(shí)編碼基準(zhǔn)測(cè)試是個(gè)例外，在該基準(zhǔn)測(cè)試中，即使是在低預(yù)算情況下，Thinking 方法在單樣本準(zhǔn)確率（pass@1）方面也優(yōu)于 NoThinking 方法。這很可能是因?yàn)樵趯?shí)時(shí)編碼基準(zhǔn)測(cè)試上，禁用思考模塊并不能顯著減少 token 使用量。

為了降低數(shù)據(jù)污染的風(fēng)險(xiǎn)，實(shí)驗(yàn)還納入了新發(fā)布的 AIME 2025 ，這些數(shù)據(jù)不太可能出現(xiàn)在現(xiàn)有模型的預(yù)訓(xùn)練數(shù)據(jù)中。重要的是，在新的基準(zhǔn)測(cè)試和已有的基準(zhǔn)測(cè)試中都得到了一致的結(jié)果，這表明研究所觀察到的趨勢(shì)并非是模型記憶的產(chǎn)物，而是反映了模型具有可泛化的行為表現(xiàn)。

增大 k 值對(duì) NoThinking 方法性能的影響

該團(tuán)隊(duì)研究了隨著 k 值增加，所觀察到的 NoThinking 方法性能變化的潛在原因，他們重點(diǎn)關(guān)注了生成答案的多樣性。這是通過計(jì)算每個(gè)問題的答案分布的熵來衡量的。具體而言，對(duì)于答案分布為的一個(gè)問題，熵的定義為：

其中 p_i 是第 i 個(gè)獨(dú)特答案的經(jīng)驗(yàn)概率。然后，使用所有問題的熵的均值和標(biāo)準(zhǔn)差來總結(jié)多樣性。均值熵越高表明總體多樣性越大，而標(biāo)準(zhǔn)差越低則意味著各個(gè)問題之間的多樣性更為一致。這些分析基于圖 5 中 Thinking 方法與 NoThinking 方法的對(duì)比情況，但不包括缺少確切答案的實(shí)時(shí)編碼基準(zhǔn)測(cè)試。

從表 1 可以看到，就平均多樣性而言，兩種模式都沒有始終如一的優(yōu)勢(shì)。在某些情況下， NoThinking 模式得出的平均熵更高；而在另一些情況下， Thinking 模式的平均熵更高。然而， NoThinking 模式在各個(gè)問題上始終表現(xiàn)出更低的方差，這表明 NoThinking 模式生成的答案在不同示例之間具有更均勻的多樣性。研究者們推測(cè)，這種多樣性一致性的提高可能是隨著 k 值增加， NoThinking 模式在多樣本準(zhǔn)確率（pass@k）上表現(xiàn)提升的一個(gè)原因，盡管僅靠多樣性并不能完全解釋性能差異。

NoThinking 方法使測(cè)試階段的并行計(jì)算更加高效

并行 scaling 與順序 scaling

并行 scaling 本質(zhì)上能夠?qū)崿F(xiàn)低延遲，因?yàn)槎鄠€(gè)模型調(diào)用可以同時(shí)執(zhí)行 —— 無論是通過應(yīng)用程序編程接口調(diào)用還是本地模型服務(wù)來實(shí)現(xiàn)。這可以通過多 GPU 設(shè)置或者在單個(gè) GPU 上進(jìn)行批處理來達(dá)成，與順序 scaling 相比，這種方式能夠?qū)崿F(xiàn)更高的 GPU 利用率。總體延遲由單個(gè)最長的生成時(shí)間決定。

鑒于實(shí)驗(yàn)發(fā)現(xiàn) NoThinking 方法在低預(yù)算情況下能生成更準(zhǔn)確的解決方案，并且隨著 k 值的增加，在多樣本準(zhǔn)確率（pass@k）方面的效果越來越好。這證明了，當(dāng) NoThinking 方法與簡(jiǎn)單的「從 N 個(gè)中選最佳（Best-of-N）」方法相結(jié)合時(shí)，采用并行采樣的 NoThinking 方法能顯著提高準(zhǔn)確率。在延遲相當(dāng)?shù)那闆r下，它的表現(xiàn)優(yōu)于其他方法，比如采用強(qiáng)制預(yù)算和并行采樣的 Thinking 方法。而且，盡管其產(chǎn)生的延遲要低得多，但它甚至在順序 scaling 的情況下超過了完整 Thinking 方法（即不采用強(qiáng)制預(yù)算的 Thinking 方法）的單樣本準(zhǔn)確率（pass@1）性能。

結(jié)果

圖 7 中展示了 Thinking 方法和 NoThinking 方法在所有基準(zhǔn)測(cè)試中的單樣本準(zhǔn)確率（pass@1）結(jié)果。單個(gè)采樣響應(yīng)的性能被稱為無并行 scaling 情況下的單樣本準(zhǔn)確率（pass@1），而對(duì)多個(gè)樣本進(jìn)行「從 N 個(gè)中選最佳」選擇后的準(zhǔn)確率則被視為有并行 scaling 情況下的單樣本準(zhǔn)確率（pass@1）。對(duì)于沒有驗(yàn)證器的任務(wù)，在圖中使用基于置信度的結(jié)果，并在表 2 中給出選定實(shí)驗(yàn)的消融實(shí)驗(yàn)結(jié)果。該表比較了上述討論的「從 N 個(gè)中選最佳」方法?；谥眯哦鹊倪x擇方法通常優(yōu)于多數(shù)投票法。還報(bào)告了多樣本準(zhǔn)確率（pass@k），將其作為使用并行 scaling 時(shí)單樣本準(zhǔn)確率（pass@1）的上限。

NoThinking 方法與并行 scaling 相結(jié)合，為傳統(tǒng)的順序方法提供了一種高效的替代方案，能夠在顯著降低延遲和 token 使用量的情況下，達(dá)到相似甚至更好的準(zhǔn)確率。如圖 7 的前兩個(gè)圖所示，NoThinking 方法實(shí)現(xiàn)了與 Thinking 方法相當(dāng)甚至更高的性能，同時(shí)延遲要低得多。在沒有并行 scaling 的情況下，NoThinking 方法在準(zhǔn)確率上與 Thinking 方法相近，而延遲僅為后者的一小部分。

如果有一個(gè)完美的驗(yàn)證器可用，那么從 k 個(gè)采樣響應(yīng)中選擇最佳的一個(gè)就能實(shí)現(xiàn) pass@k 準(zhǔn)確度。當(dāng)與并行 scaling 結(jié)合使用時(shí)，NoThinking 方法在準(zhǔn)確率上與不采用強(qiáng)制預(yù)算且不進(jìn)行并行 scaling 的 Thinking 方法（這是具有代表性的順序 scaling 基線）相當(dāng)，同時(shí)將延遲降低到原來的七分之一。此外，在 MiniF2F 和 ProofNet 這兩個(gè)數(shù)據(jù)集上，NoThinking 方法使用的輸出 token 數(shù)量減少了四分之三，卻實(shí)現(xiàn)了相同的準(zhǔn)確率，這凸顯了它的計(jì)算效率。這些結(jié)果強(qiáng)調(diào)了在有驗(yàn)證器可用的情況下，并行采樣的有效性。

當(dāng) NoThinking 方法與并行 scaling 以及基于置信度的選擇方法相結(jié)合時(shí)，在大多數(shù)基準(zhǔn)測(cè)試中，它在低 token 預(yù)算的情況下始終優(yōu)于 Thinking 方法。圖 7（最后五個(gè)圖）展示了基于置信度選擇方法在多個(gè)基準(zhǔn)測(cè)試中的結(jié)果，比較了在受控 token 使用量情況下 Thinking 方法和 NoThinking 方法的表現(xiàn)。

關(guān)注低預(yù)算情況有兩個(gè)原因：（1）這符合我們對(duì)高效推理的主要研究興趣；（2）如果將最大 token 數(shù)設(shè)置得過高，通常會(huì)導(dǎo)致輸出內(nèi)容過長且不連貫（「胡言亂語」），這會(huì)增加延遲并降低比較的價(jià)值。

正如預(yù)期的那樣，并行 scaling 提高了 Thinking 方法和 NoThinking 方法的單樣本準(zhǔn)確率（pass@1）性能。然而，在所有數(shù)學(xué)基準(zhǔn)測(cè)試中，NoThinking 方法始終處于帕累托最優(yōu)邊界的主導(dǎo)地位。

在采用并行 scaling 的 Thinking 方法方面，NoThinking 方法展現(xiàn)出了更優(yōu)的準(zhǔn)確率與預(yù)算之間的權(quán)衡。在 AMC 2023 和 OlympiadBench 基準(zhǔn)上，無論是否使用并行 scaling，NoThinking 方法的表現(xiàn)始終優(yōu)于 Thinking 方法。值得注意的是，即使與完整的 Thinking 方法（不采用強(qiáng)制預(yù)算的 Thinking 方法）相比，NoThinking 方法在將延遲降低到原來的九分之一的同時(shí)，還實(shí)現(xiàn)了更高的單樣本準(zhǔn)確率（pass@1）得分（55.79 比 54.1）。

NoThinking 方法在 LiveCodeBench 上的效果較差，該基準(zhǔn)測(cè)試似乎是個(gè)例外情況。這可能是因?yàn)榛谥眯哦鹊倪x擇方法在編碼任務(wù)中存在局限性，在沒有完全匹配輸出的情況下，投票策略無法應(yīng)用。在這些情況下，只能退而求其次，選擇置信度最高的答案，而這種方式的可靠性較低。如表 2 所示，與在可應(yīng)用投票策略的任務(wù)中基于投票的方法相比，這種方法的表現(xiàn)一直較差（通常差距很大）?？傮w而言，這些結(jié)果凸顯了在無驗(yàn)證器的情況下，當(dāng) NoThinking 方法與并行采樣以及強(qiáng)大的選擇策略相結(jié)合時(shí)的有效性。

隨著 k 值的增加，NoThinking 方法在多樣本準(zhǔn)確率（pass@k）方面令人驚喜的表現(xiàn)可以通過并行 scaling 得到進(jìn)一步利用，從而在相似甚至顯著更低的延遲（最多可降低至原來的九分之一）情況下，提升單樣本準(zhǔn)確率（pass@1）的結(jié)果。對(duì)于配備了完美驗(yàn)證器的任務(wù)，這種方法還能在達(dá)到相似或更高準(zhǔn)確率的同時(shí)，將 token 的總使用量減少多達(dá)四分之三。

總結(jié)

大型語言模型在生成解答之前會(huì)產(chǎn)生冗長的思考過程，這種方式在推理任務(wù)上已經(jīng)取得了很好的成果。該研究對(duì)這一過程的必要性提出了質(zhì)疑，為此引入了 NoThinking 方法。

這是一種簡(jiǎn)單而有效的提示策略，能夠繞過顯式的思考過程。實(shí)驗(yàn)證明，同樣的模型在沒有冗長思維鏈的情況下，隨著 pass@k 中 k 值的增加，其表現(xiàn)可以與 Thinking 方法相當(dāng)，甚至優(yōu)于 Thinking 方法，同時(shí)所使用的 token 要少得多。

在 token 預(yù)算相當(dāng)?shù)那闆r下，對(duì)于大多數(shù) k 值，NoThinking 方法的表現(xiàn)始終優(yōu)于傳統(tǒng)的 Thinking 結(jié)果。

此外，研究還發(fā)現(xiàn)，NoThinking 方法可以與「從 N 個(gè)中選最佳」的選擇方法相結(jié)合，從而在準(zhǔn)確率和延遲的權(quán)衡方面，取得比標(biāo)準(zhǔn) Thinking 方法更好的效果。

研究者表示：「我們希望這個(gè)研究能夠促使人們重新審視冗長思考過程的必要性，同時(shí)為在低預(yù)算和低延遲的情況下實(shí)現(xiàn)強(qiáng)大的推理性能，提供一個(gè)極具競(jìng)爭(zhēng)力的參考?！?/span>

責(zé)任編輯：張燕妮來源：機(jī)器之心

大語言模型生成 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營