自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Transformer原作打臉DeepSeek觀點？一句Wait就能引發(fā)反思，RL都不用

作者：新智元 2025-04-23 09:36:23

人工智能新聞

Transformer作者Ashish Vaswani 團隊重磅LLM研究！簡單指令：「Wait，」就能有效激發(fā)LLM顯式反思，表現(xiàn)堪比直接告知模型存在錯誤。

只要預訓練，LLM就能涌現(xiàn)自我反思、自我糾正！

Transformer首席作者Ashish Vaswani帶隊的新研究引來萬人圍觀！

強化學習已證明能有效激發(fā)大語言模型的反思能力。

但在預訓練階段，這種能力是否早已顯現(xiàn)呢？

針對這一假設，研究得出了令人驚訝的結論：只需預訓練，LLM就能通過顯式反思機制，解決了來自對抗性數學應用題!

圖1：隨著預訓練計算量的增加，OLMo-2的checkpoint通過顯式反思機制，解決了對抗性數學題

新研究證明：跨領域預訓練早期，反思能力就開始萌芽。

這表明預訓練過程本身就在塑造通用推理能力。

這一發(fā)現(xiàn)為在預訓練階段加速推理能力習得開辟了新路徑。

性能的顯著提升，竟源于一個簡單指令：「Wait，」。

這能有效激發(fā)顯式反思，而且隨著預訓練推進效果尤為明顯，表現(xiàn)堪比直接告知模型存在錯誤時的修正效果。

這證明反思與準確率提升存在因果關系。

論文鏈接：https://arxiv.org/abs/2504.04022

最近的大部分研究，都集中在「自我糾正」在強化學習過程中如何發(fā)展。

但實際上，在預訓練階段，「自我糾正」能力就開始出現(xiàn)。

為此研究人員故意在推理鏈中引入錯誤，并測試模型是否能識別并糾正這些錯誤，最后得出正確答案。

通過跟蹤不同預訓練階段的表現(xiàn)，研究人員觀察到自我糾正能力早已出現(xiàn)，并隨著時間的推移穩(wěn)步提高。

例如，在4萬億個token上預訓練的OLMo-2-7B，在6個自我反思任務中，表現(xiàn)出了自我糾正能力。

在數學、編程、邏輯推理和知識獲取等多個領域，使用組多樣化數據集，評估了OLMo-2系列模型的預訓練checkpoint，結果表明反思在各個領域都普遍存在。

部分預訓練的模型也能持續(xù)識別出人為引入的錯誤及自身生成的錯誤。

具體而言：

在240個數據集-checkpoint組合中，231組至少出現(xiàn)一次情境反思實例；154組至少展現(xiàn)一次自我反思能力。

隨著預訓練程度加深，模型能修正更多對抗樣本，各任務準確率與預訓練計算量對數之間的皮爾遜相關系數平均達0.76。

更重要的是，隨著預訓練推進，模型表現(xiàn)出三大進階特征：

從錯誤推理中恢復的能力，持續(xù)增強；
生成結果中，顯性反思的出現(xiàn)頻率提升；
對糾正混淆性思維鏈的貢獻度，顯性反思增大。

AI集體「頓悟」和「反思」

DeepSeek-R1論文的作者，認為反思（reflection）強化學習的結果：

諸如反思（即模型回溯并重新評估先前的推理步驟）以及探索替代性解題方法等行為，并非通過顯式編程實現(xiàn)，而是模型與強化學習環(huán)境交互過程中，自然涌現(xiàn)的結果。

這種自發(fā)演化顯著提升了DeepSeek-R1-Zero的推理能力，使其能以更高效率和準確度應對更具挑戰(zhàn)性的任務。

也就是說，DeepSeek認為模型的「反思」是因為強化學習。

在強化學習過程中，DeepSeek-R1-Zero回答的長度越來越長

在強化學習訓練中，他們還觀察到了AI學會了以擬人化的方式「再思考」(rethink)，認為這是AI的「頓悟時刻」。

DeepSeek-R1-Zero在數學推理中，仿佛阿基米德附身：「等等...再等一下！這絕對是值得銘記的頓悟時刻！」

這一度引起了AI復刻「AI頓悟時刻」的浪潮。

但來自新加波國立大學等機構的研究團隊，初步研究證明：R1-Zero可能根本就不存在頓悟時刻。

DeepSeek團隊發(fā)現(xiàn)的現(xiàn)象，只因強化學習的「副作用」！

這次Transformer作者Ashish Vaswani，更加徹底地研究了「AI自我反思」的根源。

新研究區(qū)分了情境反思（situational-reflection）與自我反思（self-reflection）來解決這一難題。

前者指模型檢驗外部推理鏈（如其他前沿模型生成的內容），后者則是模型審視自身推理過程。

通過測試模型在接收錯誤誘導性推理后仍能正確解題的能力，實現(xiàn)了對預訓練全程反思能力的量化監(jiān)測。

圖2展示了預訓練的OLMo-2的checkpoint解決編程任務的案例。

圖2：預訓練的OLMo-2-32B模型通過自我反思正確預測程序輸入。OLMo-2擁有320億參數、經4.8萬億token預訓練，最初直接重復Python函數f的輸出「avdropj gsd」，作為答案輸出。只需要在提示前加上「等待」（wait）后，AI模型成功實現(xiàn)自我反思，最終生成：「我意識到出錯了...??的值應該是['gsd', 'avdropj']」

程序化方式引入錯誤思維鏈（Chain-of-Thought，CoT），能可控且可擴展地調節(jié)完成任務所需的反思程度。

為此，研究團隊構建了6個數據集涵蓋數學、編程、邏輯推理和知識獲取4大領域，可同步評估情境反思與自我反思2種能力。

方法3步曲

新研究的目標是全面且大規(guī)模地衡量反思能力。

為此，提出了反思的定義，展示了如何程序化地創(chuàng)建任務引發(fā)反思，以及如何嚴格地衡量反思的存在。

反思的定義

反思是一種高級認知過程，涉及對信息的檢查、對其背后推理的評估，以及根據該評估調整未來的行為。

在語言模型的背景下，這個過程可以應用于從外部來源引入的信息或模型自身生成的信息。

在這項研究中，設定了下面兩種情境來引發(fā)和測量反思。

1.情境反思：模型對由其他來源（例如，另一個模型）創(chuàng)建的信息進行反思。

2.自我反思：模型對其自身生成的輸出進行反思。

而且研究團隊還將反思分為如下兩種形式。

1.顯式反思：當模型生成的token含義能夠識別并解決對抗性情境中的錯誤時。顯式反思可能出現(xiàn)在正確的模型輸出（即構成對我們對抗性任務的正確答案的輸出）或錯誤的模型輸出中。

2.隱式反思：當模型在不對先前推理中的錯誤進行顯式識別的情況下，成功解決對抗性情境中的任務時。

對抗性數據集誘發(fā)反思行為

研究人員提出一種創(chuàng)新算法，用于生成能誘發(fā)語言模型反思行為的對抗性數據集。

新算法可以創(chuàng)建對抗性鏈條（CoTs）。

該算法通過構建導向錯誤解決方案的對抗性思維鏈（CoTs）實現(xiàn)：

情境反思數據集：需人工構建對抗性CoTs（模擬人類典型推理錯誤）；

自我反思數據集：可直接提取模型自身錯誤案例。

在這兩種情況下，當提供上下文中的CoTs時，模型必須對這些錯誤進行反思，并修正它們以得到正確的解決方案。

任務設計包括添加一個觸發(fā)token，如「Wait,」（等待），有助于持續(xù)推理整個解題過程。

該算法有兩個變體：算法1和算法2，分別創(chuàng)建情境反思和自我反思數據集。

測量反思能力

研究人員提出了一種自動方法，基于先前對反思的分類，使用對抗性數據集來測量模型的反思能力：

為了識別顯式反思的實例，開發(fā)了基于提示的語言模型（LLM）分類器，能夠檢測模型輸出是否明確承認錯誤，并最終解決了提供的對抗性上下文中的錯誤，無論模型是否得出了正確答案。

在存在對抗性上下文的情況下，所有導致得出正確答案的模型生成的內容，都可以歸因于反思，即使沒有輸出與反思相關的標記。

實驗結果

為了全面測量跨領域的反思推理，分類器在BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum和TriviaQA數據集中，區(qū)分了顯式反思和隱式反思，分別用于情境反思和自我反思。

令人驚訝的是，隨著訓練計算量的增加，發(fā)現(xiàn)反思現(xiàn)象顯著增強。

此外，隨著預訓練的進展，模型越來越能夠從混淆因素中恢復，顯式反思的比例增加。

并且顯式反思對從混淆因素中恢復的貢獻也越來越大（詳見表5中的示例）。

表5：顯式反思短語的例子

所有模型：顯式情境反思均存在

在表6中，除了cruxeval-i任務外，所有任務中的OLMo-2預訓練checkpoint，都顯示出從情境混淆因素中恢復的跡象，無論是隱式還是顯式的。

在240個數據集-checkpoint對中，有231個展示了至少一次情境反思的實例。

表6：預訓練模型在不同任務中可以糾正非零對抗性示例，并且隨著預訓練的增加，準確率和顯式反思的比例均有所提高

然而，即模型逐漸發(fā)展并使用顯式反思，大多數恢復應歸因于顯式情境反思。

具體來說，隨著更多的預訓練計算資源，期待能夠觀察到以下三點增加的趨勢：

從情境混淆因素中恢復。
明確反思情境混淆因素。
通過顯式反思從情境混淆因素中恢復。

高皮爾遜相關系數（Pearson correlations）表明每個指標與預訓練計算量的對數（log(pre-training compute)）之間的關系支持了上述三點。

還觀察到隱式反思準確率與預訓練計算量的對數之間的相關性較低。

如圖3所示，在GSM8K-Platinum數據集上，隨著預訓練的增加，不同參數數量的模型，顯式反思推理錯誤，解決了大部分任務實例。

圖3：OLMo-2系列模型在GSM8K-Platinum對抗性評估中的情境反思表現(xiàn)

結果顯示：（1）模型準確率隨預訓練計算量增加而提升；（2）準確率增益中78.4%可歸因于顯性反思機制。

六個任務的全部詳細結果，可以在原文附錄C中找到。

沒有觸發(fā)詞也能反思

為了理解「Wait,」觸發(fā)詞的因果作用，在GSM8K-Platinum數據集上，研究了模型在極端情況下的表現(xiàn)。

具體來說，研究了2種模式下的模型表現(xiàn)：

A模式：沒有觸發(fā)詞，盡量減少對對抗性CoTs中錯誤的關注

B模式：包含明確承認錯誤的觸發(fā)詞，如「Wait, I made a mistake」。強調CoT中存在的錯誤

圖4展示了這些結果。

無觸發(fā)詞的情況下，結果首先證實了假設：即使沒有觸發(fā)詞，隨著預訓練的進行，模型在處理情境混淆因素時的成功率也在逐步提高。

在A模式下，模型通過隱式反思提高了準確性。

有觸發(fā)詞的情況下，「Wait,」觸發(fā)詞的作用得到了進一步澄清。

在B模式下，模型通過顯式反思顯著提高了性能。

「Wait,」設置在隱式反思時，表現(xiàn)類似于A模式，在顯式反思時表現(xiàn)類似于B模式。

性能以分解為以下公式：accWait=eWait*accB+(1?eWait)*i_accA，其中eWait是顯式反思的比例，i_acc是隱式反思的準確性。

圖4：即使不存在觸發(fā)機制，模型仍能對情境性對抗樣本進行反思與修正

顯式自我反思

初看起來，表7中自我反思的稀有性，可能被視為一個負面結果。

表7：在各項任務中,預訓練模型能夠糾正非零對抗樣本，并且隨著預訓練量的增加，能夠實現(xiàn)更高的準確率以及更為明確的自我反思

然而，這可能是因為它們之前回答錯誤的任務實例上，要求AI模型進行評估——

因此，這些任務特別困難。

盡管如此，在大約64.2%的任務嘗試中，模型確實展示了一定程度的自我糾正能力。

為了區(qū)分自我反思和自我糾正，圖5繪制了模型生成的反思率，而不考慮任務是否被解決。

這顯示了明顯的趨勢：隨著預訓練的進展，模型在顯式突出自身錯誤方面變得更好。

自我反思的萌芽，如何在后訓練（post-training）階段演變?yōu)閺碗s的自主推理能力？

研究人員假設，必須存在一個預訓練自我反思的關鍵閾值，超過這個閾值，模型有很大的可能性，發(fā)展成為測試時的推理者（test-time reasoner）。

關鍵閾值假設：

在預訓練過程中，必須達到某個自我反思的關鍵閾值，在后續(xù)的訓練和應用中，模型才有可能發(fā)展出強大的測試時推理能力。

超過這個閾值后，模型不僅能夠識別并糾正自身的錯誤，還能通過顯式反思逐步形成更復雜的推理能力。

令人驚訝的是，在從有機網絡數據集（organic web datasets）中學習時，看到了高水平的顯式自我反思。

這表明，即使在相對自然的數據環(huán)境中，模型也能發(fā)展出顯著的自我反思能力。

確定哪些數據分布在預訓練過程中促進顯式自我反思，是下一步研究的一個自然方向。

理解這些數據分布有助于設計更有效的預訓練策略，從而提升模型的自我反思和推理能力。

具體的結果和分析可以在原文附錄D中找到。

圖5：隨著預訓練量的增加，OLMo-2系列模型在cruxeval-i任務中展示了小但值得注意的自我反思及隨后的自我糾正能力

訓練計算與測試時計算的權衡

在訓練時增加計算資源的投資，與在測試時為實現(xiàn)下游任務相當準確率所需相應支出之間，存在權衡。

研究人員通過以下方式來估計這種權衡：

訓練時計算量：估計為6nt，其中n是參數數量，t是訓練token的數量。
測試時計算量：估計為2nw，其中w表示為解決一定數量的對抗性問題生成的單詞數量。

首先，指定一組需要正確回答的對抗性問題的目標數量。

然后，針對每個目標繪制一條曲線。

在GSM8K-Platinum對抗性數據集，采用順序測試時擴展方法，在模型生成中附加觸發(fā)詞「Wait,」。

如圖6所示，隨著訓練時計算量的增加，OLMo-2-32B的checkpoint測試時計算需求減少。

這一結果進一步支持了研究假設，即隨著預訓練的進展，模型在反思能力上變得更好。

這意味著在給定準確率水平下，所需的測試時計算量較少。

圖6：OLMo-2-32B預訓練檢checkpoint的訓練時與測試時計算量權衡關系

不止是OLMo-2

如圖7所示，與OLMo-2的研究結論一致：隨著預訓練算力（此處體現(xiàn)為參數量）的提升，Qwen2.5在對抗性任務上的表現(xiàn)持續(xù)增強。

這再次證明：僅通過預訓練算力的增加，模型就能逐步克服先前推理中的錯誤完成任務。

圖7：Qwen2.5系列模型情境反思能力全景評估

實驗設置

評估的模型為OLMo-2和Qwen2.5系列。

總共評估了OLMo-2的40個checkpoint，Qwen2.5的0.5B、3B、7B、14B、32B和72B參數變體。

基于BIG-Bench Hard(BBH)、CruxEval、GSM8K、GSM8K-Platinum和TriviaQA創(chuàng)建了6個對抗性數據集，如下表1和表2。

詳細的關于數據集特定管道、檢查和過濾器的信息，可以在原文附錄F中找到

測量指標

如表3所示，對于情境反思和自我反思設置，準確率（Accuracy）是模型正確解決問題的任務實例所占的分數。

獨立于準確率，顯式反思分類器（Explicit Reflection Classifier）測量顯式反思率（Explicit Reflection Rate），即無論是否正確，模型輸出表現(xiàn)出顯式反思的任務實例所占的分數。

此外，還報告了顯式反思準確率（Explicit Reflection Accuracy），即模型不僅正確解決問題而且表現(xiàn)出顯式反思的任務實例所占的分數。

最后，隱式反思準確率（Implicit Reflection Accuracy）是指模型輸出正確且不表現(xiàn)出顯式反思的任務實例所占的分數。

關于每個數據集的準確率指標詳情，見下表8。

此外，對于每個數據點，預訓練計算量為6nt，其中n和t分別是參數數量和訓練token的數量。

顯式反思分類器

研究人員利用基于提示的分類器，確定模型輸出是否表現(xiàn)出顯式反思。

DeepSeek-V3被提示以「反思」的描述以及兩到四個顯式反思示例。

在GSM8K、cruxeval-o和TriviaQA上對分類器進行了驗證（每個基準120個問題；有關標注過程的詳細信息，請參閱附錄G）。

盡管分類器召回的反思實例較少（見表4），但其精確度足夠高，足以驗證其有用性。

在最壞的情況下，可能會低估反思行為，但在報告時會更加確信。

表4：顯式反思分類器在不同基準測試中的性能指標

Transformer首席作者

值得一提的是，Transformer八子之一的Ashish Vaswani，對新研究做出了核心貢獻。

Transformer排名第一的作者：Ashish Vaswani

他讀博時，師從深度學習先驅Yoshua Bengio教授。

在南加州大學(USC)，他獲得了博士和碩士學位。

2016年，他加入谷歌大腦。

在谷歌工作期間，與團隊共同完成Transformer的里程碑式工作《Attention is all you need》。

離開谷歌后，他先后聯(lián)合創(chuàng)立了Adept AI Labs和Essential AI。

他對人工智能的貢獻，尤其是Transformer模型的突破性發(fā)展，具有劃時代意義。

他的工作不僅在自然語言處理（NLP）領域實現(xiàn)了三大跨越式進步，更在計算機視覺、計算生物學等跨學科領域催生了革命性應用。

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="d1vst"></cite>

<sub id="d1vst"></sub>