自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zvvqo"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

超越思維鏈？深度循環(huán)隱式推理引爆AI圈，LLM擴(kuò)展有了新維度

作者：機(jī)器之心 2025-02-13 09:00:00

人工智能新聞

不需要特殊訓(xùn)練數(shù)據(jù)，能處理語(yǔ)言難以形容的任務(wù)，3.5B 參數(shù)能實(shí)現(xiàn) 50B 的性能。

這是一種全新的語(yǔ)言模型架構(gòu)，能夠通過使用循環(huán)語(yǔ)言模型在潛在空間中隱式推理，顯著提升模型的計(jì)算效率，尤其是在需要復(fù)雜推理的任務(wù)上。

近日，馬里蘭大學(xué)的一篇論文在 AI 研究社區(qū)中引發(fā)了關(guān)注，其提出的語(yǔ)言模型通過迭代循環(huán)塊來(lái)工作，能在測(cè)試時(shí)展開到任意深度。這與當(dāng)前通過生成更多 token 來(lái)擴(kuò)展計(jì)算的主流推理模型形成了鮮明的對(duì)比。

僅在上個(gè)月，Hugging Face 上的下載量就達(dá)到了 4500+。

深度循環(huán)（Recurrent Depth）方法無(wú)需生成大量「思考」token 即可獲得高性能。與基于思維鏈的方法不同，馬里蘭大學(xué)的方法不需要任何專門的訓(xùn)練數(shù)據(jù)，可以使用小的上下文窗口，并且可以捕獲不易用文字表示的推理類型。

該工作構(gòu)建的概念驗(yàn)證模型達(dá)到 35 億參數(shù)和 8000 億 token，實(shí)驗(yàn)驗(yàn)證了新方法可以提高其在推理基準(zhǔn)上的性能，尤其是在需要復(fù)雜推理的數(shù)學(xué)和編程問題上，最高相當(dāng)于 500 億參數(shù)的計(jì)算負(fù)載。

論文鏈接：https://arxiv.org/abs/2502.05171
模型下載: https://huggingface.co/tomg-group-umd/huginn-0125
代碼鏈接: https://github.com/seal-rg/recurrent-pretraining

人類在解決某些問題時(shí)自然會(huì)花費(fèi)更多的腦力。雖然人類能夠通過用語(yǔ)言表達(dá)中間結(jié)果并寫下來(lái)進(jìn)行長(zhǎng)時(shí)間的思考，但在說(shuō)出答案的第一個(gè)字之前，大量的思考是通過大腦中復(fù)雜、反復(fù)的放電模式進(jìn)行的。

而在 AI 一側(cè)，早期提升語(yǔ)言模型能力的嘗試聚焦于擴(kuò)大模型規(guī)模，這種方法需要海量數(shù)據(jù)和算力支撐。近年來(lái)，研究者開始探索通過擴(kuò)展測(cè)試時(shí)計(jì)算量來(lái)提升模型推理能力。主流方法是對(duì)長(zhǎng)鏈條的思維鏈?zhǔn)纠M(jìn)行后訓(xùn)練，以開發(fā)模型在上下文窗口中語(yǔ)言化中間計(jì)算過程的能力，從而實(shí)現(xiàn)思維外顯。

然而，將昂貴的內(nèi)部推理過程始終壓縮為單一的語(yǔ)言化下一個(gè) token 的約束顯然是低效的 —— 如果模型能原生地在連續(xù)的潛在空間中「思考」，其能力很可能得到顯著提升。釋放這一未被開發(fā)的計(jì)算維度的一種方法是為模型添加循環(huán)單元。該單元以循環(huán)方式運(yùn)行，持續(xù)處理和更新隱藏狀態(tài)，使得計(jì)算得以無(wú)限延續(xù)。盡管這并非當(dāng)前主流范式，但這一思想貫穿機(jī)器學(xué)習(xí)發(fā)展史，每隔十年便以新形式重現(xiàn)：從循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）到擴(kuò)散模型（Diffusion model），再到通用 Transformer 或循環(huán) Transformer 架構(gòu)。

在新工作中，研究人員展示了深度循環(huán)語(yǔ)言模型（depth-recurrent language models）可以有效學(xué)習(xí)、高效訓(xùn)練，并在測(cè)試時(shí)計(jì)算擴(kuò)展的情況下展示出明顯的性能改進(jìn)。作者提出的 Transformer 架構(gòu)建立在潛在深度循環(huán)塊之上，在訓(xùn)練期間運(yùn)行隨機(jī)采樣的迭代次數(shù)。作者展示了這種范式可以擴(kuò)展到數(shù)十億個(gè)參數(shù)和超過 5 萬(wàn)億個(gè)預(yù)訓(xùn)練數(shù)據(jù)標(biāo)記。在測(cè)試時(shí)，該模型可以通過潛在空間中的循環(huán)推理來(lái)提高其性能，使其能夠與其他受益于更多參數(shù)和訓(xùn)練數(shù)據(jù)的開源模型競(jìng)爭(zhēng)。

此外，作者展示了循環(huán)深度模型在推理時(shí)自然支持許多功能，這些功能在非循環(huán)模型中需要大量的調(diào)整和研究工作，例如每個(gè) token 的自適應(yīng)計(jì)算、（自）推測(cè)解碼和 KV 緩存共享。通過跟蹤潛在空間中的 token 軌跡來(lái)表明，許多有趣的計(jì)算行為會(huì)隨著規(guī)模的擴(kuò)大而出現(xiàn)，例如模型在潛在空間中旋轉(zhuǎn)形狀以進(jìn)行數(shù)值計(jì)算。

為什么要使用深度循環(huán)來(lái)訓(xùn)練模型？

循環(huán)層使得 Transformer 模型能夠在生成一個(gè) token 之前執(zhí)行任意數(shù)量的計(jì)算。從原理上講，循環(huán)機(jī)制為測(cè)試時(shí)計(jì)算量的擴(kuò)展提供了一種簡(jiǎn)潔的解決方案。作者認(rèn)為，與更傳統(tǒng)的長(zhǎng)上下文推理方法（如 OpenAI 的 o1、DeepSeek-AI 的 R1）相比，潛在循環(huán)思考具備多項(xiàng)優(yōu)勢(shì)：

無(wú)需定制化訓(xùn)練數(shù)據(jù)：鏈?zhǔn)剿季S推理要求模型在特定領(lǐng)域的長(zhǎng)示例上進(jìn)行訓(xùn)練。而潛在推理模型則能在標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)上訓(xùn)練，無(wú)需專門示例，且可根據(jù)計(jì)算預(yù)算靈活調(diào)整，在測(cè)試時(shí)通過額外計(jì)算資源增強(qiáng)能力；
更低的內(nèi)存需求：潛在推理模型在訓(xùn)練和推理時(shí)所需內(nèi)存少于鏈?zhǔn)剿季S推理模型。后者因需極長(zhǎng)上下文窗口，可能需采用如 token 并行化等專門訓(xùn)練方法；
更高的計(jì)算效率：循環(huán)深度網(wǎng)絡(luò)相較于標(biāo)準(zhǔn) Transformer，每參數(shù)執(zhí)行的浮點(diǎn)運(yùn)算（FLOPs）更多，顯著降低了大規(guī)模訓(xùn)練時(shí) AI 計(jì)算卡之間的通信成本，尤其在低速互連條件下更能提升設(shè)備利用率；
促進(jìn)「思考」而非記憶：通過構(gòu)建計(jì)算密集但參數(shù)規(guī)模較小的架構(gòu)，該工作期望強(qiáng)化模型構(gòu)建「思考」（即學(xué)習(xí)元策略、邏輯與抽象）而非單純記憶來(lái)解決問題的先驗(yàn)傾向。此前，循環(huán)先驗(yàn)在學(xué)習(xí)復(fù)雜算法方面的優(yōu)勢(shì)已在「深度思考」相關(guān)文獻(xiàn)中得到驗(yàn)證。

從哲學(xué)視角看，我們肯定希望 AI 的潛在推理能捕捉人類推理中難以言表的部分，如空間思維、物理直覺或（運(yùn)動(dòng)）規(guī)劃。通過循環(huán)過程的多次迭代，在高維向量空間中進(jìn)行推理將允許同時(shí)深度探索多個(gè)方向，而非線性思維，從而催生能夠展現(xiàn)新穎且復(fù)雜推理行為的系統(tǒng)。

以這種方式擴(kuò)展計(jì)算能力并不排斥通過延長(zhǎng)（語(yǔ)言化）推理或增加預(yù)訓(xùn)練參數(shù)數(shù)量來(lái)提升模型性能。因此，它可能構(gòu)建出模型性能擴(kuò)展的第三維度。

可擴(kuò)展的循環(huán)架構(gòu)

該研究提出的具有潛在循環(huán)深度的 Transformer 架構(gòu)，模型主體結(jié)構(gòu)基于僅解碼器（decoder-only）的 Transformer 模塊。然而，這些模塊被組織成三個(gè)功能組：前奏（Prelude）P，通過多層 Transformer 將輸入數(shù)據(jù)嵌入潛在空間；核心循環(huán)塊（Core Recurrent Block）R，作為循環(huán)計(jì)算的核心單元，負(fù)責(zé)修改狀態(tài) s ∈ R n×h；以及尾聲（Coda）C，通過若干層從潛在空間解嵌入，并包含模型的預(yù)測(cè)頭。

核心塊置于前奏與尾聲之間，通過循環(huán)核心塊，我們能在「歌曲」中插入無(wú)限數(shù)量的「詩(shī)節(jié)」。

模型架構(gòu)如下圖所示：

給定一定數(shù)量的循環(huán)迭代 r 和一系列輸入標(biāo)記 x ∈ V n，這些組以以下方式使用來(lái)產(chǎn)生輸出概率 p ∈ R n×|V |：

其中 σ 是初始化隨機(jī)狀態(tài)的某個(gè)標(biāo)準(zhǔn)差。該過程如圖 2 所示。給定一個(gè)初始隨機(jī)狀態(tài) s0，模型重復(fù)應(yīng)用核心塊 R，它接受潛狀態(tài) si?1 和嵌入輸入 e 并輸出一個(gè)新的潛在狀態(tài) si 。完成所有迭代后，coda 塊處理最后一個(gè)狀態(tài)并產(chǎn)生下一個(gè) token 的概率。該架構(gòu)基于深度思考文獻(xiàn)，其中表明在每一步中注入潛在輸入 e 并用隨機(jī)狀態(tài)初始化潛在向量可以穩(wěn)定遞歸并促進(jìn)收斂到與初始化無(wú)關(guān)的穩(wěn)定狀態(tài)，即路徑獨(dú)立性。

在每個(gè)組中，模型大致都遵循標(biāo)準(zhǔn)的 Transformer 層設(shè)計(jì)。每個(gè)塊包含多個(gè)層，每個(gè)層包含一個(gè)標(biāo)準(zhǔn)的因果自注意力塊，使用 RoPE，基數(shù)為 50000，以及一個(gè)門控 SiLU MLP。作者使用 RMNSorm 作為規(guī)范化函數(shù)。為了穩(wěn)定遞歸，模型按以下「三明治」格式對(duì)所有層進(jìn)行排序，使用范數(shù)層 ni：

為了在訓(xùn)練時(shí)保持較低的計(jì)算量和內(nèi)存，研究人員在訓(xùn)練時(shí)隨機(jī)采樣迭代次數(shù)，并通過截?cái)喾聪騻鞑?lái)減少計(jì)算和內(nèi)存開銷。模型只對(duì)最后幾次迭代進(jìn)行反向傳播，在保持訓(xùn)練效率的同時(shí)能夠適應(yīng)不同深度的循環(huán)計(jì)算。

實(shí)驗(yàn)結(jié)果

由于這個(gè)模型很難與其他基于 Transformer 架構(gòu)大語(yǔ)言模型直接比較。它僅包含 3.5B 參數(shù)，在預(yù)訓(xùn)練階段僅需少量互連帶寬。然而，其實(shí)際算力（FLOPs）消耗要接近 32B 參數(shù) Transformer 的水平。在測(cè)試中，該模型能夠無(wú)限制地提升算力，最終達(dá)到與 50BTransformer 相當(dāng)?shù)男阅芩健?/span>

該模型的訓(xùn)練有一些瑕疵：只訓(xùn)練了 47000 步，學(xué)習(xí)率從未降低，數(shù)據(jù)集也比較小，只有 800B tokens。這和現(xiàn)在動(dòng)輒上萬(wàn)億 tokens 的工業(yè)模型有很大差距。

盡管如此，它在 ARC、HellaSwag、MMLU、OpenBookQA、PiQA、SciQ 和 WinoGrande 的成績(jī)上已經(jīng)可以和 OLMo-7B 媲美，在多項(xiàng)任務(wù)上超過了老牌的 Pythia 模型。

作為首個(gè)在這個(gè)量級(jí)上訓(xùn)練的「深度循環(huán)」模型，這個(gè)結(jié)果已經(jīng)可喜可賀了。這也證明了「潛在循環(huán)」是一個(gè)可行的思路，值得探索。在推理時(shí)動(dòng)態(tài)地增加算力，也有希望達(dá)到上億 token 級(jí)別的水平。

數(shù)學(xué)和代碼測(cè)試

該團(tuán)隊(duì)在 GSM8k、MATH、Minerva 和 MathQA 上測(cè)試了模型的數(shù)學(xué)能力；在 MBPP 和 HumanEval 上測(cè)試了編程水平。

在數(shù)學(xué)推理方面，該模型大大超過了除 OLMo-2 模型以外的所有模型。在編程基準(zhǔn)測(cè)試中，該模型擊敗了所有其他通用開源模型。不過沒有 StarCoder2 等「編程專家模型」。

研究團(tuán)隊(duì)還注意到，如下圖所示，雖然語(yǔ)言建模的進(jìn)步會(huì)放緩，在這個(gè)訓(xùn)練規(guī)模下是正常的，但編程和數(shù)學(xué)推理在整個(gè)訓(xùn)練過程中都處于穩(wěn)步上升的狀態(tài)。

遞歸在哪里起效了？

遞歸到底在哪方面帶來(lái)了提升？模型表現(xiàn)的提升到底是遞歸結(jié)構(gòu)的功勞，還是數(shù)據(jù)集、分詞方式、模型架構(gòu)等其他因素在起作用？

為了找到答案，研究團(tuán)隊(duì)做了對(duì)比實(shí)驗(yàn)：他們用完全相同的條件訓(xùn)練了一個(gè)非遞歸模型，讓兩個(gè)模型都學(xué)習(xí)了 1800 億個(gè) token。

結(jié)果顯示，遞歸模型的整體表現(xiàn)更勝一籌，尤其是在處理難度較大的任務(wù)時(shí)尤為明顯，比如 ARC 挑戰(zhàn)測(cè)試集。不過，像 SciQ 這樣主要考驗(yàn)科學(xué)知識(shí)記憶的基礎(chǔ)任務(wù)上，兩個(gè)模型的差距就不那么大了。而在 GSM8k 數(shù)學(xué)推理任務(wù)上，才訓(xùn)練到 1800 億 token，遞歸模型的成績(jī)就已經(jīng)比基準(zhǔn)模型好了整整 5 倍！

如果限制遞歸模型只能遞歸一次，它從 1800 億到 8000 億 token 期間的表現(xiàn)就幾乎沒有進(jìn)步。這說(shuō)明模型的提升完全來(lái)自于遞歸模塊的多次運(yùn)算，而非前后的非遞歸層。

此外，研究團(tuán)隊(duì)還做了一個(gè)測(cè)試，看看在不同任務(wù)上增加計(jì)算量會(huì)帶來(lái)什么效果。結(jié)果顯示，簡(jiǎn)單任務(wù)很快就能達(dá)到性能上限，而復(fù)雜任務(wù)則能從更多的計(jì)算中持續(xù)獲益。

遞歸次數(shù)和上下文長(zhǎng)度的關(guān)系

下圖展示了模型在 ARC-C 測(cè)試中的表現(xiàn)如何隨著遞歸次數(shù)和少樣本示例數(shù)量的變化而變化，當(dāng)上下文中沒有少樣本示例時(shí)，模型僅需 8 到 12 次遞歸即可達(dá)到性能上限。

但是，當(dāng)給模型提供更多上下文信息時(shí)，它就像得到了更大的「思考空間」。比如提供 1 個(gè)示例時(shí)，模型需要 20 次遞歸才能發(fā)揮最佳水平；如果給到 25-50 個(gè)示例，則需要 32 次遞歸。

OBQA 測(cè)試也出現(xiàn)了同樣的情況。當(dāng)研究團(tuán)隊(duì)為每道題提供相關(guān)背景知識(shí)時(shí)，遞歸模型的表現(xiàn)突飛猛進(jìn)，幾乎追平了 OLMo-2 的水平。這個(gè)結(jié)果其實(shí)很好理解：遞歸模型雖然不太擅長(zhǎng)記憶大量事實(shí)，但在推理和利用上下文信息方面卻相當(dāng)出色。

遞歸深度如何簡(jiǎn)化 LLM？

測(cè)試階段的零樣本自適應(yīng)計(jì)算

該團(tuán)隊(duì)發(fā)現(xiàn)，其模型能夠根據(jù)不同的任務(wù)靈活調(diào)整計(jì)算量。

對(duì)于簡(jiǎn)單問題，模型只需進(jìn)行較少的計(jì)算；而對(duì)于復(fù)雜問題，則會(huì)增加計(jì)算輪次。這不正是我們期望的效果嗎？

為了量化觀察，他們采用了一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn)：觀察連續(xù)兩步計(jì)算結(jié)果之間的 KL 散度。如果這個(gè)差異小于 0.00005，便判斷為可以停止計(jì)算了。

如圖 10 所示，在處理 MMLU 測(cè)試的前 50 個(gè)問題時(shí)，不同類型的題目所需的計(jì)算步數(shù)差異很大。例如，高中數(shù)學(xué)題相對(duì)簡(jiǎn)單，計(jì)算步數(shù)較少；面對(duì)需要道德判斷題時(shí)，平均需要多算 3.5 步。而在 MTBench 測(cè)試中，這種自適應(yīng)計(jì)算機(jī)制幾乎不會(huì)影響模型的對(duì)話表現(xiàn)。

零樣本 KV 緩存共享

為了提高效率，研究團(tuán)隊(duì)還嘗試減少了 KV 緩存的內(nèi)存占用。他們給每個(gè) token 設(shè)定了固定的 KV 緩存預(yù)算，比如 16 步。這樣，第 17 步的計(jì)算就會(huì)覆蓋第 1 步的緩存，以此類推。在 MTBench 測(cè)試中，即使把緩存預(yù)算降到 4，模型表現(xiàn)依然穩(wěn)定。

零樣本連續(xù)思維鏈

為了做到這一點(diǎn)，研究團(tuán)隊(duì)設(shè)計(jì)了一種方法：在生成新 token 時(shí)，不是每次都從隨機(jī)狀態(tài)開始，而是利用上一個(gè) token 的最終狀態(tài)進(jìn)行「熱啟動(dòng)」。圖 10 顯示，這種方法可以減少 1 到 2 步的計(jì)算量。特別是在處理哲學(xué)問題時(shí)，通過重復(fù)利用之前的計(jì)算結(jié)果，模型更容易提前完成任務(wù)。

零樣本自推測(cè)解碼

遞歸模型還有一個(gè)天然優(yōu)勢(shì)：不需要額外的「草稿模型」就能實(shí)現(xiàn)推測(cè)解碼。換句話說(shuō)，模型可以用較少的迭代次數(shù)先生成后面 N 個(gè) token 的草稿，然后用更多的迭代次數(shù) M（M>N）來(lái)驗(yàn)證。

這個(gè)過程可以分多個(gè)階段進(jìn)行，「草稿模型」還可以使用自適應(yīng)計(jì)算。最棒的是，草稿階段的計(jì)算結(jié)果可以在驗(yàn)證階段重復(fù)使用，不會(huì)浪費(fèi)計(jì)算資源。

模型在遞歸過程中到底在做什么？

通過從潛在空間沉浸式觀察模型的「思考」過程，研究團(tuán)隊(duì)發(fā)現(xiàn)了和我們通常理解的「思維鏈」截然不同的現(xiàn)象。

研究團(tuán)隊(duì)分析了每個(gè)遞歸狀態(tài) s_i 與極限點(diǎn) s^?（通過 128 次迭代計(jì)算得到）之間的距離變化。結(jié)果顯示，模型的收斂行為與上下文密切相關(guān)。

在處理問題的關(guān)鍵部分以及開始生成回答時(shí)，模型會(huì)更多「深思熟慮」。即使是完全相同的符號(hào)（例如省略號(hào)中有兩個(gè)重復(fù)的...），模型也會(huì)因上下文不同而表現(xiàn)出不同的處理方式。

他們對(duì)所有 token 的軌跡進(jìn)行了 PCA 分解，并將個(gè)別軌跡投射到前六個(gè) PCA 方向上。結(jié)果顯示：

簡(jiǎn)單標(biāo)記往往直接收斂到一個(gè)固定點(diǎn)。
在處理復(fù)雜問題時(shí)，token 的狀態(tài)會(huì)形成程式。
一些關(guān)鍵詞（如「makes」和「thinks」）經(jīng)常出現(xiàn)程式，這些詞往往決定了回答的結(jié)構(gòu)。
某些 token（如「wrong」）會(huì)「滑動(dòng)」，其軌跡會(huì)朝著特定方向漂移。

這表示模型并沒有采用傳統(tǒng)的線性推理方式（如思維鏈），而是自主學(xué)會(huì)了利用高維空間來(lái)實(shí)現(xiàn)更豐富的幾何模式，包括程式、收斂路徑和漂移等。

盡管模型內(nèi)部呈現(xiàn)出復(fù)雜的動(dòng)態(tài)特征，但如下圖所示，研究團(tuán)隊(duì)證實(shí)了它仍然保持著路徑獨(dú)立性。無(wú)論從哪個(gè)起點(diǎn) s_0 開始，模型都會(huì)形成相似的軌跡，展現(xiàn)出一致的行為模式 —— 同樣的軌跡、固定點(diǎn)或方向漂移。

更多研究細(xì)節(jié)，請(qǐng)參看論文原文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

訓(xùn)練數(shù)據(jù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="zm11s"></sub>

<sub id="zm11s"></sub>

<sup id="zm11s"><rt id="zm11s"></rt></sup><sub id="zm11s"></sub>

<style id="zm11s"></style>