自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越思維鏈?深度循環(huán)隱式推理引爆AI圈,LLM擴(kuò)展有了新維度

人工智能 新聞
不需要特殊訓(xùn)練數(shù)據(jù),能處理語(yǔ)言難以形容的任務(wù),3.5B 參數(shù)能實(shí)現(xiàn) 50B 的性能。

這是一種全新的語(yǔ)言模型架構(gòu),能夠通過使用循環(huán)語(yǔ)言模型在潛在空間中隱式推理,顯著提升模型的計(jì)算效率,尤其是在需要復(fù)雜推理的任務(wù)上。

近日,馬里蘭大學(xué)的一篇論文在 AI 研究社區(qū)中引發(fā)了關(guān)注,其提出的語(yǔ)言模型通過迭代循環(huán)塊來(lái)工作,能在測(cè)試時(shí)展開到任意深度。這與當(dāng)前通過生成更多 token 來(lái)擴(kuò)展計(jì)算的主流推理模型形成了鮮明的對(duì)比。

僅在上個(gè)月,Hugging Face 上的下載量就達(dá)到了 4500+。

深度循環(huán)(Recurrent Depth)方法無(wú)需生成大量「思考」token 即可獲得高性能。與基于思維鏈的方法不同,馬里蘭大學(xué)的方法不需要任何專門的訓(xùn)練數(shù)據(jù),可以使用小的上下文窗口,并且可以捕獲不易用文字表示的推理類型。

該工作構(gòu)建的概念驗(yàn)證模型達(dá)到 35 億參數(shù)和 8000 億 token,實(shí)驗(yàn)驗(yàn)證了新方法可以提高其在推理基準(zhǔn)上的性能,尤其是在需要復(fù)雜推理的數(shù)學(xué)和編程問題上,最高相當(dāng)于 500 億參數(shù)的計(jì)算負(fù)載。


  • 論文鏈接:https://arxiv.org/abs/2502.05171
  • 模型下載: https://huggingface.co/tomg-group-umd/huginn-0125
  • 代碼鏈接: https://github.com/seal-rg/recurrent-pretraining

人類在解決某些問題時(shí)自然會(huì)花費(fèi)更多的腦力。雖然人類能夠通過用語(yǔ)言表達(dá)中間結(jié)果并寫下來(lái)進(jìn)行長(zhǎng)時(shí)間的思考,但在說(shuō)出答案的第一個(gè)字之前,大量的思考是通過大腦中復(fù)雜、反復(fù)的放電模式進(jìn)行的。

而在 AI 一側(cè),早期提升語(yǔ)言模型能力的嘗試聚焦于擴(kuò)大模型規(guī)模,這種方法需要海量數(shù)據(jù)和算力支撐。近年來(lái),研究者開始探索通過擴(kuò)展測(cè)試時(shí)計(jì)算量來(lái)提升模型推理能力。主流方法是對(duì)長(zhǎng)鏈條的思維鏈?zhǔn)纠M(jìn)行后訓(xùn)練,以開發(fā)模型在上下文窗口中語(yǔ)言化中間計(jì)算過程的能力,從而實(shí)現(xiàn)思維外顯。

然而,將昂貴的內(nèi)部推理過程始終壓縮為單一的語(yǔ)言化下一個(gè) token 的約束顯然是低效的 —— 如果模型能原生地在連續(xù)的潛在空間中「思考」,其能力很可能得到顯著提升。釋放這一未被開發(fā)的計(jì)算維度的一種方法是為模型添加循環(huán)單元。該單元以循環(huán)方式運(yùn)行,持續(xù)處理和更新隱藏狀態(tài),使得計(jì)算得以無(wú)限延續(xù)。盡管這并非當(dāng)前主流范式,但這一思想貫穿機(jī)器學(xué)習(xí)發(fā)展史,每隔十年便以新形式重現(xiàn):從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)到擴(kuò)散模型(Diffusion model),再到通用 Transformer 或循環(huán) Transformer 架構(gòu)。

在新工作中,研究人員展示了深度循環(huán)語(yǔ)言模型(depth-recurrent language models)可以有效學(xué)習(xí)、高效訓(xùn)練,并在測(cè)試時(shí)計(jì)算擴(kuò)展的情況下展示出明顯的性能改進(jìn)。作者提出的 Transformer 架構(gòu)建立在潛在深度循環(huán)塊之上,在訓(xùn)練期間運(yùn)行隨機(jī)采樣的迭代次數(shù)。作者展示了這種范式可以擴(kuò)展到數(shù)十億個(gè)參數(shù)和超過 5 萬(wàn)億個(gè)預(yù)訓(xùn)練數(shù)據(jù)標(biāo)記。在測(cè)試時(shí),該模型可以通過潛在空間中的循環(huán)推理來(lái)提高其性能,使其能夠與其他受益于更多參數(shù)和訓(xùn)練數(shù)據(jù)的開源模型競(jìng)爭(zhēng)。

此外,作者展示了循環(huán)深度模型在推理時(shí)自然支持許多功能,這些功能在非循環(huán)模型中需要大量的調(diào)整和研究工作,例如每個(gè) token 的自適應(yīng)計(jì)算、(自)推測(cè)解碼和 KV 緩存共享。通過跟蹤潛在空間中的 token 軌跡來(lái)表明,許多有趣的計(jì)算行為會(huì)隨著規(guī)模的擴(kuò)大而出現(xiàn),例如模型在潛在空間中旋轉(zhuǎn)形狀以進(jìn)行數(shù)值計(jì)算。

為什么要使用深度循環(huán)來(lái)訓(xùn)練模型?

循環(huán)層使得 Transformer 模型能夠在生成一個(gè) token 之前執(zhí)行任意數(shù)量的計(jì)算。從原理上講,循環(huán)機(jī)制為測(cè)試時(shí)計(jì)算量的擴(kuò)展提供了一種簡(jiǎn)潔的解決方案。作者認(rèn)為,與更傳統(tǒng)的長(zhǎng)上下文推理方法(如 OpenAI 的 o1、DeepSeek-AI 的 R1)相比,潛在循環(huán)思考具備多項(xiàng)優(yōu)勢(shì):

  • 無(wú)需定制化訓(xùn)練數(shù)據(jù):鏈?zhǔn)剿季S推理要求模型在特定領(lǐng)域的長(zhǎng)示例上進(jìn)行訓(xùn)練。而潛在推理模型則能在標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)上訓(xùn)練,無(wú)需專門示例,且可根據(jù)計(jì)算預(yù)算靈活調(diào)整,在測(cè)試時(shí)通過額外計(jì)算資源增強(qiáng)能力;
  • 更低的內(nèi)存需求:潛在推理模型在訓(xùn)練和推理時(shí)所需內(nèi)存少于鏈?zhǔn)剿季S推理模型。后者因需極長(zhǎng)上下文窗口,可能需采用如 token 并行化等專門訓(xùn)練方法;
  • 更高的計(jì)算效率:循環(huán)深度網(wǎng)絡(luò)相較于標(biāo)準(zhǔn) Transformer,每參數(shù)執(zhí)行的浮點(diǎn)運(yùn)算(FLOPs)更多,顯著降低了大規(guī)模訓(xùn)練時(shí) AI 計(jì)算卡之間的通信成本,尤其在低速互連條件下更能提升設(shè)備利用率;
  • 促進(jìn)「思考」而非記憶:通過構(gòu)建計(jì)算密集但參數(shù)規(guī)模較小的架構(gòu),該工作期望強(qiáng)化模型構(gòu)建「思考」(即學(xué)習(xí)元策略、邏輯與抽象)而非單純記憶來(lái)解決問題的先驗(yàn)傾向。此前,循環(huán)先驗(yàn)在學(xué)習(xí)復(fù)雜算法方面的優(yōu)勢(shì)已在「深度思考」相關(guān)文獻(xiàn)中得到驗(yàn)證。

從哲學(xué)視角看,我們肯定希望 AI 的潛在推理能捕捉人類推理中難以言表的部分,如空間思維、物理直覺或(運(yùn)動(dòng))規(guī)劃。通過循環(huán)過程的多次迭代,在高維向量空間中進(jìn)行推理將允許同時(shí)深度探索多個(gè)方向,而非線性思維,從而催生能夠展現(xiàn)新穎且復(fù)雜推理行為的系統(tǒng)。

以這種方式擴(kuò)展計(jì)算能力并不排斥通過延長(zhǎng)(語(yǔ)言化)推理或增加預(yù)訓(xùn)練參數(shù)數(shù)量來(lái)提升模型性能。因此,它可能構(gòu)建出模型性能擴(kuò)展的第三維度。

可擴(kuò)展的循環(huán)架構(gòu)

該研究提出的具有潛在循環(huán)深度的 Transformer 架構(gòu),模型主體結(jié)構(gòu)基于僅解碼器(decoder-only)的 Transformer 模塊。然而,這些模塊被組織成三個(gè)功能組:前奏(Prelude)P,通過多層 Transformer 將輸入數(shù)據(jù)嵌入潛在空間;核心循環(huán)塊(Core Recurrent Block)R,作為循環(huán)計(jì)算的核心單元,負(fù)責(zé)修改狀態(tài) s ∈ R n×h;以及尾聲(Coda)C,通過若干層從潛在空間解嵌入,并包含模型的預(yù)測(cè)頭。

核心塊置于前奏與尾聲之間,通過循環(huán)核心塊,我們能在「歌曲」中插入無(wú)限數(shù)量的「詩(shī)節(jié)」。

模型架構(gòu)如下圖所示:

給定一定數(shù)量的循環(huán)迭代 r 和一系列輸入標(biāo)記 x ∈ V n,這些組以以下方式使用來(lái)產(chǎn)生輸出概率 p ∈ R n×|V |:

其中 σ 是初始化隨機(jī)狀態(tài)的某個(gè)標(biāo)準(zhǔn)差。該過程如圖 2 所示。給定一個(gè)初始隨機(jī)狀態(tài) s0,模型重復(fù)應(yīng)用核心塊 R,它接受潛狀態(tài) si?1 和嵌入輸入 e 并輸出一個(gè)新的潛在狀態(tài) si 。完成所有迭代后,coda 塊處理最后一個(gè)狀態(tài)并產(chǎn)生下一個(gè) token 的概率。該架構(gòu)基于深度思考文獻(xiàn),其中表明在每一步中注入潛在輸入 e 并用隨機(jī)狀態(tài)初始化潛在向量可以穩(wěn)定遞歸并促進(jìn)收斂到與初始化無(wú)關(guān)的穩(wěn)定狀態(tài),即路徑獨(dú)立性。

在每個(gè)組中,模型大致都遵循標(biāo)準(zhǔn)的 Transformer 層設(shè)計(jì)。每個(gè)塊包含多個(gè)層,每個(gè)層包含一個(gè)標(biāo)準(zhǔn)的因果自注意力塊,使用 RoPE,基數(shù)為 50000,以及一個(gè)門控 SiLU MLP。作者使用 RMNSorm 作為規(guī)范化函數(shù)。為了穩(wěn)定遞歸,模型按以下「三明治」格式對(duì)所有層進(jìn)行排序,使用范數(shù)層 ni:

為了在訓(xùn)練時(shí)保持較低的計(jì)算量和內(nèi)存,研究人員在訓(xùn)練時(shí)隨機(jī)采樣迭代次數(shù),并通過截?cái)喾聪騻鞑?lái)減少計(jì)算和內(nèi)存開銷。模型只對(duì)最后幾次迭代進(jìn)行反向傳播,在保持訓(xùn)練效率的同時(shí)能夠適應(yīng)不同深度的循環(huán)計(jì)算。

實(shí)驗(yàn)結(jié)果

由于這個(gè)模型很難與其他基于 Transformer 架構(gòu)大語(yǔ)言模型直接比較。它僅包含 3.5B 參數(shù),在預(yù)訓(xùn)練階段僅需少量互連帶寬。然而,其實(shí)際算力(FLOPs)消耗要接近 32B 參數(shù) Transformer 的水平。在測(cè)試中,該模型能夠無(wú)限制地提升算力,最終達(dá)到與 50BTransformer 相當(dāng)?shù)男阅芩健?/span>

該模型的訓(xùn)練有一些瑕疵:只訓(xùn)練了 47000 步,學(xué)習(xí)率從未降低,數(shù)據(jù)集也比較小,只有 800B tokens。這和現(xiàn)在動(dòng)輒上萬(wàn)億 tokens 的工業(yè)模型有很大差距。

盡管如此,它在 ARC、HellaSwag、MMLU、OpenBookQA、PiQA、SciQ 和 WinoGrande 的成績(jī)上已經(jīng)可以和 OLMo-7B 媲美,在多項(xiàng)任務(wù)上超過了老牌的 Pythia 模型。

作為首個(gè)在這個(gè)量級(jí)上訓(xùn)練的「深度循環(huán)」模型,這個(gè)結(jié)果已經(jīng)可喜可賀了。這也證明了「潛在循環(huán)」是一個(gè)可行的思路,值得探索。在推理時(shí)動(dòng)態(tài)地增加算力,也有希望達(dá)到上億 token 級(jí)別的水平。

數(shù)學(xué)和代碼測(cè)試

該團(tuán)隊(duì)在 GSM8k、MATH、Minerva 和 MathQA 上測(cè)試了模型的數(shù)學(xué)能力;在 MBPP 和 HumanEval 上測(cè)試了編程水平。

在數(shù)學(xué)推理方面,該模型大大超過了除 OLMo-2 模型以外的所有模型。在編程基準(zhǔn)測(cè)試中,該模型擊敗了所有其他通用開源模型。不過沒有 StarCoder2 等「編程專家模型」。

研究團(tuán)隊(duì)還注意到,如下圖所示,雖然語(yǔ)言建模的進(jìn)步會(huì)放緩,在這個(gè)訓(xùn)練規(guī)模下是正常的,但編程和數(shù)學(xué)推理在整個(gè)訓(xùn)練過程中都處于穩(wěn)步上升的狀態(tài)。

遞歸在哪里起效了?

遞歸到底在哪方面帶來(lái)了提升?模型表現(xiàn)的提升到底是遞歸結(jié)構(gòu)的功勞,還是數(shù)據(jù)集、分詞方式、模型架構(gòu)等其他因素在起作用?

為了找到答案,研究團(tuán)隊(duì)做了對(duì)比實(shí)驗(yàn):他們用完全相同的條件訓(xùn)練了一個(gè)非遞歸模型,讓兩個(gè)模型都學(xué)習(xí)了 1800 億個(gè) token。

結(jié)果顯示,遞歸模型的整體表現(xiàn)更勝一籌,尤其是在處理難度較大的任務(wù)時(shí)尤為明顯,比如 ARC 挑戰(zhàn)測(cè)試集。不過,像 SciQ 這樣主要考驗(yàn)科學(xué)知識(shí)記憶的基礎(chǔ)任務(wù)上,兩個(gè)模型的差距就不那么大了。而在 GSM8k 數(shù)學(xué)推理任務(wù)上,才訓(xùn)練到 1800 億 token,遞歸模型的成績(jī)就已經(jīng)比基準(zhǔn)模型好了整整 5 倍!

如果限制遞歸模型只能遞歸一次,它從 1800 億到 8000 億 token 期間的表現(xiàn)就幾乎沒有進(jìn)步。這說(shuō)明模型的提升完全來(lái)自于遞歸模塊的多次運(yùn)算,而非前后的非遞歸層。

此外,研究團(tuán)隊(duì)還做了一個(gè)測(cè)試,看看在不同任務(wù)上增加計(jì)算量會(huì)帶來(lái)什么效果。結(jié)果顯示,簡(jiǎn)單任務(wù)很快就能達(dá)到性能上限,而復(fù)雜任務(wù)則能從更多的計(jì)算中持續(xù)獲益。

遞歸次數(shù)和上下文長(zhǎng)度的關(guān)系

下圖展示了模型在 ARC-C 測(cè)試中的表現(xiàn)如何隨著遞歸次數(shù)和少樣本示例數(shù)量的變化而變化,當(dāng)上下文中沒有少樣本示例時(shí),模型僅需 8 到 12 次遞歸即可達(dá)到性能上限。

但是,當(dāng)給模型提供更多上下文信息時(shí),它就像得到了更大的「思考空間」。比如提供 1 個(gè)示例時(shí),模型需要 20 次遞歸才能發(fā)揮最佳水平;如果給到 25-50 個(gè)示例,則需要 32 次遞歸。

OBQA 測(cè)試也出現(xiàn)了同樣的情況。當(dāng)研究團(tuán)隊(duì)為每道題提供相關(guān)背景知識(shí)時(shí),遞歸模型的表現(xiàn)突飛猛進(jìn),幾乎追平了 OLMo-2 的水平。這個(gè)結(jié)果其實(shí)很好理解:遞歸模型雖然不太擅長(zhǎng)記憶大量事實(shí),但在推理和利用上下文信息方面卻相當(dāng)出色。

遞歸深度如何簡(jiǎn)化 LLM?

測(cè)試階段的零樣本自適應(yīng)計(jì)算

該團(tuán)隊(duì)發(fā)現(xiàn),其模型能夠根據(jù)不同的任務(wù)靈活調(diào)整計(jì)算量。

對(duì)于簡(jiǎn)單問題,模型只需進(jìn)行較少的計(jì)算;而對(duì)于復(fù)雜問題,則會(huì)增加計(jì)算輪次。這不正是我們期望的效果嗎?

為了量化觀察,他們采用了一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn):觀察連續(xù)兩步計(jì)算結(jié)果之間的 KL 散度。如果這個(gè)差異小于 0.00005,便判斷為可以停止計(jì)算了。

如圖 10 所示,在處理 MMLU 測(cè)試的前 50 個(gè)問題時(shí),不同類型的題目所需的計(jì)算步數(shù)差異很大。例如,高中數(shù)學(xué)題相對(duì)簡(jiǎn)單,計(jì)算步數(shù)較少;面對(duì)需要道德判斷題時(shí),平均需要多算 3.5 步。而在 MTBench 測(cè)試中,這種自適應(yīng)計(jì)算機(jī)制幾乎不會(huì)影響模型的對(duì)話表現(xiàn)。

零樣本 KV 緩存共享 

為了提高效率,研究團(tuán)隊(duì)還嘗試減少了 KV 緩存的內(nèi)存占用。他們給每個(gè) token 設(shè)定了固定的 KV 緩存預(yù)算,比如 16 步。這樣,第 17 步的計(jì)算就會(huì)覆蓋第 1 步的緩存,以此類推。在 MTBench 測(cè)試中,即使把緩存預(yù)算降到 4,模型表現(xiàn)依然穩(wěn)定。

零樣本連續(xù)思維鏈

為了做到這一點(diǎn),研究團(tuán)隊(duì)設(shè)計(jì)了一種方法:在生成新 token 時(shí),不是每次都從隨機(jī)狀態(tài)開始,而是利用上一個(gè) token 的最終狀態(tài)進(jìn)行「熱啟動(dòng)」。圖 10 顯示,這種方法可以減少 1 到 2 步的計(jì)算量。特別是在處理哲學(xué)問題時(shí),通過重復(fù)利用之前的計(jì)算結(jié)果,模型更容易提前完成任務(wù)。

零樣本自推測(cè)解碼

遞歸模型還有一個(gè)天然優(yōu)勢(shì):不需要額外的「草稿模型」就能實(shí)現(xiàn)推測(cè)解碼。換句話說(shuō),模型可以用較少的迭代次數(shù)先生成后面 N 個(gè) token 的草稿,然后用更多的迭代次數(shù) M(M>N)來(lái)驗(yàn)證。

這個(gè)過程可以分多個(gè)階段進(jìn)行,「草稿模型」還可以使用自適應(yīng)計(jì)算。最棒的是,草稿階段的計(jì)算結(jié)果可以在驗(yàn)證階段重復(fù)使用,不會(huì)浪費(fèi)計(jì)算資源。

模型在遞歸過程中到底在做什么?

通過從潛在空間沉浸式觀察模型的「思考」過程 ,研究團(tuán)隊(duì)發(fā)現(xiàn)了和我們通常理解的「思維鏈」截然不同的現(xiàn)象。

研究團(tuán)隊(duì)分析了每個(gè)遞歸狀態(tài) s_i 與極限點(diǎn) s^?(通過 128 次迭代計(jì)算得到)之間的距離變化。結(jié)果顯示,模型的收斂行為與上下文密切相關(guān)。

在處理問題的關(guān)鍵部分以及開始生成回答時(shí),模型會(huì)更多「深思熟慮」。即使是完全相同的符號(hào)(例如省略號(hào)中有兩個(gè)重復(fù)的...),模型也會(huì)因上下文不同而表現(xiàn)出不同的處理方式。

他們對(duì)所有 token 的軌跡進(jìn)行了 PCA 分解,并將個(gè)別軌跡投射到前六個(gè) PCA 方向上。結(jié)果顯示:

  • 簡(jiǎn)單標(biāo)記往往直接收斂到一個(gè)固定點(diǎn)。
  • 在處理復(fù)雜問題時(shí),token 的狀態(tài)會(huì)形成程式。
  • 一些關(guān)鍵詞(如「makes」和「thinks」)經(jīng)常出現(xiàn)程式,這些詞往往決定了回答的結(jié)構(gòu)。
  • 某些 token(如「wrong」)會(huì)「滑動(dòng)」,其軌跡會(huì)朝著特定方向漂移。

這表示模型并沒有采用傳統(tǒng)的線性推理方式(如思維鏈),而是自主學(xué)會(huì)了利用高維空間來(lái)實(shí)現(xiàn)更豐富的幾何模式,包括程式、收斂路徑和漂移等。

盡管模型內(nèi)部呈現(xiàn)出復(fù)雜的動(dòng)態(tài)特征,但如下圖所示,研究團(tuán)隊(duì)證實(shí)了它仍然保持著路徑獨(dú)立性。無(wú)論從哪個(gè)起點(diǎn) s_0 開始,模型都會(huì)形成相似的軌跡,展現(xiàn)出一致的行為模式 —— 同樣的軌跡、固定點(diǎn)或方向漂移。

更多研究細(xì)節(jié),請(qǐng)參看論文原文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-12-12 09:00:00

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2020-11-09 11:29:20

區(qū)塊鏈

2025-03-17 08:15:00

AI技術(shù)模型

2019-10-25 15:58:10

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-01-13 01:00:00

數(shù)據(jù)訓(xùn)練AI

2023-07-09 15:21:05

AI模型LongNet

2022-05-09 11:23:43

人工智能機(jī)器學(xué)習(xí)推理

2025-02-10 13:00:00

模型訓(xùn)練AI

2024-05-14 09:22:51

模型技術(shù)

2025-03-24 13:45:56

2023-09-25 09:45:01

數(shù)據(jù)模型

2025-01-06 07:05:00

2024-11-05 13:30:00

2024-03-04 08:20:00

谷歌架構(gòu)AI

2025-03-12 09:48:19

2025-01-22 08:30:00

2025-02-21 13:20:00

2023-06-05 09:48:19

谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)