自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="0g6hx"><p id="0g6hx"></p></sub>

^{<blockquote id="0g6hx"></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

7B擴(kuò)散LLM，居然能跟671B的DeepSeek V3掰手腕，擴(kuò)散vs自回歸，誰(shuí)才是未來(lái)？

作者：機(jī)器之心 2025-04-07 08:50:00

人工智能新聞

香港大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的一項(xiàng)研究就是其中之一。他們剛剛發(fā)布的擴(kuò)散推理模型 Dream 7B 拿下了開(kāi)源擴(kuò)散語(yǔ)言模型的新 SOTA，在各方面都大幅超越現(xiàn)有的擴(kuò)散語(yǔ)言模型。

語(yǔ)言是離散的，所以適合用自回歸模型來(lái)生成；而圖像是連續(xù)的，所以適合用擴(kuò)散模型來(lái)生成。在生成模型發(fā)展早期，這種刻板印象廣泛存在于很多研究者的腦海中。

但最近，這種印象正被打破。更多的研究者開(kāi)始探索在圖像生成中引入自回歸（如 GPT-4o），在語(yǔ)言生成中引入擴(kuò)散。

香港大學(xué)和華為諾亞方舟實(shí)驗(yàn)室的一項(xiàng)研究就是其中之一。他們剛剛發(fā)布的擴(kuò)散推理模型 Dream 7B 拿下了開(kāi)源擴(kuò)散語(yǔ)言模型的新 SOTA，在各方面都大幅超越現(xiàn)有的擴(kuò)散語(yǔ)言模型。

在通用能力、數(shù)學(xué)推理和編程任務(wù)上，這個(gè)模型展現(xiàn)出了與同等規(guī)模頂尖自回歸模型（Qwen2.5 7B、LLaMA3 8B）相媲美的卓越性能，在某些情況下甚至優(yōu)于最新的 Deepseek V3 671B（0324）。

同時(shí)，它還在規(guī)劃能力和推理靈活性方面表現(xiàn)出獨(dú)特優(yōu)勢(shì)，彰顯了擴(kuò)散建模在自然語(yǔ)言處理領(lǐng)域的廣闊前景。

各語(yǔ)言模型在通用、數(shù)學(xué)、編程和規(guī)劃任務(wù)上的比較。

語(yǔ)言模型在標(biāo)準(zhǔn)評(píng)估基準(zhǔn)上的比較。* 表示 Dream 7B、LLaDA 8B、Qwen2.5 7B 和 LLaMA3 8B 在相同協(xié)議下評(píng)估。最佳結(jié)果以粗體顯示，次佳結(jié)果帶有下劃線。

這項(xiàng)工作的作者之一、香港大學(xué)助理教授孔令鵬表示，「Dream 7B 終于實(shí)現(xiàn)了我們從開(kāi)始研究離散擴(kuò)散模型以來(lái)一直夢(mèng)想的通用語(yǔ)言模型能力」。

研究團(tuán)隊(duì)將在幾天內(nèi)發(fā)布基礎(chǔ)模型和指令模型的權(quán)重：

基礎(chǔ)模型：https://huggingface.co/Dream-org/Dream-v0-Base-7B
SFT 模型：https://huggingface.co/Dream-org/Dream-v0-Instruct-7B
代碼庫(kù)：https://github.com/HKUNLP/Dream

他們相信，雖然自回歸模型依然是文本生成領(lǐng)域的主流，但擴(kuò)散模型在生成文本方面有其天然的優(yōu)勢(shì)。而且隨著社區(qū)對(duì)擴(kuò)散語(yǔ)言模型后訓(xùn)練方案探索的不斷深入，這個(gè)方向還有很大的挖掘空間。

當(dāng)然，在這個(gè)方向上，擴(kuò)散模型究竟能走多遠(yuǎn)，現(xiàn)在還很難判斷。但前 Stability AI 的研究總監(jiān) Tanishq Mathew Abraham 表示，「即使你不相信擴(kuò)散模型是未來(lái)，我也不認(rèn)為你可以完全忽略它們，它們至少可能會(huì)有一些有趣的特定應(yīng)用?！?/span>

為什么用擴(kuò)散模型生成文本？

目前，自回歸（AR）模型在文本生成領(lǐng)域占據(jù)主導(dǎo)地位，幾乎所有領(lǐng)先的 LLM（如 GPT-4、DeepSeek、Claude）都依賴于這種從左到右生成的架構(gòu)。雖然這些模型表現(xiàn)出了卓越的能力，但一個(gè)基本問(wèn)題浮現(xiàn)出來(lái)：什么樣的架構(gòu)范式可能定義下一代 LLM？

隨著我們發(fā)現(xiàn) AR 模型在規(guī)?；瘧?yīng)用中顯現(xiàn)出一系列局限 —— 包括復(fù)雜推理能力不足、長(zhǎng)期規(guī)劃困難以及難以在擴(kuò)展上下文中保持連貫性等挑戰(zhàn)，這個(gè)問(wèn)題變得愈發(fā)重要。這些限制對(duì)新興應(yīng)用領(lǐng)域尤為關(guān)鍵，如具身 AI、自主智能體和長(zhǎng)期決策系統(tǒng)，這些領(lǐng)域的成功依賴于持續(xù)有效的推理和深度的上下文理解。

離散擴(kuò)散模型（DM）自被引入文本領(lǐng)域以來(lái)，作為序列生成的極具潛力的

替代方案?jìng)涫懿毮俊Ｅc AR 模型按順序逐個(gè)生成 token 不同，離散 DM 從完全噪聲狀態(tài)起步，同步動(dòng)態(tài)優(yōu)化整個(gè)序列。這種根本性的架構(gòu)差異帶來(lái)了幾項(xiàng)顯著優(yōu)勢(shì)：

雙向上下文建模使信息能夠從兩個(gè)方向更豐富地整合，大大增強(qiáng)了生成文本的全局連貫性。
通過(guò)迭代優(yōu)化過(guò)程自然地獲得靈活的可控生成能力。
通過(guò)新穎的架構(gòu)和訓(xùn)練目標(biāo)，使噪聲能夠高效直接映射到數(shù)據(jù)，從而實(shí)現(xiàn)基礎(chǔ)采樣加速的潛力。

近期，一系列重大突破凸顯了擴(kuò)散技術(shù)在語(yǔ)言任務(wù)中日益增長(zhǎng)的潛力。DiffuLLaMA 和 LLaDA 成功將擴(kuò)散語(yǔ)言模型擴(kuò)展至 7B 參數(shù)規(guī)模，而作為商業(yè)實(shí)現(xiàn)的 Mercury Coder 則在代碼生成領(lǐng)域展示了卓越的推理效率。這種快速進(jìn)展，結(jié)合擴(kuò)散語(yǔ)言建模固有的架構(gòu)優(yōu)勢(shì)，使這些模型成為突破自回歸方法根本局限的極具前景的研究方向。

訓(xùn)練過(guò)程

Dream 7B 立足于研究團(tuán)隊(duì)在擴(kuò)散語(yǔ)言模型領(lǐng)域的前期探索，融合了 RDM 的理論精髓與 DiffuLLaMA 的適配策略。作者采用掩碼擴(kuò)散范式構(gòu)建模型，其架構(gòu)如下圖所示。訓(xùn)練數(shù)據(jù)全面覆蓋文本、數(shù)學(xué)和代碼領(lǐng)域，主要來(lái)源于 Dolma v1.7、OpenCoder 和 DCLM-Baseline，并經(jīng)過(guò)一系列精細(xì)的預(yù)處理和數(shù)據(jù)優(yōu)化流程。遵循精心設(shè)計(jì)的訓(xùn)練方案，作者用上述混合語(yǔ)料對(duì) Dream 7B 進(jìn)行預(yù)訓(xùn)練，累計(jì)處理 5800 億個(gè) token。預(yù)訓(xùn)練在 96 臺(tái) NVIDIA H800 GPU 上進(jìn)行，總計(jì)耗時(shí) 256 小時(shí)。整個(gè)預(yù)訓(xùn)練過(guò)程進(jìn)展順利，雖偶有節(jié)點(diǎn)異常，但未出現(xiàn)不可恢復(fù)的損失突增情況。

自回歸建模和 Dream 擴(kuò)散建模的比較。Dream 以移位方式預(yù)測(cè)所有掩碼 token，實(shí)現(xiàn)與 AR 模型的最大架構(gòu)對(duì)齊和權(quán)重初始化。

在 1B 參數(shù)規(guī)模上，作者深入研究了各種設(shè)計(jì)選項(xiàng)，確立了多個(gè)關(guān)鍵組件，特別是來(lái)自 AR 模型（如 Qwen2.5 和 LLaMA3）的初始化權(quán)重以及上下文自適應(yīng)的 token 級(jí)噪聲重排機(jī)制，這些創(chuàng)新為 Dream 7B 的高效訓(xùn)練鋪平了道路。

AR 初始化

基于團(tuán)隊(duì)此前在 DiffuLLaMA 上的研究成果，作者發(fā)現(xiàn)利用現(xiàn)有自回歸（AR）模型的權(quán)重為擴(kuò)散語(yǔ)言模型提供重要初始化效果顯著。實(shí)踐證明，這種設(shè)計(jì)策略比從零開(kāi)始訓(xùn)練擴(kuò)散語(yǔ)言模型更為高效，尤其在訓(xùn)練初期階段，如下圖所示。

Dream 1B 模型上 200B token 的從零訓(xùn)練與使用 LLaMA3.2 1B 進(jìn)行 AR 初始化的損失對(duì)比。AR 初始化雖然在從因果注意力向全注意力轉(zhuǎn)變初期也會(huì)經(jīng)歷損失上升，但在整個(gè)訓(xùn)練周期中始終保持低于從零訓(xùn)練的水平。

Dream 7B 最終選擇了 Qwen2.5 7B 的權(quán)重作為初始化基礎(chǔ)。在訓(xùn)練過(guò)程中，作者發(fā)現(xiàn)學(xué)習(xí)率參數(shù)至關(guān)重要：設(shè)置過(guò)高會(huì)迅速?zèng)_淡初始權(quán)重中寶貴的從左到右知識(shí)，對(duì)擴(kuò)散訓(xùn)練幾無(wú)助益；設(shè)置過(guò)低則會(huì)束縛擴(kuò)散訓(xùn)練的進(jìn)展。作者精心選擇了這個(gè)參數(shù)以及其他訓(xùn)練參數(shù)。

借助 AR 模型中已有的從左到右知識(shí)結(jié)構(gòu)，擴(kuò)散模型的任意順序?qū)W習(xí)能力得到顯著增強(qiáng)，大幅減少了預(yù)訓(xùn)練所需的 token 量和計(jì)算資源。

上下文自適應(yīng) token 級(jí)噪聲重排

序列中每個(gè) token 的選擇深受其上下文環(huán)境影響，然而作者觀察到現(xiàn)有擴(kuò)散訓(xùn)練方法未能充分把握這一核心要素。具體而言，傳統(tǒng)離散擴(kuò)散訓(xùn)練中，系統(tǒng)首先采樣一個(gè)時(shí)間步 t 來(lái)確定句子級(jí)噪聲水平，隨后模型執(zhí)行去噪操作。但由于實(shí)際學(xué)習(xí)最終在 token 級(jí)別進(jìn)行，離散噪聲的應(yīng)用導(dǎo)致各 token 的實(shí)際噪聲水平與 t 值并不完全對(duì)應(yīng)。這一不匹配導(dǎo)致模型對(duì)擁有不同上下文信息豐富度的 token 學(xué)習(xí)效果參差不齊。

上下文自適應(yīng) token 級(jí)噪聲重排機(jī)制示意圖。Dream 通過(guò)精確測(cè)量上下文信息量，為每個(gè)掩碼 token 動(dòng)態(tài)調(diào)整 token 級(jí)時(shí)間步 t。

針對(duì)這一挑戰(zhàn)，作者創(chuàng)新性地提出了上下文自適應(yīng) token 級(jí)噪聲重排機(jī)制，該機(jī)制能根據(jù)噪聲注入后的受損上下文智能調(diào)整各 token 的噪聲水平。這一精細(xì)化機(jī)制為每個(gè) token 的學(xué)習(xí)過(guò)程提供了更為精準(zhǔn)的層次化指導(dǎo)。

規(guī)劃能力

在此前的研究中，作者已證實(shí)文本擴(kuò)散可以在小規(guī)模、特定任務(wù)場(chǎng)景下展現(xiàn)出色的規(guī)劃能力。然而，一個(gè)關(guān)鍵問(wèn)題始終懸而未決：這種能力是否能擴(kuò)展到通用、大規(guī)模擴(kuò)散模型中？如今，憑借 Dream 7B 的問(wèn)世，他們終于能夠給出更加確切的答案。

他們選擇了《Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning》中的 Countdown 和數(shù)獨(dú)任務(wù)作為測(cè)試平臺(tái)，這些任務(wù)允許研究者精確調(diào)控規(guī)劃難度。評(píng)估對(duì)象包括 Dream 7B、LLaDA 8B、Qwen2.5 7B 和 LLaMA3 8B，并將最新的 Deepseek V3 671B（0324）作為參考基準(zhǔn)。所有模型均在少樣本學(xué)習(xí)環(huán)境下進(jìn)行測(cè)試，且未針對(duì)這些特定任務(wù)進(jìn)行過(guò)專(zhuān)門(mén)訓(xùn)練。

不同規(guī)劃難度下，不同模型在 Countdown 和數(shù)獨(dú)任務(wù)中的性能表現(xiàn)對(duì)比。

結(jié)果清晰顯示，Dream 在同等規(guī)模模型中表現(xiàn)卓越。特別值得一提的是，兩種擴(kuò)散模型均顯著超越了同級(jí)別 AR 模型，在某些情況下甚至優(yōu)于最新的 DeepSeek V3，盡管后者擁有數(shù)量級(jí)更龐大的參數(shù)規(guī)模。這一現(xiàn)象背后的核心洞見(jiàn)是：擴(kuò)散語(yǔ)言模型在處理多重約束問(wèn)題或?qū)崿F(xiàn)特定目標(biāo)任務(wù)時(shí)更有效。

以下為 Qwen 2.5 7B 與 Dream 7B 在三個(gè)規(guī)劃任務(wù)中的表現(xiàn)示例：

Qwen2.5 7B 與 Dream 7B 的生成結(jié)果對(duì)比。

推理靈活性

相較于 AR 模型，擴(kuò)散模型在兩個(gè)核心維度上顯著增強(qiáng)了推理靈活性。

任意順序生成

擴(kuò)散模型徹底打破了傳統(tǒng)從左到右生成的束縛，能夠按任意順序合成輸出內(nèi)容 —— 這一特性為多樣化的用戶查詢提供了可能性。

1、Completion 任務(wù)

Dream-7B-instruct 執(zhí)行補(bǔ)全任務(wù)的效果展示。

2、Infilling 任務(wù)

Dream-7B-instruct 執(zhí)行指定結(jié)尾句填充任務(wù)的效果展示。

3、精細(xì)控制解碼行為

不同類(lèi)型的查詢通常需要不同的響應(yīng)生成順序。通過(guò)調(diào)整解碼超參數(shù)，我們可以精確控制模型的解碼行為，實(shí)現(xiàn)從類(lèi) AR 模型的嚴(yán)格從左到右生成，到完全自由的隨機(jī)順序生成的全譜系調(diào)控。

模擬 AR 模型的從左到右解碼模式。

在解碼順序中引入適度隨機(jī)性。

完全隨機(jī)化的解碼順序。

靈活的質(zhì)量 - 速度權(quán)衡

在上述演示中，作者展示了每步生成單個(gè) token 的情況。然而，每步生成的 token 數(shù)量（由擴(kuò)散步驟控制）可以根據(jù)需求動(dòng)態(tài)調(diào)整，從而在速度和質(zhì)量之間提供可調(diào)的權(quán)衡：減少步驟可獲得更快但粗略的結(jié)果，增加步驟則以更高計(jì)算成本換取更優(yōu)質(zhì)的輸出。這一機(jī)制為推理時(shí)間 scaling 開(kāi)辟了全新維度，不是替代而是補(bǔ)充了主流大型語(yǔ)言模型（如 o1 和 r1）中采用的長(zhǎng)思維鏈推理等技術(shù)。這種靈活可調(diào)的計(jì)算 - 質(zhì)量平衡機(jī)制，正是擴(kuò)散模型相較傳統(tǒng) AR 框架的獨(dú)特優(yōu)勢(shì)所在。

Dream 7B 與 Qwen2.5 7B 在 Countdown 任務(wù)上的質(zhì)量 - 速度性能對(duì)比。通過(guò)精準(zhǔn)調(diào)整擴(kuò)散時(shí)間步參數(shù)，Dream 能夠在速度優(yōu)先與質(zhì)量?jī)?yōu)先之間實(shí)現(xiàn)靈活切換。

有監(jiān)督微調(diào)

作為擴(kuò)散語(yǔ)言模型后訓(xùn)練階段的關(guān)鍵一步，作者實(shí)施了有監(jiān)督微調(diào)以增強(qiáng) Dream 與用戶指令的對(duì)齊度。他們精心從 Tulu 3 和 SmolLM2 篩選并整合了 180 萬(wàn)對(duì)高質(zhì)量指令 - 響應(yīng)數(shù)據(jù)，對(duì) Dream 進(jìn)行了三輪深度微調(diào)。實(shí)驗(yàn)結(jié)果充分展現(xiàn)了 Dream 在性能表現(xiàn)上與頂尖自回歸模型比肩的潛力。展望未來(lái)，作者正積極探索為擴(kuò)散語(yǔ)言模型量身定制更先進(jìn)的后訓(xùn)練優(yōu)化方案。

有監(jiān)督微調(diào)效果對(duì)比圖。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="rak94"></sub>}

<abbr id="rak94"><strong id="rak94"></strong></abbr>