自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

d1:通過(guò)GRPO在擴(kuò)散LLM中縮放推理

發(fā)布于 2025-4-30 06:40
瀏覽
0收藏

加州大學(xué)洛杉磯分校與Meta AI的研究團(tuán)隊(duì)聯(lián)合發(fā)布了革命性的強(qiáng)化學(xué)習(xí)框架d1【文獻(xiàn)1】。

該框架顯著提升了基于擴(kuò)散原理的LLM(dLLM)的推理性能——在某些場(chǎng)景下將響應(yīng)時(shí)間從超過(guò)30秒縮短至僅需3秒。

當(dāng)AI界普遍聚焦于GPT這類逐詞生成結(jié)果的自回歸模型時(shí),dLLM另辟蹊徑,其設(shè)計(jì)靈感源自DALL·E 2和Stable Diffusion等圖像生成模型。

這類模型并非順序構(gòu)建答案,而是通過(guò)多輪迭代優(yōu)化被遮蔽的文本版本,在每一階段都能實(shí)現(xiàn)更快速的并行化處理及完整上下文感知。

顛覆傳統(tǒng)的AI架構(gòu)

與GPT-4o或LLaMA等根據(jù)上文預(yù)測(cè)下一個(gè)詞的傳統(tǒng)LLM不同,擴(kuò)散LLM從含噪聲的遮蔽輸入中逆向推導(dǎo)出連貫文本。

這就像從模糊的句子出發(fā),通過(guò)逐步修正使其變得清晰。雖然該方法在速度和并行處理上潛力巨大,但其推理能力始終是短板。

d1框架的誕生正是為了攻克這一瓶頸。

據(jù)論文合著者、UCLA計(jì)算機(jī)科學(xué)助理教授Aditya Grover介紹,當(dāng)前能執(zhí)行復(fù)雜推理的頂尖自回歸LLM普遍存在嚴(yán)重延遲問(wèn)題,單個(gè)響應(yīng)耗時(shí)常超30秒。而Mercury等前沿dLLM的響應(yīng)速度可達(dá)前者的10倍。

d1秘訣:微調(diào)+智能訓(xùn)練

d1的核心在于兩階段訓(xùn)練法:

1.監(jiān)督微調(diào)(SFT):使用s1k數(shù)據(jù)集,通過(guò)分步解題的高質(zhì)量示例訓(xùn)練模型。

這些案例包含詳細(xì)推理、修正與回溯過(guò)程,幫助模型建立基礎(chǔ)推理能力。

2.基于diffu-GRPO的強(qiáng)化學(xué)習(xí):研究團(tuán)隊(duì)將自回歸模型采用的組相對(duì)策略優(yōu)化(GRPO)技術(shù)適配于dLLM的非連續(xù)特性。

diffu-GRPO方法能以極低計(jì)算成本有效評(píng)估輸出可能性,其核心是隨機(jī)提示遮蔽技術(shù)——通過(guò)每次訓(xùn)練時(shí)微調(diào)輸入內(nèi)容來(lái)提升模型泛化能力。


d1:通過(guò)GRPO在擴(kuò)散LLM中縮放推理-AI.x社區(qū)

diffu-GRPO 的 loss function

d1:通過(guò)GRPO在擴(kuò)散LLM中縮放推理-AI.x社區(qū)

d1:通過(guò)GRPO在擴(kuò)散LLM中縮放推理-AI.x社區(qū)

diffu-GRPO中的對(duì)數(shù)概率估計(jì)方法

首先通過(guò)完整擴(kuò)散去噪過(guò)程從提示q生成完整輸出o(左圖),隨后針對(duì)每種遮蔽模式執(zhí)行單次前向傳播計(jì)算詞元級(jí)對(duì)數(shù)概率(中圖),并以單步解遮蔽的對(duì)數(shù)概率作為最終估計(jì)值。

在進(jìn)行策略梯度更新時(shí),我們對(duì)提示施加隨機(jī)遮蔽模式生成q′,同時(shí)保持輸出文本完全遮蔽狀態(tài)(右圖)。圖中詞元對(duì)數(shù)概率的顏色漸變表明:每種獨(dú)特的遮蔽模式都會(huì)產(chǎn)生不同的詞元級(jí)對(duì)數(shù)概率估計(jì)。

這種機(jī)制形成了策略優(yōu)化的正則化手段——既能實(shí)現(xiàn)單批次內(nèi)更多梯度更新,又可減少?gòu)?qiáng)化學(xué)習(xí)訓(xùn)練所需的在線生成次數(shù)。

實(shí)證效果

研究團(tuán)隊(duì)在開(kāi)源模型LLaDA-8B-Instruct上應(yīng)用d1框架,并在數(shù)學(xué)基準(zhǔn)測(cè)試(GSM8K、MATH500)及4×4數(shù)獨(dú)、倒計(jì)時(shí)數(shù)字游戲等邏輯任務(wù)中進(jìn)行驗(yàn)證。

結(jié)果顯示:完整訓(xùn)練的d1-LLaDA全面超越僅用SFT或diffu-GRPO的版本,新RL技術(shù)單獨(dú)使用也成效顯著。

d1:通過(guò)GRPO在擴(kuò)散LLM中縮放推理-AI.x社區(qū)

在四項(xiàng)數(shù)學(xué)與邏輯推理任務(wù)中,經(jīng)過(guò)監(jiān)督微調(diào)(SFT)和diffu-GRPO強(qiáng)化學(xué)習(xí)訓(xùn)練的d1-LLaDA模型,其表現(xiàn)始終優(yōu)于基礎(chǔ)LLaDA-8B-Instruct模型。采用了各任務(wù)和模型對(duì)應(yīng)的最佳生成序列長(zhǎng)度進(jìn)行結(jié)果統(tǒng)計(jì)。

d1:通過(guò)GRPO在擴(kuò)散LLM中縮放推理-AI.x社區(qū)

?與同類規(guī)模頂尖dLLM及自回歸LLM的對(duì)比, d1-LLaDA在GSM8K測(cè)試中奪得最高分, MATH500 測(cè)評(píng)位列第二。

LLaDA數(shù)據(jù)來(lái)自我們采用相同的零樣本(0-shot)評(píng)估協(xié)議所得結(jié)果,其他模型分?jǐn)?shù)引自Ye等人(2025a)的Dream研究(GSM8K使用8樣本提示,MATH采用4樣本提示)。

需特別說(shuō)明,d1-LLaDA針對(duì)每個(gè)基準(zhǔn)測(cè)試都進(jìn)行了任務(wù)專屬的強(qiáng)化學(xué)習(xí)訓(xùn)練。?

除分?jǐn)?shù)提升外,模型更展現(xiàn)出深度理解跡象。在長(zhǎng)文本輸出中,它會(huì)像人類解題者那樣突然頓悟,主動(dòng)修正錯(cuò)誤并回溯推理路徑。

企業(yè)級(jí)應(yīng)用前景

Grover認(rèn)為這是企業(yè)AI應(yīng)用的轉(zhuǎn)折點(diǎn):"d1這類增強(qiáng)推理的dLLM能驅(qū)動(dòng)多種智能體",從即時(shí)響應(yīng)編程助手到戰(zhàn)略咨詢實(shí)時(shí)研究代理皆可勝任。

該技術(shù)兼具性能與靈活性:對(duì)受成本或延遲限制的企業(yè),d1賦能后的dLLM即插即用,在保持傳統(tǒng)非推理模型速度的同時(shí)輸出更優(yōu)質(zhì)結(jié)果;對(duì)算力充裕者,d1能生成更詳盡的推理軌跡以追求極致質(zhì)量。

用Grover的話說(shuō):"d1類dLLM實(shí)現(xiàn)了對(duì)自回歸LLM的帕累托超越——同時(shí)提供更優(yōu)質(zhì)量、更快速度和更低成本。"

隨著企業(yè)對(duì)響應(yīng)敏捷、智能高效的AI需求增長(zhǎng),d1這類創(chuàng)新有潛力顛覆自回歸模型的主導(dǎo)地位,或?qū)㈤_(kāi)啟基于擴(kuò)散原理的新一代智能推理引擎時(shí)代。

文獻(xiàn)1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

本文轉(zhuǎn)載自???????清熙???,作者:王慶法

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦