能否將擴散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴散模型(LLDM)詳解 原創(chuàng) 精華
編者按: 當(dāng)你面對需要高質(zhì)量逆向推理能力的應(yīng)用場景時,傳統(tǒng)大語言模型是否讓你感到力不從心?在詩歌逆向補全、邏輯逆向推導(dǎo)等任務(wù)中,為什么即使是 GPT-4o 這樣的強大模型也會表現(xiàn)失常?
文章深入介紹了 LLaDA(Large Language Diffusion with mAsking) 這一創(chuàng)新模型的工作原理、訓(xùn)練過程與性能表現(xiàn)。與傳統(tǒng)自回歸模型不同,LLaDA 借鑒了計算機視覺領(lǐng)域的擴散模型思想,通過逐步去除掩碼來生成文本,而非從左到右逐個生成 token。
性能測試顯示,8B 參數(shù)的 LLaDA 基礎(chǔ)模型明顯優(yōu)于同等規(guī)模的 LLaMA 2,并與 LLaMA 3 表現(xiàn)相當(dāng)。更令人驚喜的是,LLaDA 在逆向推理任務(wù)中表現(xiàn)出色,有效解決了自回歸模型在“逆向詛咒”上的局限性,甚至在詩歌逆向補全任務(wù)中超越了 GPT-4o 和 Qwen 2.5。
作者 | AI Papers Academy
編譯 | 岳揚
在這篇文章,我們將對《Large Language Diffusion Models》這篇論文進行解析,介紹首個基于擴散模型的 LLM,該模型可與強大的 LLM 相媲美。
Paper authors (Source[1])
01 引言
近年來,大語言模型(LLMs)變得極其強大,為通向通用人工智能(AGI)鋪平了道路。這些模型本質(zhì)上是自回歸的,即根據(jù)給定的 token 序列預(yù)測下一個 token。我們可以把這個過程想象成它們在一個詞一個詞地生成回答內(nèi)容,其中的每個新詞都基于前面已有的詞匯。事實證明,這種方法非常強大,讓我們?nèi)〉昧私裉斓某删汀?/p>
然而,這種方法也面臨著一些挑戰(zhàn)。例如,按順序逐個生成 token 的計算成本很高。此外,固有的從左到右的建模方式限制了模型在逆向推理(reversal reasoning)任務(wù)中的有效性。 后文將提到一個案例 —— 逆向詩歌補全任務(wù),即給定詩歌中的一句話,模型需要預(yù)測詩中這句話前一句的內(nèi)容。無論如何,有一點值得探討:自回歸建模是否唯一可行的方式?
《Large Language Diffusion Models》對這一假設(shè)提出了挑戰(zhàn)。正如 LLMs 是自然語言處理的基石一樣,擴散模型則是計算機視覺領(lǐng)域的王者,是頂級文生圖模型的核心技術(shù)。在本文中,我們將解讀研究人員如何將擴散模型應(yīng)用于語言建模領(lǐng)域。
02 什么是擴散模型?
讓我們先快速回顧一下計算機視覺中的擴散模型,這將有助于我們理解本文的核心思想。
擴散模型逐步去除圖像中的噪聲(Cat images source[2])
擴散模型以提示詞作為輸入,例如“一只貓坐在一臺筆記本電腦上”。模型通過學(xué)習(xí)逐步去除圖像中的噪聲來生成清晰的圖像。模型從最左側(cè)所示的隨機噪聲圖像開始,每一步都去除部分噪聲。去噪過程是以輸入提示詞為條件的,因此最終生成的圖像會匹配提示詞內(nèi)容。上圖中的三個點(...)表示本例中我們跳過了一些中間步驟。最終我們得到一張清晰的貓圖像,這就是擴散模型根據(jù)給定提示詞生成的最終輸出。
在訓(xùn)練過程中,為了學(xué)習(xí)如何去除噪聲,我們會逐步向清晰圖像添加噪聲,這個過程稱為擴散過程。該領(lǐng)域已取得一系列進展,但這不是本文的重點。
03 大型語言擴散模型的直觀理解
LLaDA 逐步去除 token 序列中的掩碼
本文介紹的模型名為 LLaDA,全稱是 Large Language Diffusion with mAsking。我們從最左側(cè)的 token 序列開始,其中黑色部分表示被掩碼的 token。黃色的未掩碼 token 代表提示詞,黑色的被掩碼 token 代表待生成的響應(yīng)。請注意,這里的被掩碼的 token 由特殊符號表示,不同于我們之前提到的圖像中疊加的噪聲。
我們逐步去除 token 序列中的掩碼,藍色代表已解除掩碼的 token。最終,我們移除所有掩碼,得到針對輸入提示詞的完整響應(yīng)。在本例中,清晰的響應(yīng) token 序列對應(yīng)文字為:"從前,在一個小村莊里,住著一只聰明的老貓頭鷹(Once upon a time, in a small village, there lived a wise old owl)"。
04 LLaDA 訓(xùn)練與推理過程概述
讓我們來深入探討大型語言擴散模型的更多細節(jié)。下圖展示了該模型的兩個訓(xùn)練階段(預(yù)訓(xùn)練與監(jiān)督式微調(diào))以及推理過程。
LLaDA 訓(xùn)練過程與推理示意圖(Source[1])
4.1 LLaDA 訓(xùn)練階段1 —— 預(yù)訓(xùn)練階段
我們從預(yù)訓(xùn)練階段開始,如上圖最左側(cè)所示。
頂部是訓(xùn)練集中的一個樣本序列。我們隨機選擇掩碼比例 t(0 到 1 之間的值),隨后獨立地為每個 token 隨機決定是否掩碼,概率為 t。這一步會產(chǎn)生部分被掩碼的 token 序列。該序列被輸入模型的核心組件 —— mask predictor(這是一個基于 Transformer 的模型),該模型通過計算掩碼 token 上的交叉熵損失,訓(xùn)練其還原被掩碼的 token。預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模為 2.3 萬億 token。
4.2 LLaDA 訓(xùn)練階段2 —— 監(jiān)督式微調(diào)
第二個訓(xùn)練階段是監(jiān)督式微調(diào),如上圖中間部分所示。此階段的目的是增強 LLaDA 遵循指令的能力。
頂部是包含提示詞和響應(yīng)的樣本。我們希望訓(xùn)練模型根據(jù)提示詞生成響應(yīng)。與預(yù)訓(xùn)練類似,我們隨機掩碼樣本中的部分 token,但此次僅掩碼響應(yīng)部分的 token,保留提示詞完整。隨后,我們將提示詞和部分被掩碼的響應(yīng)輸入 mask predictor,以恢復(fù)響應(yīng)中被掩碼的 token。此過程與預(yù)訓(xùn)練階段非常相似,區(qū)別在于此過程僅掩碼樣本的響應(yīng)部分。
訓(xùn)練過程的掩碼比例(決定多少 token 被掩碼)對每個樣本都是隨機的。這意味著在訓(xùn)練過程中,模型會接觸到幾乎未掩碼的樣本和高度掩碼的樣本。
在這一階段,研究人員使用了 450 萬樣本訓(xùn)練 LLaDA。由于樣本長度不一致,因此研究人員使用特殊的序列結(jié)束 tokens 填充樣本。通過這種方式,模型就能在人類設(shè)置的固定長度的(artificial fixed-length)輸入上進行訓(xùn)練,并能預(yù)測序列結(jié)束 tokens,從而終止生成過程。
4.3 推理階段:LLaDA 如何生成文本
了解完 LLaDA 的訓(xùn)練方式后,接下來讓我們回顧一下上圖右側(cè)所示的推理過程。
給定提示詞后,會創(chuàng)建包含完整提示詞和被完全掩碼的響應(yīng)的樣本。然后通過稱為逆向擴散過程(reverse diffusion process)的迭代流程,逐步解除響應(yīng)部分的掩碼。每次迭代開始時,我們會得到一個包含完整提示詞和被部分掩碼的響應(yīng)的序列。將其輸入 mask predictor 后,它會預(yù)測出所有被掩碼的 token。然而,部分預(yù)測出的 token 會被重新掩碼,因此響應(yīng)仍保持部分掩碼狀態(tài),直到最后一次迭代,我們才會獲得完整響應(yīng)。
4.4 推理期間的重新掩碼策略
迭代次數(shù)是模型的超參數(shù),需要在計算成本與生成質(zhì)量間權(quán)衡(更多迭代次數(shù)可提升生成質(zhì)量)。在每次迭代中,重新掩碼的 token 數(shù)量基于總迭代次數(shù)。但如何決定哪些 token 需要重新掩碼?研究者未采用隨機方法,而是使用了兩種更有效的策略:
- 低置信度重新掩碼(Low-confidence remasking)—— 此方法中,預(yù)測置信度最低的 token 會被重新掩碼。對于每個 token,mask predictor 都會從詞表中選擇概率最高的 token 作為預(yù)測結(jié)果。此處的最高概率代表 token 預(yù)測的置信度,反映模型對此 token 相較于其他選項的正確性確定程度。
- 半自回歸重新掩碼(Semi-autoregressive remasking)—— 響應(yīng)長度可能因提示詞而異。對于需要簡短回答的提示詞,大部分響應(yīng)內(nèi)容可能是序列結(jié)束標(biāo)記。為避免生成過多高置信度的序列結(jié)束標(biāo)記,會將待生成的響應(yīng)劃分為多個區(qū)塊,并按從左到右順序依次處理。在每個區(qū)塊內(nèi)部應(yīng)用逆向擴散過程進行采樣。
05 LLaDA Results
5.1 Benchmark Results
LLaDA 與 LLaMA 模型對比(Source[1])
在上圖中,我們對比了 8B 參數(shù)的 LLaDA 基礎(chǔ)模型與規(guī)模相近的 LLaMA 3 和 LLaMA 2 在多項任務(wù)上的表現(xiàn)。使用紅色標(biāo)注的 LLaDA 明顯優(yōu)于使用藍色標(biāo)注的 LLaMA 2,并與使用紫色標(biāo)注的 LLaMA 3 表現(xiàn)相當(dāng),甚至在部分任務(wù)上優(yōu)于 LLaMA 3。
圖中結(jié)果為各模型基礎(chǔ)版本的測試結(jié)果。未在此圖表展示的經(jīng)過指令調(diào)優(yōu)的模型性能對比中,LLaMA 3 更具優(yōu)勢。但需注意,指令調(diào)優(yōu)版 LLaMA 3 在預(yù)訓(xùn)練階段后既進行了監(jiān)督式微調(diào)也進行了強化學(xué)習(xí)訓(xùn)練,而指令調(diào)優(yōu)版 LLaDA 僅在預(yù)訓(xùn)練階段后進行了監(jiān)督式微調(diào)。
5.2 LLaDA 在不同規(guī)模下的性能擴展規(guī)律(LLaDA Scaling Trends)
LLaDA 在語言任務(wù)上的性能擴展規(guī)律(Source[1])
論文中另一張有趣的圖表展示了 LLaDA 在語言任務(wù)上的擴展能力。研究人員以不同訓(xùn)練計算資源(x 軸顯示)訓(xùn)練了規(guī)模相近的 LLaDA 和自回歸基線模型(autoregressive baselines)。每張子圖代表不同任務(wù),y 軸顯示模型性能。LLaDA 展現(xiàn)出強大的擴展能力,與自回歸基線模型競爭力相當(dāng)。 在數(shù)學(xué)數(shù)據(jù)集 GSM8K 上,LLaDA 的擴展優(yōu)勢尤為顯著;而在推理數(shù)據(jù)集 PIQA 上,LLaDA 稍落后于自回歸模型,但隨著浮點運算量(FLOPs)的增加,差距逐漸縮小。
5.3 打破「逆向詛咒」
詩歌補全任務(wù)上的模型性能對比(Source[1])
上表展示了詩歌補全任務(wù)上的模型性能對比。該任務(wù)要求模型根據(jù)給定詩句生成下一句(正向任務(wù))或前一句(逆向任務(wù))。觀察 GPT-4o 的表現(xiàn),其在正向任務(wù)中的性能顯著優(yōu)于逆向任務(wù),這是自回歸訓(xùn)練固有的局限性。LLaDA 則在此取得突破,在正向和逆向任務(wù)中表現(xiàn)更均衡,并在逆向任務(wù)中超越 GPT-4o 和 Qwen 2.5。大型語言擴散模型在更大規(guī)模的模型訓(xùn)練中表現(xiàn)如何,讓我們拭目以待!
06 結(jié)語:語言模型迎來新時代?
LLaDA 通過將擴散模型應(yīng)用于文本生成任務(wù),掀起了語言建模的范式轉(zhuǎn)變。其雙向推理能力與強大的擴展性,向傳統(tǒng)的自回歸模型發(fā)起了挑戰(zhàn)。雖然該模型尚處探索初期,但這場技術(shù)躍遷或?qū)⒍x AI 發(fā)展的下一程,未來可期。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
AI Papers Academy
At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.
Our goal is to save you time by breaking down complex ideas into clear, digestible insights.
END
本期互動內(nèi)容 ??
?有人認為擴散模型對文本生成是‘殺雞用牛刀’,你同意嗎?為什么?
??文中鏈接??
[1]??https://arxiv.org/abs/2502.09992??
[2]??https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/??
原文鏈接:
??https://aipapersacademy.com/large-language-diffusion-models/??
