自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度剖析:為何擴散模型會成為語言模型的未來?

發(fā)布于 2025-3-14 07:45
瀏覽
0收藏

核心要點速覽

機器學(xué)習(xí)中的擴散模型是什么?

擴散模型屬于生成模型(它們生成的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)相似)。擴散模型的運作遵循兩個簡單步驟:首先,通過逐步添加高斯噪聲來破壞訓(xùn)練數(shù)據(jù);而訓(xùn)練過程則是通過逆向這個添加噪聲的過程來恢復(fù)數(shù)據(jù)。一個訓(xùn)練良好的擴散模型能夠從隨機噪聲中生成我們想要的任何內(nèi)容。如果把噪聲替換為嵌入空間,你可能就能理解其中的原理了。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

擴散模型的優(yōu)勢

擴散模型有 4 個主要優(yōu)點,使其在基于文本的生成領(lǐng)域具有很大的投資潛力:

  • 高質(zhì)量生成:擴散模型生成的輸出質(zhì)量和真實感都非常出色,在許多任務(wù)中都超越了以往的生成模型。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

  • 通用性強:它們適用于多種數(shù)據(jù)模態(tài),包括圖像、音頻、分子等。深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)
  • 可控性高:擴散模型在生成過程中具有一定的可控性,用戶可以根據(jù)特定需求或條件引導(dǎo)輸出。而且,它們還可以在生成過程中中途停止,比傳統(tǒng)設(shè)置更加靈活。
  • 反饋信號更佳:評估一個有缺陷的輸出比評估一個不完整的輸出要容易(給一段有錯誤或結(jié)構(gòu)低效的代碼提供反饋,比給邏輯缺失一半且結(jié)尾邏輯也不完整的代碼提供反饋要容易)。這使得擴散大語言模型在生成過程中能夠進行 “思考”,而不是像現(xiàn)在普遍的那樣,僅在生成前(規(guī)劃)或生成后(批評和迭代)進行思考。

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models[2]

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

擴散語言模型中的思維鏈推理

擴散模型的缺點

從其設(shè)計原理可以明顯看出,擴散模型的計算成本非常高。雖然有研究致力于降低成本,但這仍然是擴散模型的一大痛點。

擴散模型表現(xiàn)出色的原因

就其本質(zhì)而言,擴散模型在每次推理步驟中都會全面地審視數(shù)據(jù)點。在這個過程中,它們結(jié)合了兩種優(yōu)秀生成器的優(yōu)點:

  • 與生成對抗網(wǎng)絡(luò)(GANs)這樣的生成器相比,擴散模型可以分多個步驟生成輸出,讓我們能夠更精細(xì)地控制(想想一次性完成復(fù)雜任務(wù)有多難)。
  • 與自回歸模型(像 ChatGPT 這樣的大語言模型使用的模型)相比,擴散模型具有更大的靈活性(我們可以在任何時候停止生成,并且得到的結(jié)果在一定程度上是可用的)。
  • 最后,添加噪聲和去除噪聲的過程類似于強大的數(shù)據(jù)增強,模型在這個過程中被迫建立特征之間更深層次的聯(lián)系,從而確保更好的安全性。

生成式學(xué)習(xí)因其在數(shù)據(jù)分布建模方面的有效性而受到認(rèn)可,在處理分布外實例方面具有內(nèi)在優(yōu)勢,特別是在增強對抗攻擊的魯棒性方面。在這些方法中,利用強大擴散模型的擴散分類器已證明具有卓越的實證魯棒性……實驗結(jié)果表明,這些加噪擴散分類器(NDCs)具有卓越的可證明魯棒性。值得注意的是,在對抗擾動的(\ell_2)范數(shù)小于 0.25 和 0.5 的情況下,使用單個現(xiàn)成的擴散模型,無需任何額外數(shù)據(jù),我們在 CIFAR-10 數(shù)據(jù)集上分別實現(xiàn)了超過 80%和 70%的可證明魯棒性?!?摘自論文《Your Diffusion Model is Secretly a Certifiably Robust Classifier[3]》。

我們還可以將擴散模型與其他模型很好地結(jié)合,從而產(chǎn)生非??犰诺膽?yīng)用(以及我們喜歡的備受贊譽的智能體架構(gòu))。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

還有一個雖然顯而易見但仍然重要的事實是,擴散模型的并行化能力更強,因為它們可以并行運行去噪鏈,而自回歸模型必須等待最后一個令牌生成完成(不過,Spec Decoding 技術(shù)可能對此有不同的影響)。這使得像 Mercury 這樣的模型速度大幅提升:

真正讓基于擴散的大語言模型(dLLMs)脫穎而出的是它們的速度。即使是經(jīng)過速度優(yōu)化的自回歸模型,每秒最多也只能處理 200 個令牌,而我們可以在商用 NVIDIA H100 上以每秒超過 1000 個令牌的速度運行 Mercury Coder,速度提升了 5 倍。與一些前沿模型相比,這些模型每秒處理的令牌數(shù)不到 50 個,我們的速度提升超過 20 倍。

基于擴散的大語言模型所實現(xiàn)的吞吐量,以前只有使用 Groq、Cerebras 和 SambaNova 等專用硬件才能達(dá)到。我們的算法改進與硬件加速相互獨立,并且在更快的芯片上使用時,速度提升效果會更加顯著。

一旦我們了解了這些背景知識,那么我們就必須進一步思考擴散模型未來的發(fā)展方向。下面是一些深入的思考,這些思考或許應(yīng)該被陳列在博物館中,以見證人類智慧的高度:

  • 短期:降低成本并證明價值 擴散模型的計算成本很高。Mercury 展示的較少迭代次數(shù)和較高吞吐量并不能直接說明問題(因為擴散模型每次推理的成本要高得多,抵消了迭代次數(shù)減少帶來的優(yōu)勢)。我們需要一些新的合理成本指標(biāo),才能公平地將 dLLMs 與自回歸模型進行比較。 - 開發(fā)更好的成本指標(biāo)(如浮點運算次數(shù)、并行化能力、延遲),并與自回歸模型進行基準(zhǔn)測試對比。 - 通過自適應(yīng)步長縮減、可學(xué)習(xí)的停止準(zhǔn)則和高效的調(diào)度來優(yōu)化去噪過程,以減少計算開銷。 - 完善用于評估全局連貫性、約束一致性和推理質(zhì)量的評估指標(biāo),以便更好地評估模型性能。
  • 中期:突破硬令牌限制 兩個特別重要的發(fā)展趨勢: - 朝著連續(xù)語言空間發(fā)展,消除分詞限制,基于概念實現(xiàn)對語言更 “穩(wěn)健” 的理解,從而生成更自然的文本。 - 實現(xiàn)生成過程中的推理,讓人工智能在最終確定輸出之前進行模擬和優(yōu)化,提高邏輯一致性和連貫性。
  • 長期:實現(xiàn)終身學(xué)習(xí)和自我進化的個性化大語言模型

dLLMs 可以模糊訓(xùn)練和推理之間的界限,實現(xiàn)實時模型自適應(yīng),使模型能夠持續(xù)改進。這基于它們在生成過程中進行自適應(yīng)的能力,最終也應(yīng)該能讓我們根據(jù)用戶反饋和行為進行訓(xùn)練。 - 為每個用戶個性化定制擴散空間,動態(tài)地優(yōu)化人工智能的行為,以滿足特定的需求和偏好。 - 在潛在空間中進行個性化定制/修改比微調(diào)等技術(shù)成本更低,這可以實現(xiàn)高度的個性化。我們在 IQIDIS(我們的法律人工智能初創(chuàng)公司)進行了測試,到目前為止,每一位使用過的律師都對此印象深刻。雖然還處于早期階段,但如果能夠合理利用潛在空間,其潛力巨大。

然而,在實現(xiàn)個性化/自學(xué)習(xí)方面,仍然存在兩個主要問題:

  • 遺忘舊信息:鑒于潛在空間的相互關(guān)聯(lián)性,可能會產(chǎn)生很多連鎖反應(yīng),就我目前所知,精確地遺忘特定信息似乎是不可能的(但也可能是我想象力不夠)。
  • 注入新信息(尤其是在信息來源稀少的情況下):就模型本身而言,還沒有找到很好的解決辦法(可能需要使用像檢索增強生成(RAG)這樣的外部設(shè)置)?;蛟S改進模型交互方式并提取外部保存的上下文信息就足夠了,但我很想聽聽你的想法。大家有沒有研究過或遇到過什么有趣的思路呢?

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

具體來說,我們設(shè)計了一種幾何蛋白質(zhì) - 分子相互作用網(wǎng)絡(luò)(PMINet),并使用結(jié)合親和力信號對其進行預(yù)訓(xùn)練,以:(i)檢索與目標(biāo)具有高結(jié)合親和力的配體分子作為參考,(ii)通過兩種有效的增強機制,即檢索增強和自我增強,整合關(guān)鍵的蛋白質(zhì) - 配體結(jié)合結(jié)構(gòu),以指導(dǎo)分子擴散生成。在CrossDocked2020數(shù)據(jù)集上的實證研究表明,IRDIFF可以生成具有更逼真3D結(jié)構(gòu)的分子,并在保持適當(dāng)分子特性的同時,實現(xiàn)對蛋白質(zhì)靶點的最先進結(jié)合親和力。

這些想法中有些可能不會成功。但即使只有一小部分想法得以實現(xiàn) —— 比如連續(xù)語言空間、自我改進的推理能力和人工智能的終身學(xué)習(xí),都可能重新定義我們所熟知的人工智能。這不僅僅是對大語言模型的漸進式升級。

與現(xiàn)有的代碼模型相比,開發(fā)者更喜歡 Mercury 的代碼補全功能。在 Copilot Arena 的基準(zhǔn)測試中,Mercury Coder Mini 并列第二名,超過了像 GPT-4o Mini 和 Gemini-1.5-Flash 這樣經(jīng)過速度優(yōu)化的模型,甚至超過了像 GPT-4o 這樣更大的模型。同時,它也是速度最快的模型,比 GPT-4o Mini 快約 4 倍?!?摘自 Mercury 發(fā)布的信息

深入探討:擴散模型為何值得研究

什么是擴散模型

正如前面所討論的,擴散模型基于對輸入進行添加噪聲和去除噪聲的過程。雖然具體細(xì)節(jié)有所不同,但我們可以將基于擴散的生成過程歸結(jié)為兩個步驟:

  • 正向擴散:我們選取一個數(shù)據(jù)樣本,比如一張圖片,在每一步迭代中逐步添加少量高斯噪聲。這個過程會逐漸破壞圖片,直到它變成無法辨認(rèn)的噪聲。模型會學(xué)習(xí)每一步添加的噪聲模式,這對反向過程至關(guān)重要。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

  • 反向擴散:我們將第一步得到的純噪聲作為輸入。模型預(yù)測正向過程中每一步添加的噪聲并將其去除,這個過程會逐步對輸入進行去噪,使其逐漸轉(zhuǎn)變?yōu)橛幸饬x的數(shù)據(jù)樣本。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

既然存在其他技術(shù),為什么還要使用擴散模型呢(尤其是考慮到其成本)?對于這個問題,我們可以從兩個方面來回答。首先,我們將探討擴散模型的實際優(yōu)勢,然后,推測其生成效果更好的原因。

擴散模型的優(yōu)勢

從本質(zhì)上講,整個擴散過程為我們帶來了 4 個方面的優(yōu)勢:

  • 高質(zhì)量生成:擴散模型生成的數(shù)據(jù)質(zhì)量和真實感都非常出色,在許多任務(wù)中往往超越了以往的生成模型。這得益于它們能夠通過迭代去噪過程細(xì)致地學(xué)習(xí)潛在的數(shù)據(jù)分布。從純噪聲逐漸穩(wěn)定地優(yōu)化為連貫的數(shù)據(jù)樣本,這一過程使得輸出結(jié)果高度逼真。最近的一篇論文表明,在各種基準(zhǔn)測試中,擴散大語言模型在相同的浮點運算次數(shù)范圍內(nèi),表現(xiàn)優(yōu)于或與自回歸基準(zhǔn)模型相當(dāng)。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

自回歸模型(ARMs)被廣泛認(rèn)為是大語言模型(LLMs)的基石。我們通過引入LLaDA來挑戰(zhàn)這一觀點,LLaDA是一種在預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)范式下從頭開始訓(xùn)練的擴散模型。LLaDA通過正向數(shù)據(jù)掩碼過程和反向過程對分布進行建模,由一個普通的Transformer參數(shù)化來預(yù)測掩碼令牌。通過優(yōu)化似然邊界,它為概率推理提供了一種有原則的生成方法。在廣泛的基準(zhǔn)測試中,LLaDA展示出了強大的可擴展性,優(yōu)于我們自建的自回歸模型基線。值得注意的是,LLaDA 8B在上下文學(xué)習(xí)方面與強大的LLMs(如LLaMA3 8B)具有競爭力,并且在經(jīng)過監(jiān)督微調(diào)后,在多輪對話等案例研究中表現(xiàn)出令人印象深刻的指令遵循能力。此外,LLaDA解決了反轉(zhuǎn)詛咒問題,在反轉(zhuǎn)詩歌完成任務(wù)中超越了GPT-4o。我們的研究結(jié)果表明,擴散模型是自回歸模型的可行且有前途的替代方案,挑戰(zhàn)了上述關(guān)鍵大語言模型能力與自回歸模型固有聯(lián)系的假設(shè)。

  • 通用性:擴散模型非常靈活,可廣泛應(yīng)用于多種數(shù)據(jù)模態(tài),包括圖像、音頻、分子等。這種通用性源于模型操縱噪聲的核心機制,該概念可應(yīng)用于任何以數(shù)字形式表示的數(shù)據(jù)類型。無論是圖像中的像素、聲波中的振幅,還是分子中的原子,擴散模型都能學(xué)習(xí)生成和操縱它們。此外,擴散模型還可根據(jù)不同的應(yīng)用場景進行調(diào)整,使其非常適合多模態(tài)設(shè)置。
  • 逐步控制:擴散模型的逐步生成過程讓用戶能夠更好地控制最終輸出。與傳統(tǒng)的一次性生成輸出的生成模型不同,擴散模型從噪聲逐步優(yōu)化生成數(shù)據(jù)樣本。這不僅提高了透明度,還讓我們能夠在生成過程中進行干預(yù),嘗試新的方向。
  • 與其他工具結(jié)合用于智能體擴散模型更完整的逐步生成過程有助于更好地分析模型當(dāng)前狀態(tài),從而實現(xiàn)更強大的思維模型和評估器。這可能就是為什么 Mercury 盡管在人才和模型訓(xùn)練方面投入的資金可能較少(而且關(guān)于基于擴散的文本生成器的信息也相對較少),但仍能與傳統(tǒng)的行業(yè)巨頭相媲美的原因。我認(rèn)為很多人都忽視了這一點。這也是擴散引導(dǎo)語言建模(DGLM)在文本生成的屬性控制方面(甚至是同時控制多個屬性)優(yōu)于其他技術(shù)的原因之一,因為屬性控制器作用于完整生成的擴散引導(dǎo)(而不是不完整的自回歸解碼設(shè)置)。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

與之對比,Anthropic 的憲法分類器旨在實現(xiàn)部分類似功能(防止模型被惡意利用)。它需要對完整文本(包括用戶輸入和模型生成的完整輸出)使用分類器。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

但這會顯著降低你輸出內(nèi)容的屬性控制和細(xì)微差別。

但為什么擴散模型能有這么好的效果呢?我覺得目前還沒有太多正式的解釋,所以讓我們來進行一些理論探討。

為什么擴散模型如此出色

以撰寫本文這樣的復(fù)雜生成任務(wù)為例。像生成對抗網(wǎng)絡(luò)(GANs)這樣的傳統(tǒng)生成器會一次性生成所有內(nèi)容。隨著任務(wù)復(fù)雜度的增加,這變得極其困難。想象一下,往畫布上潑一次顏料就畫出一幅細(xì)節(jié)豐富的場景有多難,這基本上就是 GAN 所做的事情。

自回歸的擴展性更好,能讓我們的模型處理更復(fù)雜的任務(wù)。由于自回歸是逐步進行的,你還可以在中途停止生成或者改變方向。這是自回歸相對于傳統(tǒng)生成器的兩個優(yōu)勢。然而,自回歸模型也可能會陷入困境(我相信我們都有過這樣的體驗)?;氐綄懳恼碌睦?,在沒有清晰規(guī)劃的情況下,僅靠自動補全功能很難寫出好文章。純粹的自回歸也會很快出現(xiàn)問題,因為我們無法回過頭去編輯之前生成的內(nèi)容。

擴散模型和自回歸一樣有逐步生成的優(yōu)勢,但又有所不同。因為在每個時間步我們都對整個輸入進行去噪,擴散模型讓我們能更好地結(jié)合上下文。與傳統(tǒng)的大語言模型不同,它不會在錯誤的基礎(chǔ)上繼續(xù)生成,因為每次迭代都會進行去噪步驟。

擴散大語言模型的未來走向

短期挑戰(zhàn):成本、效率與證明實際價值

將擴散大語言模型(dLLMs)與自回歸(AR)模型進行比較并不像看起來那么簡單。Mercury 發(fā)布的成果強調(diào)更高的吞吐量和更少的迭代次數(shù),以此作為效率的標(biāo)志,但這并不能說明全部情況。擴散模型每次推理的成本仍然高得多,這抵消了許多看似提高的速度優(yōu)勢。為了取得進展,我們需要更好的性能衡量方法,既要考慮原始計算成本,也要考慮實際可用性。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

計算效率不僅僅關(guān)乎浮點運算次數(shù)(FLOPs)。雖然 FLOPs 能大致反映工作量,但它并不能告訴我們模型對現(xiàn)代硬件的利用程度。擴散模型具有巨大的并行化潛力,而這是自回歸模型根本缺乏的(有趣的是,這就是早期大語言模型能擊敗循環(huán)神經(jīng)網(wǎng)絡(luò)的原因,因為大語言模型可以并行訓(xùn)練,而循環(huán)神經(jīng)網(wǎng)絡(luò)不行)。

由于 dLLMs 能一次性處理整個序列,理論上它們可以充分利用張量核心和高內(nèi)存帶寬。如果優(yōu)化得當(dāng),在大規(guī)模部署中,擴散模型實際上可以更高效地運行,因為批量處理和并行推理在這種場景下至關(guān)重要。但這是個很大的“如果” 。研究界需要在實際場景中進行基準(zhǔn)測試,以檢驗這種優(yōu)勢是否能轉(zhuǎn)化為有意義的吞吐量提升。

延遲是 dLLMs 需要更好評估的另一個方面。目前,基準(zhǔn)測試通常比較首個令牌生成時間,這對自回歸模型有利,因為它們是按順序輸出單詞的。但這并不能反映全貌。如果擴散模型生成完整、連貫草稿的速度比自回歸模型生成前幾個單詞的速度還快呢?這可能會帶來全新的交互模式,用戶可以立即得到完整的回復(fù)進行評估,而不是看著人工智能實時逐字輸出答案。用質(zhì)量與時間的曲線來衡量這種權(quán)衡,比依賴單一時間點的延遲比較更好。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

短期內(nèi)最大的挑戰(zhàn)是優(yōu)化。自適應(yīng)去噪調(diào)度可以根據(jù)內(nèi)容的復(fù)雜程度調(diào)整細(xì)化步驟的數(shù)量,從而減少不必要的計算。這可以通過兩種方式實現(xiàn):

  • 簡單的輸出需要較少的迭代次數(shù),而復(fù)雜的推理任務(wù)則需要額外的處理。
  • 構(gòu)建可學(xué)習(xí)的停止標(biāo)準(zhǔn),即模型一旦達(dá)到高置信度閾值就停止生成,而不是遵循固定的步數(shù)。

這些技術(shù)可以在不犧牲質(zhì)量的前提下顯著降低成本。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

除了效率,我們還需要更好的評估指標(biāo)。目前,大多數(shù)基準(zhǔn)測試都側(cè)重于令牌級別的準(zhǔn)確性,但擴散模型帶來了全新的優(yōu)勢,這些優(yōu)勢并沒有得到恰當(dāng)?shù)暮饬俊?/p>

  • 全局連貫性:模型在長篇內(nèi)容中保持邏輯一致性的能力,這是 dLLMs 可能真正具有優(yōu)勢的一個方面。與自回歸模型不同,自回歸模型在生成每個令牌時就確定下來,而擴散模型可以在生成過程中完善前面的部分,有可能產(chǎn)生內(nèi)部更加一致的輸出。
  • 約束對齊:遵循特定指令、嚴(yán)格的格式規(guī)則并保持事實準(zhǔn)確性。擴散模型的迭代特性可能使其比自回歸模型更擅長遵守復(fù)雜的約束,自回歸模型經(jīng)常會偏離軌道。

這些短期優(yōu)化不僅僅是為了讓擴散模型運行得更快。它們?yōu)楦甏蟮哪繕?biāo)奠定了基礎(chǔ)。如果我們能夠準(zhǔn)確量化成本效益的權(quán)衡,dLLMs 就不僅僅是自回歸模型的一個有趣替代方案,我們將能夠更好地分析何時/如何選擇使用其中一種模型,或者如何將它們結(jié)合起來。

在這個階段取得的突破,無論是在硬件利用、效率策略還是更好的評估指標(biāo)方面,都將直接塑造下一代人工智能模型。

中期目標(biāo):擁抱連續(xù)潛在空間

這是 dLLM 革命真正能夠發(fā)力的地方。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

我們可以讓 dLLMs 在流暢、連續(xù)的潛在空間中運行,而不是使用 “硬令牌”。Meta 已經(jīng)廣泛討論了這種做法的好處。

Large Concept Models: Language Modeling in a Sentence Representation Space[4]“大語言模型已經(jīng)徹底改變了人工智能領(lǐng)域,并已成為許多任務(wù)的事實上的工具。目前大語言模型的成熟技術(shù)是在令牌級別處理輸入和生成輸出。這與人類的處理方式形成鮮明對比,人類在多個抽象層次上進行操作,遠(yuǎn)遠(yuǎn)超越單個單詞,以分析信息并生成創(chuàng)造性內(nèi)容。在本文中,我們嘗試構(gòu)建一種基于明確的高級語義表示進行操作的架構(gòu),我們將其命名為‘概念’。概念與語言和模態(tài)無關(guān),代表流程中的更高級的想法或行動。因此,我們構(gòu)建了一個‘大型概念模型’。在本研究中,為了證明可行性,我們假設(shè)一個概念對應(yīng)一個句子,并使用現(xiàn)有的句子嵌入空間 SONAR,它支持多達(dá) 200 種語言的文本和語音模態(tài)。大型概念模型經(jīng)過訓(xùn)練,在嵌入空間中執(zhí)行自回歸句子預(yù)測。我們探索了多種方法,即均方誤差回歸、基于擴散的生成變體,以及在量化的 SONAR 空間中運行的模型。這些探索使用了 16 億參數(shù)的模型和大約 1300 億令牌的訓(xùn)練數(shù)據(jù)。然后,我們將一種架構(gòu)擴展到 70 億參數(shù)的模型和大約 7700 億令牌的訓(xùn)練數(shù)據(jù)。我們對幾個生成任務(wù)進行了實驗評估,即摘要生成和一個新的任務(wù)——摘要擴展。最后,我們展示了我們的模型在許多語言上展現(xiàn)出令人印象深刻的零樣本泛化性能,優(yōu)于相同規(guī)模的現(xiàn)有大語言模型。我們模型的訓(xùn)練代碼是免費提供的?!?/p>

這不僅僅是一個技術(shù)細(xì)節(jié),而是一種范式轉(zhuǎn)變。我們正從將語言表示為離散符號序列,轉(zhuǎn)向?qū)⑵渚幋a為豐富、微妙的意義圖景。使用更柔和的決策邊界可以實現(xiàn)更好的穩(wěn)定性,減少突兀感,如果你的模型能夠?qū)崿F(xiàn),就能提高性能:

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

稀疏MoE層(左)中的路由器學(xué)習(xí)將單個輸入令牌分配給每個可用插槽,而在軟MoE層(右)中,每個插槽是所有輸入令牌的(不同)加權(quán)平均值的結(jié)果

在這個連續(xù)空間中,微妙的變化代表了令牌根本無法捕捉的細(xì)微差別。這可以使 dLLMs 變得極其強大,更不容易出錯,更擅長理解釋義,并且對各種寫作風(fēng)格的適應(yīng)性更強。這個潛在空間可能是解鎖更好概念理解的關(guān)鍵。dLLMs 不再將單詞作為孤立的單元進行處理,而是可以操縱潛在的概念,在更深、更抽象的層面上理解意義。就像在圖像生成中一樣,這個連續(xù)空間允許無縫插值,以基于令牌的模型無法做到的方式融合想法、風(fēng)格和概念。

真正改變游戲規(guī)則的是生成過程中的推理。我們已經(jīng)多次提到這一點,所以在這里就不再過多重復(fù)。一旦我們有了良好的評估方法,就可以開始串聯(lián)多個評分器、評估器和 “探索器”,它們可以在生成過程的特定步驟進行觀察,并決定即時切換路徑或重寫計劃。這將開啟當(dāng)前系統(tǒng)中不存在的新的靈活性水平。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

一旦你開始在潛在空間中很好地表示概念,就可以實現(xiàn)當(dāng)前環(huán)境中不存在的、令人驚嘆的個性化程度(這可能就是為什么 Meta 如此大力推動基于潛在空間的推理)。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

長期愿景:在潛在空間中發(fā)展人工智能

擴散大語言模型的真正潛力不僅僅在于更好的文本生成或推理。隨著它們的成熟,它們可能會從根本上改變?nèi)斯ぶ悄艿膶W(xué)習(xí)和適應(yīng)方式。目前訓(xùn)練和推理之間的界限,這是當(dāng)今模型的一個決定性限制,可能會消失,從而產(chǎn)生通過交互不斷進化的系統(tǒng)。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

擴散模型特別適合這一點,因為它們不僅僅是逐步生成文本,還會對其進行修訂和完善。與按順序確定每個令牌的自回歸模型不同,擴散模型可以重新處理其輸出的前面部分,在生成過程中整合新信息(很抱歉,你可能已經(jīng)聽膩了我反復(fù)強調(diào)這一點,但這真的很重要)。這為無需昂貴的重新訓(xùn)練就能實時適應(yīng)的人工智能打開了大門。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

具有潛在擴散模型的高分辨率圖像合成

High-Resolution Image Synthesis with Latent Diffusion Models[5]

這種適應(yīng)性最直接的影響就是個性化。目前,調(diào)整人工智能的行為需要提示工程(重復(fù)繁瑣)或微調(diào)(計算成本高且有過擬合風(fēng)險)。擴散模型提供了一種更高效的替代方案,即修改潛在空間表示,而不是重新訓(xùn)練整個模型。這將使人工智能能夠以低得多的計算開銷形成特定用戶的風(fēng)格、偏好和推理方式。

自回歸模型也可以做到這一點(最簡單的方法是通過提示,但擴散模型在這方面的額外優(yōu)勢將使其實現(xiàn)更加嚴(yán)格和完整)。

深度剖析:為何擴散模型會成為語言模型的未來?-AI.x社區(qū)

Reference

[1] 加群鏈接: ??https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#??

[2] Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models: ??https://arxiv.org/abs/2402.07754??

[3] Your Diffusion Model is Secretly a Certifiably Robust Classifier: ??https://arxiv.org/abs/2402.02316??

[4] Large Concept Models: Language Modeling in a Sentence Representation Space: ??https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/??

[5] High-Resolution Image Synthesis with Latent Diffusion Models: ???https://arxiv.org/abs/2112.10752??

本文轉(zhuǎn)載自??柏企科技圈??,作者:柏企 ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦