自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擴(kuò)散模型也能推理時(shí)Scaling,謝賽寧團(tuán)隊(duì)重磅研究可能帶來(lái)文生圖新范式

人工智能 新聞
近日,紐約大學(xué)謝賽寧領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)對(duì)這一方向進(jìn)行了探索。

對(duì)于 LLM,推理時(shí) scaling 是有效的!這一點(diǎn)已經(jīng)被近期的許多推理大模型證明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 

但這個(gè)說(shuō)法也適用于擴(kuò)散模型嗎?

近日,紐約大學(xué)謝賽寧領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)對(duì)這一方向進(jìn)行了探索。具體來(lái)說(shuō),他們借助通用搜索框架系統(tǒng)性地探索了擴(kuò)散模型的推理時(shí) scaling 情況。他們發(fā)現(xiàn),推理時(shí) scaling 對(duì)擴(kuò)散模型是有效的 —— 增加推理時(shí)間計(jì)算可以顯著提高擴(kuò)散模型生成的樣本的質(zhì)量,并且由于圖像的復(fù)雜性,可以針對(duì)不同的應(yīng)用場(chǎng)景,對(duì)框架中的組件進(jìn)行不同形式的組合。

圖片

這篇論文的署名部分還透露出了一個(gè)有趣的小細(xì)節(jié):謝賽寧的所屬機(jī)構(gòu)標(biāo)記成了谷歌并且通訊作者郵箱也使用了其谷歌域名的郵箱。但我們目前還并不清楚這是否意味著這位著名 AI 研究者已經(jīng)正式加入谷歌,還是在谷歌兼職(謝賽寧此前已經(jīng)是谷歌研究院訪問(wèn)學(xué)者)。

圖片

  • 論文標(biāo)題:Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
  • 論文鏈接:https://arxiv.org/pdf/2501.09732

有趣的是,就在前幾天,來(lái)自紐約大學(xué)和哥倫比亞大學(xué)的研究者也發(fā)布了一篇類(lèi)似方向的論文。看來(lái),scaling 推理將是改進(jìn)擴(kuò)散模型的一個(gè)非常有前途的方向。

圖片

論文概覽

OpenAI o1 等模型的問(wèn)世已經(jīng)證明,在推理階段增加計(jì)算量可以讓 LLM 的性能進(jìn)一步提升。但對(duì)于擴(kuò)散模型,如何有效 scaling 推理時(shí)間計(jì)算以進(jìn)一步提升性能還不夠明確。

擴(kuò)散模型經(jīng)過(guò)訓(xùn)練以去除數(shù)據(jù)中的噪聲,是一類(lèi)在連續(xù)數(shù)據(jù)領(lǐng)域占主導(dǎo)地位的生成模型,如圖像、音頻和視頻。為了生成單個(gè)樣本,它們的生成過(guò)程通常從純?cè)肼曢_(kāi)始,需要經(jīng)過(guò)訓(xùn)練模型的多次前向傳遞來(lái)去噪并獲得干凈的數(shù)據(jù)。這些前向傳遞因此被稱(chēng)為去噪步驟。由于去噪步驟的數(shù)量可以調(diào)整,以在樣本質(zhì)量和計(jì)算成本之間進(jìn)行權(quán)衡,擴(kuò)散模型的生成過(guò)程自然提供了在推理時(shí)分配計(jì)算預(yù)算的靈活性。

對(duì)于生成模型,這種計(jì)算預(yù)算通常用函數(shù)評(píng)估次數(shù)(NFE)來(lái)衡量,以確保與其他使用迭代采樣過(guò)程但沒(méi)有去噪能力的模型系列進(jìn)行合理比較。

經(jīng)驗(yàn)觀察表明,僅通過(guò)將計(jì)算投入到去噪步驟中,性能提升在達(dá)到某個(gè) NFE 后往往會(huì)趨于平穩(wěn),限制了推理過(guò)程中增加計(jì)算的收益。因此,以前關(guān)于擴(kuò)散模型的工作長(zhǎng)期以來(lái)一直專(zhuān)注于在保持高性能的同時(shí)盡可能減少推理時(shí)的 NFE 以提高效率。

但是,谷歌 DeepMind 和謝賽寧等人新論文的研究方向與此相反。

與 LLM 相比,擴(kuò)散模型處理的是作為初始樣本注入的噪聲或在采樣過(guò)程中注入的噪聲的顯式隨機(jī)性。已有研究表明這些噪聲并非等價(jià),即某些噪聲會(huì)帶來(lái)更好的生成結(jié)果。這一觀察為 scaling NFE 提供了除增加去噪步驟之外的另一個(gè)維度 —— 在采樣中搜索更好的噪聲。

新論文研究了在推理過(guò)程中通過(guò)搜索有效利用計(jì)算資源的方法,而不是僅將 NFE 分配給去噪步驟(這往往會(huì)很快導(dǎo)致性能不再增長(zhǎng)),從而在推理時(shí)改進(jìn)擴(kuò)散模型的性能和可擴(kuò)展性(圖 1)。

圖片

作者主要考慮搜索框架中的兩個(gè)設(shè)計(jì)軸:用于在搜索中提供反饋的驗(yàn)證器,以及用于尋找更好噪聲候選項(xiàng)的算法,遵循 LLM 中使用的術(shù)語(yǔ)。

對(duì)于驗(yàn)證器,他們考慮了三種不同的設(shè)置,這些設(shè)置旨在模擬三種不同的使用場(chǎng)景:

  1. 掌握最終評(píng)估如何進(jìn)行的特權(quán)信息的場(chǎng)景;
  2. 掌握用于指導(dǎo)生成的條件信息的場(chǎng)景;
  3. 沒(méi)有額外信息可用的場(chǎng)景。

對(duì)于算法,他們研究了:

  1. 隨機(jī)搜索,它只是從固定的候選集中選擇最佳項(xiàng);
  2. 零階搜索,它利用驗(yàn)證器反饋來(lái)迭代改進(jìn)噪聲候選項(xiàng);
  3. 路徑搜索,它利用驗(yàn)證器反饋來(lái)迭代改進(jìn)擴(kuò)散采樣軌跡。

作者首先在 ImageNet 類(lèi)別條件生成這個(gè)相對(duì)簡(jiǎn)單的設(shè)置中探討這些設(shè)計(jì)選擇并展示它們的有效性,為新框架提供一個(gè)具體實(shí)例。然后他們將這些設(shè)計(jì)選擇應(yīng)用到更大規(guī)模的文本條件生成設(shè)置中,并評(píng)估他們提出的框架。

由于圖像的復(fù)雜性質(zhì)和文本條件包含的豐富信息,需要對(duì)生成質(zhì)量進(jìn)行更全面的評(píng)估。因此,他們采用多個(gè)驗(yàn)證器來(lái)進(jìn)行搜索中的推理時(shí)計(jì)算 scaling。這也使他們能夠探究每個(gè)驗(yàn)證器具有的「偏見(jiàn)」,以及它們與生成任務(wù)的匹配程度。為了緩解對(duì)單個(gè)驗(yàn)證器的過(guò)擬合,他們還嘗試了驗(yàn)證器集成,并展示了它在不同基準(zhǔn)測(cè)試中的良好泛化能力。

新論文的貢獻(xiàn)總結(jié)如下:

  • 提出了一個(gè)用于擴(kuò)散模型推理時(shí) scaling 的基礎(chǔ)框架。論文表明,通過(guò)搜索去 scaling NFE 可以在各種生成任務(wù)和模型規(guī)模上帶來(lái)實(shí)質(zhì)性改進(jìn),超越了僅增加去噪步驟的方法。此外,作者對(duì)推理時(shí)計(jì)算預(yù)算如何影響 scaling 性能進(jìn)行了全面的實(shí)證分析。
  • 在提出的搜索框架中確定了兩個(gè)關(guān)鍵設(shè)計(jì)軸:提供反饋的驗(yàn)證器和尋找更好噪聲候選項(xiàng)的算法。作者研究了不同驗(yàn)證器 - 算法組合在各種任務(wù)中的表現(xiàn),他們的發(fā)現(xiàn)表明沒(méi)有一種配置是普遍最優(yōu)的;每個(gè)任務(wù)反而需要一個(gè)獨(dú)特的搜索設(shè)置才能實(shí)現(xiàn)最佳的 scaling 性能。
  • 對(duì)驗(yàn)證器與不同生成任務(wù)之間的匹配度進(jìn)行了廣泛分析。論文的結(jié)果揭示了不同驗(yàn)證器中嵌入的偏見(jiàn),以及在每個(gè)不同的視覺(jué)生成任務(wù)中需要專(zhuān)門(mén)設(shè)計(jì)驗(yàn)證器的必要性。

如何在推理時(shí)間 scale

本文提出了一個(gè)框架,用于擴(kuò)散模型的推理時(shí)間 scaling 。本文將這一挑戰(zhàn)表述為對(duì)采樣噪聲的搜索問(wèn)題;具體來(lái)說(shuō),本文需要知道哪些采樣噪聲是好的,以及如何搜索這些噪聲?

在高層次上,本文考慮了兩個(gè)設(shè)計(jì)軸:

一是驗(yàn)證器,用于評(píng)估候選樣本的質(zhì)量。這些驗(yàn)證器通常是能夠提供反饋的預(yù)訓(xùn)練模型;驗(yàn)證器函數(shù)形式如下:

圖片

這些函數(shù)接收生成的樣本以及可選的對(duì)應(yīng)條件,并輸出一個(gè)標(biāo)量值作為每個(gè)生成樣本的評(píng)分。

二是算法,用于根據(jù)驗(yàn)證器的評(píng)分找到更好的候選樣本。函數(shù)形式如下:  

圖片

它接收驗(yàn)證器 V、預(yù)訓(xùn)練擴(kuò)散模型  ??_θ ,以及 N 對(duì)生成的樣本及其相應(yīng)的條件,并根據(jù)噪聲和樣本之間的確定性映射輸出最佳的初始噪聲。在整個(gè)搜索過(guò)程中,f 通常會(huì)多次通過(guò) ??_θ 進(jìn)行前向傳遞。本文將這些額外的前向傳遞稱(chēng)為搜索成本,用 NFE 來(lái)衡量。

舉例來(lái)說(shuō),本文使用在 ImageNet 上預(yù)訓(xùn)練的 SiT-XL 模型,分辨率為 256×256,并使用二階 Heun 采樣器進(jìn)行采樣,即除了初始噪聲外,采樣過(guò)程中沒(méi)有其他隨機(jī)性來(lái)源。此外,本文還通過(guò)去噪步驟和搜索成本的總 NFE 來(lái)衡量推理計(jì)算預(yù)算。

本文從最簡(jiǎn)單的搜索算法開(kāi)始,即隨機(jī)采樣高斯噪聲,使用 ODE 生成樣本,并選擇與最佳驗(yàn)證器評(píng)分對(duì)應(yīng)的樣本(圖 2)。本文將這種算法稱(chēng)為隨機(jī)搜索,它本質(zhì)上是一種在所有噪聲候選上應(yīng)用一次的 Best-of-N 策略。

對(duì)于驗(yàn)證器,本文從最佳驗(yàn)證器開(kāi)始,即 Oracle 驗(yàn)證器,他們假設(shè)其擁有關(guān)于選定樣本最終評(píng)估的全部特權(quán)信息。對(duì)于 ImageNet,由于 FID 和 IS 通常被用作評(píng)估指標(biāo),因而直接將它們作為 Oracle 驗(yàn)證器。

圖片

搜索驗(yàn)證器

雖然通過(guò)搜索 scalingNFE 在使用 Oracle 驗(yàn)證器時(shí)表現(xiàn)出令人印象深刻的性能(如圖 3 所示),但關(guān)鍵問(wèn)題在于這種有效性是否可以推廣到使用更易獲取的預(yù)訓(xùn)練模型的監(jiān)督驗(yàn)證器上。

圖片

為了研究這一點(diǎn),本文選擇了兩個(gè)模型:CLIP 和 DINO 。對(duì)于 CLIP,本文遵循 Radford 等人的方法,使用通過(guò)提示工程生成的嵌入權(quán)重作為零樣本分類(lèi)器。對(duì)于 DINO,本文直接使用預(yù)訓(xùn)練的線(xiàn)性分類(lèi)頭。在搜索過(guò)程中,將樣本輸入分類(lèi)器,并選擇與生成中使用的類(lèi)別標(biāo)簽對(duì)應(yīng)的 logits 最高的樣本。

如圖 4 所示,與單純通過(guò)增加去噪步驟 scaling NFE 相比(圖 1),這種策略也有效提升了模型在 IS 上的性能。然而,本文注意到,由于這些分類(lèi)器是逐點(diǎn)操作的,它們僅部分與 FID 評(píng)分的目標(biāo)對(duì)齊。具體來(lái)說(shuō),它們生成的 logits 僅關(guān)注單個(gè)樣本的質(zhì)量,而沒(méi)有考慮總體多樣性,這導(dǎo)致樣本方差顯著減少,并最終表現(xiàn)為隨著計(jì)算量增加而出現(xiàn)的模式崩潰。隨機(jī)搜索算法也難辭其咎,由于其無(wú)約束的搜索空間,加速了搜索向驗(yàn)證器偏見(jiàn)的收斂。這種現(xiàn)象類(lèi)似于強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)黑客行為,因此將其稱(chēng)為驗(yàn)證器黑客。

圖片

盡管條件信息在現(xiàn)實(shí)世界的生成任務(wù)中至關(guān)重要,但本文發(fā)現(xiàn)驗(yàn)證器并不一定需要條件信息來(lái)有效指導(dǎo)搜索。如圖 5 所示,他們發(fā)現(xiàn) DINO/CLIP 分類(lèi)器輸出的 logits 與模型在低噪聲水平(σ=0.4)下的 x 預(yù)測(cè)值與最終生成的干凈樣本(σ=0)之間的特征空間(分別由 DINO/CLIP 提?。┯嘞蚁嗨贫戎g存在強(qiáng)相關(guān)性。

因此,本文使用這種相似度評(píng)分作為分類(lèi) logits 的替代,并將這類(lèi)驗(yàn)證器稱(chēng)為自監(jiān)督驗(yàn)證器,因?yàn)樗鼈儾恍枰~外的條件信息。圖 5 再次觀察到了有效的 scaling 行為。

這一結(jié)果對(duì)于條件信息不可用或難以獲取的用例來(lái)說(shuō)(如醫(yī)學(xué)圖像生成任務(wù))是令人鼓舞的。由于這些限制在現(xiàn)實(shí)場(chǎng)景中并不常見(jiàn),本文將自監(jiān)督驗(yàn)證器的進(jìn)一步研究留待未來(lái)工作。

搜索算法

前文的探索主要集中于簡(jiǎn)單的隨機(jī)搜索設(shè)置,他們發(fā)現(xiàn)這種方法可能導(dǎo)致驗(yàn)證器黑客行為?;谶@一認(rèn)知,作者開(kāi)始研究更細(xì)致的搜索算法,這些算法利用驗(yàn)證器的反饋逐步優(yōu)化候選樣本,每次只進(jìn)行小幅調(diào)整,從而減輕過(guò)擬合風(fēng)險(xiǎn)。

具體來(lái)說(shuō),本文考慮了一種零階搜索方法:

  1. 從一個(gè)隨機(jī)高斯噪聲 n 作為支點(diǎn)開(kāi)始。
  2. 在支點(diǎn)的鄰域中找到 N  個(gè)候選項(xiàng)。
  3. 通過(guò) ODE 求解器運(yùn)行候選項(xiàng)以獲得樣本及其對(duì)應(yīng)的驗(yàn)證器得分。
  4. 找到最佳候選項(xiàng),將其更新為支點(diǎn),并重復(fù)步驟 1-3。

與零階優(yōu)化類(lèi)似,零階搜索不涉及昂貴的梯度計(jì)算;相反,它通過(guò)在鄰域內(nèi)進(jìn)行多次前向函數(shù)評(píng)估來(lái)近似梯度方向。

本文還注意到,由于許多驗(yàn)證器是可微的,理論上可以使用真實(shí)梯度進(jìn)行一階搜索,并且在實(shí)際中已有應(yīng)用。然而,這需要在整個(gè)采樣過(guò)程中進(jìn)行反向傳播,通常在時(shí)間和空間復(fù)雜度上都極為昂貴,尤其是在擴(kuò)展大模型時(shí)。在實(shí)踐中,本文發(fā)現(xiàn)一階搜索在 ImageNet 上并沒(méi)有表現(xiàn)出比零階搜索更明顯的優(yōu)勢(shì),盡管它的成本更高。

擴(kuò)散采樣過(guò)程的迭代特性為設(shè)計(jì)局部搜索算法提供了其他可能性,沿著注入噪聲的采樣軌跡進(jìn)行搜索是可行的。本文提出了路徑搜索來(lái)探索其中一種可能性。具體來(lái)說(shuō),

  1. 采樣 N 個(gè)初始獨(dú)立同分布噪聲,并運(yùn)行 ODE 求解器直到某個(gè)噪聲水平 σ。噪聲樣本 x_σ 作為搜索起點(diǎn)。
  2. 為每個(gè)噪聲樣本采樣 M 個(gè)獨(dú)立同分布噪聲,并模擬從 σ 到 σ+Δf 的前向加噪過(guò)程,生成大小為 M 的 {x_(σ+Δf)}。
  3. 在每個(gè) x_(σ+Δf) 上運(yùn)行 ODE 求解器到噪聲水平 σ + Δf - Δb,并獲得 x_(σ+Δf-Δb)。在這些樣本上運(yùn)行驗(yàn)證器并保留前 N 個(gè)候選樣本。重復(fù)步驟 2-3,直到 ODE 求解器達(dá)到 σ=0。
  4. 對(duì)剩余的 N  個(gè)樣本通過(guò)隨機(jī)搜索并保留最佳的一個(gè)。

為了確保迭代會(huì)終止,該團(tuán)隊(duì)嚴(yán)格要求 Δb > Δf。另外,由于驗(yàn)證器通常不適應(yīng)有噪聲輸入,因此他們?cè)诓襟E 3 中執(zhí)行一個(gè)額外的去噪步驟,并使用干凈的 x 預(yù)測(cè)與驗(yàn)證器交互。這里,主要的 scaling 軸是步驟 2 中添加的噪聲數(shù)量 M,在實(shí)踐中,他們研究了不同初始噪聲數(shù)量 N 的 scaling 行為。

因此該算法被命名為 Paths-N。這兩種算法見(jiàn)圖 2,從中可以看到,與隨機(jī)搜索相比,零階搜索和路徑搜索都保持了很強(qiáng)的局部性:前者在初始噪聲的鄰域中運(yùn)作,后者則是在采樣過(guò)程的中間步驟中搜索。

這些算法的性能見(jiàn)圖 6。由于這兩種算法的局部性質(zhì),它們都在一定程度上緩解了 FID 的多樣性問(wèn)題,同時(shí)保持了 Inception Score 的 scaling。對(duì)于零階搜索,可以注意到增大 N 的效果很小,N = 4 似乎已經(jīng)是對(duì)局部最優(yōu)的良好估計(jì)。至于路徑搜索,可以看到不同的 N 值會(huì)導(dǎo)致不同的 scaling 行為,小 N 值在小生成預(yù)算下計(jì)算效率高,而大 N 值在增加更多計(jì)算時(shí)更具優(yōu)勢(shì)。

圖片

在文生圖場(chǎng)景中的推理時(shí) scaling

在更大規(guī)模文生圖任務(wù)中,該團(tuán)隊(duì)研究了搜索框架的推理時(shí) scaling 能力,并研究了驗(yàn)證器與特定圖像生成任務(wù)之間的對(duì)齊性能。

數(shù)據(jù)集方面,該團(tuán)隊(duì)采用了 DrawBench 和 T2I-CompBench 以實(shí)現(xiàn)更全面的評(píng)估。骨干模型則是 FLUX.1-dev。驗(yàn)證器方面,考慮到文生圖任務(wù)本質(zhì)上的復(fù)雜性質(zhì),該團(tuán)隊(duì)還擴(kuò)展了監(jiān)督式驗(yàn)證器的選擇:Aesthetic Score Predictor、CLIPScore、ImageReward。其中 Aesthetic Score Predictor 可以預(yù)測(cè)人類(lèi)對(duì)合成圖像的視覺(jué)質(zhì)量的評(píng)分,CLIPScore 則是通過(guò) 4 億對(duì)人工標(biāo)注的圖像 - 文本數(shù)據(jù)來(lái)對(duì)齊視覺(jué)和文本特征,ImageReward 則更能體現(xiàn)更一般化的偏好。

此外,該團(tuán)隊(duì)還創(chuàng)新地將這三個(gè)驗(yàn)證器組合到一起,得到了第四個(gè)驗(yàn)證器,稱(chēng)為 Verifier Ensemble??捎糜谶M(jìn)一步擴(kuò)展驗(yàn)證器在不同評(píng)估方面的能力。

更多實(shí)驗(yàn)設(shè)置詳情請(qǐng)參看原論文。

分析結(jié)果:驗(yàn)證器 - 任務(wù)對(duì)齊

下面比較在不同數(shù)據(jù)集上驗(yàn)證器和算法組合的結(jié)果。

DrawBench。這是一個(gè)高度通用的數(shù)據(jù)集,包含來(lái)自不同類(lèi)別的文本提示詞。圖 8 展示了在該數(shù)據(jù)集上的一些結(jié)果。

圖片

如圖 8 所示,根據(jù) LLM Grader 指標(biāo),可知使用所有驗(yàn)證器進(jìn)行搜索通常都會(huì)提高樣本質(zhì)量,而具體的改進(jìn)行為在不同設(shè)置下有所不同。這表明,可以根據(jù)不同的應(yīng)用場(chǎng)景選擇專(zhuān)門(mén)的搜索設(shè)置。

從圖 8 的左兩列中,可以看到使用 Aesthetic 和 CLIP 驗(yàn)證器進(jìn)行搜索會(huì)過(guò)度擬合它們固有的偏見(jiàn),對(duì)彼此產(chǎn)生負(fù)面影響。該團(tuán)隊(duì)推測(cè)這兩個(gè)驗(yàn)證器在評(píng)估上存在重大不匹配:Aesthetic Score 僅關(guān)注視覺(jué)質(zhì)量,經(jīng)常偏向于與文本提示詞偏離的高度風(fēng)格化圖像,而 CLIP 優(yōu)先考慮視覺(jué) - 文本對(duì)齊,犧牲了視覺(jué)質(zhì)量。因此,如果在搜索過(guò)程中使用一個(gè)驗(yàn)證器(例如 Aesthetic Score),其偏見(jiàn)便會(huì)降低由另一個(gè)驗(yàn)證器(例如 CLIP)評(píng)估的指標(biāo)

另外,與 ImageNet 設(shè)置類(lèi)似,該團(tuán)隊(duì)在這里也觀察到了隨著搜索預(yù)算增長(zhǎng)而表現(xiàn)出的 scaling 行為。

通過(guò)觀察驗(yàn)證器在 DrawBench 和 T2I-CompBench 上的行為,可以發(fā)現(xiàn):驗(yàn)證器的有效性取決于其標(biāo)準(zhǔn)與任務(wù)特定需求的匹配程度,某些驗(yàn)證器比其他驗(yàn)證器更適合特定任務(wù)。

算法。表 2 展示了三種搜索算法在 DrawBench 上的表現(xiàn)。

圖片

可以看到,這三種方法全都能有效提高采樣質(zhì)量,其中隨機(jī)搜索在某些方面優(yōu)于其他兩種方法。同樣,該團(tuán)隊(duì)認(rèn)為這種行為的原因是零階搜索和路徑搜索的局部性質(zhì)(圖 2)。由于這里展示的所有驗(yàn)證器和指標(biāo)都是基于每個(gè)樣本進(jìn)行評(píng)估的,隨機(jī)搜索將大大加速向驗(yàn)證器偏見(jiàn)的收斂,而其他兩種算法需要對(duì)次優(yōu)候選項(xiàng)進(jìn)行改進(jìn)。

搜索與微調(diào)是兼容的

搜索和微調(diào)的目標(biāo)都是將最終樣本與顯式獎(jiǎng)勵(lì)模型或人類(lèi)偏好對(duì)齊。前者將樣本模式向特定驗(yàn)證器的偏見(jiàn)移動(dòng),后者是直接修改模型的分布以與獎(jiǎng)勵(lì)對(duì)齊。于是問(wèn)題來(lái)了:在模型分布被修改后,是否仍然可以根據(jù)驗(yàn)證器移動(dòng)樣本模式?

在這里研究過(guò)的所有微調(diào)方法中,作為 RLHF 方法的一個(gè)更高效和更簡(jiǎn)單的替代方案,DiffusionDPO 已被廣泛用于對(duì)齊大規(guī)模文生圖模型。為了回答這個(gè)問(wèn)題,該團(tuán)隊(duì)采用論文《Diffusion model alignment using direct preference optimization》中的 DPO 微調(diào)的 Stable Diffusion XL 模型,并在 DrawBench 數(shù)據(jù)集上進(jìn)行搜索。由于該模型是在 Pick-a-Pic 數(shù)據(jù)集上微調(diào)的,于是他們也用 PickScore 評(píng)估器替換 ImageReward。結(jié)果見(jiàn)表 3。

圖片

可以看到,搜索方法可以泛化到不同的模型,并可以改進(jìn)已對(duì)齊模型的性能??雌饋?lái),這個(gè)工具很有用,可以緩解微調(diào)模型與獎(jiǎng)勵(lì)模型不一致的情況,并提高它們?cè)谄渌笜?biāo)上的泛化能力。

投入推理計(jì)算上不同維度的不同效果

由于擴(kuò)散模型本質(zhì)上的迭代采樣性質(zhì),因此通過(guò)搜索來(lái) scaling NFE 的維度有很多。這篇論文也對(duì)此展開(kāi)了一些討論。

搜索迭代的次數(shù)。直觀地說(shuō),增加搜索迭代次數(shù)可以使選定的噪聲相對(duì)于驗(yàn)證器更接近最優(yōu)集,從而可以顯著提高性能。

每次搜索迭代的計(jì)算量。在每次搜索迭代中,去噪步驟數(shù)量都可以調(diào)整。這里將模型采用的去噪步驟次數(shù)記為 NFEs/iter。盡管僅增加去噪步驟時(shí)模型性能很快達(dá)到平穩(wěn)(圖 1),但該團(tuán)隊(duì)觀察到在搜索過(guò)程中,調(diào)整 NFEs/iter 可以揭示不同的計(jì)算最優(yōu)區(qū)域,如圖 10 所示。在搜索過(guò)程中,較小的 NFEs/iter 能實(shí)現(xiàn)高效收斂,但最終性能較低。相反,較大的 NFEs/iter 會(huì)導(dǎo)致收斂較慢但產(chǎn)生更好的性能。

最終生成的計(jì)算量。盡管可以自由調(diào)整最終生成的去噪步驟,但該團(tuán)隊(duì)的做法是始終使用最優(yōu)設(shè)置以獲得最佳的最終樣本質(zhì)量。在 ImageNet 中,他們將去噪預(yù)算固定為 250 NFEs,在文本到圖像設(shè)置中使用 30 步采樣器,因?yàn)檫M(jìn)一步 scaling 時(shí)的性能將很快趨平。

投資計(jì)算的有效性

該團(tuán)隊(duì)探索了在較小的擴(kuò)散模型上進(jìn)行推理時(shí)計(jì)算 scaling 的有效性,并強(qiáng)調(diào)了相對(duì)于它們不進(jìn)行搜索的大型模型的性能效率。結(jié)果見(jiàn)圖 11。

圖片

可以看到,在 ImageNet 上,對(duì)小型模型進(jìn)行推理時(shí)計(jì)算 scaling 會(huì)非常有效。在固定的推理計(jì)算預(yù)算下,對(duì)小型模型進(jìn)行搜索可以超過(guò)不進(jìn)行搜索的大型模型。舉個(gè)例子,在推理計(jì)算量有限時(shí),SiT-L 相對(duì)于 SiT-XL 存在優(yōu)勢(shì)。但是,將 SiT-B 與其他兩個(gè)模型進(jìn)行比較表明,這種有效性取決于小型模型相對(duì)強(qiáng)大的基線(xiàn)性能。當(dāng)小型模型的基線(xiàn)性能明顯落后時(shí),scaling 的收益是有限的,會(huì)導(dǎo)致結(jié)果次優(yōu)。

在基于文本的設(shè)置中也出現(xiàn)這種現(xiàn)象,如表 4 所示。

圖片

可以看到,僅使用十分之一的計(jì)算量,PixArt-Σ 就超過(guò)了不進(jìn)行搜索的 FLUX-1.dev。而如果使用大約兩倍的計(jì)算量,PixArt-Σ 還能大幅超過(guò)不進(jìn)行搜索的 FLUX-1.dev。這些結(jié)果具有重要的實(shí)踐意義:在訓(xùn)練中投入的大量計(jì)算資源可以通過(guò)生成期間的一小部分計(jì)算來(lái)抵消,從而能更高效地獲得更高質(zhì)量的樣本。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-05-25 10:28:35

模型AI

2024-10-14 13:20:00

2019-03-04 09:39:41

Java開(kāi)發(fā)代碼

2024-05-10 07:58:03

2022-12-23 10:15:44

模型AI

2024-07-08 08:47:00

2024-12-23 12:37:34

2024-02-26 08:25:00

模型訓(xùn)練

2021-06-18 15:50:56

模型人工智能深度學(xué)習(xí)

2025-04-08 09:10:00

模型訓(xùn)練AI

2025-04-08 09:16:00

推理模型AI

2025-02-21 13:20:00

2020-12-29 09:56:01

數(shù)字貨幣人民幣現(xiàn)金

2024-04-17 13:22:55

人工智能

2024-01-16 17:17:30

模型訓(xùn)練

2024-10-23 15:05:29

2018-05-17 10:26:44

2024-06-17 13:34:54

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)