自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型一定就比小模型好?谷歌的這項研究說不一定 精華

發(fā)布于 2024-4-22 09:42
瀏覽
0收藏

在這個大模型不斷創(chuàng)造新成就的時代,我們通常對機器學習模型有一個直觀認知:越大越好。但事實果真如此嗎?


近日,Google Research 一個團隊基于隱擴散模型(LDM)進行了大量實驗研究,得出了一個結(jié)論:更大并不總是更好(Bigger is not Always Better),尤其是在預(yù)算有限時。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


  • 論文標題:Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
  • 論文地址:https://arxiv.org/pdf/2404.01367.pdf  


近段時間,隱擴散模型和廣義上的擴散模型取得的成就不可謂不耀眼。這些模型在處理了大規(guī)模高質(zhì)量數(shù)據(jù)之后,可以非常出色地完成多種不同任務(wù),包括圖像合成與編輯、視頻創(chuàng)建、音頻生成和 3D 合成。


盡管這些模型可以解決多種多樣的問題,但要想在真實世界應(yīng)用中大規(guī)模使用它們,還需要克服一大障礙:采樣效率低。


這一難題的本質(zhì)在于,為了生成高質(zhì)量輸出,LDM 需要依賴多步采樣,而我們知道:采樣總成本 = 采樣步驟數(shù) × 每一步的成本。


具體來說,目前人們首選的方法需要使用 50 步 DDIM 采樣。這個過程雖能確保輸出質(zhì)量,但在具備后量化(post-quantization)功能的現(xiàn)代移動設(shè)備上卻需要相當長的延遲才能完成。因此,為了促進 LDM 的實際應(yīng)用,就需要優(yōu)化其效率。


事實上,這一領(lǐng)域已經(jīng)出現(xiàn)了一些優(yōu)化技術(shù),但對于更小型、冗余更少的模型的采樣效率,研究社區(qū)還未給予適當關(guān)注。在這一領(lǐng)域,一個重大障礙是缺少可用的現(xiàn)代加速器集群,因為從頭開始訓(xùn)練高質(zhì)量文生圖 LDM 的時間和資金成本都很高 —— 往往需要幾周時間和數(shù)十萬美元資金。


該團隊通過實驗研究了規(guī)模大小的變化對 LDM 的性能和效率的影響,其中關(guān)注重點是理解 LDM 的規(guī)模擴展性質(zhì)對采樣效率的影響。他們使用有限的預(yù)算從頭開始訓(xùn)練了 12 個文生圖 LDM,參數(shù)量從 39M 到 5B 不等。


圖 1 給出了一些結(jié)果示例。所有模型都是在 TPUv5 上訓(xùn)練的,使用了他們的內(nèi)部數(shù)據(jù)源,其中包含大約 6 億對已過濾的文本 - 圖像。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


他們的研究發(fā)現(xiàn),LDM 中確實存在一個隨模型規(guī)模變化的趨勢:在同等的采樣預(yù)算下,較小模型可能有能力超越較大模型。


此外,他們還研究了預(yù)訓(xùn)練文生圖 LDM 的大小會如何影響其在不同下游任務(wù)上的采樣效率,比如真實世界超分辨率、主題驅(qū)動的文生圖( 即 Dreambooth)。       


對于隱擴散模型在文生圖和其它多種下游任務(wù)上的規(guī)模擴展性質(zhì),該團隊得到了以下重要發(fā)現(xiàn):


  • 預(yù)訓(xùn)練的性能會隨訓(xùn)練計算量而擴展。通過將模型的參數(shù)量從 39M 擴展到 5B,該團隊發(fā)現(xiàn)計算資源和 LDM 性能之間存在明顯聯(lián)系。這表明隨著模型增大,還有潛力實現(xiàn)進一步提升。?
  • 下游性能會隨預(yù)訓(xùn)練而擴展。該團隊的實驗表明:預(yù)訓(xùn)練性能與在下游任務(wù)上的成功之間存在很強的關(guān)聯(lián)。較小模型即使使用額外的訓(xùn)練也無法完全趕上較大模型的預(yù)訓(xùn)練質(zhì)量所帶來的優(yōu)勢。
  • 較小模型的采樣效率更高。當給定了采樣預(yù)算時,較小模型的圖像質(zhì)量一開始會優(yōu)于較大模型,而當放松計算限制時,較大模型會在細節(jié)生成上勝過較小模型。
  • 采樣器并不會改變規(guī)模擴展效率。無論使用哪種擴散采樣器,較小模型的采樣效率總是會更好一點。這對確定性 DDIM、隨機性 DDPM 和高階 DPM-Solver++ 而言都成立。
  • 在步數(shù)更少的下游任務(wù)上,較小模型的采樣效率更高。當采樣步數(shù)少于 20 步時,較小模型在采樣效率上的優(yōu)勢會延伸到下游任務(wù)。
  • 擴散蒸餾不會改變規(guī)模擴展趨勢。即使使用擴散蒸餾,當采樣預(yù)算有限時,較小模型的性能依然能與較大蒸餾模型競爭。這說明蒸餾并不會從根本上改變規(guī)模擴展趨勢。


LDM 的規(guī)模擴展


該團隊基于廣被使用的 866M Stable Diffusion v1.5 標準,開發(fā)了一系列強大的隱擴散模型(LDM)。這些模型的去噪 UNet 具有不同的規(guī)模,參數(shù)數(shù)量從 39M 到 5B 不等。該團隊通過逐漸增大殘差模塊中過濾器的數(shù)量,同時維持其它架構(gòu)元素不變,實現(xiàn)了可預(yù)測的受控式規(guī)模擴展。表 1 展示了這些不同大小模型的架構(gòu)差異。其中也提供了每個模型相較于基線模型的相對成本。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


圖 2 展示了規(guī)模擴展過程中的架構(gòu)差異。這些模型的訓(xùn)練使用了他們的內(nèi)部數(shù)據(jù)源,其中有 6 億對經(jīng)過過濾的文本 - 圖像。所有模型都訓(xùn)練了 50 萬步,批量大小為 2048,學習率為 1e-4。這讓所有模型都能到達收益遞減的程度。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


圖 1 表明這些不同大小的模型都具有穩(wěn)定一致的生成能力。


對于文生圖任務(wù),他們設(shè)置的采樣步數(shù)為常用的 50 步,采樣器為 DDIM,無分類器指導(dǎo)率為 7.5。可以看到,隨著模型規(guī)模增大,所得結(jié)果的視覺質(zhì)量明顯提升。


文生圖性能隨訓(xùn)練計算量的擴展規(guī)律


實驗中,各種大小的 LDM 的生成性能相對于訓(xùn)練計算成本都有類似的趨勢,尤其是在訓(xùn)練穩(wěn)定之后 —— 通常是在 20 萬次迭代之后。這些趨勢表明不同大小的模型的學習能力具備明顯的擴展趨勢。


具體來看,圖 3 展示了參數(shù)量從 39M 到 5B 的不同模型的運行情況,其中的訓(xùn)練計算成本是表 1 中給出的相對成本和訓(xùn)練迭代次數(shù)的積。評估時,使用了相同的采樣步數(shù)和采樣參數(shù)。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


在訓(xùn)練計算量適中(即 < 1G,見圖 3)的場景中,文生圖模型的生成性能可在額外計算資源的幫助下很好地擴展。


預(yù)訓(xùn)練能擴展下游任務(wù)的性能


基于在文本 - 圖像數(shù)據(jù)上預(yù)訓(xùn)練的模型,該團隊又針對真實世界超分辨率和 DreamBooth 這兩個下游任務(wù)進行了微調(diào)。表 1 給出了這些預(yù)訓(xùn)練模型的性能。


圖 4 左圖給出了在超分辨率(SR)任務(wù)上的生成性能 FID 與訓(xùn)練計算量的對應(yīng)情況。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


可以看出來,相比于訓(xùn)練計算量,超分辨率的性能更依賴模型大小。實驗結(jié)果表明較小模型有一個明顯的局限性:不管訓(xùn)練計算量如何,它們都無法達到與較大模型同等的性能。


圖 4 右圖給出了失真度指標 LPIPS 的情況,可以看到其與生成指標 FID 有一些不一致。雖如此,還是可以從圖 5 明顯看出:較大模型比較小模型更擅長恢復(fù)細粒度的細節(jié)。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


基于圖 4 能得到一個關(guān)鍵見解:相比于較小的超分辨率模型,較大模型即使微調(diào)時間更短,也能取得更好的結(jié)果。這說明預(yù)訓(xùn)練性能(由預(yù)訓(xùn)練模型大小主導(dǎo))對超分辨率 FID 分數(shù)的影響比對微調(diào)的持續(xù)時間(即用于微調(diào)的計算量)的影響大。


此外,圖 6 比較了不同模型上 DreamBooth 微調(diào)的視覺結(jié)果??梢钥吹揭曈X質(zhì)量和模型大小之間也有相似的趨勢。 


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


擴展采樣效率


分析 CFG 率的影響。文生圖生成模型需要超過單一指標的細致評估。采樣參數(shù)對定制化來說非常重要,而無分類器引導(dǎo)(CFG)率可以直接影響視覺保真度以及與文本 prompt 的語義對齊之間的平衡。


Rombach 等人的論文《High-resolution image synthesis with latent diffusion models》通過實驗表明:不同的 CFG 率會得到不同的 CLIP 和 FID 分數(shù)。


而這項新研究發(fā)現(xiàn) CFG 率(一個采樣參數(shù))會在不同的模型大小上得到不一致的結(jié)果。因此,使用 FID 或 CLIP 分數(shù)以定量方式確定每個模型大小和采樣步驟的最佳 CFG 率是很有趣的。


該團隊使用不同的 CFG 率(即 1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)對不同規(guī)模的模型進行了采樣,并以定量和定性方式比較了它們的結(jié)果。


圖 7 便是兩個模型在不同的 CFG 率下的視覺結(jié)果,從中可以看出其對視覺質(zhì)量的影響。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


該團隊觀察到,相比于 prompt 語義準確度,CFG 率的變化對視覺質(zhì)量的影響更大,因此為了確定最佳 CFG 率,他們選取的評估指標是 FID 分數(shù)。


圖 8 給出了不同的 CFG 率對文生圖任務(wù)的 FID 分數(shù)的影響。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


規(guī)模擴展效率趨勢。使用每個模型在不同采樣步驟下的最佳 CFG 率,該團隊分析了最優(yōu)性能表現(xiàn),以理解不同 LDM 大小的采樣效率。


具體來說,圖 9 比較了不同采樣成本下(歸一化成本 × 采樣步數(shù))的不同模型及其最優(yōu)性能。通過追蹤不同采樣成本下的最優(yōu)性能點(豎虛線),可以看到一個趨勢:在一個采樣成本范圍內(nèi),較小模型的 FID 分數(shù)通常優(yōu)于較大模型。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


圖 10 則給出了較小和較大模型結(jié)果的定性比較,從中可以看到在相似的采樣成本條件下,較小模型是可以匹敵較大模型的。    


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


不同大小的模型使用不同采樣器的采樣效率


為了評估采樣效率趨勢在不同模型規(guī)模下的普遍性,該團隊評估了不同大小的 LDM 使用不同擴散采樣器的性能。


他們使用的采樣器有三種:DDIM、隨機性 DDPM、高階 DPM-Solver++。


圖 11 給出了實驗結(jié)果。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


可以看出,當采樣步數(shù)較少時,DDPM 采樣器得到的質(zhì)量通常低于 DDIM,而 DPM-Solver++ 則在圖像質(zhì)量上勝過 DDIM。


另一個發(fā)現(xiàn)也很重要,即三種采樣器都有一致的采樣效率趨勢:采樣成本一樣時,較小模型的性能會優(yōu)于較大模型。由于 DPM-Solver++ 采樣器的設(shè)計并不適合用于超過 20 步的采樣,因此這也是其采樣范圍。


結(jié)果表明:不管使用什么采樣器,LDM 的規(guī)模擴展性質(zhì)始終保持一致。


不同大小的模型在不同下游任務(wù)上的采樣效率


這里關(guān)注的重點下游任務(wù)是超分辨率。這里是直接使用超分辨率采樣結(jié)果,而不使用 CFG。受圖 4 啟發(fā)(在下游任務(wù)上,不同大小的 LDM 在采樣 50 步時性能差距較大),該團隊從兩個方面調(diào)查了采樣效率:較少采樣步數(shù)和較多采樣步數(shù)。


如圖 12 左圖所示,當采樣步數(shù)不超過 20 步時,不同大小模型的采樣效率趨勢在超分辨率任務(wù)上依然成立。但圖 12 右圖又表明,一旦超過這個范圍,較大模型的采樣效率就會超過較小模型。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


這一觀察結(jié)果說明,在文生圖和超分辨率等任務(wù)上,不同大小模型在采樣步數(shù)較少時的采樣效率趨勢是一致的。  


不同大小的已蒸餾 LDM 的采樣效率


雖然之前的實驗結(jié)果說明較小模型的采樣效率往往更高,但需要指出,較小模型的建模能力也往往更差一些。對于近期那些嚴重依賴建模能力的擴散蒸餾方法來說,這就成了一大難題。人們可能會預(yù)測出一個矛盾的結(jié)論:經(jīng)過蒸餾的大模型的采樣速度快于經(jīng)過蒸餾的小模型。


為了展示經(jīng)過蒸餾的不同大小模型的采樣效率,該團隊使用條件一致性蒸餾方法在文生圖數(shù)據(jù)上對之前的不同大小模型進行了蒸餾操作,然后比較了這些已蒸餾模型的最佳性能。


詳細來說,該團隊在采樣步數(shù) = 4(這已被證明可以實現(xiàn)最優(yōu)的采樣性能)的設(shè)定下測試了所有已蒸餾模型;然后在歸一化的采樣成本上比較了每個已蒸餾和未蒸餾模型。


圖 13 左圖表明,在采樣步數(shù) = 4 時,蒸餾可以提升所有模型的生成性能,并且 FID 全面提升。而在右圖中,可以看到在同等的采樣成本下,已蒸餾模型的表現(xiàn)優(yōu)于未蒸餾模型。


大模型一定就比小模型好?谷歌的這項研究說不一定-AI.x社區(qū)


但是,在特定的采樣成本下(即采樣成本≈8),較小的未蒸餾 83M 模型依然能取得與較大已蒸餾 866M 模型相近的性能。這一觀察進一步支持了該團隊提出的不同大小 LDM 的采樣效率趨勢,其在使用蒸餾時也依然成立。


本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/qmVEhCRlpwC6EnALGuGAhA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦