MSRA古紓旸:2024年,視覺生成領(lǐng)域最重要的問題有哪些? 精華
文章鏈接: https://arxiv.org/pdf/2407.18290
亮點直擊
- 概述了視覺生成領(lǐng)域中的各種問題。
- 這些問題的核心在于如何分解視覺信號,其他所有問題都與這一核心問題密切相關(guān),并源于不適當(dāng)?shù)男盘柗纸夥椒ā?/li>
- 本文旨在引起研究人員對視覺信號分解重要性的關(guān)注。
問題1:生成模型的目標(biāo)是什么?
在作者看來,生成模型的設(shè)計目的是“創(chuàng)造人們所設(shè)想的”。數(shù)字信號的生成需要經(jīng)過三個里程碑:
- 第一個里程碑是將用戶的想法翻譯成計算機(jī)可以理解的格式 。具體來說,這需要識別要生成的信號的模態(tài),這可以是文本、3D物體、視頻或其他形式。隨后,必須確定在給定條件下要生成的狀態(tài)。從流形學(xué)習(xí)的角度來看,這一過程對應(yīng)于首先確定包絡(luò)空間的維度D,然后識別模型要模仿的目標(biāo)分布。
- 在生成建模領(lǐng)域,許多研究人員專注于如何建模這一挑戰(zhàn)。主要的障礙是目標(biāo)分布的固有復(fù)雜性,這通常使得建模變得非常艱難。因此,研究人員不斷尋找具有更強(qiáng)建模能力的模型。特別是在視覺生成領(lǐng)域,近年來流行的方法包括基于能量的模型(Energy-Based Models)、變分自編碼器(VAEs)、生成對抗網(wǎng)絡(luò)(GANs)、擴(kuò)散模型(diffusion models)等。
- 同時,許多研究人員進(jìn)一步探索更高級的目標(biāo),研究如何以更高的效率和更好的可解釋性生成結(jié)果。這些研究對實際部署、安全性和負(fù)責(zé)任AI的發(fā)展具有重大意義。
問題2:視覺信號分解問題
建模分布的努力帶來了巨大的挑戰(zhàn),特別是當(dāng)目標(biāo)是生成令人信服的文本內(nèi)容或視頻時。這些類型的數(shù)據(jù)代表了embedding在極高維空間中的低維流形,使得用單一網(wǎng)絡(luò)直接擬合這些分布變得不切實際。因此,需要將復(fù)雜的分布建模問題分解成多個更簡單的問題,并分別解決每個子問題。這引出了一個問題:如何有效地分解這個復(fù)雜的分布建模問題?
語言分解
大語言模型的成功在很大程度上歸功于對文本信號的有效分解。考慮建模文本序列的任務(wù),其中表示從前到后第t個位置的token。
這可以基于位置分割成一系列條件建模子任務(wù): 大語言模型采用自回歸模型來近似這些條件分布映射。這種方法的一個關(guān)鍵方面是,對于自然語言,分解的子任務(wù)本質(zhì)上是相互關(guān)聯(lián)的。例如,一個短語是“我喜歡游泳”,它可能出現(xiàn)在句子的開頭或中間。換句話說,它可以出現(xiàn)在任何子任務(wù)中。有了足夠大的數(shù)據(jù)集,游泳我喜歡和游泳你喜歡打籃球,我喜歡代表兩個高度相關(guān)的任務(wù),可以相互作為數(shù)據(jù)增強(qiáng)。換句話說,不同的子任務(wù)是“等變”的。讓我們給“等變”一個嚴(yán)格的數(shù)學(xué)定義。
定義1 假設(shè)目標(biāo)分布是,將信號分割成多個子任務(wù): ... 對于第t個條件概率擬合任務(wù),采用網(wǎng)絡(luò)θ來擬合它。對于任意兩個任務(wù)t和k以及兩個狀態(tài)樣本s和,如果
將這種信號分解稱為等變。
可以觀察到,語言分解是獨立于位置的。對于任何token 或短語,它們在句子中第t個或第k個位置出現(xiàn)的概率幾乎相同。這一觀察結(jié)果與方程2一致,因此表明語言分解表現(xiàn)出等變性。因此,采用單一模型來近似這些不同但相關(guān)的任務(wù)通常不會導(dǎo)致沖突,實際上,這對數(shù)據(jù)的整體建模非常有利。
圖像塊分解
這種分解和建模的策略在語言領(lǐng)域取得了顯著成功。然而,將這一方法復(fù)制到通過空間位置分解圖像會面臨不同的挑戰(zhàn)。早期的嘗試包括將圖像分割成空間塊以創(chuàng)建可以由自回歸模型處理的序列。然而,與自然語言不同,圖像塊本質(zhì)上缺乏“等變”特性。如下圖1所示,雖然單行塊內(nèi)存在連續(xù)性,但這種連續(xù)性在一行的最后一個塊和下一行的第一個塊之間是不存在的。除了連續(xù)性之外,還存在其他特定數(shù)據(jù)集的挑戰(zhàn),例如人類主體傾向于居中在圖像中。因此,采用單一、通用的模型來涵蓋所有這些不同的分布通常會導(dǎo)致沖突。此外,模型必須努力學(xué)習(xí)由多個不同分布組成的復(fù)雜聯(lián)合分布映射問題,這破壞了分解復(fù)雜分布以簡化建模的原則。雖然位置embedding的整合可以緩解一些這些沖突,但這并不是解決問題的萬能藥。
深度分解
除了空間分割,一些研究人員還探索了沿深度維度分割圖像數(shù)據(jù)。這種方法直觀上具有吸引力,因為每個圖像空間位置存在大量信息,例如需要8位每通道的三通道RGB表示。另一方面,圖像的高空間維度通常需要使用變分自編碼器(VAE)來降低維度。結(jié)合這兩個方面,按深度分割數(shù)據(jù)的著名方法包括VQVAE2和RQVAE。首先,這些方法可能會遇到“無效編碼”問題,將在問題3中詳細(xì)說明。此外,與自然語言不同,深度維度也不表現(xiàn)出“等變”性。以RQVAE為例,在相同的空間位置,早期token表示低頻信息,而后期token表示高頻信息。因此,應(yīng)用具有共享參數(shù)的自回歸模型來建模這些不同的分布映射可能會導(dǎo)致沖突。一種替代方法,如MUSE,建議將問題分割成更少數(shù)量的獨特子任務(wù),每個子任務(wù)獨立建模且不共享參數(shù)。然而,隨著數(shù)據(jù)分布變得越來越復(fù)雜,這可能需要更多的子任務(wù),導(dǎo)致所需模型參數(shù)激增,并可能加劇“無效編碼”問題。
噪聲強(qiáng)度分解
擴(kuò)散模型提出了另一種有趣的信號分解方法:通過一系列逐步去噪的圖像序列來表征圖像。對于數(shù)據(jù)集中給定的圖像,通過馬爾可夫過程逐步添加噪聲以生成序列,其中幾乎是純噪聲,幾乎沒有原始圖像信息的殘留。這個過程有效地將圖像分布建模任務(wù)分解為N個去噪子任務(wù):,其中t = [0, 1, ..., N-1]。雖然所有子任務(wù)都涉及去噪,但在理論上,它們之間共享參數(shù)似乎是可行的。然而,在實踐中,典型的噪聲添加策略可能會導(dǎo)致去噪階段的差異,特別是當(dāng)噪聲水平顯著不同時。這些非等變?nèi)蝿?wù)導(dǎo)致了與基于深度分解挑戰(zhàn)類似的困境:使用共享參數(shù)的模型來擬合復(fù)雜的數(shù)據(jù)分布映射是對模型能力的巨大挑戰(zhàn)。如果不共享參數(shù),這可能會迅速增加模型的大小。一些研究,如eDiff-I,已經(jīng)嘗試從實現(xiàn)的角度在參數(shù)效率與擬合分布的復(fù)雜性之間取得平衡。此外,重新參數(shù)化技巧被證明是統(tǒng)一不同去噪任務(wù)的輸出分布的極其重要的技術(shù),緩解了不同噪聲強(qiáng)度之間的沖突。然而,它并沒有消除輸入分布的差異。關(guān)于擴(kuò)散模型中噪聲強(qiáng)度沖突的這些問題將在問題4中進(jìn)一步探討。
可學(xué)習(xí)的分解
在回顧擴(kuò)散模型后,發(fā)現(xiàn)沖突的程度取決于所選擇的噪聲策略,這通常是手動預(yù)先定義的。因此,一些研究人員嘗試定義更優(yōu)的噪聲策略,努力確保在不同噪聲水平下去噪過程具有一定程度的相似性。在這一領(lǐng)域的顯著工作包括流匹配(Flow Matching)和一致性模型(consistency models)。與此同時,其他研究人員正在探索添加噪聲策略是否可以學(xué)習(xí),而不是預(yù)先設(shè)定。該領(lǐng)域的顯著進(jìn)展包括變分?jǐn)U散模型(Variational Diffusion Models, VDM)和擴(kuò)散薛定諤橋(Diffusion Schr?dinger Bridge, DSB),盡管并非所有此類工作都是以此目標(biāo)為出發(fā)點。特別地,VDM專注于學(xué)習(xí)添加高斯噪聲的系數(shù),這在一定程度上限制了學(xué)習(xí)以減輕沖突的潛力。同時,基于薛定諤橋范式的研究使用專門的網(wǎng)絡(luò)來學(xué)習(xí)添加噪聲的過程,迭代地逼近熵正則化的最優(yōu)傳輸。然而,當(dāng)前的可學(xué)習(xí)分解方法并不是根據(jù)“等變”特性設(shè)計的。未來的工作可能需要將其作為先驗來約束可學(xué)習(xí)分解中的網(wǎng)絡(luò)學(xué)習(xí)。此外,當(dāng)用網(wǎng)絡(luò)替代預(yù)定義的隨機(jī)微分方程(SDE)進(jìn)行噪聲學(xué)習(xí)時,會出現(xiàn)顯著的權(quán)衡:在實際應(yīng)用中,利用重新參數(shù)化來統(tǒng)一輸出分布的挑戰(zhàn),成為減輕不同噪聲強(qiáng)度沖突的關(guān)鍵技術(shù)。盡管近期的努力已經(jīng)開始解決這些問題,但仍然不足以滿足實際應(yīng)用的需求。
擴(kuò)展討論
從信號分解的角度來看,關(guān)于自回歸(AR)模型、擴(kuò)散模型或其他模型架構(gòu)在視覺生成中哪種更優(yōu)的爭論并不特別有益。根本考慮是信號是如何被分解的,以及選擇的生成范式是否有利于所選的分解方法。理想情況下,可能有兩種分解范式:一種類似于語言模型所采用的方法,將復(fù)雜的數(shù)據(jù)分布簡化為一系列展現(xiàn)“等變”的簡單條件數(shù)據(jù)分布;另一種策略涉及將數(shù)據(jù)分解成多個獨立的分布問題,這可以被視為“等變”的特例。
作者認(rèn)為,在圖像分解中實現(xiàn)等變的困難并不僅僅是因為圖像是二維數(shù)據(jù)而語言是一維的。近期的研究嘗試將圖像編碼為一維token,但這些一維token既不獨立也不等變。
雖然可學(xué)習(xí)的分解方法在理論上有潛力實現(xiàn)這種“等變”,但它們的實際應(yīng)用目前充滿挑戰(zhàn)。另一種可行的方法可能是整合各種信號分解技術(shù)以簡化數(shù)據(jù)分布。例如,視頻可以分解為時間上“等變”的幀,然后可以進(jìn)一步基于“噪聲強(qiáng)度”或“圖像塊”進(jìn)行細(xì)分。類似地,MUSE最初沿深度維度分解圖像信號,然后從“噪聲強(qiáng)度”維度處理分布映射。
信號分解是根本性的問題,許多后續(xù)問題可以視為對其的擴(kuò)展,旨在緩解當(dāng)前視覺信號分解中的非等變性問題。
問題 3:分詞問題
當(dāng)前主流的圖像和視頻生成模型主要采用兩階段方法:首先將數(shù)據(jù)編碼為緊湊的低維表示,然后對這一壓縮分布進(jìn)行建模。第一階段壓縮的目的是在盡可能保留原始信息的同時簡化數(shù)據(jù)分布,從而減輕隨后的模型擬合階段所面臨的復(fù)雜性。在文本數(shù)據(jù)的背景下,降維可以被認(rèn)為是無損的。相比之下,視覺數(shù)據(jù)的壓縮,無論是通過自編碼器(AE)還是變分自編碼器(VAE),本質(zhì)上都是有損的。然而,“壓縮損失越小越好”這一斷言并不一定成立。
一個典型的例子是,用AE壓縮的信號可能比用VAE壓縮的信號重建得更好,但壓縮數(shù)據(jù)分布中保留的復(fù)雜性仍然給第二階段的擬合過程帶來了挑戰(zhàn)。因此,研究人員在壓縮過程中引入正則化約束,以防止數(shù)據(jù)分布變得過于復(fù)雜。重建保真度與擬合難度之間的沖突是各個領(lǐng)域中常見的挑戰(zhàn)。在音頻處理領(lǐng)域,連續(xù)音頻信號通常被編碼為長度為16的token,擬合階段通常集中在前8個token上。類似地,在圖像處理領(lǐng)域,GLOW和VDM++也發(fā)現(xiàn)對5位深度圖像的訓(xùn)練結(jié)果比使用完整8位深度的圖像更好。這些觀察結(jié)果強(qiáng)調(diào)了采用自適應(yīng)長度編碼策略以更好地平衡重建精度和第二階段擬合任務(wù)復(fù)雜性的重要性。
可變長度編碼的一個典型例子是RQVAE,它在潛在空間中迭代編碼重建誤差,旨在實現(xiàn)越來越精確的圖像重建。然而,如下圖2所示,我們觀察到更深的編碼并不總是與更好的重建質(zhì)量相關(guān)聯(lián)。我們將此稱為“無效編碼”問題。為調(diào)查這一問題,我們進(jìn)行了一系列綜合實驗,修改網(wǎng)絡(luò)架構(gòu)、學(xué)習(xí)率、損失函數(shù)權(quán)重和碼書大小,此外還測量了不同編碼長度下“無效編碼”的頻率。表1顯示,編碼長度越長,遇到無效編碼問題的概率越高。然而,我們尚未得出任何關(guān)于導(dǎo)致這一問題的特定條件的普遍結(jié)論。下面,我們提供一個直觀但不嚴(yán)格的解釋:
令D表示解碼器,I表示原始輸入圖像。在不同深度的編碼分別表示為,其中N是編碼深度,在此情況下我們假設(shè)為4。因此,RQVAE的重建損失L可以被視為以下四個重建損失的組合:
在此基礎(chǔ)上,我們做出兩個假設(shè)以簡化分析。首先,假設(shè)解碼器作為線性變換功能,從而使結(jié)果的分析更為簡便。其次,根據(jù)標(biāo)準(zhǔn)配置,對這四個損失賦予相等的損失權(quán)重。在這些假設(shè)下,上述重建損失的計算可以簡化如下:
因此,最小化圖像級重建損失的潛在空間表示為:
這并不能保證比更接近arg min X。假設(shè)不同深度的編碼共享一個公共的代碼本,并且是獨立同分布的,那么后者的和必定會比前者更接近真實值。因此,這導(dǎo)致了“無效編碼”問題。
問題 4:擴(kuò)散模型是否是最大似然模型?
自回歸模型是經(jīng)典的最大似然模型,通過計算似然函數(shù)來促進(jìn)各種復(fù)雜任務(wù),包括操控生成結(jié)果和評估其質(zhì)量。一個有趣的問題是:擴(kuò)散模型是否也可以被視為最大似然模型?對去噪擴(kuò)散概率模型的最初研究源于最大似然來推導(dǎo)訓(xùn)練損失函數(shù)。[45]提出了ELBO訓(xùn)練的損失權(quán)重設(shè)置。此外,VDM++表明,使用單調(diào)權(quán)重優(yōu)化等同于通過分布增強(qiáng)最大化似然函數(shù)。然而,在實際訓(xùn)練中,通常采用不同的損失權(quán)重。目前的主流實踐,例如SD3,并未完全接受這一原則。
巧合的是,這種困惑在生成和評估過程中都出現(xiàn)。在生成過程中,觀察到直接從似然模型θ中采樣的結(jié)果往往不如通過無分類器引導(dǎo)修改后的結(jié)果:,其中λ是無分類器引導(dǎo)的尺度。這可以推導(dǎo)為[49]從中采樣。我們可以很容易地發(fā)現(xiàn),這種調(diào)整將似然函數(shù)與后驗分布結(jié)合在一起,暗示著最大化似然并不總是等同于最佳結(jié)果。在評估階段,這個問題進(jìn)一步得到證實,其中具有較低負(fù)對數(shù)似然(NLL)分?jǐn)?shù)的模型并不總是對應(yīng)于最美觀的視覺結(jié)果或最低的Fréchet Inception Distance(FID)指標(biāo)。這引出了一個微妙但關(guān)鍵的問題:為什么最大化似然并不一定導(dǎo)致最佳結(jié)果?
?
這是一個可能的理解。如[21]所闡明的,評分匹配與非歸一化似然的最大化密切相關(guān)。通常,評分匹配可以避免最大似然學(xué)習(xí)中傾向于將所有數(shù)據(jù)點賦予相等概率的問題。在某些特殊情況下,如多變量高斯分布,它們是等變的。VDM++闡明,使用單調(diào)損失權(quán)重w(t)進(jìn)行訓(xùn)練實際上等同于最大化所有中間狀態(tài)的ELBO。這種特定的加權(quán)表示不同噪聲水平對最終模型性能的不同重要性。然而,正如問題2中討論的,圖像數(shù)據(jù)缺乏“等變性”。在實際訓(xùn)練中,學(xué)習(xí)似然函數(shù)的難度隨噪聲強(qiáng)度變化;直觀地,最大難度出現(xiàn)在中等噪聲水平,此時似然函數(shù)往往學(xué)習(xí)得不夠準(zhǔn)確。在生成過程中,使用無分類器引導(dǎo)可以被解釋為對學(xué)習(xí)不佳的似然函數(shù)的修正。這在[29]中尤為明顯,無分類器引導(dǎo)在中等噪聲水平下極其重要。在模型評估中,由于不同噪聲水平的任務(wù)對最終結(jié)果的重要性程度不同,對這些NLL損失應(yīng)用統(tǒng)一權(quán)重可能無法有效衡量最終生成輸出的質(zhì)量。
問題5:對于擴(kuò)散模型,如何平衡不同SNR(信噪比)之間的沖突?
如前所述,擴(kuò)散模型與文本生成中的自回歸模型不同,它們在各種子任務(wù)之間不保持“等變性”。一些研究將擴(kuò)散模型按照噪聲強(qiáng)度進(jìn)行分類,并明確利用專家混合(MOE)策略進(jìn)行模型擬合。eDiff-I和 SDXL等工作就是這一方法的例子,每個模型不共享參數(shù)。這些方法的關(guān)鍵在于任務(wù)的戰(zhàn)略性劃分,因為子任務(wù)不僅相互沖突,而且具有相關(guān)性。通過利用這些相互關(guān)系,可以提高模型收斂的效率并抑制模型參數(shù)的指數(shù)增長。
其他方法嘗試在不增加參數(shù)數(shù)量的情況下調(diào)和不同噪聲強(qiáng)度之間的沖突。根據(jù)VDM++,訓(xùn)練目標(biāo)是損失加權(quán)和重要性采樣的組合。
其中,λ表示信噪比(SNR)的對數(shù),x表示訓(xùn)練圖像,λ是噪聲強(qiáng)度λ下的噪聲圖像。λ和λ分別表示噪聲水平λ下的損失權(quán)重和采樣頻率。
因此,為了平衡各種噪聲強(qiáng)度,可以調(diào)整損失權(quán)重或?qū)崿F(xiàn)不同SNR下的重要性采樣。
MinSNR是一項值得注意的研究,它精心設(shè)計了損失權(quán)重,旨在通過追求帕累托最優(yōu)優(yōu)化方向來規(guī)避沖突。SD3和 HDiT等研究經(jīng)驗上發(fā)現(xiàn),增加中等范圍SNR的權(quán)重可以帶來更好的結(jié)果。如公式6所示,調(diào)整損失權(quán)重w(λ)的效果與修改采樣頻率p(λ)相似。然而,在實際操作中,增加重要任務(wù)的損失權(quán)重等同于提高學(xué)習(xí)率,而增強(qiáng)頻率則可以視為分配更多計算資源(Flops),這通常會導(dǎo)致更好的性能。
從另一個角度來看,對不同噪聲水平進(jìn)行重要性采樣可以被視為設(shè)計噪聲調(diào)度,或者說是信號分解的一種類型,正如我們在問題2中討論的。當(dāng)對不同空間位置施加獨立同分布(i.i.d.)高斯噪聲時,之前的研究表明,根據(jù)token長度調(diào)整噪聲調(diào)度是必要的,并確保在最后一步?jīng)]有信號泄漏[32, 50]。 [15] 實證地引入了一個噪聲調(diào)度來進(jìn)行訓(xùn)練,這實現(xiàn)了更高效的收斂,并且在各種條件下證明了其有效性。然而,這可能需要根據(jù)目標(biāo)分布調(diào)整超參數(shù),并且在推斷過程中缺乏沖突分析。作者推測,放棄使用i.i.d.高斯噪聲進(jìn)行信號分解可能是解決這些沖突的一個基本方法。
問題6:擴(kuò)散模型是否符合縮放規(guī)律?
重新思考大語言模型(LLMs)的顯著成就,其中一個關(guān)鍵因素是縮放規(guī)律。這自然引發(fā)一個問題:視覺生成中的擴(kuò)散模型是否也符合縮放規(guī)律?
解決這個問題的挑戰(zhàn)在于缺乏與人類感知一致的評估指標(biāo)來評估模型的性能。在通過自回歸模型進(jìn)行語言建模時,“等變性”原則使得通過對不同子任務(wù)的負(fù)對數(shù)似然損失進(jìn)行等權(quán)重分配來評估模型性能成為可能。相比之下,擴(kuò)散模型中的子任務(wù)缺乏這種等變性;它們對最終生成的結(jié)果的貢獻(xiàn)程度各不相同。因此,簡單的等權(quán)重?fù)p失聚合無法全面捕捉生成模型的能力。
為了發(fā)現(xiàn)適當(dāng)?shù)闹笜?biāo),第一個嘗試是為各種子任務(wù)構(gòu)建重要性系數(shù)。根據(jù)[15]定義的新噪聲調(diào)度可以視為對不同任務(wù)賦予“難度系數(shù)”。我們將其視為“重要性系數(shù)”,并利用它來對不同噪聲強(qiáng)度下的損失進(jìn)行加權(quán)。對于訓(xùn)練text2image模型,我們使用了COYO數(shù)據(jù)集,其中包含700M文本-圖像對。我們訓(xùn)練了四個模型,參數(shù)數(shù)量分別為32.28M、128.56M、454.98M和671.32M。為了方便起見,我們將它們token為S、M、L和XL。所有模型都使用1024的批量大小進(jìn)行訓(xùn)練。使用“重要性加權(quán)損失”作為指標(biāo)來測量模型的性能。按照[47]的方法,利用[22]中的公式來基于S、M、L模型估計XL模型的性能。結(jié)果如下圖3所示。左側(cè)圖預(yù)測了模型性能與參數(shù)數(shù)量的關(guān)系,而右側(cè)圖預(yù)測了模型性能與訓(xùn)練迭代次數(shù)的關(guān)系。可以看到,兩種預(yù)測都非常準(zhǔn)確,盡管由于資源限制,驗證的規(guī)模相對有限。然而,必須注意的是,目前沒有直接證據(jù)證明這些指標(biāo)與人類判斷一致。
第二種策略是采用已建立的生成模型評估指標(biāo),其中Fréchet Inception Distance(FID)是最常見的。FID旨在量化兩個數(shù)據(jù)分布之間的差異。然而,當(dāng)處理大規(guī)模生成模型和極其復(fù)雜的數(shù)據(jù)分布時,準(zhǔn)確捕捉目標(biāo)分布變得具有挑戰(zhàn)性,難免導(dǎo)致FID評分的偏差。此外,F(xiàn)ID假設(shè)從神經(jīng)網(wǎng)絡(luò)提取的特征向量遵循高斯分布,這引入了顯著的系統(tǒng)誤差。同時,一些研究[36, 13, 3]還強(qiáng)調(diào)了FID指標(biāo)的其他問題。
為了確保與人類偏好的對齊,最關(guān)鍵的方法是使用廣泛的人類注釋作為評估基準(zhǔn)。以text2image生成作為例子,一種潛在的方法是收集大量高質(zhì)量的文本-圖像對。對于待測試的生成模型,它們可以基于給定的文本提示生成結(jié)果。用戶評估生成的圖像和真實圖像哪個更符合他們的偏好。理論上,隨著模型質(zhì)量的提高,這種生成結(jié)果的偏好率應(yīng)趨近于0.5。這個偏好率可以作為縮放規(guī)律的指標(biāo),提供關(guān)于計算資源、模型規(guī)模和數(shù)據(jù)規(guī)模如何影響模型最終性能的見解。值得注意的是,擴(kuò)散基礎(chǔ)視覺模型的輸出質(zhì)量對所選擇的推斷策略[23, 18]高度敏感,這與大語言模型有顯著不同。具有捕捉人類偏好的指標(biāo),這一因素值得進(jìn)一步探索。
本文轉(zhuǎn)自 AI生成未來 ,作者:Shuyang Gu
