自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展

發(fā)布于 2024-3-28 14:10
瀏覽
0收藏

本文總結(jié)了近10年來的生圖模型論文中用到的評價(jià)指標(biāo),并嘗試解答兩個(gè)問題

  1. 不同時(shí)期的評價(jià)標(biāo)準(zhǔn)都有哪些特點(diǎn)?
  2. 圖片質(zhì)量的評價(jià)如何輔助模型的迭代??

一、前言

隨著各種文生圖模型逐漸從toy project進(jìn)入到生產(chǎn)鏈路,在線上實(shí)際落地并產(chǎn)生業(yè)務(wù)價(jià)值,同時(shí)自研/來源模型也進(jìn)入了快速迭代的階段。

一套直指問題、綜合拓展性和復(fù)用性的評價(jià)指標(biāo)變得尤為寶貴,從效果上來講,如果說數(shù)據(jù)質(zhì)量決定了模型效果的上限,那么指標(biāo)的好壞直接決定了模型下限的位置。

2016年以前圖像質(zhì)量檢測主要是在構(gòu)建各種手動特征,最初圖片質(zhì)量是作為一個(gè)二類問題,后來根據(jù)不同的對象/場景衍生出多了分類的問題,2016年到2019年期間,GAN方法生成的圖片越來越逼真,此時(shí)各家的指標(biāo)更多的關(guān)注GAN生成圖像和樣本圖像之間的差異以及生成圖片的多樣性(mode collapse)。

自2020年往后,transformor火遍機(jī)器學(xué)習(xí)圈,同時(shí)多模態(tài)大模型能力也越來越強(qiáng),在圖片美觀度、真實(shí)度這種抽象的指標(biāo)的評價(jià)在LLM上又有比較好的表現(xiàn),同時(shí)因?yàn)閦ero-shot和few-shot的特性,在一些自定義的指標(biāo)上LLM可以快速響應(yīng),對于使用方來說,這種方式也是更友好的。

二、2016年以前

在深度特征出現(xiàn)以前,傳統(tǒng)方法設(shè)計(jì)了設(shè)計(jì)大量的手動特征特征來研究計(jì)算機(jī)美學(xué)這個(gè)問題。常見做法是通過各種圖像變換產(chǎn)出不同的特征并通過一個(gè)有監(jiān)督的模型評價(jià)評價(jià)整體的圖片質(zhì)量。

手動特征方法

主物體明確,背景不雜亂

一般來說我們希望圖片主題明確,輪廓清晰,如下圖左圖內(nèi)容就是一個(gè)較為雜亂的室內(nèi)場景,右圖明顯優(yōu)于左圖,由于左圖背景雜亂,圖片邊界有較多的邊緣,而右圖的邊緣集中在圖片中心。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)


具體實(shí)現(xiàn)方法,通過一個(gè)3*3的拉普拉斯濾波器對每一層通道進(jìn)行邊緣提取并取得均值,然后對整體resize到100*100的范圍,將圖片像素總和歸一化,并分別投影到X軸和Y軸,取邊緣98%作為邊框的大?。╓x,Wy),按照前文的假設(shè),越雜亂的圖片邊緣像素點(diǎn)越多,最終圖片的邊框面積為 1-Wx*Wy,圖a和圖b的邊框面積分別為0.94和0.56。

色彩分布

統(tǒng)計(jì)圖片的色彩分布,最直觀的就是顏色直方圖。好的照片,一般會有一個(gè)統(tǒng)一的風(fēng)格。或偏暖色,或偏冷色,這些都可以通過彩色直方圖表征出來。同時(shí),局部直方圖的復(fù)雜程度,也可以反映出圖像風(fēng)格的一致性。

色調(diào)分析

這是從色調(diào)的特性上來分享一張好圖。一張好的靜物攝影,色調(diào)一般會比較單一,不會五顏六色的各種顏色都雜糅在一起。

模糊

一般來說一個(gè)模糊圖片的質(zhì)量要比清晰圖片的質(zhì)量更差的,假設(shè)一張模糊的圖片是經(jīng)過用高斯平滑濾波器處理后的,那么要在僅知道模糊圖片的情況下計(jì)算出平滑參數(shù)即可評估出圖片質(zhì)量,這里是通過一個(gè)二階傅立葉變化并計(jì)算大于某個(gè)閾值a(這里使用5)的頻率數(shù)量來表示清晰圖片的最大頻率,自此我們評估出圖片質(zhì)量的一個(gè)評分。如下,a圖的質(zhì)量分?jǐn)?shù)為0.91,b圖為0.58

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

深度特征

RAPID: Rating Pictorial Aesthetics using Deep Learning (ACM MM2014)

第一個(gè)使用深度學(xué)習(xí)做美學(xué)評分的論文了。作者考慮了在美學(xué)評估中要同時(shí)考慮整體布局和細(xì)節(jié)內(nèi)容。因此作者除了將圖片整體輸入模型,還會從圖片中摳出很多(patch)輸入網(wǎng)絡(luò),兩者結(jié)合起來進(jìn)行分類。其在圖片中摳取patch的方式在后續(xù)論文中都有借鑒。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)


Composition-preserving Deep Photo Aesthetics Assessment (CVPR 2016)

由于CNN中必須將圖片resize到固定尺寸輸入到網(wǎng)絡(luò),這種方式往往會破壞圖片的布局,這種方法沒有使用patch的分割方法,提出了一種Adaptive Spatial Pooling 的操作:動態(tài)地將不同 size 的 feature map 處理成指定的 size 大小,這個(gè)操作可以參考SPPNet。結(jié)合多個(gè) Adaptive Spatial Pooling 得到多個(gè) size 的 feature map。同時(shí)這時(shí)期一些論文也證明了場景語意信息對美學(xué)評分會有提升,后續(xù)論文也陸續(xù)嘗試了將場景特征加入到網(wǎng)絡(luò)中。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)



三、2016~2019

生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)自在2014年被Ian Goodfellow提出后,就在深度學(xué)習(xí)領(lǐng)域掀起了一場革命,GAN 主要分為兩部分:生成模型和判別模型。生成模型的作用是模擬真實(shí)數(shù)據(jù)的分布,判別模型的作用是判斷一個(gè)樣本是真實(shí)的樣本還是生成的樣本,GAN 的目標(biāo)是訓(xùn)練一個(gè)生成模型完美的擬合真實(shí)數(shù)據(jù)分布使得判別模型無法區(qū)分。從這里我們可以看出來,GAN的最終結(jié)果的好壞一定是要比較樣本集和生成集的差距,同時(shí)為了不讓最終的圖片過于單一,多樣性的指標(biāo)也是要被考慮在內(nèi),又因?yàn)镚AN本身是無監(jiān)督的,一個(gè)好的評價(jià)方法(損失函數(shù))直接會對結(jié)果造成影響。

Inception Score(IS)

方法

Inception Score(IS)FID中使用了Inception-v3,這個(gè)網(wǎng)絡(luò)最初由google在2014年提出,用于ImageNet上的圖片分類,輸入一個(gè)圖片,輸出一個(gè)1000維的tensor代表輸出類別,在GAN生成數(shù)據(jù)中常用來評價(jià)數(shù)據(jù)的多樣性和數(shù)據(jù)的質(zhì)量。

假定x為生成的圖像,y為生成的圖片的判別器的分類結(jié)果在IS中即為一個(gè)1000類別的分類,那么圖片的質(zhì)量越高則判別器的分類結(jié)果越穩(wěn)定(屬于某一個(gè)類別的概率越高),即P(y|x)的熵越小。

在此基礎(chǔ)上,從一個(gè)圖片集合的角度考慮,如果圖片是多種多樣的,那么他們涵蓋的類目數(shù)也應(yīng)該是盡可能多的,即P(y)的熵應(yīng)該越大越好。

由于我們要最小化P(y|x)的熵:

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

最大化P(y)的熵:

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

說到衡量兩個(gè)概率分布的距離的方式,那就是KL散度了,KL散度的一般形式如下:

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

由于實(shí)際中,選取大量生成樣本,用經(jīng)驗(yàn)分布模擬 p(y):

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

最終得到的IS計(jì)算公式為:

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

其實(shí)還是求P(y|x)和P(y)的KL散度套了一個(gè)exp,并不影響最終的單調(diào)性。

局限性

  1. 當(dāng)一個(gè)圖片的類目本身并不確定,或者在原數(shù)據(jù)集中并沒有出現(xiàn)過,那么此時(shí)的p(y|x)的概率密度就不再是一個(gè)尖銳的分布,而是趨于平緩,
  2. 不能判別出網(wǎng)絡(luò)是否過擬合,當(dāng)GAN生成數(shù)據(jù)和訓(xùn)練集完全相同時(shí),會得到極高的IS分?jǐn)?shù),但是這種模型毫無作用。
  3. 如果某一個(gè)物體的類別本身就比較模糊,在幾種類別會得到相近的分?jǐn)?shù),或者這個(gè)物體類別在ImageNet中不存在,那么p(y|x)的概率密度就不再是一個(gè)尖銳的分布;如果生成模型在每類上都生成了 50 個(gè)圖片,那么生成的圖片的類別邊緣分布是嚴(yán)格均勻分布的,按照 Inception Score 的假設(shè),這種模型不存在 mode collapse,但是,如果各類中的50個(gè)圖片,都是一模一樣的,仍然是 mode collapse(相同模式大量出現(xiàn))。Inception Score 無法檢測這種同類目下的重復(fù)出圖的情況。

總結(jié)

綜上,Inception Score可以表現(xiàn)出數(shù)據(jù)的多樣性和質(zhì)量,適用于分類模型和生成模型數(shù)據(jù)集相近的情況,但是存在數(shù)值受內(nèi)部權(quán)重影響較大和不能區(qū)分過擬合情況的問題,雖然在論文中非常常見,但是實(shí)際上生產(chǎn)使用的模型數(shù)據(jù)集會持續(xù)迭代,因此這個(gè)指標(biāo)用于模型自身的迭代還是不夠穩(wěn)定。另外從文生圖模型的角度來看,這個(gè)指標(biāo)也無法表現(xiàn)模型對文本的響應(yīng)程度。

Fidelity (FID)

方法

FID(Frechet Inception Distance)是GAN等定量評價(jià)指標(biāo)之一,最早提出于2017年,由于IS在ImageNet上的局限性,當(dāng)生成的數(shù)據(jù)樣本超出ImageNet的范圍時(shí),該圖片的效果是不好的,因此FID中使用的是生成數(shù)據(jù)分布和真實(shí)世界數(shù)據(jù)分布之間的距離,和Inception Score一樣,F(xiàn)ID也使用了Inception-v3模型,而FID并沒有直接使用Inception-v3的分類結(jié)果,而是獲取了最后一個(gè)池化層用于提取圖片特征,通過計(jì)算兩組圖像(生成圖像和真實(shí)圖像)的均值和協(xié)方差,將激活函數(shù)的輸出歸納為一個(gè)多變量高斯分布。然后將這些統(tǒng)計(jì)量用于計(jì)算真實(shí)圖像和生成圖像集合中的Frechet距離。同時(shí)因?yàn)镕rechet距離關(guān)注的是多維空間中移動一個(gè)分布到另一個(gè)分布所需的“工作”量,所以對于不在ImageNet中,圖片差距較大的情況下也可以有比較好的泛化能力。原文見??https://arxiv.org/abs/1706.08500??


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

Frechet距離的幾何含義


局限性

  1. FID和IS一樣,依賴于現(xiàn)有特征的出現(xiàn)或不出現(xiàn),即無法判斷到生成的圖片中產(chǎn)生的一些異常結(jié)構(gòu)(頭上出現(xiàn)一張嘴),這種情況FID也會認(rèn)為是一張好圖。
  2. 同IS,F(xiàn)ID無法區(qū)分過擬合等。
  3. FID中假設(shè)了激活函數(shù)的輸出(2048維度的Inception特征)是符合高斯分布的,但實(shí)際上這在ReLU之后的結(jié)果恒為正數(shù),所以在FID的計(jì)算方式下不存在無偏的評估指標(biāo)。

結(jié)論

相較于IS,F(xiàn)ID更專注于對于圖片真實(shí)性的評價(jià),在樣本集之外的數(shù)據(jù)中也有比較好的效果,在mode collapsing問題上也適用,適合用作IS之外的補(bǔ)充,作者也證明FID優(yōu)于IS,因?yàn)樗鼘D像中的細(xì)微變化更敏感,即高斯模糊、高斯模糊、椒鹽噪聲。FID使用Inception網(wǎng)絡(luò)將生成圖像集合和真實(shí)圖像集合轉(zhuǎn)換為保留圖像高維信息的特征向量。假設(shè)這兩個(gè)特征向量的分布為高斯分布,并計(jì)算其均值和協(xié)方差矩陣。通過測量概率分布之間的“距離”(相似程度)來評估生成圖像與真實(shí)圖像的相似程度。值越小,質(zhì)量越高。

Kernel Inception Distance(KID

論文:https://openreview.net/pdf?id=r1lUOzWCW

方法

按照作者的描述,KID沒有像FID那樣的正態(tài)分布的假設(shè),是一種無偏的估計(jì)。不同的是將圖像的2048維Inception特征通過maximum mean discrepancy(MMD)的方法分別求兩個(gè)分布不同樣本在映射空間中的值,用于度量兩個(gè)分布之間的距離。通過比較生成樣本和真實(shí)樣本之間的距離來評價(jià)圖片生成的效果。

MMD是遷移學(xué)習(xí)中最常見的損失函數(shù)之一,MMD在設(shè)計(jì)之初重新考慮了對一個(gè)隨機(jī)變量的表現(xiàn)形式,對于簡單的方式我們可以給出一個(gè)概率分布函數(shù),像正態(tài)分布函數(shù),只要給出均值+方差就可以確定其分布,像高斯分布等,如果兩個(gè)分布的均值和方差如果相同的話,這兩個(gè)分布應(yīng)該比較接近,但對于一些高階的、復(fù)雜的隨機(jī)變量,我們就沒有辦法給出其分布函數(shù),也需要更高階的參數(shù)(矩)描述一個(gè)分布。

論文《A Hilbert Space Embedding for Distributions》提出了一個(gè)高斯核函數(shù),它對應(yīng)的映射函數(shù)恰好可以映射到無窮維上,映射到無窮維上再求期望,正好可以得到隨機(jī)變量的高階矩。簡單理解就是將一個(gè)分布映射到再生希爾伯特空間(RKHS)(每個(gè)核函數(shù)都對應(yīng)一個(gè)RKHS)上的一個(gè)點(diǎn),兩個(gè)分布之間的距離就可以用兩個(gè)點(diǎn)的內(nèi)積進(jìn)行表示。至此我們獲得了一個(gè)隨機(jī)變量的任意階矩的表示。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

當(dāng)兩個(gè)紅點(diǎn)和藍(lán)點(diǎn)在二維空間時(shí),我們很難把他們分開,當(dāng)映射到多維空間后事情就很容易了

這種方法相比于FLD可以小數(shù)據(jù)集上更快達(dá)到穩(wěn)定的效果。同時(shí)因?yàn)镵ID有一個(gè)三次核的無偏估計(jì)值,它更一致地匹配人類的感知。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

結(jié)論

對比FID,KID是無偏的,F(xiàn)ID是有偏的,在時(shí)間效率上,F(xiàn)ID為O(n),KID為O(n^2)


Learned Perceptual Image Patch Similarity(LPIPS)

LPIPS在2018年提出,是一種基于深度方法提取圖片比較兩幅圖片相似度的方法,相比于傳統(tǒng)使用的L2、SSIM等方法,LPIPS方法嘗試解決在判斷相似度時(shí)更符合人類的感知。如下圖:

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)


實(shí)際上,兩張圖片是否相似,這是一個(gè)比較主觀的結(jié)果,從人類判斷的角度上來看,甚至可能受到視覺上下文的影響,該方法嘗試不使用人工的判斷來訓(xùn)練一個(gè)貼近人類感官的相似度的概念。從前文來看,通過深層網(wǎng)絡(luò)的內(nèi)部激活(即便是在圖片分類任務(wù)上訓(xùn)練的)在更廣泛的數(shù)據(jù)集也是可以適用的,也更符合人類的判斷。

相比于FID,LPIPS 也是利用深度卷積網(wǎng)絡(luò)的內(nèi)部激活,不同的是,LPIPS衡量的是感知相似性,而不是質(zhì)量評估。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

總結(jié)

2016到2019期間,各家學(xué)者對生成圖片度量的方法持續(xù)優(yōu)化,基本上還是聚焦在“什么樣的圖片更貼近真實(shí)”,直到2018年,圖片的真實(shí)性達(dá)到的一定水平,LPIPS提出對于圖片的評價(jià)不僅局限于”有多真實(shí)“,同時(shí)關(guān)注到怎么樣讓圖片效果更貼近人類的感官。


四、2020往后

Transformer由谷歌團(tuán)隊(duì)在2017年論文《Attention is All You Need》提出,DDPM的UNet可以根據(jù)當(dāng)前采樣的t預(yù)測noise,但沒有引入其他額外條件。但是LDM實(shí)現(xiàn)了“以文生圖”,“以圖生圖”等任務(wù),就是因?yàn)長DM在預(yù)測noise的過程中加入了條件機(jī)制,即通過一個(gè)編碼器(encoder)將條件和Unet連接起來。一方面,圖片生成的效果在這段時(shí)間大幅度提高,另一方面,可以通過自然語言控制生圖模型的輸出,模型的評價(jià)指標(biāo)除了符合人類感官外,圖像美學(xué)和圖文對的匹配程度也是后期評價(jià)生圖結(jié)果的重要指標(biāo)。

Transformer for image quality(TRIQ)

這是第一個(gè)使用Transformer架構(gòu)用于圖片質(zhì)量評價(jià)的模型,推出自2020年,主要思想是先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征,并在其上方使用了一個(gè)淺層Transformer編碼器。為了處理不同分辨率的圖像,該架構(gòu)采用了自適應(yīng)的位置嵌入。考慮到壓縮圖片的分辨率可能對圖片質(zhì)量校驗(yàn)造成負(fù)向的影響,TRIQ框架中保留了圖片的原始大小,首先通過ResNet-50作為特征提取器,C5的輸出在經(jīng)過1*1的卷積之后可以得到H/32*W/32*32維的特征,考慮到大分辨率的圖片會占用非常多的內(nèi)存,這里在進(jìn)入Transformer之前增加了一個(gè)池化層,會通過圖片分辨率動態(tài)確定一個(gè)P值。

Transformer Encoder后的MLP網(wǎng)絡(luò)頭部由兩個(gè)全連接(FC)層和一個(gè)中間的dropout層組成,用于預(yù)測感知圖像質(zhì)量,最終輸出一個(gè)五維向量用于表述圖片的質(zhì)量分布。

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

code:https://github.com/junyongyou/triq

Image Quality Transformer(IQT)

IQT方法提出于2021年,參考了TRIQ的方法,也是是一種基于transformer的圖像質(zhì)量評估(IQT),模型的輸出結(jié)果更接近人類的感知結(jié)果,用于全參考圖像質(zhì)量評估,類似于LPIPS。作者宣稱在CVPR 2021的NTIRE 2021挑戰(zhàn)賽中獲得Top1。如下圖作者利用Inception-Resnet-V2 分別對生成圖片和參考圖片的提取感知特征表征,感知特征表征結(jié)果來自于6個(gè)中間層的輸出并通過級聯(lián)的結(jié)果,將參考圖的特征向量(f ref),和參考圖與生成圖的特征向量取差值(f diff)并輸入到Transformer;最后,transformer的輸出通過一個(gè)MLP Head,用于預(yù)測一個(gè)最終的圖像質(zhì)量分?jǐn)?shù)。


什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)


CLIPScore

提出于2021年,這是一種用于評價(jià)文本和圖片關(guān)聯(lián)程度的方法,原理比較簡單,通過一個(gè)跨模態(tài)檢索模型分別對圖像和文本進(jìn)行embeding,并比較兩者的余弦相似度。公式如下:

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

其中,c和v是CLIP編碼器對Caption和圖像處理輸出的embedding,w作者設(shè)置為2.5。這個(gè)公式不需要額外的模型推理運(yùn)算,運(yùn)算速度很快,作者稱在消費(fèi)級GPU上,1分鐘可以處理4k張圖像-文本對。

Aesthetic Predictor

目前自2022年之后,出現(xiàn)了基于CLIP+MLP的美學(xué)評價(jià)方案,創(chuàng)作者都表示“結(jié)果令人興奮”,從大模型的能力可以YY到其在小樣本的泛化性上必然非同凡響,同時(shí)可以衍生到不同的評價(jià)目標(biāo)上,但是具體對比之前的方案怎么樣就不得而知了。

LAION-AESTHETICS

laion在2022年提出的一個(gè)用于評估圖片的美學(xué)評價(jià)模型,使用了clip-ViT-L-14模型和MLP組合,僅模型開源。

官網(wǎng):https://laion.ai/blog/laion-aesthetics/?

結(jié)果見:http://captions.christoph-schuhmann.de/aesthetic_viz_laion_sac+logos+ava1-l14-linearMSE-en-2.37B.html

CLIP+MLP Aesthetic Score Predictor

代碼:https://github.com/christophschuhmann/improved-aesthetic-predictor?


Human Preference Score

2023往后,出現(xiàn)了用于預(yù)測圖片是否符合人類偏好模型,這類模型多使用人工標(biāo)注的圖文偏好數(shù)據(jù)微調(diào)CLIP實(shí)現(xiàn)。

ImageReward

為了做 文生圖Diffusion的獎(jiǎng)勵(lì)反饋學(xué)習(xí)對Diffusion進(jìn)行調(diào)優(yōu),作者設(shè)計(jì)了ImageReward,一個(gè)由BLIP(ViT-L作為圖像編碼器的,12層Transformer作為文本編碼器)+ MLP(打分器)組成的人類偏好預(yù)測模型。

Human Preference Score (HPS)

商湯在CLIP模型上基于798,090條人類偏好標(biāo)注數(shù)據(jù)微調(diào)了這個(gè)模型,標(biāo)注的圖片來源于各類文生圖模型的輸出,據(jù)稱其數(shù)據(jù)集是同類型數(shù)據(jù)集中最大的一個(gè)。其將clip模型視為一個(gè)評分器,用于計(jì)算提示詞和圖片的相關(guān)程度(同clipscore)。

code: https://github.com/tgxs002/HPSv2?

X-IQE

基于視覺大語言模型(MiniGPT-4)進(jìn)行文本到圖像生成的可解釋圖像質(zhì)量評估,它從 Fidelity(真實(shí)度),Alignment(圖文對應(yīng)程度),Aesthetics(美觀度)三個(gè)指標(biāo)分別進(jìn)行評分。從COCO和DrawBench數(shù)據(jù)集的測試結(jié)果上看,和ImgRwd和HPS接近。

什么樣才算好圖——從生圖模型質(zhì)量度量方法看模型能力的發(fā)展-AI.x社區(qū)

主要的prompt見:??https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models/blob/main/X-IQE/README.md??


五、總結(jié)

從計(jì)算方法上看,似乎沒有前一個(gè)時(shí)期那么精彩,通過微調(diào)CLIP再套用一個(gè)MLP幾乎成為了這個(gè)時(shí)期的評價(jià)范式,但是評價(jià)指標(biāo)要遠(yuǎn)比前一個(gè)時(shí)期更抽象和復(fù)雜。但這并不意味著FID這類指標(biāo)已經(jīng)沒用了,相反,這個(gè)指標(biāo)幾乎在每個(gè)新模型的發(fā)布后都會拿出來比較。

本來只是想梳理一下圖像質(zhì)量度量的方法,但是層層挖掘卻越可以看出圖片生成模型的發(fā)展歷程,從最初的 圖像基礎(chǔ)變換到人臉、動物,到現(xiàn)在可控制的圖像生成,圖片生成技術(shù)越來越趨于專業(yè)性,我們審視一張圖片的方式從“能看懂”到 “像真的”到“符合美學(xué)標(biāo)準(zhǔn)“,可以想到未來一套美學(xué)標(biāo)準(zhǔn)是無法通吃的,對于不同行業(yè)和場景,生圖模型會越來越細(xì)分,而美學(xué)標(biāo)準(zhǔn)也會隨之分化。

六、參考資料

  1. Heusel, Martin et al. “GANs Trained by a Two Time-Scale Update Rule Converge to a Nash Equilibrium.” ArXiv abs/1706.08500 (2017): n. pag.
  2. ???https://www.jiqizhixin.com/articles/2019-01-10-18???
  3. Dziugaite, Gintare Karolina et al. “Training generative neural networks via Maximum Mean Discrepancy optimization.” Conference on Uncertainty in Artificial Intelligence (2015).
  4. Binkowski, Mikolaj et al. “Demystifying MMD GANs.” ArXiv abs/1801.01401 (2018): n. pag.
  5. ???https://www.jiqizhixin.com/articles/2019-01-10-18???
  6. ???https://laion.ai/blog/laion-aesthetics/???
  7. ???https://www.jianshu.com/p/fc5526b1fe3b#comments???
  8. ???https://deep-generative-models.github.io/files/ppt/2021/Lecture%2019%20Evaluation%20-%20Sampling%20Quality.pdf???
  9. Zhang, Richard et al. “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric.” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018): 586-595.
  10. You, Junyong and Jari Korhonen. “Transformer For Image Quality Assessment.” 2021 IEEE International Conference on Image Processing (ICIP) (2020): 1389-1393.
  11. Cheon, Manri et al. “Perceptual Image Quality Assessment with Transformers.” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (2021): 433-442.
  12. Hessel, Jack et al. “CLIPScore: A Reference-free Evaluation Metric for Image Captioning.” ArXiv abs/2104.08718 (2021): n. pag.
  13. Wu, Xiaoshi et al. “Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis.” ArXiv abs/2306.09341 (2023): n. pag.
  14. ???https://www.e-learn.cn/topic/1480759??


七、團(tuán)隊(duì)介紹


我們是淘天集團(tuán)-場景智能技術(shù)團(tuán)隊(duì),一支專注于通過AI和3D技術(shù)驅(qū)動商業(yè)創(chuàng)新的技術(shù)團(tuán)隊(duì), 依托淘寶天貓豐富的業(yè)務(wù)形態(tài)和海量的用戶、數(shù)據(jù), 致力于為消費(fèi)者提供創(chuàng)新的場景化導(dǎo)購體驗(yàn), 為商家提供高效的場景化內(nèi)容創(chuàng)作工具, 為淘寶天貓打造圍繞家的場景的第一消費(fèi)入口。我們不斷探索并實(shí)踐新的技術(shù), 通過持續(xù)的技術(shù)創(chuàng)新和突破,創(chuàng)新用戶導(dǎo)購體驗(yàn), 提升商家內(nèi)容生產(chǎn)力, 讓用戶享受更好的消費(fèi)體驗(yàn), 讓商家更高效、低成本地經(jīng)營。


本文轉(zhuǎn)載自大淘寶技術(shù),作者:奮翼

原文鏈接:??https://mp.weixin.qq.com/s/uyiIWdlejCREwGHsPxkLLw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦