首次引入GPT-4o!圖像自動(dòng)評(píng)估新基準(zhǔn)來啦
面對(duì)層出不窮的圖像生成技術(shù),一個(gè)新問題擺在眼前:
缺乏統(tǒng)一標(biāo)準(zhǔn)來衡量這些生成的圖片是否符合人們的喜好
對(duì)此,來自清華、西交大、伊利諾伊厄巴納-香檳分校、中科院、曠視的研究人員共同推出了一項(xiàng)新基準(zhǔn)DreamBench++。
通過收集不同的圖像和提示,團(tuán)隊(duì)利用GPT-4o實(shí)現(xiàn)了符合人類偏好的自動(dòng)評(píng)估。
簡單來說,通過精心設(shè)計(jì)prompt以及引入思維鏈提示和情境學(xué)習(xí),團(tuán)隊(duì)讓GPT-4o在圖像評(píng)估過程中學(xué)會(huì)了像人類一樣思考,并展現(xiàn)其思考過程。
為了測試效果,團(tuán)隊(duì)以7名專業(yè)人類標(biāo)注員的打分為基準(zhǔn),對(duì)7種不同的圖像生成方法進(jìn)行了評(píng)估。
結(jié)果顯示DreamBench++與人類評(píng)價(jià)高度一致。
更多細(xì)節(jié)接下來一起瞅瞅~
什么是DreamBench++?
DreamBench++是一個(gè)全新的評(píng)估工具,它在個(gè)性化圖像評(píng)估領(lǐng)域?qū)崿F(xiàn)了兩項(xiàng)關(guān)鍵技術(shù)突破。
- 引入支持多模態(tài)的GPT-4o,同時(shí)實(shí)現(xiàn)與人類偏好的深度對(duì)齊以及自動(dòng)化評(píng)估
- 推出了一個(gè)更為全面和多元化的數(shù)據(jù)集
與人類對(duì)齊的自動(dòng)化評(píng)估
盡管GPT-4o支持多模態(tài)輸入,但在保留評(píng)估中的細(xì)微差異時(shí)面臨挑戰(zhàn)。
在評(píng)價(jià)不同方法的個(gè)性化效果時(shí),研究人員選擇直接打分而非對(duì)比,因?yàn)閷?duì)比可能會(huì)受到不同方法生成的圖像順序的影響,而且兩兩對(duì)比需要更長的標(biāo)注時(shí)間。
為了確保評(píng)估的準(zhǔn)確性和一致性,研究人員設(shè)計(jì)了包含以下要素的prompt:
- 任務(wù)描述,明確評(píng)估的目標(biāo)和要求。
- 評(píng)分標(biāo)準(zhǔn)解釋,詳細(xì)說明評(píng)估的依據(jù)。
- 評(píng)分范圍定義,設(shè)定評(píng)分的量化標(biāo)準(zhǔn)。
- 格式規(guī)范,確保評(píng)分的統(tǒng)一性和可比性。
評(píng)分規(guī)則涵蓋了形狀、顏色、紋理以及面部細(xì)節(jié)(特別針對(duì)人和動(dòng)物),以全面評(píng)估圖像的個(gè)性化效果。
最后,為了收集無偏的人類偏好數(shù)據(jù),研究團(tuán)隊(duì)招募了7名經(jīng)過專業(yè)培訓(xùn)、充分理解個(gè)性化任務(wù)的人類標(biāo)注員。他們的標(biāo)注結(jié)果被用作人類打分的基準(zhǔn),以確保評(píng)估結(jié)果的客觀性和可靠性。
更全面的個(gè)性化數(shù)據(jù)集
為了確保評(píng)估過程的公正性和無歧視性,DreamBench++的研究人員構(gòu)建了一個(gè)新的個(gè)性化數(shù)據(jù)集。
這一數(shù)據(jù)集的構(gòu)建過程涵蓋了以下幾個(gè)關(guān)鍵步驟:
- 獲取主題關(guān)鍵詞:團(tuán)隊(duì)挑選以及生成了一系列可用于個(gè)性化生成的主體名稱,如貓、鐘表、男人等,共200個(gè)關(guān)鍵詞,分為物體(objects)、活物(living objects),以及風(fēng)格化圖片(style)三種類型。
- 圖片收集:收集來源包含Unsplash, Rawpixel和Google Image Search。接著,從這些圖片中挑選了背景干凈、主體占比大的圖片,以確保圖像的清晰度和識(shí)別度。
- prompt生成:引導(dǎo)GPT-4o生成不同復(fù)雜程度的prompt。這些prompt的復(fù)雜性與生成任務(wù)的難度相對(duì)應(yīng),即越復(fù)雜的prompt對(duì)應(yīng)越具有挑戰(zhàn)性的生成任務(wù)。
實(shí)驗(yàn)結(jié)果
在DreamBench++平臺(tái)上,研究團(tuán)隊(duì)對(duì)7種不同的圖像生成方法進(jìn)行了評(píng)估。
這些方法涵蓋了基于訓(xùn)練的、無需訓(xùn)練的,以及基于多模態(tài)大語言模型(MLLM)的多種方案。
評(píng)估結(jié)果顯示:
在圖像相似性方面,DINO-I和CLIP-I(現(xiàn)有的圖像自動(dòng)評(píng)估指標(biāo))的評(píng)分往往高于人類的評(píng)價(jià)。
而在文本遵循方面,CLIP-T的評(píng)分則相對(duì)較低。
相比之下,GPT-4o在這兩方面的評(píng)分均更接近人類的打分。
團(tuán)隊(duì)推測上述結(jié)果背后的原因是,GPT-4o和人類評(píng)價(jià)者都會(huì)綜合考慮多個(gè)視覺元素,如形狀、輪廓、紋理,以及人或動(dòng)物的面部細(xì)節(jié)等,最終給出一個(gè)綜合性的評(píng)分。
這種評(píng)價(jià)方式更符合人類的直覺和偏好,因?yàn)樗粌H僅關(guān)注單一的方面,而是全面地評(píng)估圖像的各個(gè)方面。
此外,團(tuán)隊(duì)還對(duì)不同圖像生成方法在DreamBench++上的生成結(jié)果進(jìn)行了可視化展示。
在評(píng)估圖像生成結(jié)果的保持主體情況時(shí),DreamBench++與人類評(píng)估者達(dá)到了79.64%的一致性。
在遵循文本指令生成圖像的能力方面,DreamBench++的一致性高達(dá)93.18%。
從數(shù)據(jù)來看,DreamBench++的人類一致性比DINO score高出54.1%,比CLIP score高出50.7%。
這也側(cè)面說明,通過設(shè)計(jì)prompt,能夠讓GPT-4o較為準(zhǔn)確地捕捉和反映人類的審美和偏好。
另外,Dreambench++的數(shù)據(jù)集多樣性更高,與DreamBench相比,finetune-based方法在DreamBench++上的表現(xiàn)會(huì)下降。
團(tuán)隊(duì)推測這可能是因?yàn)樗麄冊(cè)贒reamBench上調(diào)整了參數(shù),而DreamBench的種類并不全面。
同時(shí),Emu2在非自然或復(fù)雜圖像上的表現(xiàn)也會(huì)下降。
這些都說明DreamBench++更全面的數(shù)據(jù)集暴露了已有的個(gè)性化方法中的新問題。
目前相關(guān)論文及數(shù)據(jù)集已公開,感興趣可以進(jìn)一步了解。
論文:https://arxiv.org/abs/2406.16855
開源地址:https://huggingface.co/papers/2406.16855