自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

下載次數(shù)破39萬!CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用

人工智能 新聞
VQAScore是一個利用視覺問答模型來評估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個包含復雜文本提示的基準測試集,用于挑戰(zhàn)和提升現(xiàn)有的圖像生成模型。兩個工具可以幫助研究人員自動評估AI模型的性能,還能通過選擇最佳候選圖像來實際改善生成的圖像。

近年來,生成式人工智能(AIGC)引發(fā)廣泛關(guān)注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能夠根據(jù)自然語言提示詞生成美觀且逼真的圖像和視頻,廣受用戶喜愛。

圖片

然而,這些模型在處理復雜的提示詞時仍存在不足。例如,當讓Stable Diffusion或Midjourney生成「棕色的狗繞著一棵樹追黑色的狗」時,模型可能會錯誤生成兩只黑狗,或?qū)ⅰ缸分稹拐`解為兩只狗在「玩?!埂?/span>

圖片

有什么辦法可以自動發(fā)現(xiàn)這些模型的不足,并進一步提升它們呢?

為解決這一問題,CMU和Meta團隊聯(lián)合推出了全新的評估指標VQAScore及基準GenAI-Bench,用于自動評估圖像、視頻和3D生成模型在復雜提示詞下的表現(xiàn)。

圖片

圖片

ECCV’24論文鏈接::https://arxiv.org/abs/2404.01291

CVPR’24 SynData最佳論文鏈接:https://arxiv.org/abs/2406.13743

論文代碼:https://github.com/linzhiqiu/t2v_metrics

模型下載:https://huggingface.co/zhiqiulin/clip-flant5-xxl

VQAScore模型:https://huggingface.co/zhiqiulin/clip-flant5-xxl

GenAI-Bench數(shù)據(jù)集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench

這些成果已在ECCV和CVPR等頂會上發(fā)表,并被谷歌DeepMind用于評估其最新的Imagen3模型,被譽為當前文生圖領(lǐng)域超越CLIP等模型的最佳評估方案!

背景介紹

近年來,文生圖模型(如DALL-E 3、Imagen3、Sora等)發(fā)展迅速,但如何準確評估這些模型的表現(xiàn)仍是一個關(guān)鍵問題。

盡管許多公司采用人類評估(Human Evaluation)來提升結(jié)果的準確性,但這種方式成本高、難以大規(guī)模應用,而且缺乏可復現(xiàn)性。

在圖片生成領(lǐng)域,已有多種方法使用模型來自動評估(Automated Evaluation)生成圖像的表現(xiàn),其中常見的指標包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。

然而,這些指標真的足夠好嗎?

現(xiàn)有自動化指標的不足

在評估兩張圖片的相似性(similarity)時,傳統(tǒng)指標LPIPS等方法依靠預訓練的圖像編碼器,將圖像特征嵌入后再計算距離。然而,這類方法只能評估圖像與圖像之間的相似度(image-to-image metric),而無法判斷文本和圖像之間的相似度(text-to-image metric)。

為了解決這一問題,當前主流的文生圖評估采用了CLIPScore,通過獨立的圖像編碼器和文本編碼器,將圖像和文本嵌入到同一特征空間,并通過計算特征相似度來判斷它們的匹配程度。

圖片

然而,CLIPScore存在嚴重的「bag-of-words」問題:也就是說,CLIP在處理文本時可能忽略詞序,混淆像「月亮在牛上面」和「牛在月亮上面」這樣的句子。這使得模型難以準確抓住復雜文本中的關(guān)鍵信息。

為了解決這一問題,CMU和Meta的研究團隊提出了VQAScore,采用更強大的生成式VQA模型(如GPT-4o)來更準確地評估文生圖模型:

圖片


VQAScore:一種簡單有效的評估指標

研究團隊基于GPT-4o等用于視覺問答(VQA)任務(wù)的生成式視覺語言模型,將圖像與提示詞之間的相似度定義為模型在回答「這個圖像是否顯示了[提示詞]?請回答是或否?!箷r給出「是」(Yes)答案的概率:

圖片

例如,在計算某張圖像與提示詞「牛在月亮上面」之間的相似度時,VQAScore會將圖像和問題「這個圖像是否顯示了『牛在月亮上面』?請回答是或否。」輸入模型,并返回模型選擇「是」的概率。

圖片

另外,研究團隊發(fā)現(xiàn),當前主流的VQA模型(如LLaVA-1.5)使用了具備單向(auto-regressive)注意力機制的語言模型(如Llama)。這種機制導致模型在提取圖像特征時,無法提前獲取提示詞的完整信息。

為了更有效的提取視覺特征,研究團隊使用開源數(shù)據(jù)訓練了一個更強的CLIP-FlanT5 VQA模型。該模型采用了具備雙向注意力機制的語言模型FlanT5,使得圖像特征提取能夠根據(jù)輸入的提示詞動態(tài)調(diào)整。

研究表明,這一機制在提升VQA模型對復雜提示詞的理解方面效果顯著。

圖片

VQAScore比主流評估指標更簡單高效。許多傳統(tǒng)指標依賴大量人類標注(如 ImageReward、PickScore)或私有模型(如GPT-4Vision)才能取得好表現(xiàn)。

相比之下,VQAScore具備以下核心優(yōu)勢:

1. 無需人類標注:VQAScore能直接利用現(xiàn)有的VQA模型取得優(yōu)異表現(xiàn),無需在人工標注數(shù)據(jù)上進行額外微調(diào)。

2. 分數(shù)更精準:使用GPT-4給圖片打分(如在0到100之間打分)時,模型往往會隨意給出高分(如90),而忽略圖片的真實質(zhì)量。相比之下,VQAScore使用概率值來判斷圖片與提示詞的相似度,結(jié)果更加精確。

VQAScore實驗結(jié)果

研究人員在大量復雜圖文匹配基準(如Winoground和EqBen)以及文生圖評估基準(如Pick-a-pic和TIFA160)上對VQAScore進行了測試。

結(jié)果顯示,VQAScore在所有圖像、視頻和3D生成任務(wù)的基準上超越了CLIPScore等流行指標,取得了最佳表現(xiàn)。

圖片

圖片

值得注意的是,VQAScore采用了開源模型(CLIP-FlanT5),卻仍大幅超越了使用更強閉源模型(如PALI-17B和GPT-4)的方法(如VQ2、ViperGPT 等)。

此外,VQAScore也超越了依賴提示分解進行視覺推理的先進方法(如 CVPR'23最佳論文Visual Programming和ViperGPT等),進一步驗證了端到端評估方案的有效性。

最新的谷歌DeepMind Imagen3報告還指出,使用更強大的VQA模型(如 Gemini)可以進一步提升VQAScore的表現(xiàn),凸顯了其在未來生成式模型評測中的潛力。

圖片


GenAI-Bench:由設(shè)計師收集的高難度文生圖基準

為了更好地評估文生圖模型及其評估指標的性能,研究團隊推出了GenAI-Bench。該基準包含1600個由設(shè)計師收集的復雜提示詞,覆蓋了10種生成模型(如DALL-E 3、Midjourney、SDXL等),并配有超過80,000條人工標注。

圖片

GenAI-Bench相比較之前的基準有以下優(yōu)勢:

1. 更具挑戰(zhàn)性:研究表明,大多數(shù)文生圖/視頻模型在GenAI-Bench上表現(xiàn)仍有不足,還有大量的提升空間。

2. 避免空洞詞匯:所有提示詞均經(jīng)過嚴格篩選,避免使用假大空的詞語,確保評估更具客觀性。

3. 細粒度技能分析:GenAI-Bench能提供更細致的技能分類和分析,幫助研究人員深入了解模型在不同能力上的具體表現(xiàn)。

圖片


GenAI-Rank:用VQAScore來提升文生圖表現(xiàn)

研究人員構(gòu)建了一個新的GenAI-Rank基準,為每個提示詞使用DALL-E 3和Stable Diffusion(SD-XL)生成3到9張候選圖像。

研究表明,從這些候選圖像中返回VQAScore得分最高的圖像,可以顯著提升文生圖模型的效果。

圖片

這一方法無需微調(diào)生成模型本身,因此也能優(yōu)化(黑箱)私有模型,如DALL-E 3。

實驗結(jié)果進一步證明,VQAScore在圖像排序上比其他方法(如CLIPScore、PickScore等)更加有效。

圖片

結(jié)語

VQAScore和GenAI-Bench為文生圖模型提供了更精準且全面的評估,已被Imagen3、VILA-U、RankDPO等多個項目用于更好地評估和優(yōu)化最新的生成式模型。研究團隊已開源代碼和數(shù)據(jù)集,期待未來更多探索與進展!

團隊介紹

圖片

團隊的一作林之秋(Zhiqiu Lin)是卡內(nèi)基梅隆大學的博士研究生,由Deva Ramanan教授指導,專注于視覺-語言大模型的自動評估與優(yōu)化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等頂級會議上發(fā)表了十數(shù)篇論文,并曾榮獲最佳論文提名和最佳短論文獎等。其研究成果在生成模型和多模態(tài)學習領(lǐng)域受到了學術(shù)界和工業(yè)界的廣泛認可。

圖片

Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科學家,曾在微軟研究院擔任高級研究科學家。他的研究領(lǐng)域主要集中在深度學習、計算機視覺和多模態(tài)模型等方向,曾發(fā)表多項具有深遠影響力的成果,例如AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在頂級會議如CVPR、ICCV、NeurIPS等發(fā)表了大量高影響力論文,是計算機視覺和多模態(tài)模型領(lǐng)域的領(lǐng)軍人物之一。

圖片

Deva Ramanan教授是計算機視覺領(lǐng)域的國際知名學者,現(xiàn)任卡內(nèi)基梅隆大學教授。他的研究涵蓋計算機視覺、機器學習和人工智能領(lǐng)域,曾獲得多項頂級學術(shù)榮譽,包括2009年的David Marr獎、2010年的PASCAL VOC終身成就獎、2012年的IEEE PAMI青年研究員獎、2012年《大眾科學》評選的「十位杰出科學家」之一、2013年美國國家科學院Kavli Fellow、2018年和2024年的Longuet-Higgins獎,以及因其代表性工作(如COCO數(shù)據(jù)集)獲得的Koenderink獎。此外,他的論文在CVPR、ECCV和ICCV上多次獲得最佳論文提名及榮譽獎。他的研究成果對視覺識別、自動駕駛、和人機交互等應用產(chǎn)生了深遠影響,是該領(lǐng)域極具影響力的科學家之一。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2009-01-18 09:44:54

MySQL5.1Sun

2023-12-14 12:46:54

訓練數(shù)據(jù)

2009-05-13 10:13:30

IntelNokiaoFone

2023-10-04 18:30:52

MetaAI

2019-10-14 14:52:30

金蝶云互聯(lián)網(wǎng)云原生

2018-10-11 18:02:51

華為

2014-07-23 14:06:19

敏捷場館華為

2013-04-17 16:18:59

2015-08-31 13:39:53

大數(shù)據(jù)解決方案先進數(shù)通華為

2011-07-07 14:23:56

HaiPad點心海爾

2011-09-09 14:30:52

2015-12-15 17:58:54

金融安防云服務(wù)解決方案華為

2019-09-20 13:02:31

華為

2019-09-24 18:25:28

華為

2010-05-04 15:37:33

云計算

2015-09-23 15:30:57

華為訊方

2014-10-22 09:06:02

華為

2023-04-27 09:41:47

2018-03-24 20:23:06

華為開發(fā)者開源

2025-04-24 06:02:45

點贊
收藏

51CTO技術(shù)棧公眾號