OpenING:用于評(píng)估開(kāi)放式交錯(cuò)圖文生成的綜合基準(zhǔn) 原創(chuàng)
摘要
多模態(tài)大型語(yǔ)言模型(MLLMs)在視覺(jué)理解和生成任務(wù)中取得了顯著進(jìn)展。然而,生成交錯(cuò)的圖文內(nèi)容仍然是一個(gè)挑戰(zhàn),這需要集成多模態(tài)理解和生成能力。盡管統(tǒng)一模型的進(jìn)展提供了新的解決方案,但現(xiàn)有基準(zhǔn)由于數(shù)據(jù)規(guī)模和多樣性的限制,不足以評(píng)估這些方法。為了填補(bǔ)這一空白,我們引入了 OpenING,這是一個(gè)綜合基準(zhǔn),包含 56 個(gè)真實(shí)世界任務(wù)的 5400 個(gè)高質(zhì)量人工標(biāo)注實(shí)例。OpenING 涵蓋了旅游指南、設(shè)計(jì)和頭腦風(fēng)暴等多樣化的日常場(chǎng)景,為挑戰(zhàn)交錯(cuò)生成方法提供了強(qiáng)大的平臺(tái)。此外,我們還提出了 IntJudge,一種用于評(píng)估開(kāi)放式多模態(tài)生成方法的判斷模型。通過(guò)新穎的數(shù)據(jù)管道訓(xùn)練,我們的 IntJudge 與人類判斷的一致率達(dá)到 82.42%,比基于 GPT 的評(píng)估器高出 11.34%。在 OpenING 上的大量實(shí)驗(yàn)表明,當(dāng)前的交錯(cuò)生成方法仍有很大的改進(jìn)空間。我們還提出了關(guān)于交錯(cuò)圖文生成的關(guān)鍵發(fā)現(xiàn),以指導(dǎo)下一代模型的開(kāi)發(fā)。
1. 引言
基于大型語(yǔ)言模型(LLMs)[1,64,65,67] 卓越的理解和生成能力,多模態(tài)大型語(yǔ)言模型(MLLMs)在各種任務(wù)中取得了進(jìn)展 [5,42,84,87,91]。然而,生成交錯(cuò)的圖文內(nèi)容仍然具有挑戰(zhàn)性 [37,63,71],盡管它在研究和應(yīng)用中都扮演著重要角色(例如,多模態(tài)推理 [11,46]、教育 [17,36] 和設(shè)計(jì) [34,59])。由于人類大腦可以自然地結(jié)合視覺(jué)和文本信號(hào)以實(shí)現(xiàn)更高效的信息交換 [25,31],實(shí)現(xiàn)這種集成能力對(duì)于向通用人工智能(AGI)邁進(jìn)至關(guān)重要。
如圖 1 所示,結(jié)合理解和生成能力的統(tǒng)一模型的出現(xiàn)為交錯(cuò)圖文生成開(kāi)辟了新的可能性 [79,96]。然而,缺乏可靠的基準(zhǔn)來(lái)評(píng)估交錯(cuò)生成仍然是一個(gè)障礙 [62,71]。大多數(shù)現(xiàn)有基準(zhǔn)分別評(píng)估文本或圖像輸出,未能捕捉到同時(shí)生成兩者的復(fù)雜性 [44,61,85,86]。像 OpenLEAF [4] 和 InterleavedBench [43] 這樣的交錯(cuò)基準(zhǔn)在規(guī)模、范圍和查詢多樣性上都有限。例如,InterleavedBench 僅包含來(lái)自 VIST [32] 和 WikiHow [83] 等公共數(shù)據(jù)集的 10 個(gè)任務(wù)的 815 個(gè)實(shí)例。這些基準(zhǔn)不能充分反映現(xiàn)實(shí)世界的需求,并且容易受到數(shù)據(jù)污染 [78]。
圖1. 研究動(dòng)機(jī):(a) 圖文交錯(cuò)生成技術(shù)的快速發(fā)展;(b) 交錯(cuò)內(nèi)容對(duì)于現(xiàn)實(shí)復(fù)雜任務(wù)(如產(chǎn)品設(shè)計(jì))的關(guān)鍵信息供給具有不可替代性。
為了填補(bǔ)這一空白,我們引入了 OpenING,這是一個(gè)用于評(píng)估開(kāi)放式交錯(cuò)生成的綜合基準(zhǔn)。與以往的基準(zhǔn)不同,OpenING 提供了更廣泛的真實(shí)世界數(shù)據(jù)和任務(wù)(例如,頭腦風(fēng)暴、推薦和內(nèi)容創(chuàng)作),這些數(shù)據(jù)和任務(wù)源自時(shí)尚、烹飪和旅游等日常場(chǎng)景。如圖 2 和表 1 所示,精心策劃的 OpenING 包含 23 個(gè)元主題和 56 個(gè)任務(wù)的 5400 個(gè)多步驟交錯(cuò)圖文內(nèi)容實(shí)例,以及針對(duì)各種主題的多樣化、精心設(shè)計(jì)的查詢。為了應(yīng)對(duì)從不同領(lǐng)域收集和標(biāo)準(zhǔn)化數(shù)據(jù)的挑戰(zhàn),我們開(kāi)發(fā)了一個(gè)高效的標(biāo)注管道,并生成了高質(zhì)量的人工標(biāo)注數(shù)據(jù),降低了數(shù)據(jù)污染的風(fēng)險(xiǎn)。
圖2. OpenING基準(zhǔn)測(cè)試框架包含23個(gè)元主題(內(nèi)環(huán)),并進(jìn)一步細(xì)分為56項(xiàng)具體任務(wù)(外環(huán)數(shù)字標(biāo)注任務(wù)量,詳見(jiàn)補(bǔ)充材料)。示例展示了八個(gè)代表性領(lǐng)域的交錯(cuò)生成效果。
此外,許多先前的基準(zhǔn)依賴于基于 GPT 的評(píng)分指標(biāo) [4,43],這些指標(biāo)容易受到 GPT 模型固有偏差和 API 使用中潛在數(shù)據(jù)泄露的影響 [72]。為了克服評(píng)估開(kāi)放式多模態(tài)生成的挑戰(zhàn),我們引入了 IntJudge,一種強(qiáng)大的判斷模型。我們還提出了 Interleaved Arena 來(lái)促進(jìn)訓(xùn)練數(shù)據(jù)的標(biāo)注,以及參考增強(qiáng)生成(RAG)方法來(lái)擴(kuò)展數(shù)據(jù)規(guī)模。通過(guò)這種增強(qiáng)的數(shù)據(jù)管道訓(xùn)練,IntJudge 與人類判斷的平均一致率達(dá)到 82.42%,比作為判斷器的 GPT-4o 提高了 11.34%。
我們使用 OpenING 評(píng)估了代表性的交錯(cuò)生成方法。實(shí)驗(yàn)的關(guān)鍵發(fā)現(xiàn)包括:1)生成連貫和高質(zhì)量的交錯(cuò)內(nèi)容對(duì)所有模型來(lái)說(shuō)仍然具有挑戰(zhàn)性,而人工標(biāo)注的內(nèi)容始終比生成的內(nèi)容獲得最高評(píng)分;2)集成管道(例如 Gemini+Flux)在圖文連貫性和視覺(jué)質(zhì)量方面優(yōu)于端到端模型(例如 Anole),這可能是由于更發(fā)達(dá)的基礎(chǔ)模型;3)盡管 GPT 生成的文本答案可能比人工標(biāo)注的答案更具信息量,但人工標(biāo)注的自然圖像仍然比生成的圖像更受歡迎,這凸顯了高質(zhì)量圖像生成的挑戰(zhàn)。本文的主要貢獻(xiàn)總結(jié)如下:
?高質(zhì)量基準(zhǔn):我們提出了 OpenING,這是一個(gè)用于評(píng)估開(kāi)放式交錯(cuò)圖文生成的綜合基準(zhǔn)。OpenING 包含 56 個(gè)真實(shí)世界任務(wù)的 5400 個(gè)人工標(biāo)注實(shí)例,旨在挑戰(zhàn)和改進(jìn)交錯(cuò)生成方法,并支持開(kāi)發(fā)用于評(píng)估開(kāi)放式多模態(tài)生成的判斷模型。
?強(qiáng)大的判斷器:我們引入了 IntJudge,一種用于評(píng)估交錯(cuò)生成方法的判斷模型。我們使用增強(qiáng)的數(shù)據(jù)管道訓(xùn)練 IntJudge,與人類判斷的一致率達(dá)到 82.42%,顯著優(yōu)于基于 GPT 的判斷器。此外,IntJudge 已被證明在評(píng)估新的未知模型方面有效。
?綜合排行榜:我們提供了交錯(cuò)生成方法的詳細(xì)排名和分析,并比較了 IntJudge 和 GPT-4o 評(píng)估與人類判斷的結(jié)果。我們的發(fā)現(xiàn)表明,盡管當(dāng)前的開(kāi)源端到端模型落后于集成管道,但具有統(tǒng)一架構(gòu)的端到端和兩階段生成器表現(xiàn)出巨大潛力,值得進(jìn)一步探索以推進(jìn)交錯(cuò)圖文生成。
2. 相關(guān)工作
2.1 交錯(cuò)圖文生成
MLLMs 的發(fā)展極大地推動(dòng)了交錯(cuò)圖文生成 [35]。早期的模型如 Stable Diffusion [20,53]、DALL?E [52] 和自回歸(AR)方法(如 VAR [66] 和 Lumina-mGPT [41])專注于單向任務(wù),如圖像理解和文本到圖像生成。Flamingo [2] 是第一個(gè)處理交錯(cuò)圖文內(nèi)容的 MLLM。最近的模型,如 MiniGPT-5 [92] 和 SEED 系列 [23,24,81],通過(guò)結(jié)合基于 AR 的文本生成和基于擴(kuò)散的視覺(jué)生成來(lái)實(shí)現(xiàn)交錯(cuò)生成。像 Emu3 [71] 和 Chameleon [63] 這樣的原生 AR 模型提供了一個(gè)統(tǒng)一的框架來(lái)生成和推理混合模態(tài)文檔。Anole [16] 通過(guò)在交錯(cuò)圖文數(shù)據(jù)上進(jìn)行高效微調(diào),再現(xiàn)了 Chameleon 的圖像生成能力。然而,評(píng)估交錯(cuò)圖文生成的基準(zhǔn)仍處于早期階段。先前的工作,如 OpenLEAF [4] 和 InterleavedBench [43],專注于一小部分主題,缺乏現(xiàn)實(shí)應(yīng)用所需的深度和廣度。為了實(shí)現(xiàn)對(duì)交錯(cuò)生成更可靠和全面的評(píng)估,我們基于全面的現(xiàn)實(shí)場(chǎng)景提出了 OpenING。
2.2 開(kāi)放式多模態(tài)生成的評(píng)估
評(píng)估開(kāi)放式多模態(tài)生成本質(zhì)上具有挑戰(zhàn)性,因?yàn)樾枰u(píng)估開(kāi)放領(lǐng)域的視覺(jué)和文本質(zhì)量 [4,56,74]?,F(xiàn)有的文本生成指標(biāo),如 BLEU [49] 和 ROUGE [39],在衡量視覺(jué)質(zhì)量和圖文連貫性方面存在不足。相反,視覺(jué)質(zhì)量指標(biāo)如 FID [30] 和 IS [54] 缺乏對(duì)文本元素的考慮。對(duì)比指標(biāo),如 CLIPScore [29],可以測(cè)量圖文對(duì)齊,但無(wú)法充分評(píng)估開(kāi)放式交錯(cuò)內(nèi)容的質(zhì)量,因?yàn)殚_(kāi)放式交錯(cuò)內(nèi)容可能存在多個(gè)正確答案。基于 GPT 的評(píng)分 [43,89] 提供了改進(jìn)的測(cè)量方法來(lái)評(píng)估交錯(cuò)輸出的多樣性和連貫性。然而,GPT 往往存在偏差,偏愛(ài)自己生成的內(nèi)容 [6,72]。人類評(píng)估雖然可靠,但由于其繁瑣的性質(zhì),無(wú)法擴(kuò)展。為了填補(bǔ)這一空白,我們引入了 IntJudge,這是一種在評(píng)估開(kāi)放式多模態(tài)生成時(shí)與人類判斷高度一致的判斷模型。為了減輕主觀評(píng)分的不穩(wěn)定性 [14,93],我們的 IntJudge 通過(guò)在競(jìng)技場(chǎng)式框架 [38] 中進(jìn)行成對(duì)比較來(lái)評(píng)估模型。
3. OpenING 基準(zhǔn)
3.1 問(wèn)題定義
交錯(cuò)圖文生成任務(wù)涉及根據(jù)給定的提示生成文本和圖像的序列。每個(gè)交錯(cuò)生成模型(稱為多模態(tài)代理)接收一個(gè)輸入提示 P,該提示可以是純文本或包含文本和圖像。多模態(tài)代理輸出一個(gè)交錯(cuò)圖文序列:S=[s_{1}, s_{2}, ..., s_{N}],其中 N 是步驟數(shù)。步驟 i 中的每個(gè)元素s_{i}=由文本段T_{i}和圖像I_{i}組成。每個(gè)s_{i}是基于提示 P 和所有輸出歷史生成的,即s_{i}=f(P, s_{1}, s_{2}, ..., s_{i-1}),其中 f 表示代理的生成函數(shù)。目標(biāo)是找到最優(yōu)的輸出序列集S^{*}:
其中,每個(gè)步驟中的s_{i}^{*}在語(yǔ)義上與輸入提示一致,同時(shí)在整個(gè)序列中保持連貫性。代理的性能根據(jù)生成的 S 滿足預(yù)定義標(biāo)準(zhǔn)的程度進(jìn)行評(píng)估。
3.2 數(shù)據(jù)策劃
由于高質(zhì)量數(shù)據(jù)的稀缺,收集和標(biāo)注交錯(cuò)圖文數(shù)據(jù)具有內(nèi)在的挑戰(zhàn)性。從不同領(lǐng)域收集和配對(duì)多模態(tài)數(shù)據(jù)并確保一致性尤其困難 [82]。我們用了三個(gè)月的時(shí)間創(chuàng)建了 OpenING,近 50 人參與了一個(gè)高效的管道,如圖 3 (a) 所示。
圖3. 數(shù)據(jù)構(gòu)建與評(píng)估流程總覽:(a) OpenING基準(zhǔn)采用自上而下的構(gòu)建方式,包含概念化、數(shù)據(jù)收集、標(biāo)注、過(guò)濾和處理五個(gè)階段;(b) 使用OpenING開(kāi)發(fā)集訓(xùn)練IntJudge評(píng)估器,并在測(cè)試集上對(duì)比評(píng)估圖文交錯(cuò)生成任務(wù),將IntJudge與人類評(píng)估員及GPT-4o進(jìn)行性能對(duì)比。
3.2.1 主題概念化
在多個(gè) AI 代理的協(xié)助下,我們集思廣益,確定了需要交錯(cuò)圖文生成的最相關(guān)的現(xiàn)實(shí)世界場(chǎng)景。這些見(jiàn)解被概念化為 23 個(gè)元主題,并劃分為 56 個(gè)具體任務(wù)。
3.2.2 數(shù)據(jù)收集和標(biāo)注
交錯(cuò)圖文數(shù)據(jù)來(lái)自 20 多個(gè)來(lái)源,包括社交媒體(如小紅書(shū))、視頻分享網(wǎng)站(如 YouTube)、搜索引擎(如 Google)和開(kāi)放數(shù)據(jù)集平臺(tái)(如 OpenDataLab [28])。完整的數(shù)據(jù)源列表在補(bǔ)充材料中提供。為了確保最高的數(shù)據(jù)質(zhì)量,28 名專業(yè)標(biāo)注員在 14 名數(shù)據(jù)專家的監(jiān)督下進(jìn)行了貢獻(xiàn)。他們使用我們開(kāi)發(fā)的 IntLabel 工具進(jìn)行高效的人工標(biāo)注。標(biāo)注內(nèi)容被組織成標(biāo)準(zhǔn)格式,每個(gè)實(shí)例限制為十個(gè)步驟,以避免上下文約束的潛在破壞。
3.2.3 數(shù)據(jù)過(guò)濾和質(zhì)量控制
我們與標(biāo)注員和數(shù)據(jù)專家進(jìn)行了交叉檢查,以確保每個(gè)實(shí)例的一致性、相關(guān)性和連貫性。每個(gè)任務(wù)需要包含多樣化的來(lái)源和主題。在數(shù)據(jù)獲取復(fù)雜的情況下,指示標(biāo)注員用 GPT-4o [48] 和 Stable Diffusion XL [51] 生成的內(nèi)容補(bǔ)充數(shù)據(jù)集。為了進(jìn)一步提高數(shù)據(jù)質(zhì)量,提出了專屬協(xié)議來(lái)過(guò)濾不合格的數(shù)據(jù)。合格的數(shù)據(jù)隨后被重新分配到各個(gè)任務(wù),以達(dá)到所需的數(shù)量。
3.2.4 數(shù)據(jù)處理
進(jìn)行后處理以確保我們基準(zhǔn)的語(yǔ)言一致性。使用 GPT-4o API 將標(biāo)注的中文文本翻譯成英文,然后由數(shù)據(jù)專家審查準(zhǔn)確性。我們還實(shí)現(xiàn)了圖像翻譯,將圖像中的任何漢字轉(zhuǎn)換為英文。最后,為每個(gè)任務(wù)優(yōu)化提示,以實(shí)現(xiàn)所需的生成結(jié)果,詳細(xì)信息見(jiàn)補(bǔ)充材料。
3.2.5 數(shù)據(jù)集劃分
如圖 2 所示,我們的 OpenING 基準(zhǔn)最終包含 5400 個(gè)標(biāo)注實(shí)例,涵蓋 23 個(gè)不同的元主題和 56 個(gè)任務(wù)。OpenING 的標(biāo)注實(shí)例分為開(kāi)發(fā)集(3240 個(gè)實(shí)例)和測(cè)試集(2160 個(gè)實(shí)例)。開(kāi)發(fā)集支持判斷模型的訓(xùn)練,測(cè)試集用于評(píng)估不同模型的零樣本性能。
4. IntJudge 模型
4.1 交錯(cuò)競(jìng)技場(chǎng)
由于評(píng)估多個(gè)圖像和文本的復(fù)雜性以及生成的開(kāi)放性(一個(gè)查詢可能有多個(gè)有效答案),評(píng)估開(kāi)放式交錯(cuò)圖文生成具有挑戰(zhàn)性。鑒于成對(duì)比較比主觀評(píng)分更穩(wěn)定 [14],我們引入了 Interleaved Arena,在其上使用三個(gè)評(píng)估器進(jìn)行成對(duì)評(píng)估:人類判斷器、基于 GPT 的判斷器和提出的 IntJudge。
在 Interleaved Arena 中,來(lái)自代理在 OpenING 測(cè)試集上的交錯(cuò)輸出以統(tǒng)一格式保存。在每個(gè)評(píng)估輪次中,判斷器比較兩個(gè)匿名代理的輸出,并根據(jù)七個(gè)標(biāo)準(zhǔn)對(duì)交錯(cuò)輸出進(jìn)行評(píng)分:正確性、圖文連貫性、多步驟一致性、內(nèi)容質(zhì)量、人類偏好對(duì)齊、完整性和內(nèi)容豐富度(詳細(xì)信息見(jiàn)補(bǔ)充材料)。為了平衡評(píng)估的可靠性和效率,我們提出了一種輪盤匹配算法來(lái)為每個(gè)數(shù)據(jù)實(shí)例采樣 E 個(gè)不同的戰(zhàn)斗對(duì)。
設(shè) κ 表示任務(wù)集,M 表示競(jìng)技場(chǎng)代理集。每個(gè)任務(wù)k \in K有D_{k}個(gè)數(shù)據(jù)實(shí)例。通過(guò)隨機(jī)打亂代理順序采樣一個(gè)排列\(zhòng)sigma_{k} \in A_{|M|},其中A_{|M|}是所有代理排列的集合。采樣的戰(zhàn)斗對(duì)集合為:
\mathcal{P}_{k}=\left\{\left(\sigma_{k}(i \bmod |\mathcal{M}|), \sigma_{k}((i+1) \bmod |\mathcal{M}|)\right)\right\}, \quad(i=1,2, \ldots, D_{k})
可能需要執(zhí)行額外的采樣輪次以獲得每個(gè)數(shù)據(jù)實(shí)例的 E 個(gè)不同戰(zhàn)斗對(duì),其中E \leq|M|(|M|-1)/2。為了避免重復(fù),在第 d 輪維護(hù)一個(gè)集合R_{k,d},存儲(chǔ)先前輪次中采樣的所有唯一對(duì):
\mathcal{R}_{k, d}=\bigcup_{j=1}^{d-1}\left(\sigma_{k, j}(a), \sigma_{k, j}(b)\right)
對(duì)于當(dāng)前對(duì)\sigma_{k,d}(a)和\sigma_{k,d}(b),我們強(qiáng)制:
\left(\sigma_{k, d}(a), \sigma_{k, d}(b)\right) \notin \mathcal{R}_{k, d} \text { ??” } \sigma_{k, d}(a) \neq \sigma_{k, d}(b)
在均勻分布的假設(shè)下,我們定義覆蓋時(shí)間T_{k}以確保所有代理在任務(wù) k 中得到評(píng)估:
T_{k}=\left\lceil\frac{|\mathcal{M}|(|\mathcal{M}|-1)}{2 E} \cdot \frac{D_{k}}{\left|\mathcal{P}_{k}\right|}\right\rceil
總體預(yù)期覆蓋時(shí)間為:
E[T]=\frac{|\mathcal{M}|}{2} \cdot H_{|\mathcal{M}|}=\frac{|\mathcal{M}|}{2} \cdot\left(\sum_{i=1}^{|\mathcal{M}|} \frac{1}{i}\right)
其中H_{|M|}是第 | M | 個(gè)調(diào)和數(shù)。
4.2 判斷管道
4.2.1 人類判斷器
在人類判斷器中,標(biāo)注員為每個(gè)輸入提示比較兩個(gè)多模態(tài)代理的輸出,并根據(jù)七個(gè)預(yù)定義標(biāo)準(zhǔn)選擇獲勝者。投票結(jié)果用于根據(jù)獲勝率對(duì)交錯(cuò)生成方法進(jìn)行排名。由于先前的研究 [14,93] 指出過(guò)多的平局會(huì)導(dǎo)致效率低下,我們的標(biāo)注員被指示在平局情況下傾向于一個(gè)代理,根據(jù)輕微偏好標(biāo)記為 Tie (A) 或 Tie (B)。
4.2.2 基于 GPT 的判斷器
為了實(shí)現(xiàn)可擴(kuò)展性,我們使用 GPT-4o 自動(dòng)化評(píng)估過(guò)程。提示 GPT-4o 分析交錯(cuò)輸出并決定每個(gè)戰(zhàn)斗對(duì)的獲勝者。此外,我們使用額外的提示獲得分?jǐn)?shù)分解和解釋。盡管這種策略允許可擴(kuò)展和可解釋的評(píng)估,但基于 GPT 的判斷器由于其先驗(yàn)偏差和與人類偏好的不一致,仍然具有較高的錯(cuò)誤率。GPT 還引發(fā)了隱私、數(shù)據(jù)泄露和成本問(wèn)題。
4.2.3 IntJudge
為了解決基于 GPT 的評(píng)估器的問(wèn)題,我們提出 IntJudge 以提高評(píng)估準(zhǔn)確性和與人類偏好的一致性。作為離線判斷器,IntJudge 提供高效的大規(guī)模評(píng)估,具有一致的標(biāo)準(zhǔn),確?;鶞?zhǔn)測(cè)試交錯(cuò)圖文生成的公平和可重復(fù)結(jié)果。在探索了包括 InternLM-XComposer2.5(InternLM-X2.5)[88] 和 Qwen2-VL [69] 在內(nèi)的多個(gè) MLLMs 后,我們選擇 Qwen2-VL-7B 作為訓(xùn)練 IntJudge 的基礎(chǔ)模型,在效率和準(zhǔn)確性之間實(shí)現(xiàn)了最佳平衡。
4.3 IntJudge 的訓(xùn)練
為了增強(qiáng) IntJudge 的訓(xùn)練,提出了參考增強(qiáng)生成(RAG)方法來(lái)擴(kuò)展訓(xùn)練數(shù)據(jù)集。如圖 3 (b) 所示,我們的 IntJudge 模型在開(kāi)發(fā)集的人工標(biāo)注成對(duì)數(shù)據(jù)和 RAG 對(duì)的組合上進(jìn)行訓(xùn)練。在我們的 RAG 方法中,向模型提供來(lái)自開(kāi)發(fā)集的真實(shí)世界黃金答案,并提示模型基于這些黃金答案生成響應(yīng)。成對(duì)數(shù)據(jù)通過(guò)將普通生成結(jié)果與基于 RAG 的輸出配對(duì)形成,其中 RAG 結(jié)果被指定為獲勝者。使用包括可見(jiàn)交錯(cuò)生成方法在內(nèi)的模型集合進(jìn)行普通生成和 RAG。訓(xùn)練目標(biāo)定義為:
\mathcal{L}_{\text {total }}=\lambda_{1} \mathcal{L}_{C E}+\lambda_{2} \mathcal{L}_{C T}+\lambda_{3} \mathcal{L}_{M S E}+\lambda_{4} \mathcal{L}_{P R}
其中,\lambda_{1}、\lambda_{2}、\lambda_{3}和\lambda_{4}是權(quán)重系數(shù),L_{CE}、L_{CT}、L_{MSE}和L_{PR}分別是交叉熵、對(duì)比、均方誤差和成對(duì)排序損失。訓(xùn)練后的 IntJudge 在零樣本設(shè)置下對(duì)未知和已知模型進(jìn)行測(cè)試,以驗(yàn)證其泛化能力。
5. 實(shí)驗(yàn)
5.1 實(shí)驗(yàn)設(shè)置
5.1.1 模型
我們?cè)u(píng)估了 10 種代表性的交錯(cuò)方法,分為三類:1)集成管道結(jié)合獨(dú)立的文本和圖像生成模型,例如 GPT-4o+DALL?E-3 [8,48] 和 Gemini1.5+Flux [9,64];2)兩階段生成器,如 Emu2 [60]、SEED-X [23] 和 Show-o [79],具有統(tǒng)一的模型架構(gòu),但分兩個(gè)階段生成文本和圖像;3)端到端生成器在單一階段生成圖文內(nèi)容,此類模型包括 GILL [35]、NExT-GPT [75]、MiniGPT-5 [92]、SEED-LLaMA [22] 和 Anole [16]。我們將 GPT-4o+DALL?E-3、Anole、SEED-LLaMA 和 NExT-GPT 作為未知模型用于 IntJudge 驗(yàn)證,其余模型在 IntJudge 訓(xùn)練中可見(jiàn)。
5.1.2 評(píng)估指標(biāo)
模型性能使用兩個(gè)關(guān)鍵指標(biāo)進(jìn)行評(píng)估:獲勝率和一致性。獲勝率表示模型在成對(duì)比較中獲勝的頻率。處理平局的四種方法包括 1)強(qiáng)制劃分平局(FDT):我們通過(guò)規(guī)則和提示強(qiáng)制判斷器在比較輪次中產(chǎn)生決定性結(jié)果。如果平局傾向于模型 A(Tie (A)),則 A 獲勝,B 同理。該指標(biāo)允許清晰的排名,無(wú)歧義。2)無(wú)平局(w/o Tie):排除平局比較,僅考慮有明確獲勝者的比賽;3)平局計(jì)為 0(w/Tie (0)):包括平局,但不計(jì)入任何模型的獲勝次數(shù);4)平局計(jì)為 0.5(w/Tie (.5)):每個(gè)平局為兩個(gè)模型各貢獻(xiàn) 0.5 次勝利。一致性衡量不同評(píng)估器(如自動(dòng)化管道和人類判斷)在相同平局處理策略下的一致性,反映評(píng)估器在評(píng)估中達(dá)成一致的頻率。
5.2 總體評(píng)估
5.2.1 三個(gè)判斷器的評(píng)估
我們進(jìn)行實(shí)驗(yàn),使用獲勝率和一致性指標(biāo)評(píng)估不同模型的性能。表 2 展示了各種模型在不同判斷器方法(包括人類、基于 GPT 和基于 IntJudge 的評(píng)估)下的獲勝率。采樣輪次 E 設(shè)置為 2,形成 4320 個(gè)戰(zhàn)斗對(duì)。發(fā)現(xiàn)像 GPT-4o+DALL?E-3 和 Gemini1.5+Flux 這樣的集成管道無(wú)論評(píng)估器如何,始終優(yōu)于其他模型,而端到端模型如 MiniGPT-5、GILL 和 NExT-GPT 表現(xiàn)較差。
5.2.2 成對(duì)模型性能
人類、GPT-4o 和 IntJudge 評(píng)估的成對(duì)比較結(jié)果如圖 5 所示。熱圖表示勝負(fù)關(guān)系,較暖的顏色表示較高的獲勝率,較冷的顏色反之。值得注意的是,GPT-4o+DALL?E-3 和 Gemini1.5+Flux 取得了最強(qiáng)的獲勝率,它們的生成甚至在 GPT 評(píng)估下可與人工標(biāo)注輸出媲美。
5.2.3 純文本和純圖像評(píng)估
為了探索文本和圖像對(duì)模型性能的影響,我們?cè)谙嗤牟蓸訉?duì)上使用純文本和純圖像輸出評(píng)估模型。圖 4 顯示,MiniGPT-5 和 GILL 表現(xiàn)不佳主要是由于其文本輸出質(zhì)量低。SEED-X 和 NExT-GPT 在純文本評(píng)估中獲得較高的獲勝率,但生成圖像的低質(zhì)量限制了它們的排名,如表 2 所示。GPT-4o 生成的文本甚至優(yōu)于人工標(biāo)注內(nèi)容,展示了其卓越的語(yǔ)言能力。
5.2.4 基于 GPT 的評(píng)分
圖 6 展示了基于 GPT 的評(píng)估,提供了不同模型的可解釋性能分析。GPT-4o+DALL?E-3 在交互式圖像編輯和具身 AI 任務(wù)等元主題中表現(xiàn)不佳,可能是由于這些類別中的訓(xùn)練數(shù)據(jù)有限。GPT-4o 還對(duì)自己的輸出表現(xiàn)出偏差,在人類偏好對(duì)齊方面給它們打 10 分,而人工標(biāo)注響應(yīng)的平均得分為 9 分。
5.2.5 與人類的一致性
表 3 顯示了不同評(píng)估器與人類判斷的一致性,我們將隨機(jī)猜測(cè)(Random)作為基線。結(jié)果表明,IntJudge 與人類判斷的一致性通常更高(FDT 中為 82.42%),相比之下基于 GPT 的評(píng)估(FDT 中為 71.08%),表明其在可擴(kuò)展評(píng)估交錯(cuò)圖文生成方面的潛力。
5.3 消融研究
5.3.1 采樣大小的影響
我們?cè)u(píng)估了樣本大小對(duì)評(píng)估穩(wěn)定性和可靠性的影響。圖 7 展示了不同采樣大小下獲勝率的趨勢(shì)。隨著樣本大小的增加,獲勝率趨于穩(wěn)定,進(jìn)一步增加時(shí)變化最小。這種穩(wěn)定性表明我們的 4320 個(gè)戰(zhàn)斗對(duì)的采樣數(shù)量能夠支持穩(wěn)健的評(píng)估結(jié)果。
5.3.2 判斷器訓(xùn)練數(shù)據(jù)的影響
我們研究了納入 RAG 數(shù)據(jù)對(duì) IntJudge 性能的影響。在兩種訓(xùn)練配置之間進(jìn)行比較:一種僅使用競(jìng)技場(chǎng)數(shù)據(jù)(6014 個(gè)樣本),另一種使用 RAG 數(shù)據(jù)增強(qiáng)(25982 個(gè)樣本)。如圖 8 所示,納入 RAG 數(shù)據(jù)后,未知模型的 FDT 一致性提高了 7.8%,證明了我們基于 RAG 策略的有效性。
5.3.3 圖像生成器的影響
我們從所有任務(wù)中采樣 200 個(gè)數(shù)據(jù)實(shí)例,評(píng)估圖像生成器對(duì)交錯(cuò)性能的影響。表 4 比較了與不同圖像生成器配對(duì)的基本文本生成方法。結(jié)果表明,圖像生成器極大地影響了交錯(cuò)生成的質(zhì)量。例如,當(dāng)文本模型與 Flux-dev 配對(duì)時(shí),性能顯著提高。還注意到,盡管 Flux-dev 的圖像質(zhì)量?jī)?yōu)于 Flux-schnell,但其生成效率較慢。
5.4 分析與討論
5.4.1 錯(cuò)誤分析
對(duì) 200 個(gè)實(shí)例的錯(cuò)誤分析顯示,與人類相比,三種類型的模型表現(xiàn)不佳,如圖 9 所示。GPT-4o+DALL?E-3 遭受內(nèi)容不一致和不連貫的問(wèn)題,可能是由于 DALL?E-3 生成相同風(fēng)格多個(gè)圖像的能力有限。圖像質(zhì)量差是 Anole 面臨的主要問(wèn)題,這可能歸因于圖像生成微調(diào)數(shù)據(jù)的有限。盡管大多數(shù) SEED-X 輸出包含多種錯(cuò)誤,但缺乏文本或圖像內(nèi)容仍然是主要問(wèn)題。
5.4.2 無(wú)圖像、無(wú)文本比率
表 5 列出了無(wú)圖像、無(wú)文本和無(wú)圖文的比率,表明模型未能生成視覺(jué)內(nèi)容、文本內(nèi)容或兩者的實(shí)例比例。人類、GPT-4o+DALL?E-3 和 Gemini1.5+Flux 的失敗率接近零(排除政策限制的敏感情況),表明它們一致的多模態(tài)生成能力。像 SEED-X 和 NExT-GPT 這樣的模型顯示出高無(wú)圖像比率,可能是由于它們較差的指令遵循和生成能力。這些發(fā)現(xiàn)表明,模型要在 OpenING 上獲得高排名,其生成的交錯(cuò)內(nèi)容必須在圖像和文本上都具有高質(zhì)量。
5.4.3 發(fā)現(xiàn)與討論
我們討論實(shí)驗(yàn)中的關(guān)鍵發(fā)現(xiàn),以啟發(fā)未來(lái)的工作:1)所有生成模型在交錯(cuò)生成中的排名均低于人類。統(tǒng)一的端到端模型明顯落后于結(jié)合更發(fā)達(dá)基礎(chǔ)模型的集成管道,統(tǒng)一的兩階段生成方法也需要進(jìn)一步改進(jìn)。2)自然圖像始終優(yōu)于生成圖像,表明高質(zhì)量圖像生成的重大挑戰(zhàn)。3)GPT 生成的文本質(zhì)量可與人工標(biāo)注文本媲美甚至超越,展示了 LLMs 在生成豐富信息文本內(nèi)容方面的有效性。4)圖像生成對(duì)交錯(cuò)生成有很大影響,當(dāng)文本模型與更先進(jìn)的圖像模型配對(duì)時(shí),交錯(cuò)內(nèi)容的質(zhì)量顯著提高。5)大規(guī)模數(shù)據(jù)對(duì)訓(xùn)練判斷模型至關(guān)重要,通過(guò)擴(kuò)展數(shù)據(jù)超越手動(dòng)標(biāo)注,我們的 RAG 方法有助于訓(xùn)練更強(qiáng)大的判斷模型。
6. 結(jié)論
我們引入了 OpenING,這是一個(gè)用于評(píng)估開(kāi)放式交錯(cuò)圖文生成的綜合基準(zhǔn)。OpenING 通過(guò)覆蓋更廣泛的多樣化數(shù)據(jù)和基于現(xiàn)實(shí)場(chǎng)景的任務(wù),解決了現(xiàn)有基準(zhǔn)的局限性。為了更好地評(píng)估開(kāi)放式多模態(tài)生成,我們提出了 IntJudge,這是一種在 OpenING 開(kāi)發(fā)集的人工標(biāo)注和基于 RAG 的數(shù)據(jù)上訓(xùn)練的強(qiáng)大判斷模型。預(yù)計(jì)我們的 IntJudge 可以作為未來(lái)基于 RL(如 GRPO)的生成模型的獎(jiǎng)勵(lì)模型。在 OpenING 測(cè)試集上對(duì)各種交錯(cuò)生成方法的評(píng)估揭示了生成連貫和高質(zhì)量交錯(cuò)圖文內(nèi)容的挑戰(zhàn)。消融研究重申了我們基于 RAG 的數(shù)據(jù)管道對(duì)訓(xùn)練 IntJudge 的有效性。展望未來(lái),擴(kuò)展交錯(cuò)生成基準(zhǔn)的規(guī)模和多樣性可以釋放更大的現(xiàn)實(shí)世界潛力和影響。我們期待 OpenING 激發(fā) MLLMs 的未來(lái)研究,并受益于多模態(tài)評(píng)估模型的發(fā)展。
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:Pengfei Zhou等
原文鏈接:??https://mp.weixin.qq.com/s/c3gwrH5X9k7AyCoHG5gfMA??
