自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密

發(fā)布于 2025-3-17 10:00
瀏覽
0收藏

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2503.05236 
項目鏈接: https://codegoat24.github.io/UnifiedReward/ 
Github鏈接: https://github.com/CodeGoat24/UnifiedReward  
Huggingface鏈接: https://huggingface.co/papers/2503.05236 
Models鏈接: https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a 
Datasets鏈接: https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede 

亮點直擊

  • 構(gòu)建了一個大規(guī)模的人類偏好數(shù)據(jù)集,涵蓋多種視覺任務(wù),并開發(fā)了UNIFIEDREWARD,這是首個用于多模態(tài)理解和生成模型評估的統(tǒng)一獎勵模型,能夠執(zhí)行成對排名和單點評分。
  • 提出了一種通用流程,以用于圖像和視頻理解/生成模型的偏好對齊,該領(lǐng)域在當(dāng)前研究中仍然較少被探索。大量實驗表明,該方法在各個領(lǐng)域均能有效提升視覺模型的性能。
  • 實驗表明,同時學(xué)習(xí)評估圖像和視頻任務(wù)能夠在不同視覺領(lǐng)域之間產(chǎn)生協(xié)同提升。通過本研究,旨在擴展獎勵模型的適用范圍,使其在各種視覺應(yīng)用中更加適應(yīng)性強、可推廣且高效。

總結(jié)速覽

解決的問題

  • 任務(wù)特定性限制:現(xiàn)有的獎勵模型通常針對特定任務(wù)設(shè)計,缺乏跨多種視覺任務(wù)的適應(yīng)性。
  • 數(shù)據(jù)收集成本高:大規(guī)模收集人類反饋數(shù)據(jù)用于模型優(yōu)化既耗時又資源密集。
  • 任務(wù)間的孤立性:視覺任務(wù)之間存在內(nèi)在聯(lián)系,但現(xiàn)有方法未能充分利用這種聯(lián)系來提升模型性能。

提出的方案

  • 統(tǒng)一獎勵模型:提出了UNIFIEDREWARD,首個用于多模態(tài)理解和生成評估的統(tǒng)一獎勵模型,支持成對排序和點對點評分。
  • 大規(guī)模數(shù)據(jù)集構(gòu)建:構(gòu)建了一個涵蓋圖像和視頻生成/理解任務(wù)的大規(guī)模人類偏好數(shù)據(jù)集。
  • 自動數(shù)據(jù)生成:利用UNIFIEDREWARD自動生成高質(zhì)量偏好對數(shù)據(jù),通過多階段過濾(如成對排序和點篩選)選擇特定基線模型的輸出。
  • 直接偏好優(yōu)化:使用生成的偏好對數(shù)據(jù),通過直接偏好優(yōu)化(DPO)方法對齊模型輸出與人類偏好。

應(yīng)用的技術(shù)

  • 獎勵模型學(xué)習(xí):從有限的偏好數(shù)據(jù)中學(xué)習(xí)獎勵模型,生成合成偏好數(shù)據(jù)。
  • 多任務(wù)聯(lián)合學(xué)習(xí):聯(lián)合學(xué)習(xí)多個視覺任務(wù),利用任務(wù)間的協(xié)同效應(yīng)提升模型性能。
  • 多階段過濾:采用成對排序和點篩選技術(shù),自動構(gòu)建高質(zhì)量偏好對數(shù)據(jù)。
  • 直接偏好優(yōu)化(DPO):使用偏好對數(shù)據(jù)進行模型優(yōu)化,減少對人類注釋的依賴。

達(dá)到的效果

  • 跨任務(wù)適應(yīng)性:UNIFIEDREWARD模型能夠適應(yīng)多種視覺任務(wù),提升了模型的通用性和靈活性。
  • 性能提升:通過聯(lián)合學(xué)習(xí)多個視覺任務(wù),顯著提升了圖像和視頻理解/生成任務(wù)的性能。
  • 數(shù)據(jù)效率:自動生成的偏好對數(shù)據(jù)減少了對大規(guī)模人類注釋的依賴,提高了數(shù)據(jù)利用效率。
  • 協(xié)同效應(yīng):圖像理解的提升改善了圖像生成評估,圖像評估的改進通過更好的幀分析提升了視頻評估,形成了任務(wù)間的良性循環(huán)。

方法

概述

本研究旨在提出一個用于視覺模型偏好對齊的統(tǒng)一獎勵模型?,F(xiàn)有研究通常為特定任務(wù)開發(fā)專門的獎勵模型,如下表 1 所示,這限制了它們在不同視覺應(yīng)用中的適應(yīng)性。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

同時學(xué)習(xí)多個視覺任務(wù)可以產(chǎn)生相互增強的效果,但這一領(lǐng)域尚未被充分探索。為此,本研究提出 UNIFIEDREWARD,這是首個用于多模態(tài)理解和生成評估的統(tǒng)一獎勵模型,能夠執(zhí)行 成對排名 和 單點評分。該模型被用于 視覺-語言模型(VLMs) 和 擴散模型(Diffusion Models) 的對齊,以實現(xiàn)更穩(wěn)健且適應(yīng)性更強的偏好學(xué)習(xí),涵蓋多種視覺任務(wù)。流程如下圖 2 所示。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

首先構(gòu)建一個大規(guī)模的統(tǒng)一偏好數(shù)據(jù)集,并在此數(shù)據(jù)集上訓(xùn)練 UNIFIEDREWARD 模型。然后通過對 VLMs 和擴散模型的輸出進行 成對排名 和 單點評分,來構(gòu)建相應(yīng)的偏好數(shù)據(jù)集。這些數(shù)據(jù)集隨后被用于 直接偏好優(yōu)化(DPO),從而有效增強模型對人類偏好的對齊能力。

統(tǒng)一獎勵模型訓(xùn)練

統(tǒng)一偏好數(shù)據(jù)集構(gòu)建

一個涵蓋多種視覺相關(guān)任務(wù)的綜合性人類偏好數(shù)據(jù)集,對于訓(xùn)練統(tǒng)一獎勵模型至關(guān)重要。然而,現(xiàn)有的人類反饋數(shù)據(jù)集(如 [29, 40, 44])通常是為特定任務(wù)設(shè)計的,限制了其泛化能力。目前,還沒有一個能全面涵蓋 視覺理解 和 視覺生成 任務(wù)的人類偏好數(shù)據(jù)集,這凸顯了構(gòu)建更通用數(shù)據(jù)集的必要性。為彌補這一空白,我們整合并預(yù)處理現(xiàn)有數(shù)據(jù)集,構(gòu)建了首個 大規(guī)模統(tǒng)一人類偏好數(shù)據(jù)集,其中包含約 236K 條數(shù)據(jù),涵蓋 圖像和視頻理解/生成 任務(wù)。數(shù)據(jù)集的詳細(xì)統(tǒng)計信息和可視化分布分別展示在下表 2 和圖 3 中。我們將在下文介紹各任務(wù)的數(shù)據(jù)構(gòu)建過程。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

圖像生成

  • EvalMuse:包含4K個文本提示,每個提示對應(yīng)多個不同模型生成的圖像。每張圖像由至少三名標(biāo)注員進行評估,提供總體評分(1-5)以及元素級標(biāo)簽,指示特定元素是否存在。
  • 單點評分學(xué)習(xí):最終得分取所有評分的平均值。若至少兩名標(biāo)注員認(rèn)定某元素存在,則視為已生成,否則視為未生成。
  • 成對排名:選取同一提示得分最高得分最低的圖像,形成排名對。
  • **Human Preference Dataset (HPD)**:包含70 萬條人類偏好投票。對于每個文本提示,提供兩張不同模型生成的圖像及對應(yīng)投票數(shù)。我們直接利用投票數(shù)構(gòu)建成對排名數(shù)據(jù),得票較多的圖像被認(rèn)為更受偏好。
  • **Open-Image-Preferences (OIP)**:包含7.4K條文本到圖像的偏好數(shù)據(jù),直接用于本研究。

圖像理解

  • LLava-Critic-113K:包含40K條單點評分?jǐn)?shù)據(jù)和73K條成對排名數(shù)據(jù),主要用于圖像理解評估。我們從中選取25K條數(shù)據(jù)用于成對排名,另25K條數(shù)據(jù)用于單點評分訓(xùn)練。

視頻生成

  • VideoDPO:包含10K條合成視頻對比數(shù)據(jù),適用于文本到視頻的 DPO 任務(wù)。我們直接使用該數(shù)據(jù)集進行視頻生成任務(wù)的成對排名學(xué)習(xí)
  • LiFT-HRA&VideoFeedback:提供大量人類反饋,用于合成視頻的單點評分,我們直接將其納入訓(xùn)練。

視頻理解

  • ShareGPTVideo-DPO:包含17K條視頻理解 DPO 數(shù)據(jù),其中每對響應(yīng)均被賦予一個評價得分。我們使用配對數(shù)據(jù)進行成對排名學(xué)習(xí),同時提取單個響應(yīng)的得分進行單點評分學(xué)習(xí)。

數(shù)據(jù)標(biāo)準(zhǔn)化

  • 成對排名數(shù)據(jù)集采用統(tǒng)一格式:

“圖像/視頻/響應(yīng) X 優(yōu)于 圖像/視頻/響應(yīng) Y”其中 “X” 和 “Y” 代表相應(yīng)索引。如果數(shù)據(jù)集中包含 評估理由,我們會保留,以便模型學(xué)習(xí)人類推理過程。


  • 單點評分?jǐn)?shù)據(jù)集不強制統(tǒng)一評分格式或分?jǐn)?shù)范圍,使模型能夠?qū)W習(xí)不同數(shù)據(jù)集的評分風(fēng)格和體系。為確保評估標(biāo)準(zhǔn)與回答內(nèi)容對齊,我們相應(yīng)調(diào)整提示詞,具體模板見附錄 C。

如上圖 3 所示,相較于其他任務(wù),視頻生成任務(wù)的成對排名數(shù)據(jù)較少,但我們認(rèn)為 多任務(wù)學(xué)習(xí)的協(xié)同效應(yīng) 能夠彌補這一不足??傮w而言,我們的數(shù)據(jù)集 涵蓋廣泛,包含 成對排名 和 單點評分 數(shù)據(jù),適用于 圖像與視頻的理解和生成任務(wù),從而支持 高效的獎勵模型訓(xùn)練,確保在多模態(tài)理解和生成任務(wù)中的 穩(wěn)健性能。后續(xù)章節(jié)將介紹相關(guān)模型訓(xùn)練細(xì)節(jié)。

統(tǒng)一偏好學(xué)習(xí)

基于綜合性數(shù)據(jù)集,對一個具有強大視覺理解能力的預(yù)訓(xùn)練 VLM進行微調(diào),以開發(fā) UNIFIEDREWARD,并在多個視覺任務(wù)上進行聯(lián)合訓(xùn)練。與從零開始學(xué)習(xí)評估能力不同,我們將評估能力作為額外的判別技能進行整合,利用模型現(xiàn)有的視覺理解能力來增強其在不同任務(wù)上的評估性能。


前面圖 2(頂部)展示了我們的訓(xùn)練流程。具體而言,在多模態(tài)生成評估任務(wù)中,我們的模型以視覺 token、指令輸入和字幕作為輸入。而在多模態(tài)理解任務(wù)中,字幕被替換為問題及其對應(yīng)的回答,以使輸入格式與任務(wù)需求對齊。模型基于指令提示中指定的標(biāo)準(zhǔn),學(xué)習(xí)預(yù)測單點評分或成對排序。如果訓(xùn)練數(shù)據(jù)包含評估理由,模型還會學(xué)習(xí)生成詳細(xì)解釋,以支持其評估結(jié)果。在訓(xùn)練過程中,優(yōu)化目標(biāo)是標(biāo)準(zhǔn)的交叉熵?fù)p失,但僅計算模型預(yù)測答案的損失。


在訓(xùn)練好 UNIFIEDREWARD 之后,我們將其用于多模態(tài)理解和生成模型的偏好對齊。該過程包括兩個順序步驟:偏好數(shù)據(jù)構(gòu)建 和 生成/理解模型對齊。接下來的章節(jié)將詳細(xì)介紹每個步驟。

偏好數(shù)據(jù)構(gòu)建

偏好對齊數(shù)據(jù)的質(zhì)量直接決定了模型對齊的有效性?,F(xiàn)有方法 [28, 40, 44] 通常僅采用單一的評估策略,要么為模型輸出分配成對排序,要么給予單點評分,限制了數(shù)據(jù)的質(zhì)量和多樣性。相較之下,本文的方法同時利用 UNIFIEDREWARD 的成對排序和單點評分能力,從而構(gòu)建出更高質(zhì)量的偏好數(shù)據(jù)集,流程如前面圖 2(左下)所示。


本文的數(shù)據(jù)構(gòu)建流程包括以下三個順序步驟:

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)


通過結(jié)合成對排序和單點評分,最終的偏好數(shù)據(jù)能夠提供高質(zhì)量且可靠的偏好信號,有效捕捉相對比較和絕對質(zhì)量評估。

生成/理解模型對齊

在構(gòu)建偏好數(shù)據(jù)后,我們利用該數(shù)據(jù)進行多模態(tài)生成和理解模型的對齊。我們采用 DPO(Direct Preference Optimization) 方法,使模型能夠在不顯式建模獎勵的情況下對齊其輸出與人類偏好,直接基于排序的偏好對進行優(yōu)化。

多模態(tài)生成的 DPO

在多模態(tài)生成任務(wù)中,擴散模型由于其在圖像和視頻合成方面生成高質(zhì)量和多樣化輸出的能力,被廣泛應(yīng)用。因此,我們在擴散模型上應(yīng)用 DPO,使其輸出對齊人類偏好。

給定構(gòu)造的偏好對數(shù)據(jù)集

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

該損失函數(shù)鼓勵微調(diào)后的擴散模型減少對更受偏好樣本的去噪誤差,同時增加對較不受偏好樣本的去噪誤差,從而提升生成質(zhì)量。

多模態(tài)理解的 DPO

類似于生成模型的對齊,我們將 DPO 應(yīng)用于多模態(tài)理解模型(即 VLMs),以調(diào)整模型的響應(yīng)偏好。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

該損失函數(shù)鼓勵微調(diào)后的 VLMs 增加生成偏好響應(yīng)的概率,同時降低生成較不受偏好響應(yīng)的概率,從而提升模型對齊人類偏好的能力,并增強推理質(zhì)量。

實驗

實驗設(shè)置

模型與超參數(shù)設(shè)置

  • 獎勵模型(Reward Model):我們采用LLaVA-OneVision 7B (OV-7B)作為UNIFIEDREWARD的基礎(chǔ)架構(gòu),以利用其在圖像和視頻理解方面的強大性能。訓(xùn)練超參數(shù)如下:

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 多模態(tài)理解 DPO:

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 多模態(tài)生成 DPO:

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 數(shù)據(jù)集規(guī)模:

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

評測指標(biāo)

  • 多模態(tài)理解評測:
  • 圖像理解:VLRewardBench
  • 視頻理解:ShareGPTVideo(測試樣本數(shù):1K)
  • 多模態(tài)生成評測:
  • 圖像/視頻生成獎勵評測GenAI-Bench
  • 視頻生成評測VideoGen-RewardBench
  • DPO 評測:
  • 文本-圖像生成基準(zhǔn)Partiprompt(1632 captions)、HPSv2  (3200 captions)
  • 獎勵模型PickScoreHPDv2、ImageReward
  • 圖像理解LLaVABench、WildVision、LLaVABench-Wilder 、LiveBenchMMHal
  • 視頻理解MSRVTT、MSVDTGIF、LongVideoBench、MLVU、VideoMME
  • 圖像生成評測:
  • 視頻生成評測VBench

獎勵模型對比實驗

圖像理解

本文的方法與最新的開源模型 LLaVA-Critic 及兩個閉源模型 Gemini-1.5-Pro 和 GPT-4o 進行對比。


實驗結(jié)果(見下表 3)表明,本文的方法在大多數(shù)指標(biāo)上優(yōu)于最佳基線。例如,在 macro accuracy 方面,本文的方法達(dá)到了66.5%,顯著高于 LLaVA-Critic 的 62.5%,驗證了我們方法在圖像理解評測中的優(yōu)越性。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

視頻理解

由于目前尚無公開可用的基線模型,我們探索了 多任務(wù)學(xué)習(xí) 在視頻理解評測中的有效性,并將在后續(xù)章節(jié)詳細(xì)分析其影響。

圖像生成評測

本文的方法與傳統(tǒng)及最新的獎勵模型進行對比,包括:

  • PickScore
  • HPSv2
  • ImageReward
  • VisionReward

實驗結(jié)果(見下表 5)顯示,最新的 VisionReward 方法同時支持圖像和視頻生成的獎勵建模,但它為不同任務(wù)分別訓(xùn)練單獨的模型,而本文的方法在 統(tǒng)一框架 下進行多任務(wù)聯(lián)合學(xué)習(xí),從而在多個指標(biāo)上取得更優(yōu)結(jié)果。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

視頻生成評測

本文的方法與以下最新方法進行對比:

  • VideoScore(視頻生成評測模型)
  • LiFT(視頻獎勵模型)
  • VisionReward
  • VideoReward

盡管我們的視頻生成評測數(shù)據(jù)相對較少(見前面圖3),但實驗結(jié)果(上表 5)表明,本文的方法在所有基線方法中表現(xiàn)最佳。這表明 多任務(wù)學(xué)習(xí) 不僅能緩解訓(xùn)練數(shù)據(jù)不足的問題,還能增強視頻生成評測的學(xué)習(xí)效果。

多任務(wù)評估學(xué)習(xí)

在這項工作中,認(rèn)為視覺任務(wù)本質(zhì)上是相互關(guān)聯(lián)的,聯(lián)合學(xué)習(xí)多個視覺任務(wù)可能會產(chǎn)生相互增強的效果。因此,探索了多任務(wù)學(xué)習(xí)對獎勵模型的有效性。具體來說,對于每個任務(wù),我們使用不同的訓(xùn)練數(shù)據(jù)配置來訓(xùn)練模型,研究在不同模態(tài)(圖像和視頻)和任務(wù)(理解和生成)之間聯(lián)合學(xué)習(xí)的影響。例如,對于圖像理解任務(wù),我們設(shè)計了三種訓(xùn)練配置來探討多任務(wù)學(xué)習(xí)的影響:(1)僅在圖像理解評估上訓(xùn)練,(2)聯(lián)合學(xué)習(xí)圖像理解和圖像生成評估,(3)聯(lián)合學(xué)習(xí)圖像理解和視頻理解評估。結(jié)果如表3所示,值得注意的是,研究表明,相較于單一任務(wù)訓(xùn)練,多任務(wù)學(xué)習(xí)顯著增強了模型的整體性能。例如,在圖像和視頻理解任務(wù)上聯(lián)合訓(xùn)練,相較于僅在圖像理解上訓(xùn)練,整體準(zhǔn)確率提高了5.3%,宏觀準(zhǔn)確率提高了8.3%。下表4和表5中的其他任務(wù)結(jié)果一致地證明了聯(lián)合學(xué)習(xí)的有效性。這些結(jié)果突顯了跨不同視覺任務(wù)共享知識的好處,從而提高了獎勵模型的魯棒性和泛化能力。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

DPO比較結(jié)果

為了進一步展示本文方法在圖像和視頻理解與生成任務(wù)中的有效性,通過精細(xì)化輸出篩選來構(gòu)建偏好數(shù)據(jù),然后通過DPO進行模型對齊。

  • 圖像理解:將本文的方法與最新的獎勵模型LLaVA-Critic進行比較,使用相同的圖像-問題對源(LLaVA-RLHF)來構(gòu)建OV-7B的偏好數(shù)據(jù),確保公平比較。下表7中的結(jié)果表明,本文的方法在所有基準(zhǔn)測試中始終優(yōu)于LLaVA-Critic,例如,在LLaVABench上提高了3.4%的效果,突顯了其優(yōu)越性。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 視頻理解:從ShareGPTVideo-DPO中提取提示,構(gòu)建LLaVA-Video-7B的偏好數(shù)據(jù)。我們的結(jié)果表明,本文的方法在MSRVTT、MSVD和TGIF等數(shù)據(jù)集上顯著優(yōu)于基線,展示了其在視頻理解中的有效性,具體見下表6。對于其他三種多選問題數(shù)據(jù)集,盡管我們的DPO數(shù)據(jù)不包含此類數(shù)據(jù),但我們的性能仍與基線相當(dāng),表明了我們方法的魯棒性和泛化能力。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 圖像生成:使用Pick-a-Pic人類偏好圖像數(shù)據(jù)集的數(shù)據(jù),構(gòu)建偏好數(shù)據(jù)。下表9中的結(jié)果顯示,相較于直接在原始數(shù)據(jù)集上訓(xùn)練,本文的方法表現(xiàn)更好,證明了其在精細(xì)化偏好數(shù)據(jù)以改善模型對齊方面的有效性。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

  • 視頻生成:將本文的方法與VideoDPO進行比較,使用相同的提示源來構(gòu)建偏好數(shù)據(jù)。下表8中的結(jié)果表明,本文的方法顯著提高了生成質(zhì)量和語義一致性,突顯了其有效性。

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

圖像生成定性結(jié)果

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

視頻生成定性結(jié)果

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

多模態(tài)獎勵大一統(tǒng)!UNIFIEDREWARD突破任務(wù)邊界,圖像視頻雙域性能飆升的秘密-AI.x社區(qū)

結(jié)論

本文提出了UNIFIEDREWARD,第一個用于多模態(tài)理解和生成評估的統(tǒng)一獎勵模型,能夠處理配對排名和點評分兩種任務(wù)。UNIFIEDREWARD通過在涵蓋廣泛視覺任務(wù)的大規(guī)模綜合數(shù)據(jù)集上對預(yù)訓(xùn)練的視覺語言模型(VLM)進行微調(diào)來開發(fā)。然后,該模型用于通過詳細(xì)的過濾過程自動構(gòu)建高質(zhì)量的偏好配對數(shù)據(jù),這些數(shù)據(jù)隨后用于通過直接偏好優(yōu)化(DPO)進行模型對齊。實驗結(jié)果表明,跨不同視覺任務(wù)的聯(lián)合學(xué)習(xí)在圖像和視頻理解與生成任務(wù)中帶來了顯著的性能提升。這種方法增強了視覺模型與人類偏好之間的對齊,從而提高了推理質(zhì)量和任務(wù)性能。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/UBCaPLh-Tht2FJTUNaqfDw??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦