自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

邁向視覺大一統(tǒng):UnifiedReward,多模態(tài)生成與理解的通用獎(jiǎng)勵(lì)模型

人工智能 新聞
近年來(lái),大模型時(shí)代的多模態(tài)生成與理解技術(shù)取得了飛躍式發(fā)展。然而,如何讓AI真正“看懂”世界,并更好地對(duì)齊人類偏好,仍是一個(gè)核心挑戰(zhàn)。

本篇文章來(lái)自公眾號(hào)粉絲投稿,論文提出了一個(gè)視覺領(lǐng)域通用的獎(jiǎng)勵(lì)模型UnifiedReward,能夠?qū)D像/視頻的生成與理解進(jìn)行pairwise(成對(duì)比較)或 pointwise(單樣本打分)評(píng)估,可用于視覺各領(lǐng)域的直接偏好優(yōu)化 (DPO),提升各類視覺模型的表現(xiàn)。

論文介紹

圖片

近年來(lái),大模型時(shí)代的多模態(tài)生成與理解技術(shù)取得了飛躍式發(fā)展。然而,如何讓AI真正“看懂”世界,并更好地對(duì)齊人類偏好,仍是一個(gè)核心挑戰(zhàn)。現(xiàn)有的獎(jiǎng)勵(lì)模型往往過于專門化,難以跨任務(wù)泛化,限制了視覺模型在不同場(chǎng)景下的適應(yīng)性。

為此,該工作提出——UnifiedReward,首個(gè)統(tǒng)一的視覺獎(jiǎng)勵(lì)模型,能夠同時(shí)評(píng)估圖像/視頻的生成與理解,支持成對(duì)排序(pairwise ranking)和單樣本評(píng)分(pointwise scoring),并通過直接偏好優(yōu)化(DPO)對(duì)齊視覺模型的輸出,使其更符合人類審美與認(rèn)知!圖片

為什么需要 UnifiedReward?

  • 缺乏通用的視覺獎(jiǎng)勵(lì)模型:現(xiàn)有方法多為特定任務(wù)設(shè)計(jì),難以適應(yīng)多樣化的視覺場(chǎng)景。我們希望打造一個(gè)通用模型,同時(shí)覆蓋多模態(tài)生成與理解任務(wù)。
  • 多任務(wù)學(xué)習(xí)的協(xié)同增強(qiáng)效應(yīng): 提升圖像理解,有助于更精準(zhǔn)地評(píng)估圖像生成質(zhì)量; 更細(xì)粒度的圖像評(píng)估能力,有助于視頻評(píng)估,提升幀級(jí)質(zhì)量判斷。圖片

?? UnifiedReward 是如何工作的?

圖片

該方法包含三個(gè)關(guān)鍵階段:

  1. 統(tǒng)一獎(jiǎng)勵(lì)模型訓(xùn)練 通過構(gòu)建大規(guī)模的統(tǒng)一偏好數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)通用的視覺獎(jiǎng)勵(lì)模型,采用成對(duì)排序和單樣本評(píng)分策略,統(tǒng)一學(xué)習(xí)評(píng)估圖像/視頻的生成與理解任務(wù)。
  2. 高質(zhì)量偏好數(shù)據(jù)構(gòu)建 利用訓(xùn)練好的獎(jiǎng)勵(lì)模型,通過以下三步篩選偏好數(shù)據(jù):
  • 生成候選數(shù)據(jù):使用VLM/Diffusion 生成N 份數(shù)據(jù);
  • 成對(duì)排序:將N 份數(shù)據(jù)兩兩成對(duì),由獎(jiǎng)勵(lì)模型篩選優(yōu)選樣本和被拒樣本;
  • 逐點(diǎn)評(píng)分:在優(yōu)選組中選最高分,在被拒組中選最低分,構(gòu)建最終的高質(zhì)量偏好數(shù)據(jù)對(duì)。
  1. 生成/理解模型偏好對(duì)齊 利用構(gòu)建的偏好數(shù)據(jù),通過直接偏好優(yōu)化(DPO)微調(diào)VLM/Diffusion模型,對(duì)齊其輸出,使其更加符合人類偏好。

構(gòu)造的大規(guī)模統(tǒng)一偏好數(shù)據(jù)集構(gòu)造的大規(guī)模統(tǒng)一偏好數(shù)據(jù)集

實(shí)驗(yàn)結(jié)果如何?

 UnifiedReward 超越了現(xiàn)有視覺獎(jiǎng)勵(lì)模型,在多個(gè)主流評(píng)測(cè)基準(zhǔn)上取得 SOTA 結(jié)果! ? 多任務(wù)學(xué)習(xí)帶來(lái)了顯著的跨任務(wù)增強(qiáng)效果:聯(lián)合學(xué)習(xí)圖像/視頻的生成與理解任務(wù),可以讓模型在多個(gè)領(lǐng)域相互促進(jìn),取得更好的評(píng)估效果! ? DPO 微調(diào)顯著提升了視覺模型的表現(xiàn),使其輸出更符合人類偏好,提升了生成質(zhì)量與理解能力。圖片

圖片圖片圖片

開源與項(xiàng)目地址

UnifiedReward 的代碼、數(shù)據(jù)與模型已全面開源!

  • 項(xiàng)目主頁(yè):https://codegoat24.github.io/UnifiedReward/
  • 論文 PDF:https://arxiv.org/pdf/2503.05236
  • GitHub 代碼:https://github.com/CodeGoat24/UnifiedReward
  • Huggingface 預(yù)訓(xùn)練模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • Huggingface 訓(xùn)練數(shù)據(jù):https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

期待 UnifiedReward 能為視覺大模型的偏好對(duì)齊提供更強(qiáng)大的工具,拓寬獎(jiǎng)勵(lì)模型的應(yīng)用邊界,使其在多種視覺任務(wù)中展現(xiàn)更強(qiáng)適應(yīng)性、泛化性與高效性??!

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2025-04-16 02:55:00

2023-05-10 14:58:06

開源模型

2024-08-26 07:40:00

AI訓(xùn)練

2025-04-14 09:38:00

2024-01-24 09:24:19

自動(dòng)駕駛算法

2017-12-15 17:14:10

云端

2023-09-14 09:44:29

2015-05-06 13:52:52

微軟外媒

2014-07-29 13:25:43

WWDC 2014 S

2024-04-25 14:53:59

模型視覺

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2024-12-10 09:49:53

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-09-27 17:58:26

2025-03-18 09:29:54

2024-04-23 13:38:00

AI數(shù)據(jù)

2023-07-17 08:03:03

Shell腳本SQL

2023-07-22 13:17:33

人工智能框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)