自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="fqmwo"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

邁向視覺大一統(tǒng)：UnifiedReward，多模態(tài)生成與理解的通用獎(jiǎng)勵(lì)模型

作者：Yibin Wang 2025-03-13 10:18:42

人工智能新聞

近年來(lái)，大模型時(shí)代的多模態(tài)生成與理解技術(shù)取得了飛躍式發(fā)展。然而，如何讓AI真正“看懂”世界，并更好地對(duì)齊人類偏好，仍是一個(gè)核心挑戰(zhàn)。

本篇文章來(lái)自公眾號(hào)粉絲投稿，論文提出了一個(gè)視覺領(lǐng)域通用的獎(jiǎng)勵(lì)模型UnifiedReward，能夠?qū)D像/視頻的生成與理解進(jìn)行pairwise（成對(duì)比較）或 pointwise（單樣本打分）評(píng)估，可用于視覺各領(lǐng)域的直接偏好優(yōu)化 (DPO)，提升各類視覺模型的表現(xiàn)。

論文介紹

近年來(lái)，大模型時(shí)代的多模態(tài)生成與理解技術(shù)取得了飛躍式發(fā)展。然而，如何讓AI真正“看懂”世界，并更好地對(duì)齊人類偏好，仍是一個(gè)核心挑戰(zhàn)。現(xiàn)有的獎(jiǎng)勵(lì)模型往往過于專門化，難以跨任務(wù)泛化，限制了視覺模型在不同場(chǎng)景下的適應(yīng)性。

為此，該工作提出——UnifiedReward，首個(gè)統(tǒng)一的視覺獎(jiǎng)勵(lì)模型，能夠同時(shí)評(píng)估圖像/視頻的生成與理解，支持成對(duì)排序（pairwise ranking）和單樣本評(píng)分（pointwise scoring），并通過直接偏好優(yōu)化（DPO）對(duì)齊視覺模型的輸出，使其更符合人類審美與認(rèn)知！

為什么需要 UnifiedReward？

缺乏通用的視覺獎(jiǎng)勵(lì)模型：現(xiàn)有方法多為特定任務(wù)設(shè)計(jì)，難以適應(yīng)多樣化的視覺場(chǎng)景。我們希望打造一個(gè)通用模型，同時(shí)覆蓋多模態(tài)生成與理解任務(wù)。
多任務(wù)學(xué)習(xí)的協(xié)同增強(qiáng)效應(yīng)：提升圖像理解，有助于更精準(zhǔn)地評(píng)估圖像生成質(zhì)量；更細(xì)粒度的圖像評(píng)估能力，有助于視頻評(píng)估，提升幀級(jí)質(zhì)量判斷。

?? UnifiedReward 是如何工作的？

該方法包含三個(gè)關(guān)鍵階段：

統(tǒng)一獎(jiǎng)勵(lì)模型訓(xùn)練通過構(gòu)建大規(guī)模的統(tǒng)一偏好數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)通用的視覺獎(jiǎng)勵(lì)模型，采用成對(duì)排序和單樣本評(píng)分策略，統(tǒng)一學(xué)習(xí)評(píng)估圖像/視頻的生成與理解任務(wù)。
高質(zhì)量偏好數(shù)據(jù)構(gòu)建利用訓(xùn)練好的獎(jiǎng)勵(lì)模型，通過以下三步篩選偏好數(shù)據(jù)：

生成候選數(shù)據(jù)：使用VLM/Diffusion 生成N 份數(shù)據(jù)；
成對(duì)排序：將N 份數(shù)據(jù)兩兩成對(duì)，由獎(jiǎng)勵(lì)模型篩選優(yōu)選樣本和被拒樣本；
逐點(diǎn)評(píng)分：在優(yōu)選組中選最高分，在被拒組中選最低分，構(gòu)建最終的高質(zhì)量偏好數(shù)據(jù)對(duì)。

生成/理解模型偏好對(duì)齊利用構(gòu)建的偏好數(shù)據(jù)，通過直接偏好優(yōu)化（DPO）微調(diào)VLM/Diffusion模型，對(duì)齊其輸出，使其更加符合人類偏好。

構(gòu)造的大規(guī)模統(tǒng)一偏好數(shù)據(jù)集

實(shí)驗(yàn)結(jié)果如何？

UnifiedReward 超越了現(xiàn)有視覺獎(jiǎng)勵(lì)模型，在多個(gè)主流評(píng)測(cè)基準(zhǔn)上取得 SOTA 結(jié)果！ ? 多任務(wù)學(xué)習(xí)帶來(lái)了顯著的跨任務(wù)增強(qiáng)效果：聯(lián)合學(xué)習(xí)圖像/視頻的生成與理解任務(wù)，可以讓模型在多個(gè)領(lǐng)域相互促進(jìn)，取得更好的評(píng)估效果！ ? DPO 微調(diào)顯著提升了視覺模型的表現(xiàn)，使其輸出更符合人類偏好，提升了生成質(zhì)量與理解能力。

開源與項(xiàng)目地址

UnifiedReward 的代碼、數(shù)據(jù)與模型已全面開源！

項(xiàng)目主頁(yè)：https://codegoat24.github.io/UnifiedReward/
論文 PDF：https://arxiv.org/pdf/2503.05236
GitHub 代碼：https://github.com/CodeGoat24/UnifiedReward
Huggingface 預(yù)訓(xùn)練模型：https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
Huggingface 訓(xùn)練數(shù)據(jù)：https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

期待 UnifiedReward 能為視覺大模型的偏好對(duì)齊提供更強(qiáng)大的工具，拓寬獎(jiǎng)勵(lì)模型的應(yīng)用邊界，使其在多種視覺任務(wù)中展現(xiàn)更強(qiáng)適應(yīng)性、泛化性與高效性??！

責(zé)任編輯：張燕妮來(lái)源： AIGC Studio

大模型視覺 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="6skgl"><i id="6skgl"></i></thead>