邁向視覺大一統(tǒng):UnifiedReward,多模態(tài)生成與理解的通用獎(jiǎng)勵(lì)模型
本篇文章來(lái)自公眾號(hào)粉絲投稿,論文提出了一個(gè)視覺領(lǐng)域通用的獎(jiǎng)勵(lì)模型UnifiedReward,能夠?qū)D像/視頻的生成與理解進(jìn)行pairwise(成對(duì)比較)或 pointwise(單樣本打分)評(píng)估,可用于視覺各領(lǐng)域的直接偏好優(yōu)化 (DPO),提升各類視覺模型的表現(xiàn)。
論文介紹
近年來(lái),大模型時(shí)代的多模態(tài)生成與理解技術(shù)取得了飛躍式發(fā)展。然而,如何讓AI真正“看懂”世界,并更好地對(duì)齊人類偏好,仍是一個(gè)核心挑戰(zhàn)。現(xiàn)有的獎(jiǎng)勵(lì)模型往往過于專門化,難以跨任務(wù)泛化,限制了視覺模型在不同場(chǎng)景下的適應(yīng)性。
為此,該工作提出——UnifiedReward,首個(gè)統(tǒng)一的視覺獎(jiǎng)勵(lì)模型,能夠同時(shí)評(píng)估圖像/視頻的生成與理解,支持成對(duì)排序(pairwise ranking)和單樣本評(píng)分(pointwise scoring),并通過直接偏好優(yōu)化(DPO)對(duì)齊視覺模型的輸出,使其更符合人類審美與認(rèn)知!
為什么需要 UnifiedReward?
- 缺乏通用的視覺獎(jiǎng)勵(lì)模型:現(xiàn)有方法多為特定任務(wù)設(shè)計(jì),難以適應(yīng)多樣化的視覺場(chǎng)景。我們希望打造一個(gè)通用模型,同時(shí)覆蓋多模態(tài)生成與理解任務(wù)。
- 多任務(wù)學(xué)習(xí)的協(xié)同增強(qiáng)效應(yīng): 提升圖像理解,有助于更精準(zhǔn)地評(píng)估圖像生成質(zhì)量; 更細(xì)粒度的圖像評(píng)估能力,有助于視頻評(píng)估,提升幀級(jí)質(zhì)量判斷。
?? UnifiedReward 是如何工作的?
該方法包含三個(gè)關(guān)鍵階段:
- 統(tǒng)一獎(jiǎng)勵(lì)模型訓(xùn)練 通過構(gòu)建大規(guī)模的統(tǒng)一偏好數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)通用的視覺獎(jiǎng)勵(lì)模型,采用成對(duì)排序和單樣本評(píng)分策略,統(tǒng)一學(xué)習(xí)評(píng)估圖像/視頻的生成與理解任務(wù)。
- 高質(zhì)量偏好數(shù)據(jù)構(gòu)建 利用訓(xùn)練好的獎(jiǎng)勵(lì)模型,通過以下三步篩選偏好數(shù)據(jù):
- 生成候選數(shù)據(jù):使用VLM/Diffusion 生成N 份數(shù)據(jù);
- 成對(duì)排序:將N 份數(shù)據(jù)兩兩成對(duì),由獎(jiǎng)勵(lì)模型篩選優(yōu)選樣本和被拒樣本;
- 逐點(diǎn)評(píng)分:在優(yōu)選組中選最高分,在被拒組中選最低分,構(gòu)建最終的高質(zhì)量偏好數(shù)據(jù)對(duì)。
- 生成/理解模型偏好對(duì)齊 利用構(gòu)建的偏好數(shù)據(jù),通過直接偏好優(yōu)化(DPO)微調(diào)VLM/Diffusion模型,對(duì)齊其輸出,使其更加符合人類偏好。
構(gòu)造的大規(guī)模統(tǒng)一偏好數(shù)據(jù)集
實(shí)驗(yàn)結(jié)果如何?
UnifiedReward 超越了現(xiàn)有視覺獎(jiǎng)勵(lì)模型,在多個(gè)主流評(píng)測(cè)基準(zhǔn)上取得 SOTA 結(jié)果! ? 多任務(wù)學(xué)習(xí)帶來(lái)了顯著的跨任務(wù)增強(qiáng)效果:聯(lián)合學(xué)習(xí)圖像/視頻的生成與理解任務(wù),可以讓模型在多個(gè)領(lǐng)域相互促進(jìn),取得更好的評(píng)估效果! ? DPO 微調(diào)顯著提升了視覺模型的表現(xiàn),使其輸出更符合人類偏好,提升了生成質(zhì)量與理解能力。
開源與項(xiàng)目地址
UnifiedReward 的代碼、數(shù)據(jù)與模型已全面開源!
- 項(xiàng)目主頁(yè):https://codegoat24.github.io/UnifiedReward/
- 論文 PDF:https://arxiv.org/pdf/2503.05236
- GitHub 代碼:https://github.com/CodeGoat24/UnifiedReward
- Huggingface 預(yù)訓(xùn)練模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
- Huggingface 訓(xùn)練數(shù)據(jù):https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede
期待 UnifiedReward 能為視覺大模型的偏好對(duì)齊提供更強(qiáng)大的工具,拓寬獎(jiǎng)勵(lì)模型的應(yīng)用邊界,使其在多種視覺任務(wù)中展現(xiàn)更強(qiáng)適應(yīng)性、泛化性與高效性??!