自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

類R1強(qiáng)化學(xué)習(xí)遷移到視覺定位！全開源Vision-R1將圖文大模型性能提升50％

作者：機(jī)器之心 2025-04-09 09:15:00

人工智能新聞

中科院自動(dòng)化研究所與中科紫東太初團(tuán)隊(duì)探索了如何結(jié)合高質(zhì)量指令對齊數(shù)據(jù)與類 R1 的強(qiáng)化學(xué)習(xí)方法，進(jìn)一步增強(qiáng)圖文大模型的視覺定位能力。

圖文大模型通常采用「預(yù)訓(xùn)練 + 監(jiān)督微調(diào)」的兩階段范式進(jìn)行訓(xùn)練，以強(qiáng)化其指令跟隨能力。受語言領(lǐng)域的啟發(fā)，多模態(tài)偏好優(yōu)化技術(shù)憑借其在數(shù)據(jù)效率和性能增益方面的優(yōu)勢，被廣泛用于對齊人類偏好。目前，該技術(shù)主要依賴高質(zhì)量的偏好數(shù)據(jù)標(biāo)注和精準(zhǔn)的獎(jiǎng)勵(lì)模型訓(xùn)練來提升模型表現(xiàn)。然而，這一方法不僅資源消耗巨大，訓(xùn)練過程仍然極具挑戰(zhàn)。

受到基于規(guī)則的強(qiáng)化學(xué)習(xí)（Rule-Based Reinforcement Learning）在 R1 上成功應(yīng)用的啟發(fā)，中科院自動(dòng)化研究所與中科紫東太初團(tuán)隊(duì)探索了如何結(jié)合高質(zhì)量指令對齊數(shù)據(jù)與類 R1 的強(qiáng)化學(xué)習(xí)方法，進(jìn)一步增強(qiáng)圖文大模型的視覺定位能力。該方法首次在 Object Detection、Visual Grounding 等復(fù)雜視覺任務(wù)上，使 Qwen2.5-VL 模型實(shí)現(xiàn)了最高 50% 的性能提升，超越了參數(shù)規(guī)模超過 10 倍的 SOTA 模型。

目前，相關(guān)工作論文、模型及數(shù)據(jù)集代碼均已開源。

論文標(biāo)題：Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
論文地址：https://arxiv.org/pdf/2503.18013
Github 倉庫：https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
Huggingface 倉庫：https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262

引言

目標(biāo)定位任務(wù)要求模型能夠精準(zhǔn)識(shí)別用戶輸入的任意感興趣目標(biāo)，并給出精確的目標(biāo)框，對圖文大模型的細(xì)粒度感知和空間理解能力提出了嚴(yán)峻挑戰(zhàn)。當(dāng)前，圖文大模型通常將目標(biāo)定位建模為文本序列預(yù)測任務(wù)，并通過大規(guī)模預(yù)訓(xùn)練和指令數(shù)據(jù)的監(jiān)督微調(diào)，以 Next Token Prediction 實(shí)現(xiàn)對不同粒度目標(biāo)描述的精準(zhǔn)定位。盡管在指代表達(dá)理解等任務(wù)上已超越傳統(tǒng)視覺專家模型，但在更復(fù)雜、目標(biāo)密集的場景中，其視覺定位與目標(biāo)檢測能力仍與專家模型存在顯著差距。

R1 的成功應(yīng)用推動(dòng)了對基于規(guī)則的任務(wù)級別獎(jiǎng)勵(lì)監(jiān)督的探索，使模型擺脫了對人工偏好數(shù)據(jù)標(biāo)注和獎(jiǎng)勵(lì)模型訓(xùn)練的依賴。值得注意的是，視覺定位指令數(shù)據(jù)本身具有精準(zhǔn)的空間位置標(biāo)注，并與與人類對精準(zhǔn)目標(biāo)定位偏好高度一致?；谶@些優(yōu)勢，Vision-R1 通過設(shè)計(jì)類 R1 的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架，在任務(wù)級別監(jiān)督中引入基于視覺任務(wù)評價(jià)指標(biāo)的反饋獎(jiǎng)勵(lì)信號(hào)，為增強(qiáng)圖文大模型的細(xì)粒度視覺定位能力提供了創(chuàng)新突破方向。

Vision-R1 關(guān)鍵設(shè)計(jì)示意圖

Vision Criteria-Driven Reward Function

聚焦圖文大模型目標(biāo)定位問題

在文本序列的統(tǒng)一建模和大規(guī)模數(shù)據(jù)的自回歸訓(xùn)練下，圖文大模型在目標(biāo)定位任務(wù)上取得了顯著的性能提升。然而，其進(jìn)一步發(fā)展仍受到三大關(guān)鍵問題的限制：（1）密集場景中的長序列預(yù)測易出現(xiàn)格式錯(cuò)誤，（2）有效預(yù)測目標(biāo)的召回率較低，（3）目標(biāo)定位精度不足。

這些問題制約了模型在更復(fù)雜視覺任務(wù)上的表現(xiàn)。在自回歸 Token 級別的監(jiān)督機(jī)制下，模型無法獲得實(shí)例級別的反饋，而直接在單目標(biāo)場景下應(yīng)用 GRPO 訓(xùn)練方法又忽視了視覺定位任務(wù)的特性及 Completion 級別監(jiān)督的優(yōu)勢。

為此，研究團(tuán)隊(duì)結(jié)合圖文大模型在視覺定位任務(wù)中面臨的挑戰(zhàn)，提出了一種基于視覺任務(wù)評價(jià)準(zhǔn)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù)，其設(shè)計(jì)包括以下四個(gè)核心部分：

框優(yōu)先的預(yù)測匹配：與僅針對單個(gè)目標(biāo)進(jìn)行設(shè)計(jì)的方法不同，Vision-R1 采用多目標(biāo)預(yù)測的統(tǒng)一建模方式。為了計(jì)算包含多個(gè)目標(biāo)預(yù)測的獎(jiǎng)勵(lì)，Vision-R1 首先對文本序列化的預(yù)測結(jié)果進(jìn)行反序列化，提取出每個(gè)目標(biāo)的預(yù)測框及其標(biāo)簽，并將預(yù)測結(jié)果與真實(shí)標(biāo)注進(jìn)行匹配，以確保獎(jiǎng)勵(lì)機(jī)制能夠全面衡量多目標(biāo)場景下的定位質(zhì)量。
雙重格式獎(jiǎng)勵(lì)：該獎(jiǎng)勵(lì)項(xiàng)旨在解決密集場景下長序列預(yù)測的格式錯(cuò)誤問題。對于每個(gè)預(yù)測文本序列，模型需滿足指定的模板格式（如 Qwen2.5-VL 采用的 JSON 格式），并確保目標(biāo)坐標(biāo)的數(shù)值正確性。僅當(dāng)預(yù)測結(jié)果同時(shí)滿足格式和內(nèi)容要求時(shí)，模型才能獲得獎(jiǎng)勵(lì) 1，從而引導(dǎo)其生成符合標(biāo)準(zhǔn)的預(yù)測輸出。
召回獎(jiǎng)勵(lì)：該獎(jiǎng)勵(lì)項(xiàng)針對有效預(yù)測目標(biāo)召回率低的問題，鼓勵(lì)模型盡可能多地識(shí)別目標(biāo)。具體而言，針對每個(gè)預(yù)測目標(biāo)及其匹配的真實(shí)目標(biāo)（GT），當(dāng)兩者的 IoU 超過預(yù)設(shè)閾值 ζ 時(shí)，視為該預(yù)測有效。對于一個(gè)預(yù)測序列，其召回獎(jiǎng)勵(lì)定義為有效預(yù)測目標(biāo)數(shù)量與實(shí)際需要預(yù)測目標(biāo)數(shù)量的比例，以此激勵(lì)模型提高目標(biāo)的覆蓋率。

精度獎(jiǎng)勵(lì)：精度獎(jiǎng)勵(lì)與召回獎(jiǎng)勵(lì)協(xié)同作用，形成「1+1>2」的優(yōu)化效果。其中，召回獎(jiǎng)勵(lì)提升模型對目標(biāo)的全面識(shí)別能力，而精度獎(jiǎng)勵(lì)則確保預(yù)測的準(zhǔn)確性。精度獎(jiǎng)勵(lì)從單實(shí)例角度衡量預(yù)測質(zhì)量，其核心目標(biāo)是鼓勵(lì)模型生成高質(zhì)量的邊界框。具體地，精度獎(jiǎng)勵(lì)被定義為所有有效預(yù)測的平均 IoU 值，以直接激勵(lì)模型優(yōu)化目標(biāo)框的精確度：

Vision-R1 整體框架

Progressive Rule Refinement Strategy

實(shí)現(xiàn)持續(xù)性能提升

在目標(biāo)定位任務(wù)中，預(yù)測高質(zhì)量（高 IoU）的目標(biāo)框始終是一個(gè)挑戰(zhàn)，尤其是在密集場景和小目標(biāo)情況下。這種困難可能導(dǎo)致模型在同組預(yù)測中獎(jiǎng)勵(lì)差異較小，從而影響優(yōu)化效果。針對這一問題，研究團(tuán)隊(duì)提出了漸進(jìn)式規(guī)則調(diào)整策略，該策略通過在訓(xùn)練過程中動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)計(jì)算規(guī)則，旨在實(shí)現(xiàn)模型的持續(xù)性能提升。該策略主要包括兩個(gè)核心部分：

差異化策略：該策略的目標(biāo)是擴(kuò)大預(yù)測結(jié)果與實(shí)際獎(jiǎng)勵(lì)之間的映射差異。具體而言，通過懲罰低召回率（Recall）和低平均 IoU 的預(yù)測，并對高召回率和高 IoU 的預(yù)測給予較高獎(jiǎng)勵(lì)，從而鼓勵(lì)模型生成更高質(zhì)量的預(yù)測，尤其是在當(dāng)前能夠達(dá)到的最佳預(yù)測上獲得最大獎(jiǎng)勵(lì)。這一策略引導(dǎo)模型在訓(xùn)練過程中逐漸提高預(yù)測精度，同時(shí)避免低質(zhì)量預(yù)測的獎(jiǎng)勵(lì)過高，促進(jìn)其優(yōu)化。具體實(shí)現(xiàn)如下：

階段漸近策略：類似于許多有效的學(xué)習(xí)方法，給初學(xué)者設(shè)定容易實(shí)現(xiàn)的目標(biāo)并逐步提升獎(jiǎng)勵(lì)難度是一個(gè)常見且行之有效的策略。在 Vision-R1 中，訓(xùn)練過程被劃分為初學(xué)階段和進(jìn)階階段，并通過逐步調(diào)整閾值 ζ 來實(shí)現(xiàn)獎(jiǎng)勵(lì)規(guī)則的逐漸變化。具體來說：

初學(xué)階段（Beginner Phase）：在這一階段，設(shè)置較低的 ζ 閾值（0.5/0.75），給予模型相對寬松的獎(jiǎng)勵(lì)標(biāo)準(zhǔn)，幫助其快速入門并學(xué)習(xí)基礎(chǔ)的定位能力。
進(jìn)階階段（Advanced Phase）：隨著訓(xùn)練的深入，逐步提高 ζ 閾值，增加標(biāo)準(zhǔn)要求，以促使模型達(dá)到更高的準(zhǔn)確度，避免模型依賴簡單策略，從而持續(xù)推動(dòng)模型性能的提升。

不同模型的域內(nèi)外目標(biāo)檢測評測

為全面評估 Vision-R1 的效果，研究團(tuán)隊(duì)選擇了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型，在更有挑戰(zhàn)的經(jīng)典目標(biāo)檢測數(shù)據(jù)集 COCO 和多樣場景的 ODINW-13 上進(jìn)行測試，以展現(xiàn)方法對不同定位水平模型的適用性。

經(jīng)典 COCO/ODINW 數(shù)據(jù)集上 Vision-R1 方法相較于基線模型性能的提升

實(shí)驗(yàn)結(jié)果表明，無論基礎(chǔ)性能如何，與基線模型相比這些模型在 Vision-R1 訓(xùn)練后性能大幅提升，甚至超過同系列 SOTA 模型，進(jìn)一步接近了定位專家模型。

研究團(tuán)隊(duì)還在模型沒有訓(xùn)練的域外定位數(shù)據(jù)集上進(jìn)行測試，Vision-R1 在不同模型的四個(gè)數(shù)據(jù)集上取得了平均 6% 的性能提升，充分論證了方法的泛化性。

域外數(shù)據(jù)集上 Vision-R1 方法相較于基線模型性能的提升

模型通用問答能力評測

研究團(tuán)隊(duì)進(jìn)一步評估了模型在非定位等通用任務(wù)上的性能，以驗(yàn)證方法是否能在少量影響模型通用能力的情況下，大幅度提升模型的視覺定位能力。研究團(tuán)隊(duì)發(fā)現(xiàn)，Vision-R1 近乎不損失模型的通用能力，在通用問答、圖表問答等評測集上模型實(shí)現(xiàn)了與基準(zhǔn)模型基本一致的性能。

通用問答數(shù)據(jù)集上 Vision-R1 方法與基線模型性能的比較

可視化分析

研究團(tuán)隊(duì)提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多個(gè)場景下的目標(biāo)檢測可視化結(jié)果。如結(jié)果所示，Vision-R1 訓(xùn)練后，模型能夠更好召回所感興趣的物體，并進(jìn)一步提升定位的精度。

Vision-R1 訓(xùn)練模型與基準(zhǔn)模型檢測結(jié)果可視化

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<kbd id="3p0kl"></kbd><sub id="3p0kl"><i id="3p0kl"></i></sub>