類R1強(qiáng)化學(xué)習(xí)遷移到視覺定位!全開源Vision-R1將圖文大模型性能提升50%
圖文大模型通常采用「預(yù)訓(xùn)練 + 監(jiān)督微調(diào)」的兩階段范式進(jìn)行訓(xùn)練,以強(qiáng)化其指令跟隨能力。受語言領(lǐng)域的啟發(fā),多模態(tài)偏好優(yōu)化技術(shù)憑借其在數(shù)據(jù)效率和性能增益方面的優(yōu)勢,被廣泛用于對齊人類偏好。目前,該技術(shù)主要依賴高質(zhì)量的偏好數(shù)據(jù)標(biāo)注和精準(zhǔn)的獎(jiǎng)勵(lì)模型訓(xùn)練來提升模型表現(xiàn)。然而,這一方法不僅資源消耗巨大,訓(xùn)練過程仍然極具挑戰(zhàn)。
受到基于規(guī)則的強(qiáng)化學(xué)習(xí)(Rule-Based Reinforcement Learning)在 R1 上成功應(yīng)用的啟發(fā),中科院自動(dòng)化研究所與中科紫東太初團(tuán)隊(duì)探索了如何結(jié)合高質(zhì)量指令對齊數(shù)據(jù)與類 R1 的強(qiáng)化學(xué)習(xí)方法,進(jìn)一步增強(qiáng)圖文大模型的視覺定位能力。該方法首次在 Object Detection、Visual Grounding 等復(fù)雜視覺任務(wù)上,使 Qwen2.5-VL 模型實(shí)現(xiàn)了最高 50% 的性能提升,超越了參數(shù)規(guī)模超過 10 倍的 SOTA 模型。
目前,相關(guān)工作論文、模型及數(shù)據(jù)集代碼均已開源。
- 論文標(biāo)題:Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
- 論文地址:https://arxiv.org/pdf/2503.18013
- Github 倉庫:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
- Huggingface 倉庫:https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262
引言
目標(biāo)定位任務(wù)要求模型能夠精準(zhǔn)識(shí)別用戶輸入的任意感興趣目標(biāo),并給出精確的目標(biāo)框,對圖文大模型的細(xì)粒度感知和空間理解能力提出了嚴(yán)峻挑戰(zhàn)。當(dāng)前,圖文大模型通常將目標(biāo)定位建模為文本序列預(yù)測任務(wù),并通過大規(guī)模預(yù)訓(xùn)練和指令數(shù)據(jù)的監(jiān)督微調(diào),以 Next Token Prediction 實(shí)現(xiàn)對不同粒度目標(biāo)描述的精準(zhǔn)定位。盡管在指代表達(dá)理解等任務(wù)上已超越傳統(tǒng)視覺專家模型,但在更復(fù)雜、目標(biāo)密集的場景中,其視覺定位與目標(biāo)檢測能力仍與專家模型存在顯著差距。
R1 的成功應(yīng)用推動(dòng)了對基于規(guī)則的任務(wù)級別獎(jiǎng)勵(lì)監(jiān)督的探索,使模型擺脫了對人工偏好數(shù)據(jù)標(biāo)注和獎(jiǎng)勵(lì)模型訓(xùn)練的依賴。值得注意的是,視覺定位指令數(shù)據(jù)本身具有精準(zhǔn)的空間位置標(biāo)注,并與與人類對精準(zhǔn)目標(biāo)定位偏好高度一致?;谶@些優(yōu)勢,Vision-R1 通過設(shè)計(jì)類 R1 的強(qiáng)化學(xué)習(xí)后訓(xùn)練框架,在任務(wù)級別監(jiān)督中引入基于視覺任務(wù)評價(jià)指標(biāo)的反饋獎(jiǎng)勵(lì)信號(hào),為增強(qiáng)圖文大模型的細(xì)粒度視覺定位能力提供了創(chuàng)新突破方向。
Vision-R1 關(guān)鍵設(shè)計(jì)示意圖
Vision Criteria-Driven Reward Function
聚焦圖文大模型目標(biāo)定位問題
在文本序列的統(tǒng)一建模和大規(guī)模數(shù)據(jù)的自回歸訓(xùn)練下,圖文大模型在目標(biāo)定位任務(wù)上取得了顯著的性能提升。然而,其進(jìn)一步發(fā)展仍受到三大關(guān)鍵問題的限制:(1)密集場景中的長序列預(yù)測易出現(xiàn)格式錯(cuò)誤,(2)有效預(yù)測目標(biāo)的召回率較低,(3)目標(biāo)定位精度不足。
這些問題制約了模型在更復(fù)雜視覺任務(wù)上的表現(xiàn)。在自回歸 Token 級別的監(jiān)督機(jī)制下,模型無法獲得實(shí)例級別的反饋,而直接在單目標(biāo)場景下應(yīng)用 GRPO 訓(xùn)練方法又忽視了視覺定位任務(wù)的特性及 Completion 級別監(jiān)督的優(yōu)勢。
為此,研究團(tuán)隊(duì)結(jié)合圖文大模型在視覺定位任務(wù)中面臨的挑戰(zhàn),提出了一種基于視覺任務(wù)評價(jià)準(zhǔn)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù),其設(shè)計(jì)包括以下四個(gè)核心部分:
- 框優(yōu)先的預(yù)測匹配:與僅針對單個(gè)目標(biāo)進(jìn)行設(shè)計(jì)的方法不同,Vision-R1 采用多目標(biāo)預(yù)測的統(tǒng)一建模方式。為了計(jì)算包含多個(gè)目標(biāo)預(yù)測的獎(jiǎng)勵(lì),Vision-R1 首先對文本序列化的預(yù)測結(jié)果進(jìn)行反序列化,提取出每個(gè)目標(biāo)的預(yù)測框及其標(biāo)簽,并將預(yù)測結(jié)果與真實(shí)標(biāo)注進(jìn)行匹配,以確保獎(jiǎng)勵(lì)機(jī)制能夠全面衡量多目標(biāo)場景下的定位質(zhì)量。
- 雙重格式獎(jiǎng)勵(lì):該獎(jiǎng)勵(lì)項(xiàng)旨在解決密集場景下長序列預(yù)測的格式錯(cuò)誤問題。對于每個(gè)預(yù)測文本序列,模型需滿足指定的模板格式(如 Qwen2.5-VL 采用的 JSON 格式),并確保目標(biāo)坐標(biāo)的數(shù)值正確性。僅當(dāng)預(yù)測結(jié)果同時(shí)滿足格式和內(nèi)容要求時(shí),模型才能獲得獎(jiǎng)勵(lì) 1,從而引導(dǎo)其生成符合標(biāo)準(zhǔn)的預(yù)測輸出。
- 召回獎(jiǎng)勵(lì):該獎(jiǎng)勵(lì)項(xiàng)針對有效預(yù)測目標(biāo)召回率低的問題,鼓勵(lì)模型盡可能多地識(shí)別目標(biāo)。具體而言,針對每個(gè)預(yù)測目標(biāo)及其匹配的真實(shí)目標(biāo)(GT),當(dāng)兩者的 IoU 超過預(yù)設(shè)閾值 ζ 時(shí),視為該預(yù)測有效。對于一個(gè)預(yù)測序列,其召回獎(jiǎng)勵(lì)定義為有效預(yù)測目標(biāo)數(shù)量與實(shí)際需要預(yù)測目標(biāo)數(shù)量的比例,以此激勵(lì)模型提高目標(biāo)的覆蓋率。
- 精度獎(jiǎng)勵(lì):精度獎(jiǎng)勵(lì)與召回獎(jiǎng)勵(lì)協(xié)同作用,形成「1+1>2」的優(yōu)化效果。其中,召回獎(jiǎng)勵(lì)提升模型對目標(biāo)的全面識(shí)別能力,而精度獎(jiǎng)勵(lì)則確保預(yù)測的準(zhǔn)確性。精度獎(jiǎng)勵(lì)從單實(shí)例角度衡量預(yù)測質(zhì)量,其核心目標(biāo)是鼓勵(lì)模型生成高質(zhì)量的邊界框。具體地,精度獎(jiǎng)勵(lì)被定義為所有有效預(yù)測的平均 IoU 值,以直接激勵(lì)模型優(yōu)化目標(biāo)框的精確度:
Vision-R1 整體框架
Progressive Rule Refinement Strategy
實(shí)現(xiàn)持續(xù)性能提升
在目標(biāo)定位任務(wù)中,預(yù)測高質(zhì)量(高 IoU)的目標(biāo)框始終是一個(gè)挑戰(zhàn),尤其是在密集場景和小目標(biāo)情況下。這種困難可能導(dǎo)致模型在同組預(yù)測中獎(jiǎng)勵(lì)差異較小,從而影響優(yōu)化效果。針對這一問題,研究團(tuán)隊(duì)提出了漸進(jìn)式規(guī)則調(diào)整策略,該策略通過在訓(xùn)練過程中動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)計(jì)算規(guī)則,旨在實(shí)現(xiàn)模型的持續(xù)性能提升。該策略主要包括兩個(gè)核心部分:
差異化策略:該策略的目標(biāo)是擴(kuò)大預(yù)測結(jié)果與實(shí)際獎(jiǎng)勵(lì)之間的映射差異。具體而言,通過懲罰低召回率(Recall)和低平均 IoU 的預(yù)測,并對高召回率和高 IoU 的預(yù)測給予較高獎(jiǎng)勵(lì),從而鼓勵(lì)模型生成更高質(zhì)量的預(yù)測,尤其是在當(dāng)前能夠達(dá)到的最佳預(yù)測上獲得最大獎(jiǎng)勵(lì)。這一策略引導(dǎo)模型在訓(xùn)練過程中逐漸提高預(yù)測精度,同時(shí)避免低質(zhì)量預(yù)測的獎(jiǎng)勵(lì)過高,促進(jìn)其優(yōu)化。具體實(shí)現(xiàn)如下:
階段漸近策略:類似于許多有效的學(xué)習(xí)方法,給初學(xué)者設(shè)定容易實(shí)現(xiàn)的目標(biāo)并逐步提升獎(jiǎng)勵(lì)難度是一個(gè)常見且行之有效的策略。在 Vision-R1 中,訓(xùn)練過程被劃分為初學(xué)階段和進(jìn)階階段,并通過逐步調(diào)整閾值 ζ 來實(shí)現(xiàn)獎(jiǎng)勵(lì)規(guī)則的逐漸變化。具體來說:
- 初學(xué)階段(Beginner Phase): 在這一階段,設(shè)置較低的 ζ 閾值(0.5/0.75),給予模型相對寬松的獎(jiǎng)勵(lì)標(biāo)準(zhǔn),幫助其快速入門并學(xué)習(xí)基礎(chǔ)的定位能力。
- 進(jìn)階階段(Advanced Phase): 隨著訓(xùn)練的深入,逐步提高 ζ 閾值,增加標(biāo)準(zhǔn)要求,以促使模型達(dá)到更高的準(zhǔn)確度,避免模型依賴簡單策略,從而持續(xù)推動(dòng)模型性能的提升。
不同模型的域內(nèi)外目標(biāo)檢測評測
為全面評估 Vision-R1 的效果,研究團(tuán)隊(duì)選擇了近期定位能力大幅提升的 Qwen2.5-VL-7B 模型和定位能力突出的 Griffon-G-7B 模型,在更有挑戰(zhàn)的經(jīng)典目標(biāo)檢測數(shù)據(jù)集 COCO 和多樣場景的 ODINW-13 上進(jìn)行測試,以展現(xiàn)方法對不同定位水平模型的適用性。
經(jīng)典 COCO/ODINW 數(shù)據(jù)集上 Vision-R1 方法相較于基線模型性能的提升
實(shí)驗(yàn)結(jié)果表明,無論基礎(chǔ)性能如何,與基線模型相比這些模型在 Vision-R1 訓(xùn)練后性能大幅提升,甚至超過同系列 SOTA 模型,進(jìn)一步接近了定位專家模型。
研究團(tuán)隊(duì)還在模型沒有訓(xùn)練的域外定位數(shù)據(jù)集上進(jìn)行測試,Vision-R1 在不同模型的四個(gè)數(shù)據(jù)集上取得了平均 6% 的性能提升,充分論證了方法的泛化性。
域外數(shù)據(jù)集上 Vision-R1 方法相較于基線模型性能的提升
模型通用問答能力評測
研究團(tuán)隊(duì)進(jìn)一步評估了模型在非定位等通用任務(wù)上的性能,以驗(yàn)證方法是否能在少量影響模型通用能力的情況下,大幅度提升模型的視覺定位能力。研究團(tuán)隊(duì)發(fā)現(xiàn),Vision-R1 近乎不損失模型的通用能力,在通用問答、圖表問答等評測集上模型實(shí)現(xiàn)了與基準(zhǔn)模型基本一致的性能。
通用問答數(shù)據(jù)集上 Vision-R1 方法與基線模型性能的比較
可視化分析
研究團(tuán)隊(duì)提供了在 Qwen2.5-VL-7B 模型上使用 Vision-R1 后在多個(gè)場景下的目標(biāo)檢測可視化結(jié)果。如結(jié)果所示,Vision-R1 訓(xùn)練后,模型能夠更好召回所感興趣的物體,并進(jìn)一步提升定位的精度。
Vision-R1 訓(xùn)練模型與基準(zhǔn)模型檢測結(jié)果可視化