自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1

發(fā)布于 2025-3-13 08:06
瀏覽
0收藏

DeepSeek在領(lǐng)域內(nèi)獲得廣泛關(guān)注的核心在于R1-Zero僅通過強化學(xué)習(xí)(RL)便成功實現(xiàn)了推理能力的涌現(xiàn),即發(fā)現(xiàn)Aha moment。那么,在多模態(tài)領(lǐng)域,是否也能獲得借鑒R1-Zero的思路呢?

今天介紹的Vision-R1就是這一方面的探索的代表, 其目的就是研究如何有效利用 RL 來增強多模態(tài)大型語言模型(MLLM)的推理能力。然而,研究團隊發(fā)現(xiàn),由于缺乏大規(guī)模、高質(zhì)量的多模態(tài)推理數(shù)據(jù),直接應(yīng)用 RL 訓(xùn)練 MLLM 在激發(fā)其深層推理能力(如提問和反思)方面面臨巨大挑戰(zhàn)。

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

為解決這一難題,Vision-R1 項目創(chuàng)新性地提出了一個推理型 MLLM,并采取了由冷啟動初始化和 RL 訓(xùn)練 組成的兩階段策略。項目首先著力構(gòu)建高質(zhì)量、大規(guī)模且無需人工標(biāo)注的多模態(tài) Chain-of-Thought (CoT) 數(shù)據(jù)集——Vision-R1-cold 數(shù)據(jù)集。該數(shù)據(jù)集規(guī)模達 20 萬條,巧妙地利用現(xiàn)有的 MLLM 和 DeepSeek-R1,通過模態(tài)橋接數(shù)據(jù)過濾等技術(shù),將視覺信息轉(zhuǎn)化為文本信息,并融入 DeepSeek-R1 生成的高質(zhì)量 CoT 推理過程,為 Vision-R1 提供了至關(guān)重要的冷啟動知識。

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

數(shù)據(jù)集例子

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

冷啟動初始化數(shù)據(jù)準(zhǔn)備

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

RL訓(xùn)練

為緩解冷啟動后模型易出現(xiàn)的“過度思考優(yōu)化問題”,Vision-R1 進一步創(chuàng)新性地提出了漸進式思維抑制訓(xùn)練 (PTST) 策略。PTST 結(jié)合群體相對策略優(yōu)化 (GRPO) 算法和硬格式化結(jié)果獎勵函數(shù) (HFRRF),在 1 萬條多模態(tài)數(shù)學(xué)數(shù)據(jù)集上進行 RL 訓(xùn)練,逐步精煉模型學(xué)習(xí)正確且復(fù)雜的推理過程的能力。PTST 策略在訓(xùn)練初期抑制模型推理長度,引導(dǎo)模型關(guān)注正確的推理路徑,并隨著訓(xùn)練深入,逐步放寬長度限制,最終使 Vision-R1 能夠自主掌握更高級的推理技巧。

Vision-R1:多模態(tài)領(lǐng)域的DeepSeek R1-Zero,7B參數(shù)比肩OpenAI O1-AI.x社區(qū)

從實驗結(jié)果上看,在多個多模態(tài)數(shù)學(xué)推理基準(zhǔn)測試中,Vision-R1 模型較之于其基礎(chǔ)模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在廣泛使用的 MathVista 基準(zhǔn)測試中,僅使用 70 億參數(shù)的 Vision-R1-7B 模型,其準(zhǔn)確率便達到了 73.5%,僅比領(lǐng)先的推理模型 OpenAI O1 低 0.4%,大幅超越開源推理MLLM LLaVA-Cot-11B近9%。這充分展現(xiàn)了 Vision-R1 在多模態(tài)推理任務(wù)上的強大實力。

Vision-R1的成功說明采用DeepSeek R1的思路是普遍有效的,這對于其它研究者來講給予了非常大的示范意義,如何更好的使用RL激發(fā)大模型的潛力將成為重點的研究方向。

github:https://github.com/Osilly/Vision-R1 

論文:https://arxiv.org/abs/2503.06749

本文轉(zhuǎn)載自 ??AI工程化??,作者: ully

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦