自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

人工智能
從未經(jīng)專門推理優(yōu)化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)開始,直接應(yīng)用 RL 訓(xùn)練。使用與 Vision-R1 相同的獎勵函數(shù),即硬格式結(jié)果獎勵函數(shù)(HFRRF):如果輸出格式正確且答案正確,獎勵為 1,否則為 0。訓(xùn)練目標(biāo)是激勵模型生成多模態(tài) CoT,解決數(shù)學(xué)推理任務(wù)。

剛開始琢磨使用DeepSeek-R1風(fēng)格訓(xùn)練多模態(tài)R1模型,就看到這個工作,本文一起看看,供參考。

先提出問題,僅靠 RL 是否足以激勵 MLLM 的推理能力?

結(jié)論:不能,因為如果 RL 能有效激勵推理能力,Vision-R1-Zero 應(yīng)該表現(xiàn)出生成復(fù)雜 CoT 的能力,并在基準(zhǔn)測試中提升準(zhǔn)確率。如下圖D和E所示:

圖片圖片

方法:從未經(jīng)專門推理優(yōu)化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)開始,直接應(yīng)用 RL 訓(xùn)練。使用與 Vision-R1 相同的獎勵函數(shù),即硬格式結(jié)果獎勵函數(shù)(HFRRF):如果輸出格式正確且答案正確,獎勵為 1,否則為 0。訓(xùn)練目標(biāo)是激勵模型生成多模態(tài) CoT,解決數(shù)學(xué)推理任務(wù)。

系統(tǒng)提示與獎勵格式和Deepseek相似:

  • 系統(tǒng)提示:
A conversation between User and
Assistant. ... first thinks about
the reasoning process ... provides
the user with the answer. The
reasoning process and answer are
enclosed within <think> </think> and
<answer> </answer> tags ...
  • 獎勵格式:
<think> </think><answer></answer>

方法架構(gòu)

僅靠強化學(xué)習(xí)(RL)無法有效激勵多模態(tài)大型語言模型(MLLM)的推理能力,主要原因是缺乏高質(zhì)量初始數(shù)據(jù)和優(yōu)化策略

因此,可以知道Vision-R1 的目標(biāo)是:

  • 生成高質(zhì)量的多模態(tài)推理鏈(CoT)數(shù)據(jù)集,無需人工標(biāo)注。
  • 通過 RL 優(yōu)化模型,使其生成邏輯清晰、長度適中的 CoT,避免過度思考(Overthinking)。

基于此,Vision-R1 提出了一種兩階段方法,通過冷啟動初始化和漸進式 RL 訓(xùn)練。

Vision-R1流程Vision-R1流程

1. 冷啟動初始化

冷啟動初始化是通過構(gòu)建一個高質(zhì)量的多模態(tài)鏈?zhǔn)酵评恚–oT)數(shù)據(jù)集來實現(xiàn)的。目的是為模型提供一個初始的、高質(zhì)量的推理示例,以便在后續(xù)的強化學(xué)習(xí)過程中更好地學(xué)習(xí)和改進推理能力。

冷啟動初始化的核心在于如何從多模態(tài)數(shù)據(jù)中提取出高質(zhì)量的推理過程。由于多模態(tài)大型語言模型(MLLMs)通常難以直接處理多模態(tài)輸入,提出了一種稱為“模態(tài)橋接”(Modality Bridging)的方法來實現(xiàn)這一目標(biāo)。

整體數(shù)據(jù)生成流程整體數(shù)據(jù)生成流程

實現(xiàn)細節(jié)

步驟

作用

方法

1. 偽 CoT 生成

MLLM 處理圖像-文本對,生成初步推理步驟

使用 Qwen-2.5VL-72B

2. 詳細描述獲取

通過提示獲取支持回答問題的詳細圖像描述

提示模板見論文

3. CoT 提取與優(yōu)化

DeepSeek-R1 提取并優(yōu)化 CoT

DeepSeek-R1 見

4. 數(shù)據(jù)過濾

規(guī)則過濾確保數(shù)據(jù)質(zhì)量

200K Vision-R1-cold 數(shù)據(jù)集

  • 偽CoT生成:首先,使用現(xiàn)有的多模態(tài)大型語言模型(MLLM)來生成“偽CoT”(Pseudo-CoT)。具體的,輸入一個圖像-問題-答案對和一個提示到一個MLLM中,模型會生成一個包含圖像描述和推理過程的文本。這個“偽CoT”不僅包含了圖像的描述,還嘗試進行初步的推理,但可能缺乏深度和復(fù)雜性。

通過帶有和不帶“偽CoT”的描述生成的CoT過程比較。通過帶有和不帶“偽CoT”的描述生成的CoT過程比較。

  • 文本描述生成:將生成的“偽CoT”與原始的圖像-問題對以及一個新的提示一起輸入到同一個MLLM中,以獲取更詳細的圖像描述。這一步驟的目的是通過MLLM的文本生成能力,將圖像中的視覺信息轉(zhuǎn)化為更詳細的文本描述,從而為后續(xù)的推理提供更多的上下文信息。
  • 推理生成:將經(jīng)過文本化的圖像-問題對輸入到一個專門的推理大型語言模型(如DeepSeek-R1)中,以生成高質(zhì)量的CoT推理過程。DeepSeek-R1能夠生成包含自然認(rèn)知過程的推理過程,如質(zhì)疑、反思和檢查等。
  • 數(shù)據(jù)過濾:從生成的CoT數(shù)據(jù)中保留那些最終答案與真實值一致的樣本。使用規(guī)則進行數(shù)據(jù)過濾,去除邏輯不一致的樣本,并替換一些詞匯以提高語義連貫性。

冷啟動數(shù)據(jù)源:

圖片圖片

小結(jié):冷啟動初始化的主要目的是為模型提供一個高質(zhì)量的起點,使得模型在后續(xù)的強化學(xué)習(xí)過程中能夠更快地學(xué)習(xí)和改進其推理能力。

2 漸進式思維抑制訓(xùn)練(PTST)

圖片圖片

為了解決冷啟動后的過度思考問題,Vision-R1 采用漸進式思維抑制訓(xùn)練(PTST),通過 RL 進一步優(yōu)化模型的推理能力。

  • 分組相對策略優(yōu)化(GRPO): GRPO 是一種 RL 算法,通過分組類似狀態(tài)或動作來優(yōu)化策略,提高學(xué)習(xí)效率。  詳細的可參考往期《DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過程淺析
  • 硬格式結(jié)果獎勵函數(shù)(HFRRF): 獎勵函數(shù)簡單:如果輸出格式正確且答案正確,則獎勵為 1,否則為 0。
  • 分階段訓(xùn)練: 訓(xùn)練分為多個階段,逐步增加序列長度(如 4K、8K、16K 標(biāo)記)和調(diào)整組大?。ㄈ?16、8、4)。

a.每個階段訓(xùn)練 100 步,使用 64 個 NVIDIA H800 80G GPU,約 2 天,使用 Verl 框架。

b.與固定長度 16K、300 步訓(xùn)練的 Vision-R1-Long 相比,PTST 表現(xiàn)更好,平均長度 2057,平均準(zhǔn)確率 55.4%。

圖片圖片

效果與實驗

出現(xiàn)“頓悟時刻”:

圖片圖片

圖片圖片

圖片圖片

數(shù)學(xué)評測:

圖片圖片

參考文獻:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749) code:https://github.com/Osilly/Vision-R1

責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-03-04 17:27:05

2025-02-19 08:00:00

2025-03-05 10:21:04

DeepSeekLVLM

2025-02-03 14:17:27

2025-02-13 08:51:23

DeepSeek大模型

2025-02-20 17:19:08

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-25 10:03:20

2025-02-06 10:18:45

2025-03-19 09:20:00

2025-03-27 09:34:42

2025-02-19 08:33:18

2025-02-12 12:45:59

2025-03-27 10:28:32

2025-03-06 01:00:00

2025-03-06 17:29:21

點贊
收藏

51CTO技術(shù)棧公眾號