自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SS 2025|ConRFT:真實環(huán)境下基于強化學(xué)習(xí)的VLA模型微調(diào)方法

人工智能 新聞
本文提出了一種兩階段方法 ConRFT,用于在真實環(huán)境下的機器人應(yīng)用中強化微調(diào) VLA 模型。

本文第一作者為陳宇輝,中科院自動化所直博三年級;通訊作者為李浩然,中科院自動化所副研;研究方向為強化學(xué)習(xí)、機器人學(xué)習(xí)、具身智能。

視覺-語言-動作模型在真實世界的機器人操作任務(wù)中顯示出巨大的潛力,但是其性能依賴于大量的高質(zhì)量人類演示數(shù)據(jù)。

由于人類演示十分稀缺且展現(xiàn)出行為的不一致性,通過監(jiān)督學(xué)習(xí)的方式對 VLA 模型在下游任務(wù)上進行微調(diào)難以實現(xiàn)較高的性能,尤其是面向要求精細(xì)控制的任務(wù)。

為此,中科院自動化所深度強化學(xué)習(xí)團隊提出了一種面向 VLA 模型后訓(xùn)練的強化微調(diào)方法 ConRFT(Consistency-based Reinforced Fine-tuning)。其由離線和在線微調(diào)兩階段組成,并具有統(tǒng)一的基于一致性策略的訓(xùn)練目標(biāo)。這項工作凸顯了使用強化學(xué)習(xí)進行后訓(xùn)練以增強視覺-語言-動作模型在真實世界機器人應(yīng)用中的潛力。

目前,該論文已被機器人領(lǐng)域頂級會議 Robotics: Science and Systems XXI(RSS 2025)接收。

圖片

  • 論文標(biāo)題:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
  • 論文地址:https://arxiv.org/abs/2502.05450
  • 項目主頁:https://cccedric.github.io/conrft/
  • 開源代碼:https://github.com/cccedric/conrft

研究背景

視覺-語言-動作模型(Vision-Language-Action, VLA)在訓(xùn)練通用機器人策略方面取得的最新進展表明機器人數(shù)據(jù)集上進行大規(guī)模預(yù)訓(xùn)練后 [1,2],其擁有在理解和執(zhí)行各種操作任務(wù)方面的卓越能力。

雖然預(yù)訓(xùn)練的通用策略能夠捕捉泛化性的表征,但其仍然難以在真實機器人和任務(wù)上做到零樣本泛化 [3],因此使用任務(wù)專用的數(shù)據(jù)進行后訓(xùn)練微調(diào)對于優(yōu)化模型在下游任務(wù)中的性能來說非常重要。

目前廣泛使用的方法是使用人類遙操作收集的數(shù)據(jù)對 VLA 模型進行監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)。然而,模型的性能嚴(yán)重依賴于數(shù)據(jù)集的質(zhì)量和數(shù)量。由于人類收集數(shù)據(jù)的次優(yōu)性和策略不一致性等固有問題,這些數(shù)據(jù)很難提供最優(yōu)軌跡 [4],導(dǎo)致微調(diào)后的模型效果不佳。

與此同時,大語言模型(Large Language Model, LLM)和視覺-語言模型(Vision-Language Model, VLM)的最新進展凸顯了強化學(xué)習(xí)在對齊模型策略與人類偏好之間差距 [5] 或改進模型推理 [6] 方面的價值,證明了部署使用任務(wù)專用的獎勵函數(shù)的強化學(xué)習(xí)(Reinforcement Learning, RL)來從在線交互中機性能策略更新具有巨大的潛力。

然而,與 LLM/VLM 不同,VLA 模型需要機器人與真實世界進行物理交互,因而將 RL 擴展到 VLA 模型面臨著巨大的挑戰(zhàn)。尤其是在要求精細(xì)控制的操作任務(wù)上,交互安全性和成本限制要求 RL 算法具有探索的安全保障和很高的樣本效率。

ConRFT:基于強化學(xué)習(xí)的 VLA 模型微調(diào)方法

為了充分利用 RL 技術(shù)的優(yōu)勢,利用在線交互數(shù)據(jù)高效微調(diào) VLA 模型,我們提出了一種強化微調(diào)(Reinforced Fine-tuning, RFT)方法,包含離線和在線兩個階段,并采用統(tǒng)一的訓(xùn)練目標(biāo)。

基于我們之前的工作 CPQL [7],本文方法將 SFT 與 Q-learning 相結(jié)合,并利用一致性策略微調(diào) VLA 模型。離線微調(diào)過程中利用人類收集的專家數(shù)據(jù),在模型與真實環(huán)境交互之前提取有效的策略和穩(wěn)定的價值函數(shù)。

隨后的在線微調(diào)階段通過人在回路(Human-in-the-Loop Learning, HIL)進行干預(yù),并使用獎勵驅(qū)動的策略學(xué)習(xí),從而解決了在真實環(huán)境下進行 RL 的安全要求和樣本效率兩個挑戰(zhàn)。該方法示意圖如下:

圖片

本文方法采用一致性策略(Consistency Policy)作為動作單元(Action Head),對 VLA 模型進行微調(diào),解決了兩個關(guān)鍵問題:

1)它有助于利用預(yù)收集的數(shù)據(jù)中經(jīng)常出現(xiàn)的策略不一致和次優(yōu)演示問題;

2)與基于擴散模型(Diffusion Model)的動作單元相比,其在計算上保持輕量,可以實現(xiàn)高效推理。

一致性策略是一種基于概率流常微分方程(Probability Flow Ordinary Differential Equation)的策略,它學(xué)習(xí)從高斯分布中采樣的隨機動作映射到基于當(dāng)前狀態(tài)的專家動作分布,從而生成目標(biāo)動作用于決策任務(wù)。

階段I:離線微調(diào)(Cal-ConRFT)

由于預(yù)訓(xùn)練的 VLA 模型通常缺乏對未見過場景的零樣本泛化能力,因此離線階段專注于使用預(yù)先收集的小型離線數(shù)據(jù)集(大約 20-30 次演示)訓(xùn)練策略,然后再過渡到在線微調(diào)階段,從而減少整體在線訓(xùn)練時間和探索過程帶來的安全風(fēng)險。

為了能夠有效利用離線數(shù)據(jù),離線階段選擇(Cal-QL)[8] 作為價值函數(shù)更新方法,以提高 Q 函數(shù)對分布外(Out of Distribution, OOD)動作的魯棒性。使用 Cal-QL 進行價值函數(shù)更新的訓(xùn)練目標(biāo)如下:

圖片

盡管通常情況下,Cal-QL 能夠高效地利用離線數(shù)據(jù)集,但在只有少量演示(例如 20-30 個)可用時,其依然很難訓(xùn)練出有效的策略。因為有限的狀態(tài)-動作覆蓋會導(dǎo)致 Q 值估計不準(zhǔn),從而使策略難以推廣到未見過的狀態(tài)。相比傳統(tǒng)的離線強化學(xué)習(xí)方法,其數(shù)據(jù)集通常由多種行為策略收集而成,可以提供廣泛的狀態(tài)-動作覆蓋范圍以減少分布偏移。

為了解決這個問題,離線階段加入了 BC(Behavior Cloning)損失。BC 損失直接最小化策略生成的動作與演示中的動作之間的差異,通過鼓勵模型模仿演示中的行為,在離線階段提供額外的監(jiān)督信號。這有助于 VLA 模型學(xué)習(xí)更有效的策略,并初始化穩(wěn)定的 Q 函數(shù)。

具體而言,使用一致性策略動作單元的 VLA 模型更新訓(xùn)練目標(biāo)如下:

圖片

階段II:在線微調(diào)(HIL-ConRFT)

雖然離線階段可以從少量演示數(shù)據(jù)中提供初始策略,但其性能受限于預(yù)先收集的演示數(shù)據(jù)的范圍和質(zhì)量。因此,本文方法引入在線階段,即 VLA 模型通過與真實環(huán)境交互并進行在線微調(diào)。

在階段 II 的強化微調(diào)過程中,離線階段的演示緩沖區(qū)圖片依然保持用于存儲演示數(shù)據(jù),同時還有一個重放緩沖區(qū)圖片來存儲在線數(shù)據(jù),并使用平均采樣來形成單個批次(Batch)用于模型訓(xùn)練。

由于 VLA 模型會根據(jù)其當(dāng)前策略不斷收集新的數(shù)據(jù),數(shù)據(jù)分布會自然地隨著策略而演變,這種持續(xù)的交互減少了離線階段面臨的分布偏移問題。因此,在線微調(diào)階段直接使用標(biāo)準(zhǔn) Q 損失進行價值函數(shù)更新:

圖片

對于 VLA 模型,在線微調(diào)階段使用與離線階段結(jié)構(gòu)統(tǒng)一的訓(xùn)練目標(biāo),因此 VLA 模型可以快速適應(yīng)并實現(xiàn)策略性能提升:

圖片

可以注意到,在線階段仍然保留了 BC 損失。主要有兩個原因:

1)它確保策略與演示數(shù)據(jù)一致,防止出現(xiàn)可能導(dǎo)致性能崩潰的劇烈偏差;

2)由于強化學(xué)習(xí)本質(zhì)上涉及探索,因此它在高維狀態(tài)-動作空間中可能變得不穩(wěn)定,而 BC 損失可以防止策略與離線基線方法偏差過大,從而降低低效或不安全行為的風(fēng)險。這在真實機器人的訓(xùn)練中和要求精細(xì)控制的操作任務(wù)中非常重要,尤其是在不安全動作可能導(dǎo)致物體損壞或其他危險的物理環(huán)境中。

此外,在線階段通過人在回路學(xué)習(xí)將人工干預(yù)融入學(xué)習(xí)過程。具體而言,其允許人類操作員及時干預(yù)并從 VLA 模型接管機器人的控制權(quán),從而在探索過程中提供糾正措施。

當(dāng)機器人出現(xiàn)破壞性行為(例如碰撞障礙物、施加過大的力量或破壞環(huán)境)時,人工干預(yù)至關(guān)重要。這些人工糾正措施會被添加到演示緩沖區(qū)圖片中,以提供高層次的指導(dǎo),引導(dǎo)策略探索朝著更安全、高效的方向演變。

除了確保安全的探索之外,人工干預(yù)還可以加速策略收斂。因為當(dāng)策略導(dǎo)致機器人陷入不可恢復(fù)狀態(tài)或不良狀態(tài)(如機械臂將被操作物體扔出桌面或與桌面撞擊),或者機器人陷入局部最優(yōu)解(如果沒有外部幫助,則需要花費大量時間和步驟才能克服)時,人類操作員可以介入糾正機器人的行為,并引導(dǎo)其朝著更安全、有效的方向演變。

實驗結(jié)果與分析

為了評估本文方法在真實環(huán)境中強化微調(diào) VLA 模型的有效性,我們在八個不同的操作任務(wù)上進行了實驗,并選擇 Franka Emika 機械臂作為實驗平臺,如下圖所示。

圖片

這些任務(wù)旨在反映各種操作任務(wù)挑戰(zhàn),包括物體放置任務(wù)(例如將面包放入烤面包機)、要求精確控制的任務(wù)(例如將輪子對準(zhǔn)并插入椅子底座)以及柔性物體處理的任務(wù)(例如懸掛中國結(jié))。

在八個真實環(huán)境任務(wù)上的實驗測試證明了 ConRFT 性能超越最先進(SOTA)方法的能力。VLA 模型在本文提出的框架下經(jīng)過 45-90 分鐘的在線微調(diào)后,平均任務(wù)成功率達到 96.3%,展現(xiàn)了極高的策略性能和樣本效率。

此外,它的性能優(yōu)于基于人類收集數(shù)據(jù)或強化學(xué)習(xí)策略數(shù)據(jù)訓(xùn)練的 SFT 方法,平均成功率提高了 144%,且平均軌跡長度縮短了 1.9 倍,這些結(jié)果凸顯了使用獎勵驅(qū)動的強化微調(diào)方法在提升 VLA 模型在下游任務(wù)上性能的巨大潛力。

策略測試

通過獎勵驅(qū)動的強化微調(diào),VLA 模型表現(xiàn)出對外部人為干擾的極強魯棒性,確保更可靠地完成任務(wù)。包含外部人為干擾的策略效果可以參考 Pick Banana 和 Hang Chinese Knot 任務(wù)。

Pick Banana(含外部人為干擾)

Put Spoon

Open Drawer

Pick Bread

Open Toaster

Put Bread

Insert Wheel

Hang Chinese Knot(含外部人為干擾)

在精細(xì)操作任務(wù)上的展示

為了進一步展示本文方法在 VLA 模型微調(diào)方面的能力,我們進行了穿針任務(wù)實驗。經(jīng)過 40 分鐘的在線微調(diào),微調(diào)后的 VLA 模型取得了 70% 的成功率。

總結(jié)與展望

本文提出了一種兩階段方法 ConRFT,用于在真實環(huán)境下的機器人應(yīng)用中強化微調(diào) VLA 模型。

首先,利用少量演示進行離線微調(diào)(Cal-ConRFT),并通過一個統(tǒng)一的訓(xùn)練目標(biāo)初始化一個可靠的策略和價值函數(shù),該目標(biāo)將 Q 損失和 BC 損失整合到一個基于一致性策略的框架中。然后,在線微調(diào)階段(HIL-ConRFT)利用任務(wù)專用的獎勵和人工干預(yù)對 VLA 模型進行微調(diào)。

在八個不同的真實環(huán)境操作任務(wù)上實驗結(jié)果表明,本文方法在成功率、平均軌跡長度和樣本效率方面均優(yōu)于 SOTA 方法??偠灾?,這項工作展示了一種利用強化學(xué)習(xí)進行安全且高效的 VLA 模型微調(diào)的方法。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-01-04 10:02:53

強化學(xué)習(xí)自動駕駛

2023-07-20 15:18:42

2025-03-05 10:21:04

DeepSeekLVLM

2022-08-26 14:44:32

強化學(xué)習(xí)AI

2024-01-26 08:31:49

2023-08-05 13:08:54

2023-08-28 06:52:29

2025-02-17 10:40:20

2024-04-12 08:59:02

強化學(xué)習(xí)系統(tǒng)人工智能擴散模型

2022-09-04 14:38:00

世界模型建模IRIS

2023-04-06 16:29:18

模型AI

2017-08-17 09:15:23

強化學(xué)習(xí)KerasOpenAI

2024-12-18 07:20:00

2017-07-14 16:24:48

TensorFlow框架開發(fā)

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2022-12-01 08:00:00

2021-03-25 14:46:24

人工智能機器學(xué)習(xí)技術(shù)

2020-11-12 19:31:41

強化學(xué)習(xí)人工智能機器學(xué)習(xí)

2021-10-15 15:29:59

自動駕駛數(shù)據(jù)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號