ICML 2024:從視覺語言基礎(chǔ)模型反饋中進行強化學習 原創(chuàng)
獎勵工程長期以來一直是強化學習研究中的挑戰(zhàn),因為它通常需要大量人力投入。在本文中,研究人員提出了RL-VLM-F,它可以自動生成代理學習新任務(wù)的獎勵函數(shù),僅利用任務(wù)目標的文本描述和代理的視覺觀察,通過利用視覺語言基礎(chǔ)模型(VLMs)的反饋。該方法的關(guān)鍵在于查詢這些模型,根據(jù)任務(wù)目標的文本描述對代理的圖像觀察對進行偏好,并從偏好標簽中學習獎勵函數(shù)。RL-VLM-F成功地在各種領(lǐng)域中產(chǎn)生了有效的獎勵和策略,包括經(jīng)典控制,以及剛性、關(guān)節(jié)和可變形物體的操作,而無需人工監(jiān)督,在相同假設(shè)下優(yōu)于使用大型預(yù)訓練模型進行獎勵生成的先前方法。
RL-VLM-F組件
RL-VLM-F自動為代理生成獎勵函數(shù),以學習新任務(wù),僅利用任務(wù)目標的文本描述和代理的視覺觀察,通過利用視覺語言基礎(chǔ)模型(VLMs)的反饋。該方法的關(guān)鍵在于查詢這些模型,根據(jù)任務(wù)目標的文本描述對代理的圖像觀察對進行偏好,并從偏好標簽中學習獎勵函數(shù)。研究人員使用基于偏好的強化學習同時學習策略和獎勵函數(shù)。
RL-VLM-F查詢設(shè)計
RL-VLM-F兩階段查詢:首先,查詢VLM以生成自由形式的響應(yīng),比較兩個圖像分別完成任務(wù)的效果。接下來,使用第一階段的文本響應(yīng)提示VLM,以提取對兩個圖像的偏好標簽。研究人員對所有任務(wù)使用相同的查詢模板,將任務(wù)描述替換為特定任務(wù)的目標描述。
RL-VLM-F:提示和策略
下面展示了該方法和基線在七項任務(wù)上的策略執(zhí)行,包括剛性、關(guān)節(jié)和可變形物體的操作。對于每個任務(wù),展示了任務(wù)目標的簡短文本描述,與下面的模板提示結(jié)合起來,形成用于查詢VLM偏好的完整提示。
- 折疊布料對角線
任務(wù)描述:“將布料從左上角對角線對折到右下角”
- 拉直繩子
任務(wù)描述:“拉直藍色繩子”
- 不溢水地傳遞水
任務(wù)描述:“將裝水的容器移動到距離紅色圓圈盡可能近的地方,而不會導致太多水滴溢出”
- 將足球移入球門
任務(wù)描述:“將足球移入球門”
- 打開抽屜
任務(wù)描述:“打開抽屜”
- 將方塊掃入洞中
任務(wù)描述:“使綠色方塊與洞之間的距離最小化”
- CartPole
任務(wù)描述:“在黑色小車上平衡棕色桿,使其直立”
實驗和結(jié)果
研究人員對RL-VLM-F在各種任務(wù)上進行了全面評估,包括經(jīng)典控制,以及剛性、關(guān)節(jié)和可變形物體的操作,無需人工監(jiān)督,在相同假設(shè)下優(yōu)于使用大型預(yù)訓練模型進行獎勵生成的先前方法。
與基線方法的比較
如所有對比方法在7項任務(wù)上的學習曲線所示,RL-VLM-F在所有任務(wù)上均優(yōu)于所有基線,并且在7項任務(wù)中的6項任務(wù)上與地面真實偏好的表現(xiàn)相匹配或超越。
VLM偏好標簽的準確性
研究人員提供了與環(huán)境獎勵函數(shù)定義的地面真實偏好標簽相比,VLM偏好標簽準確性的分析。x軸表示圖像對之間的不同水平,離散為10個區(qū)間,其中差異是指與圖像對關(guān)聯(lián)的地面真實任務(wù)進展之間的差異。y軸顯示了VLM偏好標簽正確、不正確或無法對圖像對進行偏好的比例。像人類一樣,當兩個圖像在實現(xiàn)目標方面有明顯不同時,VLM更擅長評估兩個圖像,并且當兩個圖像非常相似時,其表現(xiàn)較差。
學習獎勵與地面真實任務(wù)進展的一致性
研究人員比較了RL-VLM-F學習的獎勵與地面真實任務(wù)進展在3個MetaWorld任務(wù)上的一致性。如所示,RL-VLM-F生成的獎勵與地面真實任務(wù)進展更一致。學習的獎勵是通過3個具有不同種子的訓練獎勵模型進行平均的,陰影區(qū)域表示標準誤差。
譯自(有刪改):https://rlvlmf2024.github.io
本文轉(zhuǎn)載自公眾號AIGC最前線
