自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="y2fc1"></blockquote>}

<sub id="y2fc1"></sub><cite id="y2fc1"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習原創(chuàng)

發(fā)布于 2024-5-27 12:57

瀏覽

0收藏

獎勵工程長期以來一直是強化學習研究中的挑戰(zhàn)，因為它通常需要大量人力投入。在本文中，研究人員提出了RL-VLM-F，它可以自動生成代理學習新任務(wù)的獎勵函數(shù)，僅利用任務(wù)目標的文本描述和代理的視覺觀察，通過利用視覺語言基礎(chǔ)模型（VLMs）的反饋。該方法的關(guān)鍵在于查詢這些模型，根據(jù)任務(wù)目標的文本描述對代理的圖像觀察對進行偏好，并從偏好標簽中學習獎勵函數(shù)。RL-VLM-F成功地在各種領(lǐng)域中產(chǎn)生了有效的獎勵和策略，包括經(jīng)典控制，以及剛性、關(guān)節(jié)和可變形物體的操作，而無需人工監(jiān)督，在相同假設(shè)下優(yōu)于使用大型預(yù)訓練模型進行獎勵生成的先前方法。

RL-VLM-F組件

RL-VLM-F自動為代理生成獎勵函數(shù)，以學習新任務(wù)，僅利用任務(wù)目標的文本描述和代理的視覺觀察，通過利用視覺語言基礎(chǔ)模型（VLMs）的反饋。該方法的關(guān)鍵在于查詢這些模型，根據(jù)任務(wù)目標的文本描述對代理的圖像觀察對進行偏好，并從偏好標簽中學習獎勵函數(shù)。研究人員使用基于偏好的強化學習同時學習策略和獎勵函數(shù)。

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

RL-VLM-F查詢設(shè)計

RL-VLM-F兩階段查詢：首先，查詢VLM以生成自由形式的響應(yīng)，比較兩個圖像分別完成任務(wù)的效果。接下來，使用第一階段的文本響應(yīng)提示VLM，以提取對兩個圖像的偏好標簽。研究人員對所有任務(wù)使用相同的查詢模板，將任務(wù)描述替換為特定任務(wù)的目標描述。

RL-VLM-F：提示和策略

下面展示了該方法和基線在七項任務(wù)上的策略執(zhí)行，包括剛性、關(guān)節(jié)和可變形物體的操作。對于每個任務(wù)，展示了任務(wù)目標的簡短文本描述，與下面的模板提示結(jié)合起來，形成用于查詢VLM偏好的完整提示。

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

折疊布料對角線

任務(wù)描述：“將布料從左上角對角線對折到右下角”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

拉直繩子

任務(wù)描述：“拉直藍色繩子”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

不溢水地傳遞水

任務(wù)描述：“將裝水的容器移動到距離紅色圓圈盡可能近的地方，而不會導致太多水滴溢出”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

將足球移入球門

任務(wù)描述：“將足球移入球門”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

打開抽屜

任務(wù)描述：“打開抽屜”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

將方塊掃入洞中

任務(wù)描述：“使綠色方塊與洞之間的距離最小化”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

CartPole

任務(wù)描述：“在黑色小車上平衡棕色桿，使其直立”

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

實驗和結(jié)果

研究人員對RL-VLM-F在各種任務(wù)上進行了全面評估，包括經(jīng)典控制，以及剛性、關(guān)節(jié)和可變形物體的操作，無需人工監(jiān)督，在相同假設(shè)下優(yōu)于使用大型預(yù)訓練模型進行獎勵生成的先前方法。

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

與基線方法的比較

如所有對比方法在7項任務(wù)上的學習曲線所示，RL-VLM-F在所有任務(wù)上均優(yōu)于所有基線，并且在7項任務(wù)中的6項任務(wù)上與地面真實偏好的表現(xiàn)相匹配或超越。

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

VLM偏好標簽的準確性

研究人員提供了與環(huán)境獎勵函數(shù)定義的地面真實偏好標簽相比，VLM偏好標簽準確性的分析。x軸表示圖像對之間的不同水平，離散為10個區(qū)間，其中差異是指與圖像對關(guān)聯(lián)的地面真實任務(wù)進展之間的差異。y軸顯示了VLM偏好標簽正確、不正確或無法對圖像對進行偏好的比例。像人類一樣，當兩個圖像在實現(xiàn)目標方面有明顯不同時，VLM更擅長評估兩個圖像，并且當兩個圖像非常相似時，其表現(xiàn)較差。

ICML 2024：從視覺語言基礎(chǔ)模型反饋中進行強化學習-AI.x社區(qū)

學習獎勵與地面真實任務(wù)進展的一致性

研究人員比較了RL-VLM-F學習的獎勵與地面真實任務(wù)進展在3個MetaWorld任務(wù)上的一致性。如所示，RL-VLM-F生成的獎勵與地面真實任務(wù)進展更一致。學習的獎勵是通過3個具有不同種子的訓練獎勵模型進行平均的，陰影區(qū)域表示標準誤差。

譯自（有刪改）：https://rlvlmf2024.github.io

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/tPUIxt3Msrra5kiLB_dftg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

視覺語言基礎(chǔ)模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

擴散模型如何幫助創(chuàng)建更好的強化學習系統(tǒng)

51CTO內(nèi)容精選 ? 2480瀏覽 ? 0回復(fù)
Nature：最大擴散強化學習

ceesoft ? 3579瀏覽 ? 0回復(fù)
機器學習有哪些類型？監(jiān)督學習、無監(jiān)督學習、強化學習、深度學習等等！

parson2000 ? 3560瀏覽 ? 0回復(fù)
機器學習有哪些類型？監(jiān)督學習、無監(jiān)督學習、強化學習、深度學習等等

parson2000 ? 4012瀏覽 ? 0回復(fù)
大模型的訓練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 6989瀏覽 ? 0回復(fù)
大模型的訓練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 7521瀏覽 ? 0回復(fù)
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應(yīng)用場景

AI探索時代 ? 2771瀏覽 ? 0回復(fù)
為啥強化學習開始成為了大語言模型（LLM）的新寵？

智駐未來 ? 2305瀏覽 ? 0回復(fù)
DeepSeek-R1：通過強化學習激發(fā)大語言模型的推理潛能

柏企閱文 ? 3896瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強化學習和蒸餾

玄姐聊AGI ? 2773瀏覽 ? 0回復(fù)
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 1827瀏覽 ? 0回復(fù)
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 1597瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 2614瀏覽 ? 0回復(fù)
視覺"頓悟時刻"被破解！MM-Eureka：大規(guī)模強化學習觸發(fā)多模態(tài)模型能力涌現(xiàn)

angel ? 1430瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強化學習的推理釋放

頓數(shù)AI ? 1709瀏覽 ? 0回復(fù)
Search-R1：強化學習增強大語言模型推理+搜索能力

十一月雨_55 ? 1461瀏覽 ? 0回復(fù)
強化學習強在哪里？基礎(chǔ)探索

柏企閱文 ? 1133瀏覽 ? 0回復(fù)
Fin-R1：通過強化學習實現(xiàn)金融推理的大語言模型

AIRoobt ? 1049瀏覽 ? 0回復(fù)
清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力？

柏企閱文 ? 446瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉(zhuǎn)移

下一篇： Transformers學習上下文強化學習的時間差分方法

社區(qū)精華內(nèi)容

目錄