自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="vogmf"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵

2024-06-04 14:11:00

智能體在執(zhí)行玩21點(diǎn)的任務(wù)時(shí)，系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài)，在輸出思維鏈之后選擇“停牌” （stand）或者“拿牌”（hit），然后直接將對(duì)應(yīng)的動(dòng)作輸入到環(huán)境中，得到獎(jiǎng)勵(lì)函數(shù)值以及下一個(gè)狀態(tài)。

只用強(qiáng)化學(xué)習(xí)來(lái)微調(diào)，無(wú)需人類反饋，就能讓多模態(tài)大模型學(xué)會(huì)做決策！

這種方法得到的模型，已經(jīng)學(xué)會(huì)了看圖玩撲克、算“12點(diǎn)”等任務(wù)，表現(xiàn)甚至超越了GPT-4v。

圖片

這是來(lái)自UC伯克利等高校最新提出的微調(diào)方法，研究陣容也是相當(dāng)豪華：

圖靈獎(jiǎng)三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCun
UC伯克利大牛、ALOHA團(tuán)隊(duì)成員Sergry Levine
ResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧
香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長(zhǎng)、UC伯克利教授馬毅

圖片

該方法名為RL4VLM，論文預(yù)印本已經(jīng)上線，相關(guān)代碼也已在GitHub中開(kāi)源。

RL4VLM提出了一種新的算法框架，直接使用強(qiáng)化學(xué)習(xí)方法對(duì)多模態(tài)大模型進(jìn)行微調(diào)。

其中獎(jiǎng)勵(lì)信息直接來(lái)源于環(huán)境當(dāng)中，擺脫了RLHF中對(duì)于人類反饋的需要，從而直接賦予了多模態(tài)模型決策能力。

圖片

對(duì)于RL4VLM的意義，參與了這項(xiàng)工作的馬毅教授這樣說(shuō)：

一方面希望大家對(duì)模型真實(shí)性能有更客觀清醒的認(rèn)識(shí)；
另一方面，也希望能建立一個(gè)平臺(tái)，支持探索如何進(jìn)一步提升模型性能。

圖片

那么，用這種方法微調(diào)出來(lái)的多模態(tài)大模型，都能讓智能體學(xué)會(huì)哪些能力呢？

多模態(tài)決策能力超GPT-4v

為了評(píng)估訓(xùn)練出的多模態(tài)大模型給智能體帶來(lái)的能力，作者一共使用了兩類物種評(píng)測(cè)任務(wù)：

第一類任務(wù)（a-d）主要考驗(yàn)?zāi)Ｐ屠脠D像中的細(xì)粒度視覺(jué)信息做決策的能力，包括對(duì)于數(shù)字的識(shí)別能力和利用識(shí)別的數(shù)字進(jìn)行邏輯推理的能力
第二類任務(wù)（e）主要考察多模態(tài)大模型在具身智能環(huán)境中的視覺(jué)語(yǔ)義推理能力。

具體來(lái)說(shuō)，這五個(gè)任務(wù)分別是：

a.數(shù)軸（Numberline）：模型需要通過(guò)輸出“+” 或者 “-”，將當(dāng)前數(shù)字移動(dòng)到目標(biāo)數(shù)字
b.簡(jiǎn)易12點(diǎn)（EZPoint）：模型需要識(shí)別兩張牌，并用加號(hào)和乘號(hào)運(yùn)算“12點(diǎn)”

c.24點(diǎn)（Point24）: 模型需要識(shí)別四張牌，并用加減乘除和括號(hào)運(yùn)算“24點(diǎn)”

d.21點(diǎn)（Blackjack）：模型需要通過(guò)牌面上的信息來(lái)決定“要牌”或者“停牌”
e.ALFWorld：一個(gè)標(biāo)準(zhǔn)具身智能環(huán)境

圖片

其中任務(wù)a-d為作者的原創(chuàng)任務(wù)，任務(wù)e的ALFWorld是微軟等于2020年提出的開(kāi)源具身智能任務(wù)集。

實(shí)驗(yàn)結(jié)果表明，直接使用強(qiáng)化學(xué)習(xí)微調(diào)7B的多模態(tài)模型之后，能使其在兩類決策問(wèn)題上的表現(xiàn)超過(guò)商用模型GPT-4v Gemini，同時(shí)也能超過(guò)傳統(tǒng)的監(jiān)督微調(diào)（SFT）方法。

而在ALFWorld的具身智能任務(wù)中，作者的模型也取得了最高的平均分，特別是在單物體拾取任務(wù)上表現(xiàn)尤為突出。

圖片

先生成思維鏈，再做決策

這套VLM智能體主要解決的是需要視覺(jué)識(shí)別和語(yǔ)言理解的任務(wù)，它的工作流程是這樣的：

首先，對(duì)于每一個(gè)任務(wù)，系統(tǒng)會(huì)直接將該任務(wù)的當(dāng)前狀態(tài)，以圖片和文字描述的形式輸入多模態(tài)大模型，并要求模型輸出一段思維鏈之后，再以文字形式輸出要執(zhí)行的動(dòng)作。

最后將，動(dòng)作信息會(huì)被輸入進(jìn)對(duì)應(yīng)的環(huán)境并獲得獎(jiǎng)勵(lì)值，該獎(jiǎng)勵(lì)值會(huì)被用來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

例如下圖中，智能體在執(zhí)行玩21點(diǎn)的任務(wù)時(shí)，系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài)，在輸出思維鏈之后選擇“停牌” （stand）或者“拿牌”（hit），然后直接將對(duì)應(yīng)的動(dòng)作輸入到環(huán)境中，得到獎(jiǎng)勵(lì)函數(shù)值以及下一個(gè)狀態(tài)。

圖片

為了能用直接將強(qiáng)化學(xué)習(xí)運(yùn)用到多模態(tài)模型的訓(xùn)練中，需要對(duì)模型的輸入和輸出做一些調(diào)整，以適應(yīng)RL訓(xùn)練框架中。

具體來(lái)說(shuō)，作者將任務(wù)圖像o和任務(wù)描述的文本v-in合并后，直接作為當(dāng)前任務(wù)的狀態(tài)s，即：s = [o, v-in]

在獲得了多模態(tài)模型的文字輸出v-out以后，該框架直接將其中文字形式的動(dòng)作(“action: {act}”) 轉(zhuǎn)化為可與環(huán)境交互的動(dòng)作指令a。

接下來(lái)把a(bǔ)輸入到環(huán)境當(dāng)中，就能獲得獎(jiǎng)勵(lì)函數(shù)r，以及操作后的下一個(gè)狀態(tài)。

在獲得了來(lái)自環(huán)境的獎(jiǎng)勵(lì)函數(shù)r之后，文章利用PPO直接對(duì)整個(gè)多模態(tài)模型進(jìn)行微調(diào)。

而從提示詞上看，這項(xiàng)研究采取了如下的提示過(guò)程作為多模態(tài)模型的輸入，并且給出了期望的輸出形式：

（其中藍(lán)色的部分是讓模型生成思維鏈提示過(guò)程，紅色的部分是告訴模型以文字形式輸出動(dòng)作a）。

圖片

消融實(shí)驗(yàn)結(jié)果表明，如果這一過(guò)程中不采用思維鏈，則任務(wù)成功率會(huì)出現(xiàn)大幅下降。

圖片

論文地址：https://arxiv.org/abs/2405.10292GitHub：https://github.com/RL4VLM/RL4VLM

責(zé)任編輯：武曉燕來(lái)源：量子位

AI GPT-4v 框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="kys0b"><rp id="kys0b"></rp></style>

<blockquote id="kys0b"><p id="kys0b"></p></blockquote>