自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Transformer+強(qiáng)化學(xué)習(xí),谷歌DeepMind讓大模型成為機(jī)器人感知世界的大腦

人工智能 新聞
近期在機(jī)器人學(xué)習(xí)領(lǐng)域出現(xiàn)的強(qiáng)大模型都是使用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的。因此,所得策略的性能表現(xiàn)受限于人類演示者提供高質(zhì)量演示數(shù)據(jù)的程度。

在開發(fā)機(jī)器人學(xué)習(xí)方法時(shí),如果能整合大型多樣化數(shù)據(jù)集,再組合使用強(qiáng)大的富有表現(xiàn)力的模型(如 Transformer),那么就有望開發(fā)出具備泛化能力且廣泛適用的策略,從而讓機(jī)器人能學(xué)會(huì)很好地處理各種不同的任務(wù)。比如說,這些策略可讓機(jī)器人遵從自然語言指令,執(zhí)行多階段行為,適應(yīng)各種不同環(huán)境和目標(biāo),甚至適用于不同的機(jī)器人形態(tài)。

但是,近期在機(jī)器人學(xué)習(xí)領(lǐng)域出現(xiàn)的強(qiáng)大模型都是使用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的。因此,所得策略的性能表現(xiàn)受限于人類演示者提供高質(zhì)量演示數(shù)據(jù)的程度。這種限制的原因有二。

  • 第一,我們希望機(jī)器人系統(tǒng)能比人類遠(yuǎn)程操作者更加熟練,利用硬件的全部潛力來快速、流暢和可靠地完成任務(wù)。
  • 第二,我們希望機(jī)器人系統(tǒng)能更擅長(zhǎng)自動(dòng)積累經(jīng)驗(yàn),而不是完全依賴高質(zhì)量的演示。

從原理上看,強(qiáng)化學(xué)習(xí)能同時(shí)提供這兩種能力。

近期出現(xiàn)了一些頗具潛力的進(jìn)步,它們表明大規(guī)模機(jī)器人強(qiáng)化學(xué)習(xí)能在多種應(yīng)用設(shè)置中取得成功,比如機(jī)器人抓取和堆疊、學(xué)習(xí)具有人類指定獎(jiǎng)勵(lì)的異構(gòu)任務(wù)、學(xué)習(xí)多任務(wù)策略、學(xué)習(xí)以目標(biāo)為條件的策略、機(jī)器人導(dǎo)航。但是,研究表明,如果使用強(qiáng)化學(xué)習(xí)來訓(xùn)練 Transformer 等能力強(qiáng)大的模型,則更難大規(guī)模地有效實(shí)例化。

近日,Google DeepMind 提出了 Q-Transformer,目標(biāo)是將基于多樣化真實(shí)世界數(shù)據(jù)集的大規(guī)模機(jī)器人學(xué)習(xí)與基于強(qiáng)大 Transformer 的現(xiàn)代策略架構(gòu)結(jié)合起來。

圖片

  • 論文:https://q-transformer.github.io/assets/q-transformer.pdf
  • 項(xiàng)目:https://q-transformer.github.io/

雖然,從原理上看,直接用 Transformer 替代現(xiàn)有架構(gòu)(ResNets 或更小的卷積神經(jīng)網(wǎng)絡(luò))在概念上很簡(jiǎn)單,但要設(shè)計(jì)一種能有效利用這一架構(gòu)的方案卻非常困難。只有能使用大規(guī)模的多樣化數(shù)據(jù)集時(shí),大模型才能發(fā)揮效力 —— 小規(guī)模的范圍狹窄的模型無需這樣的能力,也不能從中受益。

盡管之前有研究通過仿真數(shù)據(jù)來創(chuàng)建這樣的數(shù)據(jù)集,但最有代表性的數(shù)據(jù)還是來自真實(shí)世界。

因此,DeepMind 表示,這項(xiàng)研究關(guān)注的重點(diǎn)是通過離線強(qiáng)化學(xué)習(xí)使用 Transformer 并整合之前收集的大型數(shù)據(jù)集。

離線強(qiáng)化學(xué)習(xí)方法是使用之前已有的數(shù)據(jù)訓(xùn)練,目標(biāo)是根據(jù)給定數(shù)據(jù)集推導(dǎo)出最有效的可能策略。當(dāng)然,也可以使用額外自動(dòng)收集的數(shù)據(jù)來增強(qiáng)這個(gè)數(shù)據(jù)集,但訓(xùn)練過程是與數(shù)據(jù)收集過程是分開的,這能為大規(guī)模機(jī)器人應(yīng)用提供一個(gè)額外的工作流程。

在使用 Transformer 模型來實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)方面,另一大問題是設(shè)計(jì)一個(gè)可以有效訓(xùn)練這種模型的強(qiáng)化學(xué)習(xí)系統(tǒng)。有效的離線強(qiáng)化學(xué)習(xí)方法通常是通過時(shí)間差更新來進(jìn)行 Q 函數(shù)估計(jì)。由于 Transformer 建模的是離散的 token 序列,所以可以將 Q 函數(shù)估計(jì)問題轉(zhuǎn)換成一個(gè)離散 token 序列建模問題,并為序列中的每個(gè) token 設(shè)計(jì)一個(gè)合適的損失函數(shù)。

最簡(jiǎn)單樸素的對(duì)動(dòng)作空間離散化的方法會(huì)導(dǎo)致動(dòng)作基數(shù)呈指數(shù)爆炸,因此 DeepMind 采用的方法是按維度離散化方案,即動(dòng)作空間的每個(gè)維度都被視為強(qiáng)化學(xué)習(xí)的一個(gè)獨(dú)立的時(shí)間步驟。離散化中不同的 bin 對(duì)應(yīng)于不同的動(dòng)作。這種按維度離散化的方案讓我們可以使用帶有一個(gè)保守的正則化器簡(jiǎn)單離散動(dòng)作 Q 學(xué)習(xí)方法來處理分布轉(zhuǎn)變情況。

DeepMind 提出了一種專門的正則化器,其能最小化數(shù)據(jù)集中每個(gè)未被取用動(dòng)作的值。研究表明:該方法既能學(xué)習(xí)范圍狹窄的類似演示的數(shù)據(jù),也能學(xué)習(xí)帶有探索噪聲的范圍更廣的數(shù)據(jù)。

最后,他們還采用了一種混合更新機(jī)制,其將蒙特卡洛和 n 步返回與時(shí)間差備份(temporal difference backups)組合到了一起。結(jié)果表明這種做法能提升基于 Transformer 的離線強(qiáng)化學(xué)習(xí)方法在大規(guī)模機(jī)器人學(xué)習(xí)問題上的表現(xiàn)。

總結(jié)起來,這項(xiàng)研究的主要貢獻(xiàn)是 Q-Transformer,這是一種用于機(jī)器人離線強(qiáng)化學(xué)習(xí)的基于 Transformer 的架構(gòu),其對(duì) Q 值使用了按維度的 token 化,并且已經(jīng)可以用于大規(guī)模多樣化機(jī)器人數(shù)據(jù)集,包括真實(shí)世界數(shù)據(jù)。圖 1 總結(jié)了 Q-Transformer 的組件。

DeepMind 也進(jìn)行了實(shí)驗(yàn)評(píng)估 —— 既有用于嚴(yán)格比較的仿真實(shí)驗(yàn),也有用于實(shí)際驗(yàn)證的大規(guī)模真實(shí)世界實(shí)驗(yàn);其中學(xué)習(xí)了大規(guī)模的基于文本的多任務(wù)策略,結(jié)果驗(yàn)證了 Q-Transformer 的有效性。

在真實(shí)世界實(shí)驗(yàn)中,他們使用的數(shù)據(jù)集包含 3.8 萬個(gè)成功演示和 2 萬個(gè)失敗的自動(dòng)收集的場(chǎng)景,這些數(shù)據(jù)是通過 13 臺(tái)機(jī)器人在 700 多個(gè)任務(wù)上收集的。Q-Transformer 的表現(xiàn)優(yōu)于之前提出的用于大規(guī)模機(jī)器人強(qiáng)化學(xué)習(xí)的架構(gòu),以及之前提出的 Decision Transformer 等基于 Transformer 的模型。

方法概覽

為了使用 Transformer 來執(zhí)行 Q 學(xué)習(xí),DeepMind 的做法是應(yīng)用動(dòng)作空間的離散化和自回歸。

要學(xué)習(xí)一個(gè)使用 TD 學(xué)習(xí)的 Q 函數(shù),經(jīng)典方法基于貝爾曼更新規(guī)則:

圖片

研究者對(duì)貝爾曼更新進(jìn)行了修改,使之能為每個(gè)動(dòng)作維度執(zhí)行,做法是將問題的原始 MDP 轉(zhuǎn)換成每個(gè)動(dòng)作維度都被視為 Q 學(xué)習(xí)的一個(gè)步驟的 MDP。

具體來說,給定動(dòng)作維度 d_A,新的貝爾曼更新規(guī)則為:

圖片

這意味著對(duì)于每個(gè)中間動(dòng)作維度,要在給定相同狀態(tài)的情況下最大化下一個(gè)動(dòng)作維度,而對(duì)于最后一個(gè)動(dòng)作維度,使用下一狀態(tài)的第一個(gè)動(dòng)作維度。這種分解能確保貝爾曼更新中的最大化依然易于處理,同時(shí)還能確保原始 MDP 問題仍可得到解決。

圖片

為了兼顧離線學(xué)習(xí)過程中的分布變化情況,DeepMind 還引入了一種簡(jiǎn)單的正則化技術(shù),其是將未曾見過的動(dòng)作的值降到最低。

為了加快學(xué)習(xí)速度,他們還使用了蒙特卡洛返回。其使用了對(duì)于給定事件片段(episode)的返回即用(return-to-go),也使用了可跳過按維度最大化的 n 步返回(n-step returns)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中,DeepMind 在一系列真實(shí)世界任務(wù)上評(píng)估了 Q-Transformer,同時(shí)還將每個(gè)任務(wù)的數(shù)據(jù)限制到僅包含 100 個(gè)人類演示。

除了演示之外,他們還添加了自動(dòng)收集的失敗事件片段,從而得到了一個(gè)數(shù)據(jù)集,其中包含來自演示的 3.8 萬個(gè)正例和 2 萬個(gè)自動(dòng)收集的負(fù)例。

圖片

圖片

相比于 RT-1、IQL 和 Decision Transformer (DT) 等基準(zhǔn)方法,Q-Transformer 可以有效地利用自動(dòng)事件片段來顯著提升其使用技能的能力,這些技能包括從抽屜里取放物品、將物體移動(dòng)到目標(biāo)附近、開關(guān)抽屜。

研究者還在一個(gè)高難度的模擬取物任務(wù)上對(duì)新提出的方法進(jìn)行了測(cè)試 —— 在該任務(wù)中,僅有約 8% 的數(shù)據(jù)是正例,其余的都是充滿噪聲的負(fù)例。

在這個(gè)任務(wù)上,QT-Opt、IQL、AW-Opt 和 Q-Transformer 等 Q 學(xué)習(xí)方法的表現(xiàn)通常更好,因?yàn)樗鼈兛梢酝ㄟ^動(dòng)態(tài)程序規(guī)劃利用負(fù)例來學(xué)習(xí)策略。

圖片

基于這個(gè)取物任務(wù),研究者進(jìn)行了消融實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)保守的正則化器和 MC 返回都對(duì)保持性能很重要。如果切換成 Softmax 正則化器,性能表現(xiàn)顯著更差,因?yàn)檫@會(huì)將策略過于限制在數(shù)據(jù)分布中。這說明 DeepMind 這里選擇的正則化器能更好地應(yīng)對(duì)這個(gè)任務(wù)。

圖片

而他們對(duì) n 步返回的消融實(shí)驗(yàn)則發(fā)現(xiàn),盡管這會(huì)引入偏差,但這種方法卻有助于在顯著更少的梯度步驟內(nèi)實(shí)現(xiàn)同等的高性能,能高效地處理許多問題。

圖片

研究者也嘗試了在更大規(guī)模的數(shù)據(jù)集上運(yùn)行 Q-Transformer—— 他們將正例的數(shù)量擴(kuò)增至 11.5 萬,負(fù)例的數(shù)量增至 18.5 萬,得到了一個(gè)包含 30 萬個(gè)事件片段的數(shù)據(jù)集。使用這個(gè)大型數(shù)據(jù)集,Q-Transformer 依然有能力學(xué)習(xí),甚至能比 RT-1 BC 基準(zhǔn)表現(xiàn)更好。

圖片

最后,他們把 Q-Transformer 訓(xùn)練的 Q 函數(shù)用作可供性模型(affordance model),再與語言規(guī)劃器組合到一起,類似于 SayCan。

圖片

Q-Transformer 可供性估計(jì)的效果由于之前的使用 QT-Opt 訓(xùn)練的 Q 函數(shù);如果再將未被采樣的任務(wù)重新標(biāo)注為訓(xùn)練期間當(dāng)前任務(wù)的負(fù)例,效果還能更好。由于 Q-Transformer 不需要 QT-Opt 訓(xùn)練使用的模擬到真實(shí)(sim-to-real)訓(xùn)練,因此如果缺乏合適的模擬,那么使用 Q-Transformer 會(huì)更容易。

為了測(cè)試完整的「規(guī)劃 + 執(zhí)行」系統(tǒng),他們實(shí)驗(yàn)了使用 Q-Transformer 同時(shí)進(jìn)行可供性估計(jì)和實(shí)際策略執(zhí)行,結(jié)果表明它優(yōu)于之前的 QT-Opt 和 RT-1 組合。

圖片

從給定圖像的任務(wù)可供性值示例中可以看出,針對(duì)下游的「規(guī)劃 + 執(zhí)行」框架,Q-Transformer 可提供高質(zhì)量的可供性值。

更多詳細(xì)內(nèi)容,請(qǐng)閱讀原文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-23 08:30:00

AI模型

2024-04-15 08:20:00

機(jī)器人技能

2023-07-29 13:43:26

機(jī)器人模型

2019-01-15 13:14:03

機(jī)器人算法SAC

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2021-03-25 14:46:24

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-07-24 19:24:32

機(jī)器學(xué)習(xí)預(yù)訓(xùn)練模型機(jī)器人

2024-09-05 08:23:58

2024-01-25 11:14:33

2021-09-10 16:31:56

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-04-25 11:44:36

垃圾分類AI

2024-01-26 08:31:49

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2023-05-23 09:56:14

機(jī)器人谷歌

2023-01-16 14:55:00

強(qiáng)化學(xué)習(xí)

2021-08-06 06:31:53

Facebook開源機(jī)器人開發(fā)平臺(tái)

2022-09-04 14:38:00

世界模型建模IRIS

2021-10-11 09:51:38

谷歌人工智能強(qiáng)化學(xué)習(xí)

2023-08-28 06:52:29

2020-09-14 14:32:06

AI機(jī)器人人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)