自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun新作:分層世界模型,數(shù)據(jù)驅(qū)動的人型機器人控制

人工智能 新聞
在復(fù)雜的物理世界中,人型機器人的全身控制一直是個難題,現(xiàn)有的強化學(xué)習(xí)做出的效果有時會比較抽象。近日,LeCun參與的一項工作給出了基于數(shù)據(jù)驅(qū)動的全新解決方案。

有了大模型作為智能上的加持,人型機器人已然成為新的風(fēng)口。

科幻電影中「安能辨我不是人」的機器人似乎已經(jīng)越來越近了。

不過,要想像人類一樣思考和行動,對于機器人,特別是人型機器人來說,仍是個艱巨的工程問題。

就拿簡單的學(xué)走路來說,利用強化學(xué)習(xí)來訓(xùn)練可能會演變成下面這樣:

道理上沒什么問題(遵循獎勵機制),上樓梯的目標(biāo)也達(dá)到了,除了過程比較抽象,跟大部分人類的行為模式可能不太一樣。

機器人之所以很難像人一樣「自然」行動,原因在于觀察和行動空間的高維性質(zhì),以及雙足動物形態(tài)固有的不穩(wěn)定性。

對此,LeCun參與的一項工作給出了基于數(shù)據(jù)驅(qū)動的全新解決方案。

論文地址:https://arxiv.org/pdf/2405.18418

項目介紹:https://nicklashansen.com/rlpuppeteer

先看療效:

對比右邊的效果,新的方法訓(xùn)練出了更接近于人類的行為,雖然有點「喪尸」的意味,但抽象度降低了不少,至少在大部分人類的能力范圍之內(nèi)。

當(dāng)然了,也有來搗亂的網(wǎng)友表示,「還是之前那個看著更有意思」。

圖片

在這項工作中,研究人員探索了基于強化學(xué)習(xí)的、高度數(shù)據(jù)驅(qū)動的、視覺全身人形控制方法,沒有任何簡化的假設(shè)、獎勵設(shè)計或技能原語。

作者提出了一個分層世界模型,訓(xùn)練高級和低級兩個智能體,高級智能體根據(jù)視覺觀察生成命令,供低級智能體執(zhí)行。

開源代碼:https://github.com/nicklashansen/puppeteer

這個模型被命名為Puppeteer,利用一個模擬的56-DoF人形機器人,在8個任務(wù)中生成了高性能的控制策略,同時合成了自然的類似人類的動作,并具有穿越挑戰(zhàn)性地形的能力。

高維控制的分層世界模型

在物理世界中學(xué)習(xí)訓(xùn)練出通用的智能體,一直是AI領(lǐng)域研究的目標(biāo)之一。

而人形機器人通過集成全身控制和感知,能夠執(zhí)行各種任務(wù),于是作為多功能平臺脫穎而出。

不過要模仿咱們這種高級動物,代價還是很大的。

比如下圖中,人型機器人為了不踩坑,就需要準(zhǔn)確地感知迎面而來的地板縫隙的位置和長度,同時仔細(xì)協(xié)調(diào)全身運動,使其有足夠的動量和范圍來跨越每個縫隙。

Puppeteer基于LeCun在2022年提出的分層JEPA世界模型,是一種數(shù)據(jù)驅(qū)動的RL方法。

它由兩個不同的智能體組成:一個負(fù)責(zé)感知和跟蹤,通過關(guān)節(jié)級控制跟蹤參考運動;另一個「視覺木偶」(puppeteer),通過合成低維參考運動來學(xué)習(xí)執(zhí)行下游任務(wù),為前者的跟蹤提供支持。

Puppeteer使用基于模型的RL算法——TD-MPC2,在兩個不同的階段獨立訓(xùn)練兩個智能體。

(ps:這個TD-MPC2就是文章開篇用來比較的那個動圖,別看有點抽象,那實際上是之前的SOTA,發(fā)表在今年的ICLR,一作同樣也是本文的一作。)

第一階段,首先對用于跟蹤的世界模型進(jìn)行預(yù)訓(xùn)練,使用預(yù)先存在的人類動作捕捉數(shù)據(jù)作為參考,將運動轉(zhuǎn)換為物理上可執(zhí)行的動作。這個智能體可以保存起來,在所有下游任務(wù)中重復(fù)使用。

在第二階段,訓(xùn)練一個木偶世界模型,該模型以視覺觀察為輸入,并根據(jù)指定的下游任務(wù),整合另一個智能體提供的參考運動作為輸出。

這個框架看上去大道至簡:兩個世界模型在算法上是相同的,只是在輸入/輸出上不同,并且使用RL進(jìn)行訓(xùn)練,無需其他任何花里胡哨的東西。

與傳統(tǒng)的分層RL設(shè)置不同的是,「木偶」輸出的是末端執(zhí)行器關(guān)節(jié)的幾何位置,而不是目標(biāo)的嵌入。

這使得負(fù)責(zé)跟蹤的智能體易于在任務(wù)之間共享和泛化,節(jié)省整體計算占用的空間。

研究方法

研究人員將視覺全身人形控制,建模為一個由馬爾可夫決策過程(MDP)控制的強化學(xué)習(xí)問題,該過程以元組(S,A,T,R,γ,?)為特征,

其中S是狀態(tài),A是動作,T是環(huán)境轉(zhuǎn)換函數(shù), R是標(biāo)量獎勵函數(shù), γ是折扣因子,?是終止條件。

如上圖所示,研究人員使用RL在人類MoCap數(shù)據(jù)上預(yù)訓(xùn)練跟蹤智能體,用于獲取本體感覺信息和抽象參考運動輸入,并合成跟蹤參考運動的低級動作。

然后通過在線互動,對負(fù)責(zé)下游任務(wù)的高級木偶智能體進(jìn)行訓(xùn)練,木偶接受狀態(tài)和視覺信息輸入,并輸出命令供跟蹤智能體執(zhí)行。

TD-MPC2

TD-MPC2從環(huán)境交互中學(xué)習(xí)一個潛在的無解碼器世界模型,并使用學(xué)習(xí)到的模型進(jìn)行規(guī)劃。

圖片

世界模型的所有組件都是使用聯(lián)合嵌入預(yù)測、獎勵預(yù)測和時間差異 損失的組合端到端學(xué)習(xí)的,而無需解碼原始觀察結(jié)果。

在推理過程中,TD-MPC2遵循模型預(yù)測控制(MPC)框架,使用模型預(yù)測路徑積分(MPPI)作為無導(dǎo)數(shù)(基于采樣)的優(yōu)化器進(jìn)行局部軌跡優(yōu)化。

為了加快規(guī)劃速度,TD-MPC2還事先學(xué)習(xí)了一個無模型策略,用于預(yù)啟動采樣程序。

兩個智能體在算法上是相同的,都由以下6個組件組成:

實驗

為了評估方法的有效性,研究人員提出了一種新的任務(wù)套件,使用模擬的56自由度人形機器人進(jìn)行視覺全身控制,總共包含8個具有挑戰(zhàn)性的任務(wù),用于對比的方法包括SAC、DreamerV3以及TD-MPC2。

8個任務(wù)如下圖所示,包括5個視覺條件全身運動任務(wù),以及另外3個沒有視覺輸入的任務(wù)。

任務(wù)的設(shè)計具有高度的隨機性,包括沿著走廊奔跑、跳過障礙物和縫隙、走上樓梯以及繞過墻壁。

5個視覺控制任務(wù)都使用與線性前進(jìn)速度成正比的獎勵函數(shù),而非視覺任務(wù)則獎勵任何方向的位移。

上圖繪制了學(xué)習(xí)曲線。結(jié)果表明,SAC和DreamerV3在這些任務(wù)上無法實現(xiàn)有意義的性能。

TD-MPC2在獎勵方面的性能與本文的方法相當(dāng),但會產(chǎn)生不自然的行為(參見下圖中的抽象動作)。

圖片

此外,為了證明Puppeteer生成的動作確實更「自然」,本文還進(jìn)行了人類偏好的實驗,對46名參與者的測試表明,人類普遍喜歡本文方法生成的運動。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-09 07:15:00

世界模型AILLM

2020-04-10 21:36:46

協(xié)作機器人物聯(lián)網(wǎng)機器人

2024-09-18 13:30:00

2025-03-19 10:26:10

2023-05-22 19:16:09

人工智能機器人

2024-04-28 14:54:09

機器人代碼

2020-10-15 15:42:00

人工智能

2017-08-24 13:14:38

AI人工智能機器人

2022-07-24 19:24:32

機器學(xué)習(xí)預(yù)訓(xùn)練模型機器人

2023-07-29 13:43:26

機器人模型

2024-10-24 23:35:54

2021-08-19 15:44:20

機器人人工智能機器學(xué)習(xí)

2015-07-28 09:36:11

機器人

2016-02-16 10:30:32

機器人

2021-08-06 06:31:53

Facebook開源機器人開發(fā)平臺

2024-10-16 16:20:00

AI機器人

2020-07-01 07:33:21

機器人COVID-19人工智能

2021-07-22 10:17:55

加密機器人加密貨幣機器人

2021-11-25 11:46:05

機器人人工智能建筑
點贊
收藏

51CTO技術(shù)棧公眾號