自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器人輕松模仿人類,還能泛化到不同任務(wù)和智能體!微軟新研究,學(xué)習(xí)人類和機(jī)器人統(tǒng)一動作表示

人工智能
IGOR提出了通過大量人類和機(jī)器人視頻預(yù)訓(xùn)練學(xué)習(xí)動作表示并泛化到不同任務(wù)和智能體的新方法。通過從大量視頻中學(xué)到的動作表示,IGOR可以實(shí)現(xiàn)機(jī)器人輕松模仿人類動作,進(jìn)而實(shí)現(xiàn)更通用的智能體。

讓機(jī)械臂模仿人類動作的新方法來了,不怕缺高質(zhì)量機(jī)器人數(shù)據(jù)的那種。

微軟提出圖像目標(biāo)表示(IGOR,Image-GOal Representation),“投喂”模型人類與現(xiàn)實(shí)世界的交互數(shù)據(jù)。

IGOR能直接為人類和機(jī)器人學(xué)習(xí)一個(gè)統(tǒng)一的動作表示空間,實(shí)現(xiàn)跨任務(wù)和智能體的知識遷移以及下游任務(wù)效果的提升。

要知道,在訓(xùn)練具身智能領(lǐng)域的基礎(chǔ)模型時(shí),高質(zhì)量帶有標(biāo)簽的機(jī)器人數(shù)據(jù)是保證模型質(zhì)量的關(guān)鍵,而直接采集機(jī)器人數(shù)據(jù)成本較高。

考慮到互聯(lián)網(wǎng)視頻數(shù)據(jù)中也展示了豐富的人類活動,包括人類是如何與現(xiàn)實(shí)世界中的各種物體進(jìn)行交互的,由此來自微軟的研究團(tuán)隊(duì)提出了IGOR。

圖片圖片

究竟怎樣才能學(xué)到人類和機(jī)器人統(tǒng)一的動作表示呢?

IGOR框架解讀

IGOR框架如下所示,包含三個(gè)基礎(chǔ)模型:

Latent Action Model、Policy Model和World Model。

圖片圖片

具體來說,IGOR先是提出了潛在動作模型LAM(Latent Action Model),將初始狀態(tài)和目標(biāo)狀態(tài)之間的視覺變化壓縮為低維向量,并通過最小化初始狀態(tài)和動作向量對目標(biāo)狀態(tài)的重建損失來進(jìn)行訓(xùn)練。

這樣一來,具有相似視覺變化的圖像狀態(tài)將具有相似的動作向量,代表了他們在語義空間而非像素空間上的變化。

通過LAM,可以將互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)轉(zhuǎn)化為帶有潛在動作標(biāo)注的數(shù)據(jù),大大擴(kuò)展了具身智能基礎(chǔ)模型能夠使用的數(shù)據(jù)量。

這個(gè)統(tǒng)一的潛在動作空間使團(tuán)隊(duì)能夠在幾乎任意由機(jī)器人和人類執(zhí)行的任務(wù)上訓(xùn)練Policy Model和World Model。

通過結(jié)合LAM和World Model,IGOR成功地將一個(gè)視頻中的物體運(yùn)動“遷移”到其他視頻中。并且,這些動作實(shí)現(xiàn)了跨任務(wù)和跨智能體的遷移。

也就是說,用人的行為給機(jī)器人做演示,機(jī)器人也能做出正確的動作。如下圖所示,LAM得到的潛在動作表示可以同時(shí)實(shí)現(xiàn)跨任務(wù)(用手移動不同物體)和跨智能體(用手的移動指導(dǎo)機(jī)械臂的移動)的遷移。

圖片圖片

△Latent Action實(shí)現(xiàn)跨任務(wù)和智能體的遷移△Latent Action實(shí)現(xiàn)跨任務(wù)和智能體的遷移

以下是模型架構(gòu)的具體細(xì)節(jié)。

Latent Action Model

LAM的目標(biāo)是以無監(jiān)督的方式從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學(xué)習(xí)和標(biāo)注潛在動作,即給定視頻幀序列,對于每一對相鄰幀提取潛在動作表示。

為此,LAM模型由一個(gè)Inverse Dynamic Model(IDM)和Forward Dynamic Model(FDM)組成。

IDM的從視頻幀序列中提取潛在動作表示,而FDM負(fù)責(zé)用學(xué)到的表示和當(dāng)前視頻幀來重建接下來的視頻幀。

由于將潛在動作表示限定在較低的維度,因此LAM模型會將兩幀之間語義上的區(qū)別學(xué)習(xí)到之中。

值得注意的是,這種方式天然保證了學(xué)到的潛在動作是具有泛化性的。

如下圖所示, 在未見數(shù)據(jù)集上,LAM學(xué)到的相似潛在動作反映了相似的語義,包括打開夾子、機(jī)械臂向左移動和關(guān)閉夾子,這些潛在動作在不同任務(wù)間共享,進(jìn)而提升下游模型的泛化性。

△Latent Action Model在未見數(shù)據(jù)集上的表現(xiàn)△Latent Action Model在未見數(shù)據(jù)集上的表現(xiàn)

Foundation World Model

World Model的作用是根據(jù)歷史視頻幀和未來多幀的潛在動作表示,生成在歷史幀的基礎(chǔ)上執(zhí)行各個(gè)潛在動作之后的未來視頻幀。

為此,研究人員選擇從預(yù)訓(xùn)練的視頻生成模型上進(jìn)行微調(diào),將條件從文本換成了潛在動作表示和FDM的重建輸出。

在具身智能的相關(guān)數(shù)據(jù)集上進(jìn)行微調(diào)之后,研究人員觀察到World Model可以成功地在給定相同歷史幀時(shí),針對不同的潛在動作表示生成相對應(yīng)的未來視頻幀。

如下圖所示,此方法可以通過潛在動作和World Model控制不同物體的獨(dú)立移動。

△World Model對于給定的不同潛在動作表示時(shí)的生成結(jié)果△World Model對于給定的不同潛在動作表示時(shí)的生成結(jié)果

Foundation Policy Model

Policy Model的目標(biāo)是在具體的下游任務(wù)上,根據(jù)視頻幀和文本指令來預(yù)測智能體每一步要采取的動作。

在IGOR中,它的訓(xùn)練分為了兩個(gè)階段。

在第一階段,Policy Model將根據(jù)輸入的視頻幀和文本指令來預(yù)測LAM提取出的相應(yīng)的潛在運(yùn)動表示,從而建立從視頻幀到通用潛在運(yùn)動表示的映射。

在第二階段,該模型則會根據(jù)文本指令、視頻幀以及第一階段模型預(yù)測出來的潛在動作表示共同預(yù)測下游任務(wù)上具體的運(yùn)動標(biāo)簽。

和現(xiàn)有模型相比,第一階段預(yù)測出的潛在動作表示蘊(yùn)含了完成該任務(wù)需要達(dá)成的短期目標(biāo),豐富了模型的輸入信息,因此提升了最終策略的任務(wù)成功率,如下圖所示。

△Policy Model在下游機(jī)器人任務(wù)上的表現(xiàn)△Policy Model在下游機(jī)器人任務(wù)上的表現(xiàn)

在相同的場景下給定不同的文本指令,研究人員也驗(yàn)證了Policy Model的有效性,即模型可以根據(jù)不同的指令生成相應(yīng)的潛在動作表示,進(jìn)而通過World Model模擬執(zhí)行相應(yīng)的指令。

圖片圖片

△Policy Model和World Model對于不同文本指令的生成結(jié)果

總的來說,IGOR提出了通過大量人類和機(jī)器人視頻預(yù)訓(xùn)練學(xué)習(xí)動作表示并泛化到不同任務(wù)和智能體的新方法。通過從大量視頻中學(xué)到的動作表示,IGOR可以實(shí)現(xiàn)機(jī)器人輕松模仿人類動作,進(jìn)而實(shí)現(xiàn)更通用的智能體。

項(xiàng)目主頁:https://aka.ms/project-igor
論文:https://aka.ms/project-igor-paper

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2021-04-19 20:30:06

機(jī)器人AI人工智能

2021-12-26 23:04:34

機(jī)器人人工智能技術(shù)

2017-03-31 09:00:25

機(jī)器人模仿人類

2024-01-05 19:44:48

谷歌機(jī)器人憲法AI

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2023-05-22 19:16:09

人工智能機(jī)器人

2017-05-25 12:05:03

機(jī)器人軟體機(jī)器人大蜘蛛

2021-06-02 15:47:40

機(jī)器人人工智能編程

2024-01-05 09:16:22

谷歌機(jī)器人人工智能

2021-02-19 13:17:19

比特幣機(jī)器人加密貨幣

2023-05-24 13:04:46

機(jī)器人人工智能

2021-01-12 12:45:16

機(jī)器人人工智能AI

2025-02-28 08:30:00

2020-09-08 12:52:14

機(jī)器人人工智能系統(tǒng)

2015-12-10 21:49:32

IM機(jī)器人

2017-03-15 19:03:22

人工智能人類半機(jī)器人

2017-03-11 11:19:43

機(jī)器人取代人類

2020-10-15 15:42:00

人工智能

2018-05-23 12:51:07

2021-01-28 19:34:49

人工智能AI機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號