UCSD、MIT等華人團隊教機器狗感知3D世界!搭M1芯片,爬樓跨障無所不能
最近,來自UCSD、IAIFI和MIT機構(gòu)的研究人員,用一種全新的神經(jīng)體積記憶架構(gòu)(NVM),教會了一只機器狗感知三維世界。
利用這項技術(shù),機器狗可以通過單一的神經(jīng)網(wǎng)絡(luò)實現(xiàn)爬樓梯、跨縫隙、翻障礙等等——完全自主,無需遙控。
不知道你有沒有注意到狗背上那個的白盒子?
里面搭載的是蘋果的M1芯片,負責運行機器狗的視覺處理任務(wù)。而且,還是團隊從一臺Mac上拆下來的。
不難看出,MIT的這只機器狗可以輕松地爬過了橫在自己面前一段樹枝,毫不費力(基本上)。
長了4條腿的MacBook?
眾所周知,對于機器狗,以及其他有腿的機器人來說,想要翻越不平整的道路,可謂是困難重重。
路面狀況越是復(fù)雜,就有越多的障礙無法被看到。
為了解決「部分可觀測環(huán)境」問題,目前SOTA的視覺-運動技術(shù)通過幀堆疊(frame-stacking),將圖像通道連接起來。
然而,這種簡單的處理方法遠遠落后于現(xiàn)在的計算機視覺技術(shù)——后者可以明確地模擬光流和特定的3D幾何形狀。
受此啟發(fā),團隊提出了一種神經(jīng)體積記憶架構(gòu)(NVM),可以充分考慮到三維世界的SE(3)等變性(Equivalence)。
項目地址:https://rchalyang.github.io/NVM/
與以往的方法不同,NVM是一種體積格式。它可以將來自多個相機視圖的特征體積聚合到機器人的自我中心框架中,從而讓機器人能更好地理解周圍的環(huán)境。
測試的結(jié)果顯示,使用神經(jīng)體積記憶(NVM)對腿部運動進行訓(xùn)練后,機器人在復(fù)雜的地形上的表現(xiàn)要明顯優(yōu)于之前的技術(shù)。
此外,消融實驗的結(jié)果顯示,神經(jīng)體積記憶中存儲的內(nèi)容捕獲了足夠的幾何信息來重構(gòu)3D場景。
現(xiàn)實世界中的實驗
為了在模擬之外的不同現(xiàn)實世界場景中進行驗證,團隊在室內(nèi)和室外場景中都進行了實驗 。
當機器狗發(fā)現(xiàn)有障礙物突然出現(xiàn)在自己面前時,直接就會選擇繞開。
在滿是石頭的地面上,走起來好像也沒什么問題,雖然比在平地上還是要費力一些的。
相對于自身來說比較大的障礙,努努力也還是可以翻過去的。
采用此前的識別控制技術(shù),小狗后腿對距離判斷明顯出現(xiàn)了誤差,一腳踩溝里翻車了,失敗。
采用MIT提出的NVM之后,小狗過溝,穩(wěn)穩(wěn)的幸福,成功!
采用此前的識別控制技術(shù),小狗第一腳就踩空了,狗頭搶地,失敗。
采用MIT提出的NVM之后,小狗四平八穩(wěn)地走過了矩陣。
腿部運動的體積記憶
使用以自我為中心的攝像機視角,本質(zhì)上是一個處理「部分可觀測環(huán)境」的問題(Partially-Observed)。
為了使控制問題具體化,機器人需要從先前的幀中收集信息,并正確推斷被遮擋的地形。
在運動過程中,直接安裝在機器人底盤上的攝像機發(fā)生劇烈和突然的位置變化。
這樣,在表征一連串的畫面的過程中,某單個幀能夠被放到正確的位置,就變得非常重要了。
為此,團隊提出的神經(jīng)體積記憶(NVM)的概念,可以將輸入的一連串視覺信息,轉(zhuǎn)化為場景特征進行3D描繪,進而進行輸出。
通過自監(jiān)督學(xué)習(xí)NVM
雖然「行為克隆目標」足以產(chǎn)生一個好的策略,但針對平移和旋轉(zhuǎn)的等變性,自動為神經(jīng)體積記憶提供了一個獨立的、自監(jiān)督的學(xué)習(xí)目標。
自監(jiān)督學(xué)習(xí):研究團隊訓(xùn)練了一個獨立的解碼器。讓它通過一段視覺觀察和兩個幀之間的預(yù)估轉(zhuǎn)換,來預(yù)測不同幀中的視覺觀察。
如上圖所示,可以假設(shè)在幀之間周圍的3D場景保持不變。由于相機是朝前看的,我們可以將先前幀的特征體積規(guī)范化,并用它來預(yù)測后續(xù)的圖像。
解碼器的視覺重建
第一幅圖顯示機器人在環(huán)境中移動,第二幅圖是輸入的視覺觀察結(jié)果,第三幅圖是使用3D特征體積和預(yù)估畫面合成的視覺觀察效果。
對于輸入的視覺觀察,研究團隊對圖像應(yīng)用了大量的數(shù)據(jù)增強來提高模型的魯棒性。
作者介紹
Ruihan Yan
Ruihan Yan是加州大學(xué)圣地亞哥分校的二年級博士生。在此之前,他于2019年在南開大學(xué)獲得軟件工程學(xué)士學(xué)位
他的研究興趣是強化學(xué)習(xí)、機器學(xué)習(xí)、機器人等。具體來說,他想建立智能體,利用來自不同來源的信息進行決策。
Ge Yang
Ge Yang本科畢業(yè)于耶魯大學(xué)物理和數(shù)學(xué)專業(yè),并在芝加哥大學(xué)獲得物理學(xué)博士學(xué)位。目前是美國國家科學(xué)基金會人工智能與基礎(chǔ)交互作用研究所(IAIFI)的博士后研究員。
Ge Yang的研究涉及兩組相關(guān)問題。第一組是通過重新審視我們在神經(jīng)網(wǎng)絡(luò)中表征知識的方式,以及知識如何在分布中轉(zhuǎn)移,來改善學(xué)習(xí)。第二組是通過理論工具的視角來看待強化學(xué)習(xí),如神經(jīng)正切核、非歐幾里得幾何和哈密頓動力學(xué)。
Xiaolong Wang
Xiaolong Wang是加州大學(xué)圣地亞哥分校ECE系的一名助理教授。他是TILOS國家科學(xué)基金會人工智能研究所的機器人團隊的成員。
他在卡內(nèi)基梅隆大學(xué)獲得了機器人學(xué)的博士學(xué)位,并曾在加州大學(xué)伯克利分校做博士后研究。