相隔3000英里,用蘋果頭顯遙控機器人!UCSD、MIT華人團隊開源TeleVision
你是否曾想過,自己身處某地,可以控制幾千公里以外的「機器人」本體?
這個想法,最近被來自UCSD和MIT的華人學者們實現(xiàn)了。
UCSD位于加利福尼亞州,MIT位于馬薩諸塞州,這兩地之差,約3000英里(4800公里)。
不過,MIT的研究人員竟通過頭戴Apple Vision,實現(xiàn)了遠程操控UCSD實驗室中的機器人,效果讓人為之驚嘆。
只見人類空手做出了手持易拉罐的動作,機器人在另一邊也做出了同步的動作,然后依次將6罐芬達放置在了盒子里。
完成之后,人類做了OK、以及??手勢,機器人也跟著有模有樣,做了出來。
這一想法之所以能夠?qū)崿F(xiàn),背后源于研究者提出了一個沉浸式的遠程操作系統(tǒng)——Open-TeleVision。
論文地址:https://robot-tv.github.io/resources/television.pdf
Open-TeleVision創(chuàng)新之處在于,可以提供立體式感知環(huán)境,實現(xiàn)操作者動作到機器人的精確鏡像,創(chuàng)造出一種沉浸式體驗。
正如論文作者所言,仿佛操作者的思維被傳輸?shù)搅藱C器人的身體中。
值得一提的是,你不僅可以用頭顯,還可以用筆記本、iPad、甚至是手機,完成對機器人的遠程操控。
那么,這項研究意義何在?
現(xiàn)實生活中,機器人能夠?qū)W習的數(shù)據(jù)非常少。遠程操控的方法,可以用于收集機器人行示范中學些所需的真實機器人數(shù)據(jù)。
研究人員正式希望通過Open-TeleVision這一方式,進一步幫助這一領(lǐng)域探索出更多的場景數(shù)據(jù)。
遠程操控,讓機器人替人類打工
可以暢想下,有了這樣的技術(shù),我們未來生活會有怎樣的巨變?
在實驗室悶頭苦干的人不一定非得是自己,你可以在家即可操控機器人,取樣本、分析都能完成。
而且流水線上的工人們,可能要被這些機器人逐漸取代。看著將耳塞精準熟練地裝進透明的盒子,足見其強大。
它們還可以勝任收銀員的工作,一手拿著掃碼器,一手拿著商品,逐一完成掃碼任務(wù)。
建筑工地中,一些危險的活兒,也能交由它們做。拿著電鋸在指定位置打孔,不得不說真的強。
你還可以讓機器人作為你的化身,陪你做游戲。
友好互動,機器人做的也是毫無違和感。
下面這是一個超有愛的畫面,只見機器人將Hellokitty掛件遞給女生后,還做出了比心的動作。
再來看看更多,跨越更遠區(qū)域的演示。
研究人員做裝網(wǎng)球的動作,機器人將現(xiàn)實中物體裝進桶中。
下面這個比較有意思,MIT研究人員控制一臺機器人,向與另一臺機器人傳遞鏡子。
以上皆是遠程操控完成任務(wù)的案例,不過研究者開發(fā)的系統(tǒng),也能夠讓機器人本體,自主去完成一些精準的任務(wù)。
比如,分類不同易拉罐飲料。
疊毛巾等等。
看過這么多精彩演示,你一定想了解其背后的技術(shù)原理,不如一起來看看。
技術(shù)介紹
正如開頭所述,研究人員開發(fā)了一種通用框架Open-TeleVision,可以應用到不同機器人、機械手臂上,用VR設(shè)備完成高精度遠程操控。
通過捕捉人類操作者的手部姿勢,作者執(zhí)行重定向操作,來控制多指機器人手或平行夾持器。
另外,研究者依靠逆運動學將操作者的手根位置,轉(zhuǎn)換為機器人手臂末端執(zhí)行器的位置。
整體的系統(tǒng)概述如下圖2所示。
研究人員基于Vuer開發(fā)了一個網(wǎng)絡(luò)服務(wù)器。VR設(shè)備將操作者的手、頭和手腕的姿態(tài)以SE(3)的形式流式傳輸?shù)椒?wù)器,服務(wù)器負責處理人類到機器人的動作重定向。
圖3展示了機器人的頭部、手臂和手如何跟隨人類操作者的動作。
反過來,機器人以每只眼睛480x640的分辨率流式傳輸立體視頻,整個循環(huán)以60Hz的頻率進行。
硬件配置
具體來說,研究人員對兩種機器人進行了實驗,如下圖4所示。
它們分別是人形機器人Unitree H1,以及配備夾持器的Fourier GR-1,來執(zhí)行雙手操作的任務(wù)。
對于主動感知,研究人員專為H1設(shè)計了一個具有兩個旋轉(zhuǎn)自由度(偏航和俯仰)的云臺,安裝在軀干頂部。
這個云臺由3D打印部件組裝而成,由DYNAMIXEL XL330-M288-T電機驅(qū)動。
對于GR-1,他們使用了廠商提供的3自由度頸部(偏航、滾動和俯仰)。
兩種機器人都使用ZED Mini立體相機提供立體RGB視頻流。
具體材料費用細節(jié),下表列出了一些要點。
有了所具備的硬件,就要開啟實驗了。
實驗結(jié)果
論文中,研究人員主要研究了兩個問題:
- Open-TeleVision系統(tǒng)的關(guān)鍵設(shè)計選擇如何影響模仿學習結(jié)果的表現(xiàn)?
- Open-TeleVision遠程操作系統(tǒng)在收集數(shù)據(jù)方面的效率如何?
這里,研究人員選擇ACT作為模仿學習的算法,并進行了兩項關(guān)鍵修改。
一是,用更強大的視覺骨干網(wǎng)絡(luò)DinoV2替換了ResNet。DinoV2是一個通過自監(jiān)督學習預訓練的視覺Transformer(ViT)。
二是,使用兩個立體圖像作為Transformer編碼器的輸入,而不是使4個獨立排列的RGB相機的圖像。
DinoV2骨干網(wǎng)絡(luò)為每張圖像生成16 × 22個token。狀態(tài)token是從機器人當前的關(guān)節(jié)位置投影而來的。
對于H1機器人,動作維度是28(每個手臂7個,每只手6個,主動頸部2個)。對于GR-1機器人,動作維度是19(每個手臂7個,每個夾持器1個,主動頸部3個)。
具體實驗中,作者選擇了四個強調(diào)精確性、泛化能力,以及長期規(guī)劃的任務(wù),以展示Open-TeleVision的有效性,如下圖5所示。
模仿學習
在易拉罐分類任務(wù)中,分別評估了拾取罐子的成功率和將其放置到指定位置的準確性。根據(jù)表1中H1的結(jié)果,Open-TeleVision在這兩項評估指標上都具有最高的成功率。
在拾取子任務(wù)中,新模型始終優(yōu)于其他兩個基準模型。
在毛巾折疊任務(wù)中,研究者的模型和使用ResNet18的模型都達到了100%的折疊成功率。
泛化能力
此外,研究人員在隨機化條件下評估了模型的泛化能力。
在使用H1進行的罐子分類任務(wù)中,評估了模型從一個4x4網(wǎng)格(每個網(wǎng)格單元為3厘米)中拾取罐子的成功率,如圖6(左)所示。
詳細結(jié)果在圖6(右)中展示,這表明新策略能很好地泛化到數(shù)據(jù)集中覆蓋的大面積區(qū)域,實現(xiàn)100%的成功率。
與此同時,TeleVision系統(tǒng)在相同批量大小下訓練速度提高了2倍,并且在4090 GPU上可以在一個批中容納4倍的數(shù)據(jù)。
在推理過程中,TeleVision系統(tǒng)也快了2倍,為逆運動學(IK)和重定向計算留出了足夠的時間,以達到60Hz的部署控制頻率。
針對用戶研究,可以看出不同用戶對機器人在任務(wù)分類中的偏好。
在圖8中,展示了Open-TeleVision能夠執(zhí)行的更多遠程操作任務(wù),比如木板轉(zhuǎn)孔、耳塞包裝任務(wù),液體試管。
如圖9所示,Open-TeleVision系統(tǒng)還實現(xiàn)了遠程操作。
總而言之,這項研究中提出了一個沉浸式遠程操作系統(tǒng)Open-TeleVision,實現(xiàn)了精確的任務(wù)操作。
不過,作者也指出,系統(tǒng)仍缺乏其他形式的反饋,比如觸覺。
而且在第一人稱視覺被遮擋和需要大量觸覺任務(wù)中,觸覺反饋通常是主要的反饋形式。
一個能夠重新標記專家數(shù)據(jù)的系統(tǒng),對提高成功率可能非常有幫助,這也是當前系統(tǒng)所缺失的。