谷歌家務機器人單挑斯坦福炒蝦機器人!端茶倒水逗貓,連甩三連彈開打
火爆全網(wǎng)的斯坦福炒蝦機器人,一天之內人氣暴漲。
畢竟這樣能炒菜能洗碗的全能機器人,誰不想帶一個回家,把自己從家務中解放出來呢!
據(jù)說,這個項目是斯坦福華人團隊花了三個月的時間做出來的。
今天,團隊直接放出了更多細節(jié)。
這個機器人的技能多種多樣,令人眼花繚亂。
以前,聊天機器人愜意地吟詩作畫,人類苦逼地收拾打掃,這畫風怎么看怎么不對。
如今終于有人想起來了:機器人的一大任務,就該是幫人類干家務??!
你還有什么驚喜是我們不知道的?
斯坦福的這個炒菜機器人,它還能——
澆花。
圖片
掃地。
圖片
煮咖啡。
幫主人刮胡子。
圖片
揪一片衛(wèi)生紙,擦干凈桌子上的牛奶。
圖片
把洗碗機里的碗拿出來。
圖片
陪貓玩。
圖片
洗衣服(包括把一袋臟衣服倒進洗衣機、從袋子中拿出洗衣凝珠、擰開洗衣液倒進去、按下洗衣機按鈕等過程)。
圖片
推著小筐子收衣服。
圖片
整理床單、換枕套。
圖片
疊衣服(注意,它甚至還能完成拉拉鏈這種程度的精細操作)。
圖片
擰開瓶蓋,給工作中的主人送去一瓶啤酒。
圖片
跟主人道晚安,幫躺在床上的主人蓋好杯子。
圖片
最后,還有一個彩蛋:忙碌的一天結束后,機器人還會自己給自己充電,迎接元氣滿滿的一天,繼續(xù)為主人服務了!
圖片
擂臺對打,谷歌DeepMind機器人研究三連彈
谷歌DeepMind這邊,當然也不甘落后。
今天,谷歌DeepMind也官宣了一系列進展,就是為了能讓機器人技術在日常生活中幫助我們。
圖片
谷歌DeepMind的這個機器人,可以幫我們撿水果。
圖片
從抽屜里拿出一罐可樂。
圖片
幫我們擺好牙刷。
圖片
總之,斯坦福炒蝦機器人能做的,它也不差。
解決兩大關鍵挑戰(zhàn)
谷歌采用了AutoRT、SARA-RT和RT-Trajectory等技術,讓機器人能夠更快地做出決策,更好地理解環(huán)境,在環(huán)境中導航。
為了生產真正有能力的機器人,就必須解決兩個基本挑戰(zhàn):
一個是提高它們將行為泛化到新情況的能力;第二個,就是提高它們的決策速度。
谷歌DeepMind團隊,在這兩個領域都進行了重大改進。
SARA-RT:讓機器人Transformer更高效
首先,系統(tǒng)SARA-RT使用一種新穎的「向上訓練」方法,將機器人Transformer模型轉換為更高效的版本。
這樣,就降低了機器人部署所需的計算要求,在保持質量的同時,提高 了速度。
圖片
當研究者將SARA-RT應用于谷歌最先進的RT-2模型時,在獲得簡短的圖像歷史后,最佳版本的準確率提高了10.6%,速度提高了14%。
雖然Transformer很強大,但它們可能會受到計算需求的限制,這會減緩它們的決策速度。
Transformer嚴重依賴于二次復雜度的注意力模塊。
這意味著,如果RT模型的輸入增加1倍,處理該輸入所需的計算資源就會增加4倍,從而導致決策速度減慢。
如上所述,SARA-RT「向上訓練」的方法來提高效率?!赶蛏嫌柧殹故菍⒍螐碗s度轉化為單純的線性復雜度,大大降低了計算要求。這種轉換不僅提高了原始模型的速度,而且還能保持其性能。
研究者表示,可以相信這是第一個可擴展的注意力機制,可以在不損失質量的情況下提供計算改進。
圖片
谷歌這一系統(tǒng)的設計是為了可用性,同時也希望更多的研究人員和從業(yè)者將其應用于機器人學和其他領域。
因為SARA提供了加速Transformer的通用方法,且不需要算力昂貴的預訓練,這種方法有助于擴大Transformer技術的使用。
與此同時,SARA-RT不需要任何額外的代碼,因其可以使用各種開源的線性變量。
圖片
SARA-RT-2模型用于操作任務,機器人的行動以圖像和文本命令為條件
SARA-RT可以應用于各種Transformer模型。比如,將SARA-RT應用于點云Transformer,用于處理機器人深度攝像頭的空間數(shù)據(jù),并且速度提高了一倍多。
RT-Trajectory:讓機器人學會泛化
第二,RT-Trajectory模型通過自動將描述機器人運動的視覺輪廓添加到其訓練中,來學習如何遵循指令。
要知道,人類可以很直觀地理解該如何擦桌子,但機器人,則需要通過多種方式,將指令轉化為實際的身體動作。
這個RT-Trajectory模型,可以在訓練數(shù)據(jù)集中獲取每個視頻,并在執(zhí)行任務時將其與機械臂抓手的2D軌跡草圖疊加在一起。
這樣,這些軌跡就以RGB圖像的形式,在模型學習其機器人控制策略時,為它提供了低級的、實用的視覺提示。
圖片
它還可以通過觀看人工演示、理解草圖甚至VLM生成的圖紙來創(chuàng)建軌跡。
當對訓練數(shù)據(jù)中看不見的41項任務進行測試時,由RT-Trajectory控制的手臂取得了63%的成功率。
圖片
傳統(tǒng)上,訓練機械臂依賴于將抽象的自然語言(「擦桌子」)映射到特定的動作(關閉抓手、向左移動、向右移動),這使得模型很難推廣到新的任務。
相比之下,RT-Trajectory模型使RT模型能夠通過解釋特定的機器人運動(如視頻或草圖中包含的運動),來理解完成任務時應該「如何做」。
這個系統(tǒng)的用途很廣泛,它還可以通過觀看所需任務的人類演示來創(chuàng)建軌跡,甚至可以接受手繪草圖。
它可以很容易地適應不同的機器人平臺。
AutoRT:大模型訓練機器人
第三,AutoRT利用基礎模型的強大功能來創(chuàng)建一個系統(tǒng),該系統(tǒng)可以理解人類的實際目標,并使機器人能夠在新環(huán)境中收集訓練數(shù)據(jù)。
這可以幫助擴展機器人的學習范圍。
圖片
AutoRT將基礎模型(如LLM、VLM)與機器人控制模型(RT-1、RT-2)相結合,以創(chuàng)建一個可以部署機器人在新環(huán)境中收集訓練數(shù)據(jù)的系統(tǒng)。
AutoRT可以同時指揮多個機器人,每個機器人都配備了一個攝像頭,以及一個末端執(zhí)行器,在一系列設置中執(zhí)行不同的任務。
在這個過程中,系統(tǒng)首先使用的是VLM,來了解其周圍環(huán)境。
圖片
(1)自主輪式機器人發(fā)現(xiàn)有多個對象的位置。(2)VLM向LLM描述場景和對象。(3)LLM建議機器人執(zhí)行不同的操作任務,并在做出選擇之前決定機器人可以在沒有輔助的情況下完成哪些任務,哪些任務需要人類遠程控制,哪些任務不可能完成。(4)嘗試所選任務,收集經驗數(shù)據(jù),并對數(shù)據(jù)的多樣性/新穎性進行評分。以此往復。
接下來,LLM為每個機器人提出創(chuàng)造性的任務,并選擇他們應該執(zhí)行的任務。
在7個月的評估中,AutoRT安全地同時協(xié)調了多達20個機器人,讓它們有條不紊地穿梭在各個辦公室。
圖片
不過,有一個關鍵問題:怎么確保機器人一定會保護人類的安全呢?
首先,AutoRT就具有安全護欄,能夠為基于LLM的決策者提供「機器人憲法」。在為機器人選擇任務時,必須遵守這些安全提示。
這個「機器人憲法「,一定程度上受到了阿西莫夫機器人三定律的啟發(fā)。首先,機器人不得傷害人類。另外,機器人也不得嘗試涉及人類、動物、尖銳物體或電器的任務。
不過,這也不能保證安全性,因此,AutoRT系統(tǒng)由經典機器人技術的使用安全措施組成。
比如,通過編程可以設定,如果機器人關節(jié)上的力超過給定閾值,就會自動自動停止。
并且,所有活動機器人都必須通過物理停用機關,保持在人類主管的視線范圍內。
網(wǎng)友:今年是機器人的爆發(fā)年
2024年開局第一周,各種機器人研究就開始大爆發(fā),讓每個人為之興奮。
一邊是斯坦福代表著學術界的機器人成果,另一邊是谷歌帶著工業(yè)界的成果,雙雙亮相。
網(wǎng)友稱,機器人和人工智能智能體今年開局強勁。為接下來的幾個月做好準備。
圖片
還有人將這周,稱為「機器人周」。
圖片
我認為,在未來2年的某個時候,人工智能和機器人技術的交叉,將同生成式AI一樣爆炸。
「ChatGPT」時刻即將來臨。
圖片
英偉達高級科學家Jim Fan表示——
2024年是機器人年。
Mobile-Aloha是一個開源的機器人硬件,它可以靈活地完成雙手任務,比如做飯(人類遠程操控)。很快,硬件將不再是我們實現(xiàn)人類級別的機器人的瓶頸,而是「大腦」。
這項工作是由3名研究人員用學術預算完成的。多么令人難以置信的工作!斯坦福大學太棒了!
由于資源限制,學術界不再是最前沿的LLM的發(fā)源地。但至少在短期內,機器人技術讓學術界和產業(yè)界的競爭環(huán)境更加公平。
硬件價格更實惠是必然趨勢。給有抱負的博士生的建議:擁抱機器人,至少人沒有那么多,更有空間發(fā)揮實力。
圖片
不知道,接下來幾個月里,機器人領域還會有怎樣的驚喜等著我們。
參考資料:
https://twitter.com/GoogleDeepMind/status/1742932234892644674 https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social
https://twitter.com/zipengfu/status/1742973258528612724