自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2024的我們應該如何看待具身智能

人工智能 新聞
以ChatGPT為代表的大模型讓我們瞥見了未來的一隅。機器人大模型在過去一年里出現(xiàn)在了幾乎每一個機器人公司的PPT里。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

最近看了記錄短片《斯坦福AI六十年》。從1962年到2022年,機器人或者具身智能的研究從第一天起就貫穿了人工智能的發(fā)展。2024年,這六十年中提出的大多數(shù)問題,從象棋,視覺,語音識別都獲得了解決——除了機器人。而如何創(chuàng)造通用機器人便是我日思夜想的問題。做科研自然是令人疲乏的,然而思考這個問題卻是令人興奮的。

2023年可謂是具身智能在中文圈被知曉的元年。這種爆紅是我不必再和每個VC解釋我們的究極理想并不是制造一個機械軀殼,而是未來能徹底解放人類勞動力的“人”。縱觀歷史,每一件新興事物的爆紅都伴隨著機遇和泡沫。作為麻省理工具身智能實驗室的一名博士生學者,我希望通過這篇隨筆讓世界各地的從業(yè)者更好更理性地了解具身智能的機遇與挑戰(zhàn),為領(lǐng)域帶來可持續(xù)性的發(fā)展。

以ChatGPT為代表的大模型讓我們瞥見了未來的一隅。機器人大模型在過去一年里出現(xiàn)在了幾乎每一個機器人公司的PPT里。PaLM-E,RT1,RT2等論文也拋磚引玉式的向大家展現(xiàn)了可以讓大模型直接輸出控制信號這個愿景。那么大語言模型的思路會給我們帶通用機器人么?要解答這個問題,我愿意把“大模型”這個詞展開為“大模型與大數(shù)據(jù)”。

大語言模型不光需要十億級別的神經(jīng)網(wǎng)絡參數(shù),還需要在大量的網(wǎng)絡數(shù)據(jù)上進行預訓練。例如Llama3這樣的開源大語言模型光預訓練就使用了15萬億個token。相比之下,機器人的數(shù)據(jù)采集就難得多。人們每天都在網(wǎng)絡上拍照片,發(fā)文字,自然而然地產(chǎn)生著這兩個模態(tài)的數(shù)據(jù)。你會拿著排隊買到的網(wǎng)紅奶茶拍照發(fā)朋友圈,但是永遠不會在配字里寫上“我的大拇指關(guān)節(jié)分別轉(zhuǎn)動了30度,20度,45度來抓住這杯奶茶”。我認為只要有足夠多的高質(zhì)量機器人數(shù)據(jù),機器人大模型絕對能帶來接近通用的泛化性,但是機器人的動作數(shù)據(jù)哪里來是一個不容樂觀的問題——這些直接輸出動作模態(tài)的大模型的泛化性也因此非常有限。這個問題即便是在文字-圖像這樣較為成熟的多模態(tài)模型里仍然存在——我在Google Deepmind實習期間的論文SpatialVLM發(fā)現(xiàn)最好的多模態(tài)大模型都常常左右不分,因此可以推測目前很多有動作模態(tài)輸出的“機器人大模型”之所以能操縱機械手正確地往左往右,很可能只是在有限的動作數(shù)據(jù)上過擬合了而已,并不是魔法般地因為結(jié)合了文字-圖像基礎(chǔ)模型而泛化。因此,問題的答案取決于我們能否在動作模態(tài)的數(shù)據(jù)上達到GPT的量級。

好消息是工業(yè)界和學術(shù)界大家都在著手解決機器人數(shù)據(jù)缺乏的問題。我與很多學者愿意將其中的努力概括為兩個維度,靈巧性(dexterity) 與泛化性(generalization)。靈巧性主要反映在在單一場景和任務比較固定情況下能讓機器人做成多難的任務,例如在同一張桌子上用同一臺卷筆刀削放在差不多同一個位置的同一支鉛筆。泛化性則研究讓機器人能去新的場景下執(zhí)行新的任務,哪怕這些任務看起來很簡單很蠢,例如在任何房間的任何桌子上能用手把任何指定的鉛筆推到指定的地方。讓機器人兼具靈巧性與泛化性是具身智能的終極目標。目前在靈巧性維度上最火的方向是模仿學習中的行為克隆——依靠人工采集關(guān)節(jié)動作數(shù)據(jù),再用監(jiān)督學習的方法訓練機器人。

在硬件層面,ALOHA式的關(guān)節(jié)到關(guān)節(jié)mapping,VR眼鏡的手部動作捕捉,特斯拉的動捕手套,RT-X數(shù)據(jù)集都是學術(shù)界和工業(yè)界進行更高效數(shù)據(jù)采集的嘗試。這些方法中的大多數(shù)需要給每個數(shù)據(jù)采集員配一臺昂貴的機器人,但特斯拉擎天柱,figure AI到斯坦福炒蝦機器人已經(jīng)讓我們看到了行為克隆的潛力。行為克隆讓一些特別驚艷且泛化需求有限的任務能用簡單的算法完成。但與此同時,因為人工采集動作數(shù)據(jù)的效率低,所有demo中展現(xiàn)的泛化性都是極其有限的——如果把香蕉換成橙子并移動個半米,換一張花紋不一樣的桌子,這些視頻里的機器人用他們發(fā)布時在有限數(shù)據(jù)上訓練的模型就無能為力了,更不用提跨任務了。

當然,你也可以收集多任務的數(shù)據(jù),例如香蕉和橙子的數(shù)據(jù)混起來,并采集很多不同初始位置的demo,但是除非你的任務數(shù)量多到大語言模型那種程度,剝香蕉和剝橙子上訓練的動作模型還是不能解決剝芒果的問題。很多通用人形機器人公司也采用了行為克隆作為切入點,因為它最容易出好看的視頻——沒人能把你視頻里的場景換成從沒見過的任務來測試你模型的泛化性。

公眾也更喜歡看機器人做日常家務的視頻而不是在實驗室桌子上推方塊——哪怕做家務的視頻背后需要雇一個人在背后手動操作。對此我的看法是,目前行為克隆路線解決的主要是靈巧性而不是泛化性問題,難以帶來通用機器人但也很重要。目前很多流水線上的任務就符合模仿學習的適用條件,且具有極高商業(yè)價值,從業(yè)者并不一定要刻意追求通用機器人。[水印,原文出自https://boyuan.space/]

如果算一筆賬,通用機器人公司投入大量金錢去用模仿學習的思路采集機器人大模型的數(shù)據(jù),確實用上一段落提到的方法有可能采集到指令微調(diào)所需要的數(shù)據(jù)規(guī)模的一部分 (Llama3的指令微調(diào)用了一千萬條人工標注的數(shù)據(jù),這里類比為一千萬個不同任務的機器人數(shù)據(jù)),但也千萬別忽略了用于預訓練的數(shù)據(jù)可能是指令微調(diào)的千千萬萬倍。

因此也有很多學者認為行為克隆本身無法帶來通用機器人,并以泛化性為核心進行研究。當我在談論機器人缺乏數(shù)據(jù)的時候,我指代的是我們?nèi)狈Π瑒幼髂B(tài)的數(shù)據(jù)。然而我們可以退而求其次通過大量其他模態(tài)的數(shù)據(jù)去獲得動作。舉個例子,雖然SORA這樣的視頻模型不直接輸出手指頭每個關(guān)節(jié)轉(zhuǎn)了多少度這樣的信息,但它生成的視頻仍然包含了大量人類動作的信息,可以被人體姿態(tài)估計提取。

如果你進入到一個新的場景中去,假設(shè)視頻預測模型足夠好,它就能根據(jù)新場景的圖片和文字的任務描述去生成帶有技能的視頻,例如MIT和Google的UniPi。不光如此,當視頻模型與文字模型結(jié)合的時候,我們就擁有了一個(不嚴謹意義上的)世界模型,可以和大語言模型一樣用搜索(search)產(chǎn)生數(shù)據(jù)自我提升自我學習,而不只是單步策略policy。世界模型甚至可以與基于模型的強化學習(model based reinforcement learning) 結(jié)合。正是因為視頻數(shù)據(jù)取之不竭,我作為一個具身智能學者在過去一年里也短暫地放下硬件把自己的科研方向轉(zhuǎn)移到對視頻的探索上,讓視頻模型不光能生成好看的藝術(shù)視頻還能在機器人需要的物理規(guī)律和任務上有好的表現(xiàn)。[水印,原文出自https://boyuan.space/]

除了視頻世界模型,大規(guī)模強化學習也是有可能帶來泛化性的路線。作為曾經(jīng)的強化學習研究者,我曾經(jīng)很長一段時間都對強化學習的兩大問題感到絕望——需要人工設(shè)計的場景模擬和需要人工設(shè)計的獎勵函數(shù)。如果要讓機器人在一個房間里學會一個任務,我就需要手動給這個房間建模輸入到模擬器里,并且設(shè)計一個好的獎勵函數(shù)告訴機器人它在某一次嘗試中做的有多好。這兩者曾經(jīng)都需要極其大量的人工參與,根本不能大規(guī)模鋪開到泛化所需要的場景和任務數(shù)量。

但是生成式人工智能改變了這一切——我們現(xiàn)在可以很容易地生成大量3D物體,也逐步能夠生成大量場景。多模態(tài)模型雖然還很孱弱,但是在一些任務上已經(jīng)標記任務的成功與否,或者把大任務拆分成小任務讓智能體學習動作,甚至和我之前論文里那樣標注更加細節(jié)的設(shè)計到距離等的非稀疏獎勵函數(shù)。GenSim已經(jīng)展示了生成簡單的機器人任務,而當3D場景生成成熟時,VLM足夠便宜時,我們將看到真正讓人驚艷的大規(guī)模強化學習。模仿學習也很容易與強化學習增強其效果。

在此之外,傳統(tǒng)的機器人動作規(guī)劃(motion planning)對解決通用機器人的數(shù)據(jù)問題也至關(guān)重要。雖然很很多靈巧任務必須通過人產(chǎn)生的數(shù)據(jù)(關(guān)節(jié)到關(guān)節(jié)演示或視頻)學習,這些靈巧任務中很大一部分子任務確實花在非?;A(chǔ)的接近物體(reach), 接觸物體(contact),移動物體和躲避障礙上。這些子任務的數(shù)據(jù)完全可以靠動作規(guī)劃生成進行預訓練,節(jié)約人工的時間。例如,波士頓動力的spot機器狗可以非常可靠地自動撿起放在不同環(huán)境里的奇形怪狀的物體,且不會撞到障礙物,這種泛化性如果要用行為克隆達到會需要極其夸張的人工數(shù)據(jù)采集。

上一段講大規(guī)模強化學習時已經(jīng)提到了未來生成式AI生成場景的潛力,而有了這些場景之后把強化學習替換為動作規(guī)劃可能會達起到更高的效率。記得在我申請PhD時,一位教授曾在面試中問我怎么看待end2end(端到端)的方法在機器人中的應用。我給出的解答是,數(shù)據(jù)足夠的情況下端到端會做的很好,然而我們需要先花數(shù)十年用模塊化的方法去分析實踐形成足夠好的數(shù)據(jù)閉環(huán)。這個思路在特斯拉的自動駕駛中獲得了很好的驗證——在數(shù)據(jù)不夠的時候,規(guī)劃算法視覺網(wǎng)絡模塊化地結(jié)合可以先讓車跑起來,在一定時間后用產(chǎn)生的數(shù)據(jù)與用戶數(shù)據(jù)混合在一起訓練端到端自動駕駛,孕育了FSD12。我相信在通用機器人中動作規(guī)劃也會在前期起到相同重要的作用。

我可以負責任地告訴大家具身智能一定是下一個一百年最令人激動的技術(shù),并且我們在有生之年很有希望見證通用機器人的誕生。但也正因為我太熱愛這個領(lǐng)域了,我也更愿意看到社會細水長流地投入通用機器人的發(fā)展——看科研工作者如我導師Russ所說的那樣,“可以以結(jié)果為導向的科研,但不可以網(wǎng)紅視頻為導向”;看到政府和投資人在長線看好具身智能的同時,不因為硬件公司的融資需要而盲目相信機器人大模型;看到創(chuàng)業(yè)者勇往直前,用細分領(lǐng)域的成功和硬件的進步為真正的通用機器人鋪路。而我自己也愿意用自己的一生給世界帶來真正的通用機器人。

2024/06/16 陳博遠 記于前往西雅圖的航班上

本文出自我的主頁,轉(zhuǎn)載請包含原文鏈接:https://boyuan.space/blogs/jush

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-02-14 17:25:28

2024-06-04 09:25:51

2025-03-07 10:24:43

2024-12-19 14:44:22

2024-08-09 09:10:33

2024-07-11 11:43:56

2022-06-29 14:49:43

計算機視覺智能

2018-06-05 15:02:32

2024-01-25 15:48:56

2024-09-27 09:48:28

2025-04-25 02:30:00

機械臂大模型多模態(tài)

2019-08-20 09:16:39

6G網(wǎng)絡1G

2025-03-31 09:10:00

開源模型智能體

2023-11-06 11:29:02

機器人視覺

2024-08-29 08:02:32

2024-03-11 00:35:00

谷歌智能研究
點贊
收藏

51CTO技術(shù)棧公眾號