具身智能GPT-2時(shí)刻到了!這家國(guó)內(nèi)公司已做出全球最大規(guī)模的端到端統(tǒng)一具身大模型——專訪自變量機(jī)器人團(tuán)隊(duì)
近日,關(guān)于 Open AI 被投企業(yè) Physical Intelligence (PI) 的一系列報(bào)道,讓人們關(guān)注到具身智能大模型引發(fā)的機(jī)器人時(shí)代變革。
目光轉(zhuǎn)回國(guó)內(nèi),我們同樣在中國(guó)公司中發(fā)現(xiàn)了這場(chǎng)變革浪潮的先行者。據(jù)機(jī)器之心了解,國(guó)內(nèi)初創(chuàng)公司自變量機(jī)器人(X Square),是國(guó)內(nèi)唯一一家從第一天就選擇了端到端統(tǒng)一大模型技術(shù)路線的公司,與 PI 的技術(shù)路線不謀而合。這家公司正在訓(xùn)練的 Great Wall 操作大模型系列的 WALL-A 甚至從參數(shù)規(guī)模上已經(jīng)超過(guò)了 PI。
今年 4 月,機(jī)器之心曾對(duì)自變量機(jī)器人公布的 Demo 進(jìn)行報(bào)道,其中基于他們自研的端到端統(tǒng)一具身大模型,雙臂機(jī)器人可利用低成本硬件即實(shí)現(xiàn)對(duì)不規(guī)則物體的精細(xì)操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等復(fù)雜任務(wù),展現(xiàn)出相當(dāng)程度的泛化性能。
當(dāng)前,自變量機(jī)器人的模型效果已達(dá)到驚人水準(zhǔn),體現(xiàn)在包括處理長(zhǎng)序列復(fù)雜任務(wù),以及泛化性、通用性等方面。
拉拉鏈對(duì)機(jī)器人來(lái)說(shuō)極為困難,機(jī)器人除了僅依靠位置控制來(lái)完成微小拉鏈頭的插入,滑塊與鏈齒的精準(zhǔn)對(duì)齊和適度力度的拉動(dòng),還需要實(shí)時(shí)應(yīng)對(duì)布料變形帶來(lái)的干擾,并能夠準(zhǔn)確判斷拉鏈的咬合狀態(tài)以及處理布料卡住等異常情況。
織物操作是操作任務(wù)中最困難和復(fù)雜的任務(wù)之一??椢锸侨嵝詿o(wú)序物體,晾曬/整理/折疊衣物任務(wù)面臨識(shí)別并理解柔性物體的拓?fù)浣Y(jié)構(gòu)的挑戰(zhàn)(比如衣物展開(kāi)要從完全無(wú)序狀態(tài)中識(shí)別領(lǐng)口/袖子等結(jié)構(gòu);衣架插入要理解衣物的前后層次;衣物折疊要理解折疊的結(jié)構(gòu)),對(duì)模型的感知和理解能力要求很高。其次,在疊衣服的過(guò)程中,織物的運(yùn)動(dòng)和摩擦有大量隨機(jī)性,形態(tài)極難預(yù)測(cè),需要模型進(jìn)行實(shí)時(shí)感知和修正,要求極強(qiáng)的魯棒性。
這種處理復(fù)雜任務(wù)以及「泛化」的能力,正是自變量機(jī)器人團(tuán)隊(duì)對(duì)機(jī)器人「Scaling Law」的探索成果,他們希望用單一的大模型來(lái)驅(qū)動(dòng)端到端的機(jī)器人 manipulation。
目前,這家成立不到一年的中國(guó)初創(chuàng)企業(yè),已經(jīng)做出了世界上最大規(guī)模的端到端統(tǒng)一具身大模型「WALL-A」,并在多個(gè)維度上超過(guò)了所有已知模型。
自變量機(jī)器人認(rèn)為,目前 Great Wall 系列的 WALL-A 類似于「GPT-2」,伴隨著模型的不斷迭代,機(jī)器人領(lǐng)域的「ChatGPT」時(shí)刻可能會(huì)在不久后來(lái)到。
令大家好奇的是,這家年輕的初創(chuàng)公司,將會(huì)如何實(shí)現(xiàn)這一宏偉目標(biāo)?
近日,自變量機(jī)器人接受了機(jī)器之心的采訪,介紹了他們正在進(jìn)行的有關(guān)于技術(shù)邊界的探索,以及這場(chǎng)機(jī)器人浪潮下的一些思考。
世界上最大規(guī)模的端到端統(tǒng)一具身大模型
機(jī)器之心:X Square 正在訓(xùn)練的 WAll-A 是一個(gè)怎樣的模型?
WALL-A 是世界上最大規(guī)模的端到端統(tǒng)一具身大模型。在多個(gè)維度上,我們的模型都超過(guò)了目前已知的所有模型的能力。
比如,從任務(wù)復(fù)雜度層面來(lái)說(shuō),我們能夠做拉拉鏈、扣扣子、整理衣物等精細(xì)、隨機(jī)且涉及復(fù)雜拓?fù)浣Y(jié)構(gòu)的任務(wù);從通用性、泛化性層面來(lái)說(shuō),我們可以做到用極少的樣本,完成各種物理環(huán)境變量、動(dòng)作模式的泛化和遷移。
「通用性」和「泛化性」是定義這一代具身智能技術(shù)最核心的要素。只有達(dá)到足夠的通用性、泛化性和可遷移性,才能實(shí)現(xiàn)在自由環(huán)境中,不受預(yù)設(shè)環(huán)境和預(yù)設(shè)物體限制的自由操作,才是真正區(qū)別于「自動(dòng)化」及以往專用機(jī)器人的新一代機(jī)器人。
機(jī)器之心:為什么將其定義為機(jī)器人領(lǐng)域的「大統(tǒng)一」模型?
第一個(gè)維度,是我們實(shí)現(xiàn)了端到端的縱向統(tǒng)一。從最原始的視頻、傳感器信號(hào),到最后機(jī)器人的速度、位姿、力矩,完全用一個(gè)模型解決,中間沒(méi)有任何切分的步驟,排除了分層所帶來(lái)的噪聲。
第二個(gè)維度,是我們實(shí)現(xiàn)了任務(wù)的橫向統(tǒng)一,所有的任務(wù)放在同一個(gè)模型中訓(xùn)練,推理的時(shí)候也用同一模型進(jìn)行操作。
對(duì)于一切操作任務(wù),一個(gè)單一的模型即可解決所有問(wèn)題,因此稱之為「大統(tǒng)一」模型。
據(jù)我們所知,不只是 PI,海外的明星創(chuàng)業(yè)公司目前都在走這條路線,但國(guó)內(nèi)只有我們?cè)谧摺?/span>
機(jī)器之心:這種「大統(tǒng)一」模型與大語(yǔ)言模型、多模態(tài)大模型以及之前的機(jī)器人模型的關(guān)系是?
統(tǒng)一具身模型的技術(shù)方向,既完全不同于傳統(tǒng)機(jī)器人學(xué)習(xí)的小模型技術(shù),也完全不同于以往語(yǔ)言、多模態(tài)大模型的技術(shù)。
首先,大模型的技術(shù)棧和小模型完全不同,兩者之間沒(méi)有什么可遷移性。和大模型背景的同學(xué)們討論的更多是計(jì)算圖優(yōu)化、混合精度訓(xùn)練如何收斂、并行調(diào)度之類的問(wèn)題;和做機(jī)器人或者小模型的同學(xué)們討論的更多是模型的某個(gè)設(shè)計(jì)能夠起到什么樣的作用或者某個(gè) Bound 是否太松。即使都聊起模型,大模型和小模型的同學(xué)們視角也完全不同:大模型最重視的是否方便 Scale Up,小模型更重視「可分析」和「結(jié)構(gòu)設(shè)計(jì)」。
其次,這件事在數(shù)據(jù)工程方面有著更高的要求。目前有幾十個(gè)模型在支撐我們的數(shù)據(jù)系統(tǒng)。同時(shí),公司自研了一系列數(shù)據(jù)采集設(shè)備。
此外,在所有 AI 領(lǐng)域的細(xì)分賽道中,機(jī)器人的門(mén)檻幾乎是最高的,因?yàn)楹驼Z(yǔ)言或者視覺(jué)有明顯區(qū)別的一點(diǎn)是,機(jī)器人領(lǐng)域中的 Domain Knowledge 實(shí)在太多,怎么站在大模型的語(yǔ)境下看這些 Domain Knowledge 很重要。另外機(jī)器人模型涉及的模態(tài)空前的多和復(fù)雜,對(duì)模型要求的重點(diǎn)也和以往的語(yǔ)言或多模態(tài)模型很不一樣,如果不是同時(shí)有兩方面的背景,可能很難把這件事完成好。
機(jī)器之心:所以你們的技術(shù)團(tuán)隊(duì)是按照怎樣的思路組建的?目前是怎樣一個(gè)構(gòu)成?
創(chuàng)始人兼 CEO 王潛本碩畢業(yè)于清華大學(xué),是全球最早在神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制的學(xué)者之一。博士期間,王潛在美國(guó)頂級(jí)機(jī)器人實(shí)驗(yàn)室參與了多項(xiàng) Robotics Learning 的研究,方向覆蓋了機(jī)器人多個(gè)前沿領(lǐng)域。
聯(lián)合創(chuàng)始人兼 CTO 王昊博士畢業(yè)于北京大學(xué),在粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院(IDEA 研究院)期間擔(dān)任封神榜大模型團(tuán)隊(duì)負(fù)責(zé)人,發(fā)布了國(guó)內(nèi)首個(gè)多模態(tài)大模型「太乙」,首批百億級(jí)大語(yǔ)言模型「燃燈 / 二郎神」及千億級(jí)大語(yǔ)言模型「姜子牙」,模型累計(jì)下載量數(shù)百萬(wàn)。
王潛:面對(duì)機(jī)器人大模型這波潮流,很多團(tuán)隊(duì)可能因?yàn)椤赋翛](méi)成本」和「路徑依賴」而止步不前。我自己是全球最早引入 Attention 機(jī)制的學(xué)者之一,在人工智能浪潮興起的時(shí)候,我意識(shí)到純 AI 在落地方面的天花板,所以我出國(guó)去搞機(jī)器人;在機(jī)器人方面,我研究過(guò)當(dāng)時(shí)最前沿的 topic,因而非常了解許多技術(shù)路徑的瓶頸和天花板,把該經(jīng)歷和糾結(jié)的都經(jīng)歷了;從 20 年左右自己就看得很清楚通用機(jī)器人這事做成只有統(tǒng)一大模型這一條路;所以我們從第一天開(kāi)始團(tuán)隊(duì)的組建和技術(shù)的探索就是完全為這個(gè)方向設(shè)置的,包括我們的技術(shù)框架和方向從第一天開(kāi)始就沒(méi)有改過(guò)。
王昊:我覺(jué)得王潛在這里的作用是決定性的,我還真沒(méi)見(jiàn)過(guò)這樣既懂機(jī)器人又真懂大模型的人。我自己切身的感受是機(jī)器人這個(gè)領(lǐng)域門(mén)檻實(shí)在太高了,而懂機(jī)器人的人里又確實(shí)幾乎沒(méi)人有過(guò) scaling up 的經(jīng)驗(yàn),即使像原來(lái) Google 的那批人離開(kāi)了大平臺(tái)的基礎(chǔ)設(shè)施支持,能否做到以前的事情也是一個(gè)很大的問(wèn)號(hào)。
原生的「Robotics Learning + 大模型」的創(chuàng)業(yè)組合,讓 X Square 從第一天起就具備原始創(chuàng)新、對(duì)技術(shù)路徑本質(zhì)思考的基因。
機(jī)器之心:端到端和統(tǒng)一模型是唯一的路徑嗎?
王潛:首先解釋下「端到端」。從 2016 年開(kāi)始,我已經(jīng)認(rèn)定,端到端是解決 manipulation 問(wèn)題唯一可行的路徑,本質(zhì)上是因?yàn)?manipulation 和所有其他 AI / 機(jī)器人任務(wù)都有本質(zhì)的區(qū)別,即涉及到的物理過(guò)程的復(fù)雜性遠(yuǎn)遠(yuǎn)超過(guò)其他任務(wù)。這個(gè)特點(diǎn)決定了任何分層分步的方法都很難徹底解決這一問(wèn)題,因?yàn)槟P筒皇峭昝赖?,每分出一個(gè)步驟,都一定會(huì)引入不準(zhǔn)確的中間結(jié)果,即不可控的噪聲。
拿最常見(jiàn)的分層方法中的 3D 重建來(lái)說(shuō),經(jīng)常出現(xiàn)很多毛刺空洞之類缺陷,有時(shí)缺陷很小,人肉眼看的時(shí)候都不太能注意得到,但在物理接觸中,哪怕一點(diǎn)點(diǎn)的毛刺都會(huì)導(dǎo)致結(jié)果完全不同。這類問(wèn)題在每個(gè)步驟中都會(huì)疊加,最后得到的東西完全不可控。另外,每一個(gè)步驟都會(huì)丟棄掉大量的信息,而往往在最后控制的時(shí)候這些信息反而是重要的。
這也是我們團(tuán)隊(duì)與很多 CV / 自動(dòng)駕駛背景團(tuán)隊(duì)最大的不同。很多人會(huì)覺(jué)得 manipulation 的核心在于 Spatial Intelligence(空間智能),只要能理解三維空間關(guān)系,這個(gè)問(wèn)題自然迎刃而解,但據(jù)我們所知,做到這里只是問(wèn)題的一半而已。
但在去年的時(shí)候,甚至直到今天,很多人并不真正相信端到端,或者說(shuō)不認(rèn)為統(tǒng)一是長(zhǎng)期的趨勢(shì)。去年只有我們?cè)谡f(shuō)端到端,大家普遍是不信的,但現(xiàn)在不說(shuō)端到端都不好意思出門(mén)了(笑)。
2017 年,一個(gè)非常有名的機(jī)器人教授當(dāng)面跟我說(shuō):「你搞的這種端到端的路線永遠(yuǎn)只能是 Toy Model,永遠(yuǎn)不可能走通。」我到今天還記得很清楚。一直到今年初,端到端在國(guó)內(nèi)都仍然是非主流的判斷,我們?nèi)ツ晗掳肽暾f(shuō)要做端到端,大家還是以不信為主,說(shuō)實(shí)話我們得謝謝馬斯克,特斯拉 FSDv12 給了大家很大的沖擊。到了今年年中,端到端就已經(jīng)「泛濫」了,大家都爭(zhēng)相恐后擠到這條賽道上。
至于統(tǒng)一模型,端到端的共識(shí)形成尚且如此困難,統(tǒng)一模型的理解就更難了,因?yàn)樗臃粗庇X(jué)。直到今天,國(guó)內(nèi)仍然只有我們實(shí)際上在走這條路。
之所以說(shuō)「Foundation Model」是反直覺(jué)的道路,因?yàn)槿藗兓谧陨淼慕?jīng)驗(yàn),本能的會(huì)覺(jué)得把數(shù)據(jù)集中在一個(gè)領(lǐng)域做專家模型的效果會(huì)更好,但今天我們看到,「通才模型」才是真正能夠打破天花板,在相同投入下達(dá)到更高能力的正確路徑。
這條路線其實(shí)在其他領(lǐng)域已經(jīng)有比較好的結(jié)果。例如,ChatGPT 是端到端的統(tǒng)一模型,也是所有任務(wù)統(tǒng)一的模型。又比如剛才提到的特斯拉 FSD,雖然只做一個(gè)領(lǐng)域任務(wù),但是也是端到端完全統(tǒng)一和所有任務(wù)的完全統(tǒng)一。
王昊:還有關(guān)鍵的一點(diǎn),機(jī)器人做學(xué)習(xí)最困難的點(diǎn),是數(shù)據(jù);要徹底解決數(shù)據(jù)問(wèn)題,只有通過(guò)把所有任務(wù)的數(shù)據(jù)放到一個(gè)統(tǒng)一模型里面,靠學(xué)習(xí)所有任務(wù)中一致的 Common Structure,比如物理規(guī)律、物體特征,這也需要 Foundation Model 來(lái)解決。
機(jī)器人的「GPT-2 時(shí)刻」與 Scaling Law
數(shù)據(jù)質(zhì)量 >> 數(shù)據(jù)多樣性 >> 數(shù)據(jù)量
機(jī)器之心:業(yè)界近來(lái)常說(shuō)「機(jī)器人領(lǐng)域的 Scaling Law」,怎么理解?
王潛:很多人說(shuō)到 Scaling Law,想到的一個(gè)詞叫「大力出奇跡」,我覺(jué)得這是對(duì) Scaling Law 庸俗和表面化的理解。關(guān)于這點(diǎn),王昊應(yīng)該有更深的感觸。
王昊:因?yàn)槲宜闶菄?guó)內(nèi)當(dāng)時(shí)最早做大模型方向的一批人,包括在國(guó)內(nèi)最早發(fā)布了百億模型,但當(dāng)時(shí)靠規(guī)?;蛘叽罅Σ](méi)有明顯地「出奇跡」。ChatGPT 出來(lái)之后,在最早期的時(shí)候大家都發(fā)現(xiàn)單純做大數(shù)據(jù)規(guī)模根本復(fù)現(xiàn)不出來(lái),直到有人開(kāi)始從 ChatGPT 上直接拉數(shù)據(jù)做微調(diào),才有了第一批做出來(lái)的大模型。
為什么會(huì)有這種情況出現(xiàn),我覺(jué)得核心還是數(shù)據(jù)的質(zhì)量。我們自己訓(xùn)練的感受是:數(shù)據(jù)質(zhì)量對(duì)模型影響極大,好的數(shù)據(jù)可能幾千條甚至幾百條就有非常明顯的效果,差的數(shù)據(jù)哪怕幾千萬(wàn)上億條,反而會(huì)讓模型越訓(xùn)練越差,這都是我們?cè)谟?xùn)練語(yǔ)言大模型和多模態(tài)大模型實(shí)踐過(guò)程中切實(shí)看到過(guò)的,這個(gè)可能確實(shí)和一般人心中的「大力出奇跡」不一樣。
王潛:確實(shí),數(shù)據(jù)質(zhì)量在 Scaling Law 里才是最核心的要素,其次是數(shù)據(jù)的多樣性,排在最后的才是數(shù)據(jù)量。
當(dāng)然也不是說(shuō)數(shù)據(jù)量完全就不重要了,有些探討 Scaling Law 的工作在每一個(gè)模型上只有幾十條到幾百條數(shù)據(jù)的結(jié)果,我們覺(jué)得意義似乎比較有限。真正給出機(jī)器人 Scaling Law 決定性證據(jù)的是 RT-X,因?yàn)樗_實(shí)是在一個(gè)模型上放了幾十萬(wàn)條數(shù)據(jù)。
大模型 + 機(jī)器人,路徑走通了
機(jī)器之心:基于哪些背景,你們選擇在 2023 年底成立這家公司?
王潛:通用機(jī)器人發(fā)展的主要瓶頸在于智能而非硬件。以往,學(xué)術(shù)界和工業(yè)界有過(guò)非常多次向通用機(jī)器人的沖擊,每次大家都抱有很大的希望,但后來(lái)都發(fā)現(xiàn)這個(gè)問(wèn)題的困難程度遠(yuǎn)超過(guò)預(yù)期。在 AI 總體發(fā)展的過(guò)程中,我們逐漸發(fā)現(xiàn)莫拉維克悖論非常堅(jiān)硬,機(jī)器人操作就是所有 AI 任務(wù)中最困難的一個(gè),在 AI 本身有大的突破之前解決不太現(xiàn)實(shí)。
ChatGPT 從根本上改變了 AI 整個(gè)領(lǐng)域,對(duì)機(jī)器人來(lái)說(shuō)有兩個(gè)點(diǎn):一是很多以前覺(jué)得極其困難的問(wèn)題獲得了突飛猛進(jìn)的發(fā)展,例如 Planning、Reasoning、Language Interaction;二是從方法論上指明了解決機(jī)器人通用操作這一最核心問(wèn)題的路線,一下子就看得很清楚了,對(duì)大家的解釋成本一下子變得很低。
我自己從 2016 年開(kāi)始做端到端的機(jī)器人模型,19 年到 21 年基本上看清楚了統(tǒng)一大模型這個(gè)大方向,但那個(gè)時(shí)候不管是資本還是學(xué)術(shù)界的主流,讓大家理解和接受這種方法論都是有極大的障礙的。有了 ChatGPT 之后,「既然對(duì) NLP 這么復(fù)雜的任務(wù)這套路線能夠 work,對(duì)機(jī)器人這個(gè)復(fù)雜度類似的任務(wù)應(yīng)該也能 work」,這種邏輯被大家所理解了。
所以我的決心是 22 年下的,但 23 年上半年我還在考慮是否在美國(guó)做這個(gè)大模型與機(jī)器人深度耦合的創(chuàng)業(yè)更容易成,到年中逐漸明確了這件事情在中國(guó)做有本質(zhì)的優(yōu)勢(shì)。正好這與王昊在具身智能上的想法相契合,所以我們就一起組建了這個(gè)團(tuán)隊(duì)。
王昊:過(guò)去我一直做大模型,在長(zhǎng)期的實(shí)踐過(guò)程中,大家逐漸觸碰到了一個(gè)本質(zhì)困難:大語(yǔ)言模型對(duì)真實(shí)世界的幻覺(jué)始終難以消除。大語(yǔ)言模型就像一個(gè)生活在純文本世界里的 「大腦」,它可以通過(guò)海量的文字習(xí)得知識(shí),但始終缺乏最基礎(chǔ)的物理認(rèn)知和現(xiàn)實(shí)世界的直接互動(dòng),實(shí)際上 AI 也就難以獲得真正的理解力和解決實(shí)際問(wèn)題的能力。具身智能讓 AI 能夠通過(guò)感知和與真實(shí)環(huán)境交互來(lái)學(xué)習(xí),這正是通往通用人工智能的關(guān)鍵路徑。關(guān)于具身智能大模型的技術(shù)路線,很早之前我和王潛就開(kāi)始了非常深度的探討,也非常認(rèn)同彼此的技術(shù)判斷。
機(jī)器之心:你們?nèi)绾未_定現(xiàn)在是做這件事的正確時(shí)刻?
王潛:2015 年前后,深度學(xué)習(xí)開(kāi)始系統(tǒng)引入機(jī)器人領(lǐng)域特別是 manipulation 領(lǐng)域,當(dāng)時(shí)大家是抱有很大的期望的,包括現(xiàn)在 Physical Intelligence 的 Sergey Levine 和我們走的端到端的路線,也包括其他人走的分層分步的路線,大家都覺(jué)得打破了之前的天花板之后,應(yīng)該能直接取得類似當(dāng)時(shí)在 CV 或者圍棋上取得的那種很大的成功。
但到了 2018 年左右,情況比較清楚了:?jiǎn)渭兛可疃染W(wǎng)絡(luò) + 強(qiáng)化學(xué)習(xí)做不成 manipulation,核心問(wèn)題還是在數(shù)據(jù)效率。
機(jī)器人的數(shù)據(jù)獲取實(shí)在太難了,更關(guān)鍵的是數(shù)據(jù)需求隨著任務(wù)復(fù)雜性的提升是指數(shù)級(jí)增長(zhǎng),就決定了像圍棋或者圖像識(shí)別那樣解決機(jī)器人任務(wù)是不可行的。所以當(dāng)時(shí)最主流的想法是大規(guī)模做 simulation 然后做 Sim2Real,我自己也在這個(gè)方向上探索了很長(zhǎng)時(shí)間。但到了 2019 年,我的結(jié)論是從理論上來(lái)說(shuō),至少對(duì) manipulation 這個(gè)領(lǐng)域,Sim2Real 的天花板是低而且難以突破的 —— 這條路線不 make sense。
今天各種公開(kāi)的實(shí)驗(yàn)結(jié)果都能證明這個(gè)判斷,但是當(dāng)時(shí),大家其實(shí)面臨著除此以外無(wú)路可去的困境。我當(dāng)時(shí)認(rèn)為我們需要走類似當(dāng)時(shí) OpenAI 在走的路線。
后來(lái),兩個(gè)標(biāo)志性事件發(fā)生了:谷歌 RT-1 和 ChatGPT。
谷歌 RT-1 的出現(xiàn),可以說(shuō)革新了機(jī)器人領(lǐng)域的研究范式。RT-1 的革命性有幾點(diǎn),第一是突破了之前占據(jù)主流的 RL(強(qiáng)化學(xué)習(xí))+Sim2Real 范式所面臨的明顯的天花板,人類第一次看到了通用機(jī)器人的希望;第二是指出了機(jī)器人模型同樣可能具有 Scaling Law,這一點(diǎn)在之后的 RT-X 中得到了確證。
但是機(jī)器人上即使出現(xiàn)了 Scaling Law,這條路是否能走到終點(diǎn)仍然是個(gè)巨大的問(wèn)號(hào),本質(zhì)上還是因?yàn)闄C(jī)器人特有也是最困難的數(shù)據(jù)問(wèn)題。2015 年做機(jī)器人的時(shí)候,大部分很好的工作都是幾百幾千條數(shù)據(jù),對(duì)比之下,當(dāng)時(shí) CV 和 NLP 的數(shù)據(jù)量就在幾百萬(wàn)、幾千萬(wàn)這個(gè)數(shù)量級(jí),處在那個(gè)時(shí)間點(diǎn)上,很難想象機(jī)器人面臨的這個(gè)問(wèn)題能夠有類似 CV 和 NLP 領(lǐng)域的突破。
這個(gè)時(shí)候一錘定音的是 ChatGPT。在 ChatGPT 上我們第一次明確地看到了 In-Context Learning,或者可以叫 Zero-Shot Learning 的發(fā)生,當(dāng)然之前也有逐漸出現(xiàn) Fine-Tuning 和 Few-Shot Learning,但 In-Context Learning 是最終出現(xiàn)的極致,就是我們所謂的「涌現(xiàn)」。
盡管訓(xùn)練這樣一個(gè)模型耗費(fèi)的數(shù)據(jù)量很大,但有了這個(gè)基礎(chǔ)模型之后,訓(xùn)練任何一個(gè)新任務(wù)的邊際數(shù)據(jù)成本都被降低到極小。當(dāng)我們考慮一個(gè)通用模型的時(shí)候,我們會(huì)發(fā)現(xiàn)我們第一次有了用有限的數(shù)據(jù)量做無(wú)限種類的任務(wù)的可能性,平均下來(lái)每個(gè)任務(wù)需要的數(shù)據(jù)量就會(huì)縮小到近乎無(wú)限小。這里的核心是統(tǒng)一模型帶來(lái)的學(xué)習(xí)跨任務(wù) Common Structure 的能力起到了至關(guān)重要的作用,而這件事在 OpenAI 做出結(jié)果之前沒(méi)有得到過(guò)重視。
人們基于自身的經(jīng)驗(yàn),本能的會(huì)覺(jué)得把數(shù)據(jù)集中在一個(gè)領(lǐng)域做專家模型的效果會(huì)更好,但今天我們看到通才模型才是真正能夠打破天花板,在相同投入下達(dá)到更高能力的正確路徑。
機(jī)器之心:在學(xué)術(shù)界能做這件事嗎?
事實(shí)上,我們已經(jīng)明顯看到學(xué)術(shù)界落后于我們及美國(guó)其他 Startup 半年左右。這一點(diǎn)和曾經(jīng)的 NLP 領(lǐng)域已經(jīng)有些相似了。
學(xué)術(shù)界的導(dǎo)向過(guò)于偏重 Novelty 且缺乏工程化能力。機(jī)器人大模型一定是系統(tǒng)級(jí)創(chuàng)新和工程落地的結(jié)果。大到方向性的判斷和投入,小到具體的技術(shù)框架的改進(jìn),這些事情非常重要;我們每天都在做相應(yīng)的創(chuàng)新和優(yōu)化。我們認(rèn)為這個(gè)東西一定要以一個(gè) Startup 的形式來(lái)做,且公司的創(chuàng)始核心團(tuán)隊(duì)本身需要具備學(xué)術(shù)前瞻性和工程化能力。
機(jī)器之心:對(duì)于一家初創(chuàng)公司來(lái)說(shuō),實(shí)現(xiàn)「端到端通用機(jī)器人大模型」這個(gè)目標(biāo)會(huì)很難嗎?
首先感謝投資人們的支持:天使輪的時(shí)候,我們是在只有 idea 和技術(shù)的時(shí)候融到了錢(qián);我們的商業(yè)計(jì)劃書(shū)從大的技術(shù)方向和落地方向,從天使輪起就沒(méi)有改過(guò)。我們后續(xù)融資也很順利,一方面是因?yàn)槲覀兊倪M(jìn)展超過(guò)了預(yù)期;另一方面也得益于更多的機(jī)構(gòu)認(rèn)可我們。我們堅(jiān)信,在正確的方向上,一定會(huì)匯集各方支持。
這可能是數(shù)百年來(lái),中國(guó)第一次有機(jī)會(huì)在大產(chǎn)業(yè)上從零到一的階段就領(lǐng)先世界,某種意義上也是歷史的使命。在這個(gè)情況下,長(zhǎng)期來(lái)看就一定還是在中國(guó)去做,可能要更好一點(diǎn)。
將人類從繁瑣的體力勞動(dòng)中解放出來(lái)
機(jī)器之心:你們的目標(biāo)是「將人類從繁瑣的體力勞動(dòng)中解放出來(lái)」,如何理解?
大家一直都說(shuō)莫拉維克悖論,人們想的是 AI 能幫人們?nèi)プ鲶w力勞動(dòng)等人不愿意做的事,然后人自己去寫(xiě)詩(shī)、畫(huà)畫(huà)。但實(shí)際上大家現(xiàn)在看到,AI 先做出來(lái)的是 AIGC 這些寫(xiě)詩(shī)畫(huà)畫(huà)的東西。反而物理世界的東西,人真正希望它幫忙做的事,AI 目前還難做到。
人和動(dòng)物的區(qū)別是什么?一個(gè)是使用語(yǔ)言,一個(gè)是使用工具。語(yǔ)言上,GPT 已經(jīng)某種意義上已經(jīng)解決這個(gè)問(wèn)題了;工具層面,就是我們要做的,讓機(jī)器人能夠脫離相對(duì)比較「笨」的狀態(tài)。
機(jī)器之心:自變量為什么選擇了輪式機(jī)器人這種產(chǎn)品形式?人形機(jī)器人賽道的火爆,你怎么看待?
移動(dòng)一個(gè)東西,你可以用底盤(pán),也可以用很多其他方式,比如雙足、四足。
我覺(jué)得底盤(pán)是最成熟的應(yīng)用方式。綜合考慮的話,要看具體場(chǎng)景究竟需要什么級(jí)別的通過(guò)性。我是覺(jué)得說(shuō)人們?nèi)粘I钪心芙佑|到的大部分室內(nèi)環(huán)境,輪式是足夠的。
最關(guān)鍵的是成本,哪怕以后每種應(yīng)用方式都非常成熟,我覺(jué)得成本永遠(yuǎn)都是一個(gè)大的問(wèn)題。
機(jī)器之心:那未來(lái)的話,你們會(huì)拿自己的技術(shù)去賦能其他家的產(chǎn)品?
會(huì)的,這是我們很重要的一個(gè)方向。
機(jī)器之心:對(duì)于機(jī)器人大模型,五年到十年內(nèi)會(huì)有一個(gè)什么樣的趨勢(shì)?
一般來(lái)說(shuō),人們特別容易低估中期的進(jìn)展。我覺(jué)得可以把中期的,比如五年十年的想象力放大一些。在長(zhǎng)一些的時(shí)間尺度上看,我們已經(jīng)接近于我們希望實(shí)現(xiàn)的通用機(jī)器人了,我比大部分人都更加樂(lè)觀一點(diǎn)。
關(guān)于未來(lái)具身智能的發(fā)展,這一代要解決的問(wèn)題是通用性、泛化性以及處理復(fù)雜問(wèn)題。我們希望行業(yè)能夠持續(xù)良性發(fā)展。之前有一段時(shí)間,國(guó)內(nèi)陷入卷視頻 Demo 的浪潮,很多失真的 demo 視頻中所展現(xiàn)的能力往往并不能代表背后的模型水平,其實(shí)這些很大程度上過(guò)度消耗了投資人及消費(fèi)者的預(yù)期。