拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」,網(wǎng)友直呼太恐怖!
與OpenAI分手之后,F(xiàn)igure自研首個(gè)模型終于交卷了!
不用ChatGPT,F(xiàn)igure直接把視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)——Helix裝入人形機(jī)器人大腦。
它可以讓機(jī)器人感知、語(yǔ)言理解、學(xué)習(xí)控制,是一個(gè)端到端的通用模型。
圖片
果然,F(xiàn)igure的一大目標(biāo),就是發(fā)展家庭機(jī)器人。為此,其內(nèi)部的AI需要像人一樣推理,需要處理任何家庭用品。
圖片
「機(jī)器人若不實(shí)現(xiàn)能力上的飛躍,將無(wú)法進(jìn)入家庭領(lǐng)域」
目前,Helix還主要用于Figure上半身控制,包括手腕、頭、單個(gè)手指、甚至軀干,能以高速率執(zhí)行復(fù)雜任務(wù)。
只需一句話(huà),機(jī)器人便可以拿起任何物品。
當(dāng)被要求「撿起沙漠物品」時(shí),Helix會(huì)識(shí)別出玩具仙人掌,選擇最近的手,并執(zhí)行精確的電機(jī)指令以牢固地抓住它。
圖片
還有生活中各種小物件,比如金屬鏈、帽子、玩具等等,它皆精準(zhǔn)「拿捏」。
圖片
快看,它還會(huì)將物品放置在冰箱,而且是兩個(gè)Figure協(xié)作完成。
圖片
這是因?yàn)镠elix是首個(gè)同時(shí)操控兩臺(tái)機(jī)器人的VLA,使他它們能夠解決共同的、長(zhǎng)序列操作任務(wù),即使是處理從未見(jiàn)過(guò)的物品。
有網(wǎng)友表示,這一刻讓我瞬間不寒而栗。
圖片
另有網(wǎng)友表示,「這非常令人印象深刻」,甚至有人馬上想要買(mǎi)兩臺(tái)體驗(yàn)一下。
圖片
圖片
圖片
值得一提的是,新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,無(wú)需任何特定的微調(diào)。
而且,它還是首款完全在嵌入式低功耗GPU上運(yùn)行的VLA,未來(lái)商業(yè)部署,甚至走入家庭近在咫尺。
Helix:通用視覺(jué)-語(yǔ)言-動(dòng)作模型
家庭環(huán)境是機(jī)器人技術(shù)面臨的最大挑戰(zhàn)。
與可控的工業(yè)環(huán)境不同,家庭中充滿(mǎn)了無(wú)數(shù)物品——易碎的玻璃器皿、褶皺的衣物、散落的玩具——每個(gè)物品都有著不可預(yù)測(cè)的形狀、尺寸、顏色和質(zhì)地。
要想讓機(jī)器人在家庭中發(fā)揮作用,它們需要能夠生成智能化的新行為來(lái)應(yīng)對(duì)各種情況,特別是對(duì)于那些此前從未見(jiàn)過(guò)的物品。
如果沒(méi)有質(zhì)的飛躍,當(dāng)前的機(jī)器人技術(shù)將無(wú)法適應(yīng)家庭環(huán)境。
目前,僅僅教會(huì)機(jī)器人一個(gè)新行為就需要大量人力投入:要么需要博士級(jí)專(zhuān)家花費(fèi)數(shù)小時(shí)進(jìn)行手動(dòng)編程,要么需要數(shù)千次示教。
考慮到家庭環(huán)境問(wèn)題的龐大性,這兩種方法的成本都高得難以承受。
圖片
圖1:不同機(jī)器人技能獲取方法的擴(kuò)展曲線(xiàn)。在傳統(tǒng)啟發(fā)式控制中,技能的增長(zhǎng)取決于博士研究人員的手動(dòng)編程。在傳統(tǒng)機(jī)器人模仿學(xué)習(xí)中,技能隨數(shù)據(jù)采集量擴(kuò)展。而采用Helix技術(shù),只需通過(guò)自然語(yǔ)言即可實(shí)時(shí)定義新技能
但在人工智能的其他領(lǐng)域已經(jīng)掌握了即時(shí)泛化的能力。
如果我們能夠?qū)⒁曈X(jué)語(yǔ)言模型(Vision Language Models,VLM)中捕獲的豐富語(yǔ)義知識(shí)直接轉(zhuǎn)化為機(jī)器人動(dòng)作,將會(huì)帶來(lái)什么改變?
這種新能力將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡(圖1)。
突然間,那些曾經(jīng)需要數(shù)百次示教才能掌握的新技能,現(xiàn)在只需通過(guò)自然語(yǔ)言與機(jī)器人對(duì)話(huà)就能立即獲得。
關(guān)鍵問(wèn)題在于:我們?nèi)绾螐腣LM中提取所有這些常識(shí)知識(shí),并將其轉(zhuǎn)化為可泛化的機(jī)器人控制?Helix的構(gòu)建正是為了跨越這一鴻溝。
圖片
首創(chuàng)「系統(tǒng)1,系統(tǒng)2」VLA
團(tuán)隊(duì)表示,Helix是首個(gè)由「系統(tǒng)1,系統(tǒng)2」組成的VLA,可以實(shí)現(xiàn)人形機(jī)器人上半身的高速精確控制。
先前的VLM主干網(wǎng)絡(luò)具有通用性但速度不快,機(jī)器人視覺(jué)運(yùn)動(dòng)策略速度快但缺乏通用性。而Helix通過(guò)兩個(gè)系統(tǒng)解決了這個(gè)難題,兩個(gè)系統(tǒng)經(jīng)過(guò)端到端訓(xùn)練,并可以相互通信:
- 系統(tǒng)2(S2):VLM主干網(wǎng)絡(luò),經(jīng)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練,工作頻率7-9Hz,用于場(chǎng)景和語(yǔ)言理解,可對(duì)不同的物體和場(chǎng)景進(jìn)行泛化。
- 系統(tǒng)1(S1):80M參數(shù)交叉注意力Transformer,依靠一個(gè)全卷積的多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理,該網(wǎng)絡(luò)在模擬環(huán)境中完成預(yù)訓(xùn)練初始化。
這種解耦架構(gòu)讓每個(gè)系統(tǒng)都能在最佳時(shí)間尺度上運(yùn)行,S2可以「慢思考」高層目標(biāo),S1通過(guò)「快思考」來(lái)實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。
例如,在協(xié)作中,S1能快速適應(yīng)伙伴機(jī)器人的動(dòng)作變化,同時(shí)維持S2設(shè)定的語(yǔ)義目標(biāo)。
圖片
Helix的設(shè)計(jì)相較現(xiàn)有方法具有以下幾個(gè)關(guān)鍵優(yōu)勢(shì):
- 速度和泛化能力:Helix不僅達(dá)到了專(zhuān)門(mén)針對(duì)單任務(wù)行為克?。╞ehavioral cloning)策略的運(yùn)行速度,還能夠?qū)?shù)千個(gè)全新測(cè)試對(duì)象實(shí)現(xiàn)零樣本學(xué)習(xí)。
- 可擴(kuò)展性:Helix能夠直接輸出高維動(dòng)作空間的連續(xù)控制,避免了先前VLA方法中使用的復(fù)雜動(dòng)作token化方案。這些方案雖然在低維控制設(shè)置(如二指夾爪)中取得了一定成功,但在高維人形機(jī)器人控制中面臨擴(kuò)展性挑戰(zhàn)。
- 架構(gòu)簡(jiǎn)單:Helix采用標(biāo)準(zhǔn)架構(gòu)——系統(tǒng)2使用開(kāi)源、開(kāi)放權(quán)重的視覺(jué)語(yǔ)言模型,系統(tǒng)1則采用簡(jiǎn)單的基于Transformer的視覺(jué)運(yùn)動(dòng)策略。
- 職責(zé)分離:通過(guò)S1和S2的「解耦」,能夠獨(dú)立迭代優(yōu)化每個(gè)系統(tǒng),無(wú)需受限于尋找統(tǒng)一的觀察空間或動(dòng)作表示。
模型和訓(xùn)練細(xì)節(jié)
數(shù)據(jù)
研究人員收集了一個(gè)高質(zhì)量的、多機(jī)器人、多操作員的多樣化遙操作行為數(shù)據(jù)集,總計(jì)約500小時(shí)。
為了生成自然語(yǔ)言條件下的訓(xùn)練對(duì),他們使用自動(dòng)標(biāo)注VLM來(lái)生成回顧性指令。
VLM會(huì)處理來(lái)自機(jī)器人板載攝像頭的分段視頻片段,提示詞是這樣的:「如果要實(shí)現(xiàn)視頻中看到的動(dòng)作,你會(huì)給機(jī)器人什么指令?」
為了防止數(shù)據(jù)干擾,所有訓(xùn)練中使用的物品都被排除在評(píng)估之外。
架構(gòu)
這個(gè)系統(tǒng)主要包括兩個(gè)主要組件,S2(VLM主干網(wǎng)絡(luò))和S1(基于潛層條件的視覺(jué)運(yùn)動(dòng)Transformer)。
S2建立在一個(gè)經(jīng)過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開(kāi)源開(kāi)放權(quán)重VLM之上。它處理單目機(jī)器人圖像和機(jī)器人狀態(tài)信息(包括手腕姿態(tài)和手指位置),將這些信息投影到視覺(jué)-語(yǔ)言嵌入空間中。
結(jié)合指定期望行為的自然語(yǔ)言命令,S2會(huì)將所有與任務(wù)相關(guān)的語(yǔ)義信息提煉為單個(gè)連續(xù)潛層向量,傳遞給S1用于條件化其低層動(dòng)作。
其中S1是一個(gè)80M參數(shù)的交叉注意力(cross-attention)編碼器-解碼器Transformer,負(fù)責(zé)低層控制。它依賴(lài)于一個(gè)全卷積的多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理,該網(wǎng)絡(luò)完全在模擬環(huán)境中預(yù)訓(xùn)練初始化。
雖然S1接收與S2相同的圖像和狀態(tài)輸入,但它以更高的頻率處理這些信息,以實(shí)現(xiàn)更快速的閉環(huán)控制。來(lái)自S2的潛層向量被投影到S1的token空間,并在序列維度上與S1視覺(jué)主干網(wǎng)絡(luò)的視覺(jué)特征連接,提供任務(wù)條件。
S1以200Hz的頻率輸出完整的上半身人形機(jī)器人控制信號(hào),包括期望的手腕姿態(tài)、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。
另外,團(tuán)隊(duì)還在動(dòng)作空間中,附加了一個(gè)合成的「任務(wù)完成百分比」動(dòng)作,讓Helix能預(yù)測(cè)自己的終止條件。這樣,多個(gè)學(xué)習(xí)行為的序列化就更容易了。
訓(xùn)練
Helix采用完全端到端(end-to-end)的訓(xùn)練方式,將原始像素和文本命令映射到連續(xù)動(dòng)作,使用標(biāo)準(zhǔn)回歸損失。
梯度通過(guò)用于條件化S1行為的潛在通信向量從S1反向傳播到S2,實(shí)現(xiàn)兩個(gè)組件的聯(lián)合優(yōu)化。
Helix不需要任務(wù)特定的適配;它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,無(wú)需獨(dú)立的動(dòng)作輸出頭或每個(gè)任務(wù)的微調(diào)階段。
在訓(xùn)練過(guò)程中,研究中還在S1和S2輸入之間添加了時(shí)間延遲。這個(gè)延遲經(jīng)過(guò)校準(zhǔn),以匹配S1和S2在部署推理延遲之間的差距,確保部署期間的實(shí)時(shí)控制要求在訓(xùn)練中得到準(zhǔn)確反映。
優(yōu)化的流式推理
因?yàn)檫@種訓(xùn)練設(shè)計(jì),Helix就能在Figure機(jī)器人上進(jìn)行高效的模型并行部署了,每個(gè)機(jī)器人都配備了雙低功耗嵌入式GPU。
其中,推理流程在S2(高層潛規(guī)劃)和S1(低層控制)模型之間分割,各自在專(zhuān)用GPU上運(yùn)行。
S2作為異步后臺(tái)進(jìn)程運(yùn)行,處理最新的觀察數(shù)據(jù)(機(jī)載相機(jī)和機(jī)器人狀態(tài))和自然語(yǔ)言命令。它會(huì)持續(xù)更新共享內(nèi)存中的潛在向量,用于編碼高層行為意圖。
而S1作為獨(dú)立的實(shí)時(shí)進(jìn)程執(zhí)行,能維持平滑的整體上半身動(dòng)作所需的關(guān)鍵200Hz控制循環(huán)。它會(huì)同時(shí)接收最新的觀察數(shù)據(jù)和最近的S2潛在向量。
S2和S1推理之間固有的速度差異,自然會(huì)導(dǎo)致S1以更高的時(shí)間分辨率處理機(jī)器人觀察數(shù)據(jù),為響應(yīng)式控制創(chuàng)建更緊密的反饋循環(huán)。
這種部署策略有意模仿訓(xùn)練中引入的時(shí)間延遲,最小化訓(xùn)練和推理之間的分布差異。異步執(zhí)行模型允許兩個(gè)進(jìn)程以其最優(yōu)頻率運(yùn)行,因此能以與最快的單任務(wù)模仿學(xué)習(xí)策略相當(dāng)?shù)乃俣冗\(yùn)行Helix。
結(jié)果
精細(xì)化VLA全上半身控制
Helix以200Hz的頻率協(xié)調(diào)35個(gè)自由度的動(dòng)作空間,控制從單個(gè)手指運(yùn)動(dòng)到末端執(zhí)行器(end-effector)軌跡、頭部注視和軀干姿態(tài)的所有動(dòng)作。
頭部和軀干控制帶來(lái)獨(dú)特的挑戰(zhàn)——當(dāng)它們移動(dòng)時(shí),既會(huì)改變機(jī)器人的可達(dá)范圍,也會(huì)改變它的可視范圍,形成傳統(tǒng)上容易導(dǎo)致系統(tǒng)不穩(wěn)定的反饋循環(huán)。
機(jī)器人在調(diào)整軀干以獲得最佳可達(dá)范圍的同時(shí),用頭部平滑地跟蹤其手部動(dòng)作,并保持精確的手指控制以進(jìn)行抓取。
從傳統(tǒng)角度來(lái)看,即使對(duì)于單個(gè)已知任務(wù),在如此高維(high-dimensional)的動(dòng)作空間中實(shí)現(xiàn)這種精度一直被認(rèn)為是極具挑戰(zhàn)性的。
目前,還沒(méi)有VLA系統(tǒng)能夠在保持通用泛化能力(適用于不同任務(wù)和物體)的同時(shí),展示出這種程度的實(shí)時(shí)協(xié)調(diào)控制。
圖片
零樣本學(xué)習(xí)多機(jī)器人協(xié)調(diào)
研究人員在一個(gè)具有挑戰(zhàn)性的多智能體(multi-agent)操作場(chǎng)景中將Helix推向極限:兩臺(tái)Figure機(jī)器人之間的協(xié)作式零樣本學(xué)習(xí)雜貨存儲(chǔ)任務(wù)。
結(jié)果顯示,機(jī)器人成功操作了在訓(xùn)練中從未見(jiàn)過(guò)的雜貨,展示了對(duì)不同形狀、尺寸和材料的強(qiáng)大通用泛化能力。
圖片
此外,兩個(gè)機(jī)器人使用完全相同的Helix模型權(quán)重(model weights)運(yùn)行,無(wú)需針對(duì)特定機(jī)器人的訓(xùn)練或明確的角色分配。
它們通過(guò)自然語(yǔ)言提示詞來(lái)實(shí)現(xiàn)協(xié)調(diào)配合,比如「把餅干袋遞給你右邊的機(jī)器人」或「從你左邊的機(jī)器人那里接過(guò)餅干袋并放入打開(kāi)的抽屜中」。
這是首次使用VLA實(shí)現(xiàn)多機(jī)器人之間的靈活、持續(xù)性協(xié)作任務(wù),而且機(jī)器人能夠成功處理完全陌生的物體,這一成就具有重要的里程碑意義。
圖片
「任意物品拾取」能力涌現(xiàn)
研究人員發(fā)現(xiàn)配備Helix的Figure機(jī)器人只需一個(gè)簡(jiǎn)單的「拾取[X]」指令就能拾取幾乎任何小型家居物品。
即使在雜亂的環(huán)境下,機(jī)器人也能成功處理從玻璃器皿和玩具到工具和衣物等數(shù)千件前所未見(jiàn)的物品,而這一切無(wú)需任何事先示范或定制編程。
值得注意的是,Helix成功地連接了大規(guī)模語(yǔ)言理解能力與精確的機(jī)器人控制系統(tǒng)。
例如,當(dāng)接收到「拾取沙漠物品」這樣的提示詞時(shí),Helix不僅能識(shí)別出玩具仙人掌符合這個(gè)抽象概念,還能選擇最近的機(jī)械手臂并執(zhí)行精確的運(yùn)動(dòng)指令(motor commands)來(lái)穩(wěn)固抓取它。
這種通用的「語(yǔ)言到動(dòng)作」抓取能力為類(lèi)人機(jī)器人在復(fù)雜且不確定的非結(jié)構(gòu)化環(huán)境中的部署開(kāi)創(chuàng)了激動(dòng)人心的可能性。
圖片
討論
Helix的訓(xùn)練極其高效
Helix僅需極少的資源就實(shí)現(xiàn)了強(qiáng)大的物體識(shí)別和適應(yīng)能力(物體泛化能力)。
研究人員總共使用了約500小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù)(supervised data)來(lái)訓(xùn)練Helix,這僅占此前收集的VLA數(shù)據(jù)集規(guī)模的一小部分(<5%),而且無(wú)需依賴(lài)多機(jī)器人實(shí)體數(shù)據(jù)收集或多階段訓(xùn)練。
值得注意的是,這種數(shù)據(jù)收集規(guī)模更接近現(xiàn)代單任務(wù)模仿學(xué)習(xí)(imitation learning)數(shù)據(jù)集。盡管數(shù)據(jù)需求相對(duì)較小,Helix仍然可以擴(kuò)展到更具挑戰(zhàn)性的完整上肢人形機(jī)器人控制動(dòng)作空間,成功實(shí)現(xiàn)高頻率、高維度的輸出控制。
統(tǒng)一的模型權(quán)重系統(tǒng)
現(xiàn)有的VLA系統(tǒng)通常需要專(zhuān)門(mén)的微調(diào)或?qū)S玫膭?dòng)作輸出層來(lái)優(yōu)化不同復(fù)雜行為的性能。
然而,Helix卻能使用單一統(tǒng)一模型就實(shí)現(xiàn)了各種任務(wù)的出色表現(xiàn)。
僅使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重(System 2使用70億參數(shù),System 1使用8千萬(wàn)參數(shù)),Helix就能夠完成將物品放入各種容器、操作抽屜和冰箱、協(xié)調(diào)精確的多機(jī)器人交接,以及操作數(shù)千種全新物體等多樣化任務(wù)。
結(jié)論
Helix是首個(gè)能夠通過(guò)自然語(yǔ)言直接控制整個(gè)人形機(jī)器人上半身的視覺(jué)-語(yǔ)言-動(dòng)作模型(Vision-Language-Action model)。
與早期的機(jī)器人系統(tǒng)相比,Helix能夠?qū)崟r(shí)完成持續(xù)性、需要配合的精密操作,而無(wú)需任何特定任務(wù)示范或大量手動(dòng)編程。
Helix展現(xiàn)出卓越的物體適應(yīng)能力,只需通過(guò)自然語(yǔ)言指令,就能拾取數(shù)千種在訓(xùn)練中從未接觸過(guò)的家居物品,這些物品具有各種不同的形狀、尺寸、顏色和材料特性。
這標(biāo)志著Figure在拓展人形機(jī)器人行為能力方面取得了突破性進(jìn)展——研究人員相信,隨著機(jī)器人在日常家居環(huán)境中的應(yīng)用日益廣泛,這一進(jìn)展將發(fā)揮重要的推動(dòng)作用。
盡管這些初步成果令人振奮,但這僅僅是揭開(kāi)了可能性的冰山一角。研究人員熱切期待著將Helix的規(guī)模擴(kuò)大至現(xiàn)有規(guī)模的千倍乃至更多時(shí)會(huì)帶來(lái)怎樣的突破。
參考資料:HNYZs
https://www.figure.ai/news/helix