自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="oeetu"><font id="oeetu"><tr id="oeetu"></tr></font></ruby><cite id="oeetu"><track id="oeetu"></track></cite>

<style id="oeetu"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

3B模型打通機器人任督二脈！沖咖啡疊衣服都能干，7種形態(tài)適配，OpenAI也投了

作者：量子位 2024-11-04 08:00:00

人工智能新聞

在官宣當(dāng)中，π團隊展示了疊衣服、整理桌子、雞蛋裝盒等等復(fù)雜（對機器人來說）任務(wù)。

只要一個3B參數(shù)的大模型，就能控制機器人，幫你搞定各種家務(wù)。

疊衣服沖咖啡都能輕松拿捏，而且全都是由模型自主控制，不需要遙控。

關(guān)鍵是，這還是個通用型的機器人控制模型，不同種類的機器人都能“通吃”。

請看VCR：

這些操作背后的大模型叫做π0，參數(shù)量只有3B，來自今年剛成立的初創(chuàng)公司Physical Intelligence（簡稱π）。

創(chuàng)立之后不久，π公司就獲得了7000萬美元（約5億人民幣）的A輪融資，投資者中還包括OpenAI。

而公司的目標(biāo)，就是開發(fā)通用的機器人控制模型，現(xiàn)在的π0，就是其首項成果。

有網(wǎng)友直言，π0控制的機器人，是他見過最接近真正的通用機器人的。

關(guān)鍵是，參數(shù)量只有3B，算力消耗非常小，如果和同規(guī)模的模型性能特征相近，廉價顯卡就能帶動。

Hugging Face的機器人團隊領(lǐng)軍人物、前特斯拉Optimus團隊成員Remi Cadene也說，如果π0能開源的話，人們自己在家就能體驗了。

7種機器人都能控制

在官宣當(dāng)中，π團隊展示了疊衣服、整理桌子、雞蛋裝盒等等復(fù)雜（對機器人來說）任務(wù)。

這些任務(wù)不僅需要長時間、多階段的連續(xù)決策，還要求動作同時具備高頻率與精細(xì)程度。

許多任務(wù)更是涉及了復(fù)雜的接觸動力學(xué)，如衣物的變形塑性、紙箱的剛性、雞蛋的脆弱性等。

機器人需要精準(zhǔn)建模并控制這些動力學(xué)過程，甚至滿足更多物理約束，如保持物體平衡、避免碰撞。

但總之最后π團隊還是成功了，π0不僅能控制機器人，還能控制不同的機器人，出色地完成這些任務(wù)。

比如讓雙臂可移動機器人收拾洗好的衣服。

只見機器人站到洗衣機前，打開了艙門，然后將洗好的衣服取出放入筐內(nèi)。

然后又來到一張桌子旁，將筐里的衣服取出、鋪開然后疊好。

還有讓另一種雙臂機器人把盤子里的雞蛋裝入盒子中，之后再把盒子蓋好。

甚至有條不紊地折疊好一個展開的紙盒。

而且知道利用工具，比如這個機器人，用叉子把剩余的食物裝進了打包盒。

到了收拾桌子的任務(wù)當(dāng)中，負(fù)責(zé)執(zhí)行的機器人又變成了單臂。

它可以把要保留的物品放入收納筐，將不需要的垃圾丟進垃圾桶。

并且在物品和垃圾混合放置時也能準(zhǔn)確操作。

當(dāng)然從數(shù)據(jù)上看，π0在零樣本泛化能力、語言控制響應(yīng)、新任務(wù)學(xué)習(xí)、多階段任務(wù)等維度上也表現(xiàn)優(yōu)異。

零樣本泛化能力上，π0在所有任務(wù)上都顯著超過了baseline模型，即使未加入預(yù)訓(xùn)練視覺模型的π0-small也比這些baseline表現(xiàn)優(yōu)異。

指令處理上，π0在3個語言指令任務(wù)上，經(jīng)人類指導(dǎo)取得了最好的自主表現(xiàn)，高層策略指導(dǎo)也有提升。

在與預(yù)訓(xùn)練數(shù)據(jù)差異較大的新任務(wù)上，π0在大多數(shù)任務(wù)上性能最好，尤其在微調(diào)數(shù)據(jù)量較小時優(yōu)勢明顯。

這意味著，不需要專門訓(xùn)練，π0就能讓機器人自動完成很多開放性任務(wù)。

最后在一系列極具挑戰(zhàn)的復(fù)雜任務(wù)上，π團隊通過結(jié)合微調(diào)和語言指令對π0進行了測試。

結(jié)果π0能夠完成折衣服、整理餐桌、組裝紙箱、裝雞蛋等長達5-20分鐘的任務(wù)，取得了50%以上的平均得分。

效率方面，官方技術(shù)報告中公布了π0在4090上的運行時間。

一次完整的前向傳播也需要73-86毫秒，這對實時性要求高的場景可能還有挑戰(zhàn)。

但考慮到流匹配過程能生成50個動作步,平均下來每個動作步的生成時間也并不高。這

所以從整體上看，π0的計算效率，或者說實時性，還是比較高的，當(dāng)然離網(wǎng)友們期待的家家可用，可能還需要再提速一些。

那么，π團隊在π0模型上，都運用了什么樣的技術(shù)呢？

視覺大模型魔改而成

π0是基于視覺模型PaLM-ViT改造而成，在其基礎(chǔ)上增加了一個投影層、一個多層感知機，以及一個較小的動作專家模塊。

其中投影層用于處理機器人狀態(tài)和動作的輸入輸出，多層感知機用于整合流匹配（flow matching）時間步信息，專家模塊則用單獨的權(quán)重處理機器人狀態(tài)和動作tokens。

模型的輸入包括圖像、語言指令、機器人本體感受狀態(tài)和噪聲動作塊。

圖像和語言tokens送入VLM主干網(wǎng)絡(luò)，狀態(tài)和動作tokens送入動作專家模塊。

最終，模型會輸出動作塊的向量場表示。

對于連續(xù)動作分布的建模，π0模型使用了條件流匹配（conditional flow matching）方法。

流匹配的工作方式和擴散模型有些類似，核心思想都是通過逐步添加噪聲來簡化數(shù)據(jù)分布，然后逐步去噪得到隱私數(shù)據(jù)——

訓(xùn)練時，隨機對動作施加高斯噪聲，并訓(xùn)練模型輸出去噪向量場；推理時，從高斯噪聲開始，通過數(shù)值積分向量場生成動作序列。

不同之處在于，流匹配直接對數(shù)據(jù)和噪聲分布之間的映射場（vector field）進行建模，訓(xùn)練目標(biāo)是匹配這一映射場，而擴散模型通常學(xué)習(xí)的是每個去噪步驟的條件分布。

流匹配方法能夠高精度地建模復(fù)雜多峰分布，非常適合高頻靈巧操作任務(wù)。

訓(xùn)練數(shù)據(jù)方面，π0是在迄今為止最大的機器人交互數(shù)據(jù)集上進行訓(xùn)練的。

預(yù)訓(xùn)練階段的數(shù)據(jù)集中包括OXE、DROID、Bridge等開源數(shù)據(jù)，以及團隊在8個不同的機器人平臺中收集的大量靈巧類任務(wù)數(shù)據(jù)等內(nèi)容。

團隊自己收集的數(shù)據(jù)集括68個任務(wù)，涉及單臂任務(wù)106M步、雙臂任務(wù)797M步，數(shù)據(jù)采用了50Hz高頻控制。

開源數(shù)據(jù)和團隊自己收集的數(shù)據(jù)，比例大約是1:9。

另外為了讓π0掌握特定復(fù)雜技能，團隊在20多個下游任務(wù)上進行了微調(diào)。

根據(jù)任務(wù)的難度和相似度，微調(diào)數(shù)據(jù)量從5小時到100多小時不等，一些任務(wù)還結(jié)合了高層語言策略模塊來分解復(fù)雜目標(biāo)。

用團隊成員切爾西·芬（Chelsea Finn）的話說，預(yù)訓(xùn)練是為了讓模型能夠應(yīng)對各種場景，后訓(xùn)練（微調(diào)）則是讓π0掌握更多的策略。

“不造機器人”的機器人公司

Physical Intelligence公司成立于今年，已經(jīng)獲得總計7000萬美元的A輪融資。

融資由紅杉資本領(lǐng)先，此外還有包括OpenAI在內(nèi)的6家公司參投。

公司還有個簡稱叫做π，因為Physical Intelligence的縮寫pi，剛好是π的拉丁轉(zhuǎn)寫。

雖然是家機器人公司，但π并不生產(chǎn)機器人硬件，只負(fù)責(zé)訓(xùn)練模型，目標(biāo)是構(gòu)建能夠通用的機器人模型。

對此，π的聯(lián)合創(chuàng)始人兼CEO卡羅爾·豪斯曼（Karol Hausman）在公開場合解釋：

我們的目標(biāo)是通過一個通用模型將AI帶入物理世界，這個模型可以為任何機器人或任何物理設(shè)備提供動力，基本上適用于任何應(yīng)用。

對于此事的意義，公司另一名聯(lián)創(chuàng)謝爾蓋·萊文（Sergey Levine）在推特上舉例說明，π創(chuàng)業(yè)要做的事之于機器人控制，其重要程度就像NLP之于大模型。

π的創(chuàng)始人背景也都十分亮眼，都是機器人和AI專家，在機器人、工程和許多其他領(lǐng)域擁有深厚經(jīng)驗。

CEO卡羅爾·豪斯曼（Karol Hausman），此前曾是谷歌大腦機器人操作研究主管，2021年至今兼任斯坦?？妥淌凇?/p>

聯(lián)合創(chuàng)始人謝爾蓋·萊文（Sergey Levine），UC伯克利電氣工程和計算機科學(xué)系副教授，谷歌學(xué)術(shù)被引用量為超過12.7萬。

而且還是不折不扣的頂會狂魔，據(jù)不完全統(tǒng)計，萊文2018年在ML和NLP頂會上共發(fā)表22篇論文，與另外兩人并列全球第一……

萊文在UC伯克利還是個網(wǎng)紅教授，此前推出的深度學(xué)習(xí)課程Deep Reinforcement Learning（深度強化學(xué)習(xí)，課程代號CS 285）非常受歡迎。

同時，在斯坦福家務(wù)機器人ALOHA的相關(guān)論文中，萊文的名字也經(jīng)常出現(xiàn)。

聯(lián)創(chuàng)切爾西·芬（Chelsea Finn），斯坦福計算機科學(xué)和電氣工程系助理教授，谷歌學(xué)術(shù)論文引用數(shù)超4.7萬。

在ALOHA團隊的論文當(dāng)中，芬經(jīng)常以通訊作者的身份出現(xiàn)。

此外，還有谷歌大腦機器人團隊前科學(xué)家布賴恩·伊希特（Brian Ichter）、豐田研究院ML研究團隊的研究科學(xué)家蘇拉吉·奈爾（Suraj Nair）等。

可以說陣容是非常豪華了。

擁有超級團隊的π，也仍在繼續(xù)招兵買馬，在研究科學(xué)家、ML工程師、數(shù)據(jù)工程師等多個崗位招聘員工和實習(xí)生。

技術(shù)報告：https://www.physicalintelligence.company/download/pi0.pdf

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營