歷時2年,華人團(tuán)隊力作,震撼開源生成式物理引擎Genesis,可模擬世界萬物
這是生成式大模型的時代 —— 它們能生成文本、圖像、音頻、視頻、3D 對象…… 而如果將所有這些組合到一起,我們可能會得到一個世界!
現(xiàn)在,不管是 LeCun 正在探索的世界模型,還是李飛飛想要攻克的空間智能,又或是其他研究團(tuán)隊提出的其它類似概念,我們都毫無疑問地在離這個世界越來越近。就在幾個小時前,我們向著這個世界又跨出了一步:CMU 聯(lián)合其他 20 多所研究實驗室開源發(fā)布了一個生成式物理引擎:Genesis,意為「創(chuàng)世紀(jì)」。從名字也能看出,這或許真是一個新世界的起點(diǎn)。
據(jù)項目貢獻(xiàn)者 CMU 機(jī)器人研究所博士生 Zhou Xian 和領(lǐng)導(dǎo)者淦創(chuàng)教授在 X 上分享的內(nèi)容看,該項目耗費(fèi)了 2 年多時間,海內(nèi)外近 20 家機(jī)構(gòu)參與了內(nèi)部測試。
最終,這個聯(lián)合團(tuán)隊得到的 Genesis 生成式物理引擎可以生成 4D 動態(tài)世界,而其基礎(chǔ)是一個用于通用機(jī)器人和物理 AI 應(yīng)用的物理模擬平臺。
- 開源地址:https://github.com/Genesis-Embodied-AI/Genesis
- 項目頁面:https://genesis-embodied-ai.github.io/
- 文檔地址:https://genesis-world.readthedocs.io/en/latest/
目前 Genesis 的技術(shù)論文還未發(fā)布,但據(jù)官方文檔,Genesis 的主要特性包括:
- 安裝毫不費(fèi)力,API 設(shè)計極其簡單且用戶友好。
- 并行模擬的速度前所未有:Genesis 是世界上最快的物理引擎,模擬速度比現(xiàn)有的 GPU 加速的機(jī)器人模擬器(Isaac Gym/Sim/Lab、Mujoco MJX 等)快 10 到 80 倍(是的,這有點(diǎn)科幻),同時不會影響模擬準(zhǔn)確性和保真度。
- 支持各種 SOTA 物理求解器的統(tǒng)一框架,可建模各種材料和物理現(xiàn)象。
- 具有經(jīng)過性能優(yōu)化的照片級真實感的光線追蹤渲染。
- 可微分性:Genesis 在設(shè)計時就考慮了與可微分模擬完全兼容。目前,其 MPM 求解器和工具求解器(Tool Solver)都是可微分的,其他求解器的可微分性也將很快添加(會從剛體模擬開始)。
- 物理上精確且可微分的觸覺傳感器。
- 原生支持生成式模擬,允許通過語言提示生成各種模態(tài)的數(shù)據(jù):交互式場景、任務(wù)提議、獎勵、資產(chǎn)、角色動作、策略、軌跡、相機(jī)動作、(物理上準(zhǔn)確的)視頻等。
此外,Genesis 還支持各種硬件和操作系統(tǒng)。
為了佐證 Genesis 的優(yōu)越特性,Zhou Xian 在 X 上分享了一個例子:在單臺 RTX4090 上,它的模擬速度比實時速度快大約 430,000 倍,僅需 26 秒就能訓(xùn)練完成一個可遷移到真實世界的機(jī)器人運(yùn)動策略。
Zhou Xian 表示:「我們的目標(biāo)是構(gòu)建一個通用數(shù)據(jù)引擎,其能利用上層的生成式框架自動創(chuàng)建物理世界,以及各種模式的數(shù)據(jù),包括環(huán)境、相機(jī)運(yùn)動、機(jī)器人任務(wù)提議、獎勵函數(shù)、機(jī)器人策略、角色運(yùn)動、完全交互式 3D 場景、開放世界鉸接資產(chǎn)等,從而自動生成用于機(jī)器人、物理 AI 和其他應(yīng)用的數(shù)據(jù)。」
Genesis 一經(jīng)宣布,就已收獲好評無數(shù)。
GitHub 項目 star 數(shù)也在短短幾個小時內(nèi)突破了 1.5k。
Genesis:一個綜合物理模擬平臺
Genesis 是一個綜合物理模擬平臺,專為通用機(jī)器人、具身 AI 和物理 AI 應(yīng)用而設(shè)計。它同時具有多種屬性:
- 一個從頭開始重建的通用物理引擎,能夠模擬廣泛的材料和物理現(xiàn)象;
- 一個輕量級的、超快的、Python 化的、用戶友好的機(jī)器人仿真平臺;
- 一個強(qiáng)大和快速的逼真照片渲染系統(tǒng);
- 生成式數(shù)據(jù)引擎,將用戶提示的自然語言描述轉(zhuǎn)換為各種數(shù)據(jù)形式。
Genesis 由重新設(shè)計和重新構(gòu)建的通用物理引擎提供支持,并將各種物理求解器及其耦合集成到一個統(tǒng)一的框架中。此核心物理引擎通過在更高級別運(yùn)行的生成式智能體架構(gòu)上得到進(jìn)一步增強(qiáng),旨在為機(jī)器人技術(shù)及其他領(lǐng)域?qū)崿F(xiàn)全自動數(shù)據(jù)生成。
淦創(chuàng)教授介紹說:「我們的方法的核心是對人類心智模型進(jìn)行逆向工程,并構(gòu)建由生成式物理引擎驅(qū)動的機(jī)器人大腦!我意識到許多機(jī)器人專家對這種方法持懷疑態(tài)度,他們指出了設(shè)置模擬器和解決模擬-現(xiàn)實差距的困難。他們主張只專注于從現(xiàn)實世界的數(shù)據(jù)中學(xué)習(xí)。我理解這些擔(dān)憂,但我堅信我們不能只是因為創(chuàng)建一個好模擬器很有挑戰(zhàn)性就繞過它們!」
生成框架旨在自動生成數(shù)據(jù),包括以下內(nèi)容:
- 物理準(zhǔn)確且空間一致的視頻;
- 相機(jī)運(yùn)動和參數(shù);
- 人類和動物角色運(yùn)動;
- 機(jī)器人操縱和運(yùn)動策略,可部署到現(xiàn)實世界;
- 完全交互式 3D 場景;
- 開放世界鉸接式物體生成;
- 語音音頻、面部動畫和情緒。
目前,該研究正在開源底層物理引擎和模擬平臺。在不久的將來,將逐步推出對生成框架的訪問。
Genesis 性能卓越,效果驚艷
作為一個高度優(yōu)化的物理引擎,Genesis 可以借助 GPU 加速并行運(yùn)算,在各種場景中提供了前所未有的模擬速度。
在模擬操控(manipulation)場景時,Genesis 以 4300 萬幀 / 秒的速度運(yùn)行,比實時速度快 43 萬倍。
在大規(guī)模模擬中,Genesis 利用「auto-hibernation」來加速處于收斂和靜態(tài)實體的模擬。不過這項功能正在測試中,將在 0.1.1 版本中發(fā)布。
Genesis 與常用的基于 CPU 和 GPU 的機(jī)器人模擬器的速度比較。
Zhou Xian 表示,Genesis 的 GPU 并行化 IK(Inverse kinematics)求解器可以在 2 毫秒內(nèi)完成 1 萬臺 Franka 機(jī)器臂的 IK 求解。
接下來,我們看看具體的示例展示。
生成 4D 動態(tài)和物理世界
Genesis 的物理引擎由基于 VLM 的生成式智能體提供支持,該智能體使用模擬基礎(chǔ)設(shè)施提供的 API 作為工具來創(chuàng)建 4D 動態(tài)世界,然后將其用作提取各種模式數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)源。
結(jié)合生成相機(jī)和物體運(yùn)動模塊,Genesis 能夠生成物理上精確且視圖一致的視頻和其他形式的數(shù)據(jù)。
并且,Genesis 還支持模擬各種不同的材料,包括剛體、鉸接體、布料、液體、煙霧、可變形體、薄殼材料、彈性 / 塑性體、機(jī)器人肌肉等。
模擬一層巧克力醬,自然不再話下。
絞碎泡沫的質(zhì)感看起來也非常真實。
星球與太空船的質(zhì)感也非常高,看起來就像是來自一部大制作的科幻電影。
子彈擊破水球的物理過程就好像真的是來自設(shè)備精良的高速攝影。
一壺字母糖,看起來很 Q 彈。
對充氣人偶的模擬也恰到好處,同樣也非常幽默地模擬現(xiàn)實狀況。
角色動作生成
有了如此高質(zhì)量的物理引擎,對于游戲制作業(yè)來說也是好消息,許多復(fù)雜的動作和效果都可以通過提示詞來快速生成了:
提示:手持棍棒的迷你版悟空在桌面上飛奔 3 秒,然后跳到空中,落地時右臂向下擺動。鏡頭從他的臉部特寫開始,然后穩(wěn)定地跟隨角色,同時逐漸縮小。當(dāng)悟空跳到空中時,在跳躍的最高點(diǎn),動作暫停幾秒鐘。鏡頭圍繞角色 360 度旋轉(zhuǎn),然后緩慢上升,然后繼續(xù)動作。
設(shè)計動作的時間成本一下子就被打下來了。
機(jī)器人策略生成
Genesis 可以利用生成式機(jī)器人智能體和物理引擎自動生成不同場景下各種技能的機(jī)器人策略和演示數(shù)據(jù)。這意味著研究人員可以在仿真環(huán)境中快速獲得符合物理規(guī)律的機(jī)器人動作方案,并將其可靠地遷移到實體機(jī)器人上。
下面展示了一些不同形態(tài)的機(jī)器人執(zhí)行不同任務(wù)的示例。
提示:一個移動的 Franka 機(jī)械臂使用碗和微波爐做爆米花
提示:宇樹 Go2 四足機(jī)器人在雨中奔跑 (Sim)
比如,從提示詞到在仿真環(huán)境中的動作策略,再遷移到實體機(jī)器人上,可以如此絲滑:
提示:宇樹 H1-2 人形機(jī)器人向前行走 (Sim2Real)
做倒立需要精確平衡控制和全身協(xié)調(diào),這么高難度的動作,現(xiàn)在也可以通過 Genesis 來實現(xiàn) Sim2Real:
提示:四足機(jī)器人用前兩條腿做倒立 (Sim2Real)
倒立不夠,在 Genesis 的助力下,機(jī)器狗還能更快地學(xué)會「體操技巧」,穩(wěn)穩(wěn)地做兩個直體后空翻:
四足機(jī)器人連著后空翻兩次 (Sim2Real)
像拉椅子這樣要和真實世界里的物體交互的動作,也沒問題:
大型欠驅(qū)動機(jī)器人的運(yùn)動操作 (Sim2Real)
3D 和完全交互式場景生成
Genesis 的生成框架支持生成 3D 和完全交互的場景,這些場景可用于訓(xùn)練機(jī)器人技能。
家庭室內(nèi)場景,有客廳(包括用餐區(qū))、衛(wèi)生間、書房和臥室。
餐廳內(nèi)部
開放世界鉸接物體生成
Genesis 也能生成具有鉸接結(jié)構(gòu)的物體及其交互過程,例如汽車開關(guān)門、打開合上筆記本電腦、折疊金屬刀片。
軟體機(jī)器人
Genesis 還是首個為軟肌肉和軟機(jī)器人及其與剛性機(jī)器人的交互提供全面支持的平臺。Genesis 還附帶類似 URDF 的軟機(jī)器人配置系統(tǒng)。官方還提供了一個相關(guān)教程:https://genesis-world.readthedocs.io/en/latest/user_guide/getting_started/soft_robots.html
Genesis 也能模擬帶有軟皮膚和剛性骨骼的混合機(jī)器人。
語音音頻,面部表情和情緒生成
音頻以及面部表情也是 Genesis 想要整合的模態(tài),下面展示了兩個示例:
人物情緒從中性轉(zhuǎn)變?yōu)閼嵟?,然后再轉(zhuǎn)變?yōu)榭鞓贰?/span>
Genesis 將情緒的轉(zhuǎn)變泛化到不同的面部
結(jié)語
最后,Zhou Xian 展示了一個用 Genesis 打造的俄羅斯方塊游戲,其中的方塊是果凍材質(zhì)的,并且能以符合現(xiàn)實的物理規(guī)律運(yùn)動。
我們以前可能也刷到過類似的視頻,但那些是視頻特效師們精心制作的結(jié)果,而現(xiàn)在 Genesis 已經(jīng)可以一鍵導(dǎo)出,并進(jìn)一步轉(zhuǎn)化為真實可實現(xiàn)的技術(shù)突破。
淦創(chuàng)教授在 X 上分享了自己參與這個項目的經(jīng)歷:「自 2018 年以來,我決定將自己的研究重點(diǎn)從視覺轉(zhuǎn)向具身 AI,因為我著迷于創(chuàng)建能夠與物理世界和其他具有類似人類靈活性的智能存在交互的通用智能體——我們將這個領(lǐng)域稱為具身 AGI(embodied AGI)?!?/span>
他還寫到:「說實話,有時候我覺得這個模擬器可能太先進(jìn)了,不能發(fā)布,但我們相信讓它完全開源并圍繞我們的使命建立一個強(qiáng)大的社區(qū)是至關(guān)重要的!請加入 Genesis 社區(qū)!我們希望讓機(jī)器人學(xué)研究社區(qū)相信『Generative Physics Simulator is all You Need!』」」
不得不說,還真是讓人非常期待 Genesis 的實際應(yīng)用呢!