剛剛,AI顛覆物理模擬:一句話精準(zhǔn)仿真,學(xué)術(shù)圈半壁江山聯(lián)手耗時(shí)24個(gè)月研究成果
AI視頻生成這就過時(shí)了嗎?
剛剛,最先進(jìn)的生成式物理引擎Genesis發(fā)布,一句話就可以生成完整精確的模擬物理世界。
一滴水滴落到一個(gè)啤酒瓶上,然后沿著瓶子表面慢慢滑落。
圖片
生成結(jié)果可不僅是一個(gè)視頻,其中還包含物體運(yùn)動的各種參數(shù)。
圖片
接下來可以分為三個(gè)視角,同時(shí)追蹤模擬水滴的運(yùn)動……
圖片
對于人物動作,也可以遵循提示詞精確模擬。
一個(gè)手里拿著棍子的微型悟空在桌子表面沖刺3秒鐘,然后跳到空中,并在著陸時(shí)向下擺動右臂。
攝像機(jī)從他的面部特寫開始,然后穩(wěn)步跟隨角色,同時(shí)逐漸縮小。
圖片
當(dāng)猴子跳到空中時(shí),在跳躍的最高點(diǎn),動作會暫停幾秒鐘……攝像機(jī)圍繞角色旋轉(zhuǎn) 360 度,然后緩慢上升,然后動作繼續(xù)。
圖片
這是一項(xiàng)涉及20多個(gè)組織,為期24個(gè)月的大規(guī)模合作研究:
學(xué)術(shù)界,有清華、北大、港大、CMU、馬里蘭、哥倫比亞、斯坦福、MIT……說是學(xué)術(shù)圈半壁江山都參與了也不為過。
產(chǎn)業(yè)界,也有英偉達(dá)、太極圖形,以及MIT-IBM Watson AI Lab這樣的聯(lián)合實(shí)驗(yàn)室助陣。
圖片
OpenAI在2月初次演示Sora時(shí),曾稱它是“世界的模擬器”。
相比之下,Genesis不僅物理模擬更精確,還同時(shí)有更多能力:
- 它是一個(gè)從頭開始重建的通用物理引擎,能夠模擬各種材料和物理現(xiàn)象。
- 它是一個(gè)輕量級、超快速、Python化和用戶友好的機(jī)器人仿真平臺。
- 它是一個(gè)強(qiáng)大而快速的照片級寫實(shí)渲染系統(tǒng)。
- 它是一個(gè)生成式數(shù)據(jù)引擎,可將用戶提示的自然語言描述轉(zhuǎn)換為各種數(shù)據(jù)模式。
一句話總結(jié):Genesis是一個(gè)全面的物理模擬平臺,專為通用機(jī)器人、具身AI和物理AI應(yīng)用而設(shè)計(jì)。
共同一作、CMU博士生周銜詳細(xì)介紹了Genesis的各種能力,迅速引起業(yè)界轟動。
圖片
其中大家格外關(guān)注的一點(diǎn)是生成速度。
它提供的模擬速度比現(xiàn)實(shí)世界快約430000倍,并且只需26秒即可在單個(gè)RTX4090上訓(xùn)練能轉(zhuǎn)移到真實(shí)機(jī)器人的運(yùn)動策略。
圖片
據(jù)周銜介紹,Genesis的物理引擎用純Python代碼開發(fā),同時(shí)比現(xiàn)有的GPU加速堆棧(如英偉達(dá)Isaac Gym和開源的MJX)快10-80倍。
同時(shí),速度的提高不會影響仿真精度。
圖片
目前,團(tuán)隊(duì)正在開源底層物理引擎和模擬平臺,對生成式框架的訪問將在不久的將來逐步推出。
不得不說,從一句話生成視頻到一句話生成物理世界,2024年的進(jìn)展實(shí)在是太快了。
生成4D物理世界
Genesis由從頭開始的通用物理引擎提供支持,將各種物理求解器及其耦合集成到統(tǒng)一的框架中。該核心物理引擎通過上層運(yùn)行的生成Agent框架進(jìn)一步增強(qiáng),旨在為機(jī)器人及其他領(lǐng)域?qū)崿F(xiàn)完全自動化的數(shù)據(jù)生成,包括以下模態(tài):
- 物理準(zhǔn)確且空間一致的視頻
- 攝像機(jī)運(yùn)動和參數(shù)
- 人類和動物角色的動作
- 機(jī)器人操作和運(yùn)動策略,可部署到現(xiàn)實(shí)世界
- 完全交互式 3D 場景
- 開放世界鉸接式物體生成
- 語音音頻、面部動作和表情
角色運(yùn)動
關(guān)于角色運(yùn)動,除了開頭展示的猴子,作者還一口氣放出了三個(gè)不同風(fēng)格角色的運(yùn)動場景。
一位日本武士正在表演拳擊。
一名羅馬士兵像僵尸一樣向前走。
一名中國風(fēng)的戰(zhàn)士表演江南Style舞蹈。
圖片
機(jī)器人策略
除了角色的運(yùn)動,Genesis還可以自主提出機(jī)器人任務(wù)、設(shè)計(jì)環(huán)境、編寫?yīng)剟?lì)函數(shù),并最終自動生成機(jī)器人策略。
移動式franka機(jī)械臂將地板上的所有物品都扔進(jìn)籃子里。
圖片
同時(shí)支持Sim2Real,把在模擬環(huán)境訓(xùn)練好的策略轉(zhuǎn)移到真實(shí)硬件機(jī)器人中。
一個(gè)宇樹H1-2人形機(jī)器人向前走。
圖片
四足機(jī)器狗雙重后空翻
圖片
很可惜還有一個(gè)人形機(jī)器人單腳跳躍只有模擬演示,因?yàn)閳F(tuán)隊(duì)的機(jī)器人壞掉了……
宇樹H1人形機(jī)器人執(zhí)行單腳跳躍。
圖片
另外除了機(jī)器人,無人機(jī)編隊(duì)也可以模擬,并呈現(xiàn)出正確的數(shù)量關(guān)系。
由24(4x6)架無人機(jī)組成的機(jī)隊(duì)一起從地面起飛并一起進(jìn)行翻轉(zhuǎn)。
圖片
3D & 全互動場景生成
一個(gè)帶有客廳(包括用餐空間)、洗手間、書房和臥室的家居室內(nèi)場景。
互動實(shí)體俄羅斯方塊游戲。
圖片
開放世界鉸接式物體
生成開放世界鉸接式物體的mesh資產(chǎn),質(zhì)量超越了人工注釋,更多詳細(xì)信息將隨之后的論文一起公開。
圖片
軟體機(jī)器人
不只是各種剛性物體,Genesis針對軟性的機(jī)器人也能夠?qū)崿F(xiàn)逼真的模擬。
蠕蟲。
圖片
柔軟的抓手操縱盒子并拿起筆帽。
圖片
面部動畫和語音
Genesis還能夠處理面部動作和表情的生成:
圖片
同時(shí)還能向其中添加語音,并在面部表情不斷變化的同時(shí),保持口型與說話內(nèi)容的匹配:
文本“Genesis是一個(gè)為通用機(jī)器人/嵌入式人工智能/物理人工智能應(yīng)用而設(shè)計(jì)的物理平臺。”對應(yīng)的面部運(yùn)動和語音,表情從中性過渡到憤怒,再到開心。
剛剛,AI顛覆物理模擬:一句話精準(zhǔn)仿真,學(xué)術(shù)圈半壁江山聯(lián)手耗時(shí)24個(gè)月研究成果
觀看更多轉(zhuǎn)載,剛剛,AI顛覆物理模擬:一句話精準(zhǔn)仿真,學(xué)術(shù)圈半壁江山聯(lián)手耗時(shí)24個(gè)月研究成果量子位已關(guān)注分享點(diǎn)贊在看已同步到看一看寫下你的評論 視頻詳情
代碼已開源,pip install
目前Genesis代碼已開源,可以直接pip install genesis-world安裝。
開源代碼發(fā)布僅幾個(gè)小時(shí),也迅速在GitHub上攬獲1.6k star。
圖片
當(dāng)前版本具體特性如下
- 可在不同的系統(tǒng)(Linux、MacOS、Windows)和不同的計(jì)算后端(CPU、Nvidia GPU、AMD GPU、Apple Metal)上原生運(yùn)行。
- 統(tǒng)一的仿真框架中集成了各種物理求解器:剛體、MPM、SPH、FEM、PBD、穩(wěn)定流體。
- 支持剛性和鉸接體、各種類型的液體、氣體現(xiàn)象、可變形對象、薄殼對象和顆粒材料的仿真(和耦合)
- 支持多種機(jī)器人:機(jī)械臂、腿式機(jī)器人、無人機(jī)、軟體機(jī)器人等,并廣泛支持加載不同的文件類型:MJCF (.xml)、URDF、.obj、.glb、.ply、.stl 等
- 支持基于原生光線追蹤的渲染
- Genesis旨在與可微仿真完全兼容。目前,MPM求解器和Tool求解器是可微的,并且很快將添加其他求解器的可微性(從剛體仿真開始)
- Genesis包含一個(gè)基于物理且可微分的觸覺傳感器仿真模塊,將很快集成到公開版本中(預(yù)計(jì)在 0.2.0 版本)
另外GitHub項(xiàng)目頁面介紹,Genesis的目標(biāo)是構(gòu)建一個(gè)完全透明、用戶友好的生態(tài)系統(tǒng),來自機(jī)器人和計(jì)算機(jī)圖形學(xué)的貢獻(xiàn)者可以聚集在一起,共同創(chuàng)建一個(gè)高效、逼真(物理和視覺)的虛擬世界,用于機(jī)器人研究及其他領(lǐng)域。
此外,Genesis相關(guān)論文已進(jìn)入提交階段,將于稍后公開。
目前更多細(xì)節(jié)可參考官方文檔。
GitHub:https://github.com/Genesis-Embodied-AI/Genesis
項(xiàng)目主頁:https://genesis-embodied-ai.github.io