北大陳寶權(quán)教授:從圖形計算到世界模型
圖片
世界模型是當(dāng)前的熱點(diǎn)話題。我這里分享的題目是 “圖形計算到世界模型”,作為拋磚引玉,試圖挖掘和展示圖形計算和世界模型兩者之間可能建立的緊密內(nèi)在聯(lián)系。
GAMES 這個平臺上的報告,主要是為了交流,鼓勵大膽提出想法,引發(fā)討論,而不是單純的宣讀一些既有成果。所以,我為此做了一些調(diào)研和思考,期待通過這個報告,能激發(fā)更多關(guān)于圖形計算如何助力構(gòu)建更精準(zhǔn)世界模型的深入討論。
近年來,AIGC 領(lǐng)域的大模型技術(shù)取得了迅猛的發(fā)展,引發(fā)了廣泛的關(guān)注與討論。當(dāng)觀察到僅通過簡單的文字輸入,這些模型便能生成連貫且有邏輯的場景時,一個自然而然的問題浮現(xiàn):這些模型背后是否隱藏著一個世界模型?這一疑問直指 AI 技術(shù)的核心,激發(fā)了業(yè)界對于模型內(nèi)部機(jī)制與能力的深入探索。
首先,我通過 Google 進(jìn)行了搜索,“Sora 是否具有世界模型”。搜索結(jié)果顯示,Sora 具備了一定的模擬真實(shí)世界的能力,通過視頻生成模型來體現(xiàn)。該搜索還關(guān)聯(lián)到一篇相關(guān)文章,文章作者中有坐在臺下的 Jiwen 老師。這篇文章通過對一系列生成模型的綜述和分析,展示了 Sora 等模型內(nèi)部融入了視覺模型的元素,支持了該類模型包含世界模型特征的觀點(diǎn)。
退回一步,何謂 “世界模型”?其實(shí),當(dāng)前學(xué)術(shù)屆和產(chǎn)業(yè)界對于世界模型缺乏一個統(tǒng)一且嚴(yán)格的界定?;仡欉^往,LSTM 的先驅(qū) Schmidhuber 及其學(xué)生曾在其論文中探討過世界模型,他們并未直接給出世界模型的明確結(jié)構(gòu),而是從功能角度進(jìn)行了闡述。他們認(rèn)為,世界模型的核心在于其預(yù)測(prediction)與規(guī)劃決策(planning)的能力。換言之,若一模型能夠基于當(dāng)前信息預(yù)測未來狀態(tài),并據(jù)此做出合理規(guī)劃與決策,那么它便被視為具備世界模型的特征。這一定義雖非嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)性描述,卻從實(shí)用功能角度出發(fā),為我們理解世界模型提供了有益視角。
Yann LeCun 作為人工智能領(lǐng)域內(nèi)的重要人物,也曾從現(xiàn)象層面深入剖析世界模型的概念。盡管這一闡述也未提供嚴(yán)格定義,但他認(rèn)為世界模型所涵蓋的關(guān)鍵能力,如預(yù)測、推理、決策及規(guī)劃等,與我們先前討論的內(nèi)容高度契合。值得矚目的是,LeCun 的論述將世界模型的功能同人類大腦類比,通過圖示形象地展示了這一理念。
從 GPT-4o 的回答中,我們也可以看到類似的觀點(diǎn):世界模型被描述為一種能夠進(jìn)行模擬、預(yù)測、規(guī)劃和決策的系統(tǒng)。這種系統(tǒng)通過學(xué)習(xí)和理解大量的數(shù)據(jù),構(gòu)建出對現(xiàn)實(shí)世界的內(nèi)部表示,從而能夠模擬不同情境下的可能結(jié)果,并據(jù)此做出最優(yōu)的決策。
綜上所述,我們可以通過構(gòu)建一個最簡單的示意圖來直觀理解世界模型。我們以真實(shí)場景作為輸入,通過一個有理解、分析、模擬、評價等能力的世界模型,最終實(shí)現(xiàn)在該輸入條件下符合真實(shí)場景的未來預(yù)測及決策推理。這樣的世界模型體現(xiàn)了人工智能技術(shù)在處理復(fù)雜信息方面的能力,也預(yù)示了其在多個應(yīng)用場景中的巨大潛力。
當(dāng)前,眾多大型 AI 模型已展現(xiàn)出在復(fù)雜場景應(yīng)用中的卓越能力,特別是在無人駕駛領(lǐng)域,其成熟度尤為顯著。底下左邊,一個面向無人駕駛的高逼真仿真系統(tǒng)通過模擬多種傳感器(如激光雷達(dá)、攝像頭、聲音傳感器等)產(chǎn)生豐富的多模態(tài)數(shù)據(jù),由此構(gòu)建出一個龐大的數(shù)據(jù)集用于大模型訓(xùn)練。底下右邊,該模型在新的場景下實(shí)現(xiàn)了對環(huán)境的精準(zhǔn)感知,并由此做場景的動態(tài)預(yù)測,進(jìn)行判斷決策,完成自動駕駛?cè)蝿?wù)。在這方面有許多著名的嘗試,比如 nuScenes 這樣的項(xiàng)目,它在數(shù)據(jù)豐富性和多模態(tài)性方面超越了傳統(tǒng)的 KITTI 數(shù)據(jù)集,為模型提供了更為全面的學(xué)習(xí)素材。同時,英偉達(dá)等科技巨頭也在無人駕駛場景的仿真模擬(simulation)方面投入了大量資源,推動了該技術(shù)的快速發(fā)展與應(yīng)用。
可見在自動駕駛等領(lǐng)域,人工智能技術(shù)已展現(xiàn)出從真實(shí)場景輸入到符合真實(shí)場景輸出的從感知到?jīng)Q策的全鏈條能力,標(biāo)志著這一技術(shù)正逐步邁向成熟,在現(xiàn)實(shí)中的應(yīng)用會快速推廣開來。
接下來,我想針對如何構(gòu)建更加完備的世界模型這一宏大命題,探討一下可能的實(shí)現(xiàn)路徑。盡管語言、圖片和視頻大模型已展現(xiàn)出強(qiáng)大的能力,但這僅是建立世界模型征途的起點(diǎn)。大模型依托 scaling law,通過海量數(shù)據(jù) “喂養(yǎng)” 取得了顯著成效,但我們能產(chǎn)生的數(shù)據(jù)的邊界遠(yuǎn)未被觸及,可能的訓(xùn)練模式也遠(yuǎn)不止當(dāng)前這些。
我將從幾個核心維度展開闡述:數(shù)據(jù)豐富性、訓(xùn)練模式、監(jiān)督機(jī)制的增強(qiáng),以及這些要素最終有機(jī)融合,共同推動世界模型的構(gòu)建。在這一過程中有一個中心詞就是 simulation,它占據(jù)了舉足輕重的地位。圖形計算的核心目標(biāo)就是模擬一個真實(shí)的世界,所以我將把它等同于 simulation。這樣的 simulation 在模擬真實(shí)世界、更有效地訓(xùn)練模型,加速模型迭代與驗(yàn)證方面展現(xiàn)出非凡的價值。
首先,我們看看現(xiàn)有大模型訓(xùn)練的基本規(guī)律和其局限。
在大模型訓(xùn)練的過程中,一個關(guān)鍵觀察是數(shù)據(jù)量與模型損失(loss)降低之間的關(guān)系。盡管常有人以線性關(guān)系簡化描述,但實(shí)際上,這種關(guān)系更接近對數(shù) (Log) 關(guān)系,這暗示了模型對數(shù)據(jù)需求的指數(shù)級增長特性。事實(shí)是,隨著模型訓(xùn)練深入,對數(shù)據(jù)量的要求急劇增加,以至于數(shù)據(jù)資源在迅速耗盡。這一現(xiàn)象在涉及更高維度(如三維及以上)的數(shù)據(jù)處理時尤為顯著,進(jìn)一步凸顯了高效數(shù)據(jù)利用與擴(kuò)展數(shù)據(jù)源的緊迫性。
在二維領(lǐng)域,對數(shù)據(jù)的需求已展現(xiàn)出龐大的規(guī)模,如德國開源項(xiàng)目 LAION 所展現(xiàn)的 5PB 數(shù)據(jù)量,盡管其后續(xù)版本 Re-LAION 經(jīng)過清洗后重新發(fā)布,但數(shù)據(jù)量依然可觀。然而,當(dāng)我們轉(zhuǎn)向三維數(shù)據(jù)領(lǐng)域時,情況則大為窘迫。從早期的 ShapeNet 到近期的 ObjectVerse 及其擴(kuò)展版 ObjectVerse-XL,三維數(shù)據(jù)集的量級僅為數(shù)十兆,與二維數(shù)據(jù)相比,顯然不在一個數(shù)量級上。這凸顯了三維數(shù)據(jù)的極度稀缺性,是當(dāng)前人工智能與計算機(jī)視覺領(lǐng)域面臨的一大挑戰(zhàn)。
在這一背景下,simulation(模擬)的重要性日益凸顯。鑒于數(shù)據(jù)的有限性,如何系統(tǒng)性地生成更多高質(zhì)量、帶標(biāo)簽的數(shù)據(jù)成為關(guān)鍵。simulation 正是這一需求的強(qiáng)大解決方案。如今,計算機(jī)圖形技術(shù)已遠(yuǎn)非僅限于特效制作和圖像編輯,其核心實(shí)力在于模擬現(xiàn)實(shí)世界,構(gòu)建的 simulation 系統(tǒng)可以生成海量數(shù)據(jù),這不僅能夠擴(kuò)展數(shù)據(jù)集規(guī)模,還能提供豐富的標(biāo)簽和可控性,確保數(shù)據(jù)的多樣性、合規(guī)性、約束其符合倫理道德標(biāo)準(zhǔn),這樣的數(shù)據(jù)增廣為大模型的訓(xùn)練提供有力支持。
利用 simulaiton 來生成數(shù)據(jù)已經(jīng)有許多成功的初步探索,如 UCSD 蘇昊團(tuán)隊早期的針對圖像姿態(tài)估計等任務(wù)的研究。這一工作的基礎(chǔ)是采用有 pose 信息標(biāo)注的圖像作為訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(CNN),而真實(shí)世界中的圖像中,有 pose 標(biāo)注的是非常有限的,遠(yuǎn)不足以訓(xùn)練一個有效的模型。蘇昊團(tuán)隊就利用了 ShapeNet 等三維數(shù)據(jù)集,通過三維渲染生成了大量包含姿態(tài)信息的圖象數(shù)據(jù),為 CNN 的學(xué)習(xí)提供了豐富的訓(xùn)練樣本,而訓(xùn)練得到的模型,應(yīng)用在真實(shí)世界無標(biāo)注的圖片上,也能夠良好的泛化,得出有效的 pose 估計。這種數(shù)據(jù)生成方法有效彌補(bǔ)了現(xiàn)實(shí)世界數(shù)據(jù)標(biāo)注稀缺的問題。
隨后,基于這些三維數(shù)據(jù),蘇昊團(tuán)隊以及其他研究者們還開發(fā)了更為復(fù)雜的場景交互功能(interaction),如柜門開啟、物體抓取等,旨在模擬真實(shí)世界中的物體交互,為機(jī)器人訓(xùn)練等應(yīng)用提供更為貼近實(shí)際的數(shù)據(jù)支持。由此可見,圖形計算提供的 simulation 能力已成為產(chǎn)生高質(zhì)量、帶標(biāo)簽、有功能的多樣化訓(xùn)練數(shù)據(jù)不可或缺的重要手段。
但我們也都知道,模擬仿真(Sim)與真實(shí)現(xiàn)象(Real )之間還存在差距,這是由數(shù)據(jù)的生成方式所決定的。那么為了生成更貼近現(xiàn)實(shí)世界的數(shù)據(jù),在具身智能等智能應(yīng)用中,我們需要采用 “real to sim” 與 “sim to real” 的策略。前者指從真實(shí)世界獲取原始傳感數(shù)據(jù),用于構(gòu)建相對應(yīng)的仿真環(huán)境,比如說我們以香港科技大學(xué)廣州校區(qū)(港科廣)的校區(qū)作為目標(biāo)對象,那么可以基于港科廣的真實(shí)傳感器數(shù)據(jù)重建其數(shù)字化表達(dá),如果有動態(tài)場景,就建立與之對應(yīng)的動態(tài)仿真,這就是 real to sim;一旦從 real 建立 sim,我們就可以通過改變模擬參數(shù),來模擬出更豐富的場景,比如說新視點(diǎn)觀察,場景重構(gòu)和功能組合等。Simulation 是基于真實(shí)世界原理的,它具備很強(qiáng)的真實(shí)感,不只是在表象上(appearance),還包括它的動態(tài)(dynamics)和交互(interaction)等等,因此,基于圖形計算的仿真能做到盡可能真實(shí)(as-real-as-possible),實(shí)現(xiàn) “sim to real”。
但是,盡管 “sim to real” 努力使模擬接近真實(shí),但完全消除兩者之間的差距仍是一個挑戰(zhàn)。因此,在部署階段,往往還需進(jìn)行 “real to real” 的微調(diào),即在真實(shí)環(huán)境中采集輸入輸出數(shù)據(jù)來訓(xùn)練大模型,進(jìn)一步調(diào)整和優(yōu)化系統(tǒng)性能,彌合 sim 和 real 之間的差異。
對于復(fù)雜應(yīng)用場景,Real2Real 的數(shù)據(jù)非常有限,完全依靠這類數(shù)據(jù)來實(shí)現(xiàn)具身智能是不夠的。通過結(jié)合真實(shí)數(shù)據(jù)進(jìn)行模擬仿真,然后高逼真生成仿真數(shù)據(jù),擴(kuò)展真實(shí)數(shù)據(jù)的邊界,這樣的 Real2Sim2Real 框架成為推動具身智能發(fā)展的重要途徑。
在無人駕駛等工業(yè)界推進(jìn)迅速的領(lǐng)域內(nèi),“現(xiàn)實(shí)到模擬”(real-to-sim)與 “模擬到現(xiàn)實(shí)”(sim-to-real)的雙向轉(zhuǎn)換上已經(jīng)取得了顯著成效。比如我們展示的這些例子,當(dāng)然還有更多。但若僅將模擬技術(shù)局限于數(shù)據(jù)生成層面,是對 Simulation 潛力的一種低估,被大材小用了。
事實(shí)上,圖形仿真不再僅僅局限于數(shù)據(jù)提供者的角色,而是成為了一個訓(xùn)練環(huán)境的構(gòu)建者。通過強(qiáng)化學(xué)習(xí)等先進(jìn)技術(shù),圖形仿真能夠直接為訓(xùn)練過程提供環(huán)境支持,使得智能體能夠?qū)W習(xí)并優(yōu)化其決策推理能力,而這正是世界模型所應(yīng)該構(gòu)建的能力,實(shí)現(xiàn)理解、預(yù)測、策略、執(zhí)行等關(guān)鍵功能。提供訓(xùn)練環(huán)境這一點(diǎn)對于推動人工智能技術(shù)的發(fā)展具有重要意義。身為計算機(jī)圖形學(xué)領(lǐng)域的研究人員,我深感自豪的是,圖形學(xué)在現(xiàn)在乃至未來的人工智能發(fā)展中將占據(jù)越來越重要的位置。
在多個領(lǐng)域,如數(shù)字人和機(jī)器人的運(yùn)動控制、無人車行為控制等,深度強(qiáng)化學(xué)習(xí)已成為一種高效訓(xùn)練方式。該方法利用模擬環(huán)境(sim)提供的豐富交互場景,通過深度強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)背后的策略(policy),從而更有效地獲得預(yù)測能力。北京大學(xué)的劉利斌老師圍繞數(shù)字人體的運(yùn)動控制,在結(jié)合仿真環(huán)境這個方向上發(fā)表了許多優(yōu)秀工作。在這些強(qiáng)化學(xué)習(xí)的工作中,物理仿真環(huán)境的有效交互成功推進(jìn)了這些模型的魯棒性和泛化性。
以下是利斌研究工作的展示。這些工作從捕獲人體真實(shí)的動作開始,然后通過模擬(sim)環(huán)境與深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning)技術(shù)相結(jié)合的方式,成功學(xué)習(xí)并模擬出相當(dāng)復(fù)雜的動作策略(policy),比如滑滑板、使用筷子等等。注意,模擬的精確性是非常重要的 —— 模擬越精確,學(xué)到的內(nèi)容質(zhì)量越高,越接近真實(shí)世界。例如,最右側(cè)的研究中引入了肌肉(muscle)模型,超越了傳統(tǒng)關(guān)節(jié)動畫,更加貼近真實(shí)的人體運(yùn)動機(jī)制。這種準(zhǔn)確的模型可以模擬許多真實(shí)的運(yùn)動細(xì)節(jié),例如長時間奔跑后體力下降,疲勞感所帶來的動作變化等等,為人工智能在人體運(yùn)動模擬領(lǐng)域的應(yīng)用提供了新的可能。
在機(jī)器人領(lǐng)域,許多近期的工作通過采用一些高效的仿真框架,例如英偉達(dá)的 Omniverse 平臺,深入探索了仿真(simulation)技術(shù)的潛力。他們利用該平臺構(gòu)建了大量仿真環(huán)境,并在其中應(yīng)用強(qiáng)化學(xué)習(xí)(reinforcement learning)技術(shù)來訓(xùn)練和優(yōu)化機(jī)器人的行為策略(policy),從而推動了機(jī)器人技術(shù)的創(chuàng)新與發(fā)展。
當(dāng)前,仿真環(huán)境在多個領(lǐng)域已展現(xiàn)出良好的應(yīng)用前景,但現(xiàn)有技術(shù)往往仍局限于剛體(rigid body)模擬,還存在大量的真實(shí)現(xiàn)象不能支持。為了更貼近現(xiàn)實(shí)場景,提升仿真效果,我們必須超越剛體模擬的范疇,探索軟體、流體,甚至剛體與軟體融合的多物理場(multiphysics)場景。在此過程中,如何實(shí)現(xiàn)多物理仿真,如何提高仿真的保真度(fidelity)和性能(performance),成為圖形學(xué)領(lǐng)域的核心挑戰(zhàn)與使命。因此,不斷推進(jìn)正向仿真(forward simulation)技術(shù)的邊界,增強(qiáng)其綜合性全面性的能力和真實(shí)感,是我們當(dāng)前的重要任務(wù),也是圖形學(xué)非常硬核的(hard core)研究課題。
近年來,我的實(shí)驗(yàn)室持續(xù)致力于軟體仿真領(lǐng)域的技術(shù)創(chuàng)新與突破,以下介紹幾個代表性成果。例如,我們已成功實(shí)現(xiàn)了大規(guī)模軟體的實(shí)時變形仿真。左圖中的結(jié)構(gòu)可能幾何形態(tài)看似簡單,但它其實(shí)包含大量四面體網(wǎng)格,需要在準(zhǔn)確計算形變的同時,維持軟體體積不可壓縮的約束,其動態(tài)的計算不僅復(fù)雜,其計算量還非常巨大,而我們基于 GPU 的方法實(shí)現(xiàn)了實(shí)時的解算。此外,我們還深入研究了參數(shù)化表面的連續(xù)碰撞問題,這是仿真領(lǐng)域長期存在的復(fù)雜問題。右側(cè)視頻中的碰撞模擬效果展現(xiàn)了我們準(zhǔn)確處理復(fù)雜參數(shù)化表面碰撞的能力。諸如此類的軟體動態(tài)仿真是我們當(dāng)前仿真環(huán)境所急需的能力。
進(jìn)一步擴(kuò)展到多物理方面,我們團(tuán)隊在流體與固體交互領(lǐng)域取得了一系列具有影響力的研究成果(博士生阮良旺、幸京睿、陶凝驍)。通過精確構(gòu)建液體表面張力和流固相互作用的模型,我們成功實(shí)現(xiàn)了單一固體或液體仿真難以達(dá)成的真實(shí)感效果,為復(fù)雜物理現(xiàn)象的模擬提供了新工具。
我們團(tuán)隊針對磁流磁軟體這一特殊領(lǐng)域的研究一直是國際領(lǐng)先的,如上圖所示,取得了一系列的前沿進(jìn)展。我的博士生倪星宇對此領(lǐng)域展現(xiàn)出濃厚興趣,持續(xù)深耕這個子領(lǐng)域,不斷地推進(jìn)磁場流固現(xiàn)象仿真的邊界。其中,他今年在 Siggraph 上的工作尤為突出,該工作能夠廣泛適用于磁場中的流體和剛體、軟體,且相較于傳統(tǒng)技術(shù),實(shí)現(xiàn)了約 100 倍的性能提升。具體而言,在處理 512 立方體數(shù)據(jù)時,我們成功將幀率提升至每秒一幀,而此前則需耗時約 100 秒才能完成一幀的渲染,這一突破極大地加速了磁流磁軟體模擬的實(shí)時性。
觀察現(xiàn)實(shí)世界中的物體及其動態(tài)現(xiàn)象,其復(fù)雜性與多樣性令人嘆為觀止。因此,如何構(gòu)建更加精準(zhǔn)、全面的仿真環(huán)境,以模擬這些復(fù)雜多變的物理現(xiàn)象,是我們需要不斷探索和努力的方向。我們在推動仿真環(huán)境的研究將豐富強(qiáng)化學(xué)習(xí)環(huán)境,使其真正接近于真實(shí)的、多物理的世界,進(jìn)一步提升世界模型的能力,大大擴(kuò)展其應(yīng)用領(lǐng)域。
盡管仿真作為強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境展現(xiàn)出巨大潛力,但強(qiáng)化學(xué)習(xí)在長時間尺度下仍面臨獎勵序列冗長、策略優(yōu)化易陷入困境及收斂困難等關(guān)鍵問題。為解決此挑戰(zhàn),可微分模擬的重要性日益凸顯。通過引入可微分性,我們能夠?qū)崿F(xiàn)精細(xì)化的梯度回傳機(jī)制,構(gòu)建起監(jiān)督學(xué)習(xí)的閉環(huán)系統(tǒng),從而優(yōu)化策略學(xué)習(xí)過程。
此轉(zhuǎn)變要求 simulation 過程全面實(shí)現(xiàn)可微分,以確保有效的梯度傳遞與策略優(yōu)化。相較于傳統(tǒng)僅提供訓(xùn)練環(huán)境的仿真方法,這是一個比較新的研究領(lǐng)域,其核心在于實(shí)現(xiàn)全面的可微分性,將為模型訓(xùn)練的發(fā)展提供新的有效途徑。
可微模擬領(lǐng)域盡管已有初步探索,但整體而言相關(guān)研究尚不充分,近年來,可微模擬正在逐步受到領(lǐng)域內(nèi)的重視。以下我舉幾個例子,介紹可微的、逆向的模擬,以及它能實(shí)現(xiàn)的一些有效的優(yōu)化和訓(xùn)練。
我的長期合作者王濱博士在逆向軟體仿真方面做出了開創(chuàng)性的工作。首先,通過捕捉實(shí)際荷葉在受外力作用下的晃動,獲取其動態(tài)點(diǎn)云數(shù)據(jù)及其表面幾何變化;隨后,結(jié)合物理學(xué)模型與參數(shù),利用可微構(gòu)建閉環(huán)的模擬系統(tǒng),該系統(tǒng)首先前向模擬荷葉動態(tài),繼而通過可微優(yōu)化殘差,逐步擬合真實(shí)捕捉的動態(tài)數(shù)據(jù)。整個過程中,所有參數(shù)及模擬流程均實(shí)現(xiàn)可微分性,從而實(shí)現(xiàn)準(zhǔn)確優(yōu)化。一旦物理參數(shù)優(yōu)化完成,我們即可準(zhǔn)確模擬該數(shù)字化荷葉在不同條件下的動態(tài)響應(yīng),展現(xiàn)出強(qiáng)大的、與真實(shí)世界高度一致的預(yù)測能力。
這一方法論不僅限于軟體,對于更變化多端的流體,我們也可以借助可微模擬來實(shí)現(xiàn)從真實(shí)世界的數(shù)據(jù)捕捉,到數(shù)字世界的流體物理場重建。比如這是北大楚夢渝老師的流體重建工作,它基于物理知悉網(wǎng)絡(luò)(PINN)的可微性,實(shí)現(xiàn)了對真實(shí)世界流體的擬合、重建和模擬。
可微模擬技術(shù)不僅意味著我們可以擬合和重建真實(shí)世界的動態(tài)和靜態(tài)數(shù)據(jù),更在優(yōu)化設(shè)計領(lǐng)域開辟了新路徑。以下工作是我們團(tuán)隊的研究成果,展示了可微模擬在磁軟體機(jī)器人控制中的應(yīng)用(博士生陳旭雯)。磁軟體機(jī)器人是一個具有磁性的,可以通過外磁場控制的軟體機(jī)器人。我們的工作希望以外磁場為媒介,在現(xiàn)實(shí)復(fù)雜環(huán)境下,實(shí)現(xiàn)目標(biāo)導(dǎo)向的控制,如爬坡、越障及穿越復(fù)雜地形等。這一過程涉及復(fù)雜的反向優(yōu)化,即通過不斷優(yōu)化外部磁場參數(shù),實(shí)現(xiàn)精準(zhǔn)的動態(tài)調(diào)整。該優(yōu)化過程高度依賴于可微模擬技術(shù)提供的實(shí)時反饋與梯度信息,外磁場在梯度的指導(dǎo)下靈活調(diào)整,操縱磁軟體機(jī)器人應(yīng)對各種挑戰(zhàn)。
此外,可微模擬還賦予了我們設(shè)計軟磁體機(jī)器人形狀與物理參數(shù)的能力,為其在更廣泛領(lǐng)域的應(yīng)用提供了可能。
將可微模擬用于動態(tài)現(xiàn)象的生成,Michel Black 團(tuán)隊一個近期的工作具有代表性。他們通過少量數(shù)據(jù)訓(xùn)練了一個能夠模擬人與衣物動態(tài)變化的模型。該方法的核心在于采用了一種基于可微模擬監(jiān)督(differential phyisics supervision)的訓(xùn)練方法,有效利用物理知識等先驗(yàn),克服了數(shù)據(jù)稀缺的挑戰(zhàn),從而構(gòu)建出一個具有廣泛適用性的模型。該模型能夠在人體姿態(tài)與衣物狀態(tài)發(fā)生顯著變化時,依然能夠生成合理且自然的動態(tài)效果。
這不僅展示了可微模擬監(jiān)督在數(shù)據(jù)效率方面的優(yōu)勢,也體現(xiàn)了該模型在處理復(fù)雜物理交互問題上的強(qiáng)大潛力。
同樣利用可微仿真,劉利斌老師在人體運(yùn)動控制領(lǐng)域做出了一些突出的研究成果。面對人體運(yùn)動的仿真環(huán)境不可微(non-differentiable)的難題,他們的工作采用了基于模型的學(xué)習(xí)思路,構(gòu)建了一個可學(xué)習(xí)的物理代理模型(physics surrogate model),這一代理模型類似于世界模型,能夠模擬物理行為,且具備可微分性和魯棒性,從而提供了通過反向傳播(backpropagation)進(jìn)行物理監(jiān)督和約束的能力。
通過這一方法,利斌團(tuán)隊使用較少的迭代次數(shù),成功訓(xùn)練出了一個具有高度泛化能力的動作控制模型。該模型能夠有效地處理人體運(yùn)動控制中的復(fù)雜問題,展現(xiàn)了在復(fù)雜模擬中進(jìn)行高效可微監(jiān)督的潛力,不僅推動了人體運(yùn)動控制技術(shù)的發(fā)展,也為其他領(lǐng)域中的非直接可微的系統(tǒng)優(yōu)化提供借鑒。
可微代理模型在訓(xùn)練穩(wěn)定性和高效性上的顯著優(yōu)勢,使得它可以被應(yīng)用于數(shù)據(jù)維度更大的任務(wù)當(dāng)中,比如利斌后續(xù)的基于大量運(yùn)動數(shù)據(jù)訓(xùn)練人體動作的生成模型的工作,可以有效壓縮幾十小時的多樣化運(yùn)動數(shù)據(jù),首次實(shí)現(xiàn)大規(guī)模運(yùn)動控制的生成式建模??晌⒌奈锢泶砟P驮谄渲胸?fù)責(zé)提供魯棒的基于物理等先驗(yàn)知識的約束,提高了復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)下的控制策略訓(xùn)練的穩(wěn)定性,保證訓(xùn)練在較短時間收斂。這一工作也驗(yàn)證了可微模型在大數(shù)據(jù)與復(fù)雜環(huán)境下的有效性。
在探索可微模擬這一前沿領(lǐng)域時,我們不可避免地面臨諸多挑戰(zhàn)。首先,盡管已取得一定進(jìn)展,但實(shí)際應(yīng)用場景仍相對有限,且計算量極為龐大,對資源提出了高要求。此外,部分復(fù)雜現(xiàn)象因其非平滑特性,難以直接應(yīng)用微分方法處理,這進(jìn)一步增加了技術(shù)難度。再者,訓(xùn)練過程中收斂速度較慢,且存在擴(kuò)展性問題(scaling issue),這些都是亟待解決的關(guān)鍵難題。盡管如此,該方法展現(xiàn)出了極高的可靠性和應(yīng)用潛力,為提升世界模型指引了一個非常有發(fā)展?jié)摿Φ穆窂健?/span>
以上,我們介紹和展望了圖形仿真在世界模型訓(xùn)練中的突出作用,具體提出了幾個新路徑。前述種種策略與手段,不僅各自具備強(qiáng)大潛力,更蘊(yùn)含著融合共生、協(xié)同增效的無限可能。具體而言,我們可以靈活整合數(shù)據(jù)資源,將其融入基于模擬的訓(xùn)練環(huán)境中,并利用微分方法實(shí)施監(jiān)督學(xué)習(xí)等。在此,我繪制了一幅示意性綜合圖,旨在直觀展現(xiàn)這些元素的融合匯聚,系統(tǒng)性推動世界模型的優(yōu)化與發(fā)展。可以看到,simulation 在其中處于核心地位,是我們在真實(shí)數(shù)據(jù)稀缺時,延續(xù) Scaling Law, 構(gòu)建世界模型的堅實(shí)基石。
總結(jié),回到當(dāng)下人工智能與圖形學(xué)領(lǐng)域,圖形仿真無疑是亟待突破的關(guān)鍵方向之一,其發(fā)展空間廣闊且充滿挑戰(zhàn)。從多物理現(xiàn)象的逼真與高效模擬,到交互性體驗(yàn)的全面提升,再到各動態(tài)現(xiàn)象的可微分表達(dá),都是當(dāng)前面對的核心問題。
值得一提的是,英偉達(dá)黃仁勛先生在 Siggraph 主題報告的間隙時間與觀眾交流,特別提到了 “微分物理”(differential physics)的重要性,他在這方面的呼吁我是非常認(rèn)可的,我也拍下視頻在朋友圈做了分享。我堅信,計算機(jī)圖形技術(shù)對現(xiàn)實(shí)世界的高逼真模擬仿真能力將賦能人工智能,幫助其突破當(dāng)下大模型訓(xùn)練 scaling law 的數(shù)據(jù)瓶頸,超越傳統(tǒng)的數(shù)據(jù)增廣,在建立新的路徑上有巨大的探索空間。
以上便是我今日分享的主要內(nèi)容,期待與各位進(jìn)行更深入的探討。謝謝大家。