了解世界還是預測未來?一場關于自動駕駛世界模型的祛魅(清華最新綜述)!
寫在前面 & 筆者的個人理解
清華大學最新的綜述。由于多模態(tài)大語言模型(如GPT-4)和視頻生成模型(如Sora)的進步,世界模型的概念受到了極大的關注,這是追求通用人工智能的核心。這項調查對世界模型的文獻進行了全面的回顧。一般來說,世界模型被視為理解世界現(xiàn)狀或預測其未來動態(tài)的工具。本綜述對世界模型進行了系統(tǒng)分類,強調了兩個主要方向:
- 構建內部表征以理解世界的機制;
- 預測未來狀態(tài)以模擬和指導決策。
首先,我們考察這兩個方向的當前進展。然后探討了世界模型在關鍵領域的應用,包括自動駕駛、機器人和社會模擬,重點是每個領域如何利用這些方面。最后,我們概述了主要挑戰(zhàn),并提供了對未來潛在研究方向的見解。
簡介
科學界長期以來一直渴望開發(fā)一種統(tǒng)一的模型,以復制其在追求通用人工智能(AGI)的過程中的基本世界動態(tài)。2024年,多模態(tài)大語言模型(LLM)和Sora的出現(xiàn)加劇了圍繞此類世界模型的討論。雖然這些模型展示了捕捉世界知識方面的新興能力,例如Sora生成的視頻,這些視頻似乎完全符合物理定律,但關于它們是否真正符合綜合世界模型的問題仍然存在。因此,當我們展望人工智能時代的新突破時,對世界模型研究的最新進展、應用和未來方向進行系統(tǒng)回顧是及時和必要的。
世界模型的定義仍然是一個持續(xù)爭論的主題,通常分為兩個主要觀點:理解世界和預測未來。如圖1所示,Ha和Schmidhuber的早期工作側重于抽象外部世界,以深入了解其潛在機制。相比之下,LeCun認為,世界模型不僅應該感知和模擬現(xiàn)實世界,還應該具備設想未來可能狀態(tài)的能力,為決策提供信息。Sora等視頻生成模型代表了一種專注于模擬未來世界演變的方法,因此與世界模型的預測方面更加一致。這就提出了一個問題,即世界模型應該優(yōu)先考慮理解當前狀態(tài)還是預測未來狀態(tài)。本文從這兩個角度對文獻進行了全面回顧,重點介紹了關鍵方法和挑戰(zhàn)。
世界模型的潛在應用涵蓋了廣泛的領域,每個領域對理解和預測能力都有不同的要求。例如,在自動駕駛中,世界模型需要實時感知道路狀況并準確預測其演變,特別關注即時的環(huán)境意識和復雜趨勢的預測。對于機器人來說,世界模型對于導航、物體檢測和任務規(guī)劃等任務至關重要,需要精確理解外部動態(tài)和生成交互式和實體環(huán)境的能力。在虛擬社會系統(tǒng)的模擬領域,世界模型必須捕捉和預測更抽象的行為動態(tài),如社會互動和人類決策過程。因此,對這些能力的進展進行全面審查,同時探索未來的研究方向和趨勢,是及時和必要的。
現(xiàn)有的世界模型調查一般可分為兩類,如表1所示。第一類主要側重于描述世界模型在特定領域的應用,如視頻處理和生成、自動駕駛和基于代理的應用。第二類側重于從能夠處理各種模態(tài)數據的多模態(tài)模型到世界模型的技術轉型。然而,這些論文往往缺乏對世界模型的精確構成以及不同的現(xiàn)實世界應用對這些模型的要求的系統(tǒng)研究。在這篇文章中,我們的目的是正式定義和分類世界模型,回顧最近的技術進展,并探索它們的廣泛應用。
本次調查的主要貢獻可以概括如下:(1)我們提出了一種新的世界模型分類系統(tǒng),該系統(tǒng)圍繞兩個主要功能構建:構建隱式表示以理解外部世界的機制和預測外部世界的未來狀態(tài)。第一類側重于開發(fā)學習和內化世界知識以支持后續(xù)決策的模型,而后者則強調從視覺感知中增強物理世界的預測和模擬能力。(2)基于這種分類,我們對包括自動駕駛機器人和社會模擬在內的各種關鍵應用領域如何強調世界模型的不同方面進行了分類。(3)我們強調了能夠適應更廣泛實際應用的世界模型的未來研究方向和趨勢。
背景和分類
在本節(jié)中,我們探討了文獻中世界模型的演變概念,并將構建世界模型的努力分為兩個不同的分支:內部表示和未來預測。
2018年,Ha等人首次將世界模型的概念系統(tǒng)地引入人工智能界。本文將世界模型概念的起源追溯到1971年建立的“心理模型”的心理學原理,該原理提出人類將外部世界抽象為簡單的元素及其相互關系來感知它。這一原理表明,當從深層次的內部角度看時,我們對世界的描述通常涉及構建一個抽象的表示,不需要詳細的描述?;谶@一概念框架,作者引入了一個受人類認知系統(tǒng)啟發(fā)的代理模型,如圖1所示。在這個開創(chuàng)性的模型中,代理從現(xiàn)實世界環(huán)境中接收反饋,然后將其轉換為一系列訓練模型的輸入。該模型擅長模擬外部環(huán)境中特定行動后的潛在結果。本質上,它創(chuàng)建了一個對未來世界潛在進化的心理模擬,并根據這些狀態(tài)的預測結果做出決策。這種方法與基于模型的強化學習(MBRL)方法非常相似,其中兩種策略都涉及模型生成外部世界的內部表示。這些表示有助于在現(xiàn)實世界中導航和解決各種決策任務。
在2022年關于自主機器智能發(fā)展的富有遠見的文章中,Yann LeCun介紹了聯(lián)合嵌入預測架構(JEPA),這是一個反映人腦結構的框架。如圖1所示,JEPA包括一個處理感官數據的感知模塊,以及一個評估這些信息的認知模塊,有效地體現(xiàn)了世界模型。該模型允許大腦評估行為,并確定最適合現(xiàn)實世界應用的反應。LeCun的框架很有趣,因為它結合了雙系統(tǒng)概念,反映了“快”和“慢”的思維。系統(tǒng)1涉及直觀、本能的反應:在沒有世界模型的情況下快速做出決定,比如本能地躲避迎面而來的人。相比之下,系統(tǒng)2采用深思熟慮、經過計算的推理,考慮世界的未來狀態(tài)。它超越了即時的感官輸入,模擬了潛在的未來場景,比如預測未來十分鐘房間里的事件并相應地調整行動。這種程度的遠見需要構建一個世界模型,根據預期的環(huán)境動態(tài)和演變有效地指導決策。在這個框架中,世界模型對于理解和表示外部世界至關重要。它使用潛在變量對世界狀態(tài)進行建模,這些變量在過濾冗余的同時捕獲關鍵信息。這種方法可以高效、簡潔地表示世界,促進對未來情景的最佳決策和規(guī)劃。
模型捕捉世界知識的能力對于其在各種現(xiàn)實世界任務中的有效表現(xiàn)至關重要。從2023年開始,在最近一波關于大語言模型的研究中,有幾項研究證明了潛在世界知識的存在。換句話說,這些模型捕獲了直觀的知識,包括空間和時間理解,這使它們能夠對現(xiàn)實世界的場景進行預測。此外,LLM能夠通過認知地圖對外部世界進行建模,正如最近的研究所表明的那樣,揭示了嵌入其中的大腦樣結構。這些模型甚至可以根據先前的經驗學習預測未來的事件,從而增強它們在現(xiàn)實世界中的實用性和適用性。
上述世界模型主要代表了對外部世界的隱式理解。然而,在2024年2月,OpenAI引入了Sora模型,這是一種視頻生成模型,在很大程度上被認為是一種世界模擬器。Sora輸入真實世界的視覺數據,并輸出預測未來世界演變的視頻幀。值得注意的是,它展示了卓越的建模能力,例如在相機移動和旋轉過程中保持3D視頻模擬的一致性。它還可以產生物理上合理的結果,比如在漢堡包上留下咬痕,并模擬數字環(huán)境,例如在Minecraft游戲中渲染第一人稱視圖。這些能力表明,Sora不僅模仿了模擬場景中的真實世界動態(tài),還對其進行了建模,專注于真實地模擬動態(tài)世界變化,而不僅僅是表示靜態(tài)世界狀態(tài)。
無論是專注于學習外部世界的內部表征還是模擬其運作原理,這些概念都凝聚成了一個共同的共識:世界模型的基本目的是理解世界的動態(tài)并預測未來的情景。從這個角度來看,我們對世界模型的最新進展進行了徹底的研究,通過以下鏡頭對其進行分析,如圖1所示。
- 外部世界的隱式表征:本研究類別構建了一個環(huán)境變化模型,以實現(xiàn)更明智的決策,最終旨在預測未來狀態(tài)的演變。它通過將外部現(xiàn)實轉化為將這些元素表示為潛在變量的模型來培養(yǎng)隱式的理解。此外,隨著大語言模型(LLM)的出現(xiàn),這些模型對世界知識的詳細描述能力大大增強了以前集中在傳統(tǒng)決策任務上的努力。我們進一步關注將世界知識整合到現(xiàn)有模型中。
- 外部世界的未來預測:我們最初探索模擬外部世界的生成模型,主要使用視覺視頻數據。這些作品強調了所生成視頻的真實性,這些視頻反映了現(xiàn)實世界的未來狀態(tài)。隨著最近的進展將重點轉向開發(fā)一個真正互動的物理世界。我們進一步研究了從視覺到空間表征以及從視頻到化身的轉變。這包括全面覆蓋與反映外部世界的具身環(huán)境生成相關的研究。
- 世界模型的應用:世界模型在各個領域都有廣泛的應用,包括自動駕駛、機器人和社會模擬。我們探討了世界模型在這些領域的整合如何推進理論研究和實踐實施,強調了它們在現(xiàn)實世界應用中的變革潛力。
外部世界的隱式表征
- World Model in Decision-Making;
- World model in model-based RL
- World model with language backbone
- World Knowledge Learned by Models
- Knowledge of the Global Physical World
- Knowledge of the Local Physical World
- Knowledge of the Human Society
物理世界的未來預測
- World Model as Video Generation
- Towards Video World Models
- Capabilities of Video World Models
- World Model as Embodied Environment
- Indoor Environments
- Outdoor Environments
- Dynamic Environments
應用
自動駕駛
近年來,隨著基于視覺的生成模型和多模態(tài)大語言模型的快速發(fā)展,世界模型作為理解世界狀態(tài)和預測其未來趨勢的模塊,在自動駕駛領域引起了越來越多的關注。在此背景下,世界模型被定義為以多模態(tài)數據(如語言、圖像和軌跡)為輸入,并以車輛感知數據的形式連續(xù)輸出未來世界狀態(tài)的模型。然而,在基于世代的世界模擬器出現(xiàn)之前,自動駕駛中的世界模型概念早已存在?,F(xiàn)代自動駕駛管道可分為四個主要組成部分:感知、預測、規(guī)劃和控制。整個過程可以看作是一個決策管道。如前文所述,感知和預測階段也代表了為車輛學習世界隱式表示的過程。這也可以被視為一種世界模態(tài)。因此,在本節(jié)中,我們將從兩個角度闡述世界模型在自動駕駛中的應用和發(fā)展:學習世界隱式表示的模塊和輸出車輛感知數據的世界模擬器。
- Learning Implicit Representations
- World Simulators
機器人
世界模型已經成為機器人技術的一種變革性范式,使機器人能夠在復雜的環(huán)境中有效地感知、預測和執(zhí)行任務。這場機器人革命之所以成為可能,部分原因是神經網絡和機器學習算法的進步,使機器人能夠構建捕捉世界關鍵組成部分的隱式表示。另一方面,預測模型能夠直接預測抽象表示之外的世界未來狀態(tài),使機器人能夠應對可能的環(huán)境變化并主動做出反應。有了上述強大的技術,機器人直接與現(xiàn)實世界環(huán)境互動并從中學習變得越來越實用。如圖6所示,LLM和世界模型被認為是通往通用人工智能(AGI)的可能途徑之一,因為它們可以成為機器理解世界基本規(guī)律的起點。我們在表6中總結了機器人世界模型的發(fā)展。
- Learning Implicit Representation
- Predicting Future states of Environment
社會模擬
“社會擬像”的概念最初是在中作為原型技術引入的,旨在幫助設計師創(chuàng)建一個包含許多不同代理的虛擬社會計算系統(tǒng)?;趯<叶x規(guī)則或強化學習構建代理的傳統(tǒng)方法面臨著行為過于簡單或缺乏可解釋性等問題。然而,LLM的出現(xiàn)為構建更現(xiàn)實的社會擬像提供了一種變革性的工具,實現(xiàn)了更令人信服的程式化事實或準確的預測。社會擬像可以被視為一種反映現(xiàn)實社會計算系統(tǒng)的世界模型。從另一個角度來看,社會擬像中的主體也發(fā)展了對外部系統(tǒng)的隱式表征;也就是說,他們建立了一個隱式的世界模型,支持他們社會行為的產生。世界模型與社會擬像的關系如圖7所示,代表作品匯總如表7所示。
- Building Social Simulacra Mirroring Real-world Society
- Agent’s Understanding of External World in Social Simulacra
開放問題和未來方向
物理規(guī)則與反事實仿真
世界模型的一個關鍵目標是學習模擬世界的潛在因果關系,例如環(huán)境的物理規(guī)則。它們?yōu)橥茢喾词聦崍鼍暗奈从^察結果提供了重要能力,超越了假設相同數據分布的數據驅動預測方法。這些能力對于解決數據稀缺問題至關重要,這對于在關鍵任務應用程序中建模罕見事件尤為重要。例如,模擬極端情況對于提高自動駕駛人工智能的魯棒性至關重要。此外,擁有物理規(guī)則的準確模型還可以提高模擬環(huán)境的一致性,這對于解決許多應用中模擬與現(xiàn)實之間的差距至關重要。此外,具有現(xiàn)實物理規(guī)則的世界模型被認為是人工智能代理全面了解物理世界的必要訓練環(huán)境。
最近大型生成模型的突破主要是由變壓器和擴散模型等深度學習模型推動的,這些模型本質上是數據驅動的。模擬物理規(guī)則的能力是否可以從訓練數據的縮放中產生,這是一個有爭議的問題。Sora展示了令人印象深刻的能力,可以生成高度逼真的物理世界視頻,包括運動中的物體和形狀可變的物體,如行人、狗和有咬痕的漢堡包。然而,它仍然難以準確模擬重力和流體動力學等物理規(guī)則。此外,研究人員還發(fā)現(xiàn),LLM無法充分預測物理世界的狀態(tài)轉變,例如沸水。這些觀察表明,盡管大型生成模型得到了大量數據集的支持,但在學習世界的因果表示方面仍然存在固有的局限性。一個有前景的未來方向是探索大型生成模型與物理規(guī)則模擬器的集成。這樣的解決方案可能會降低生成內容的分辨率和質量,但它們應該提高對看不見的、偽造的場景的泛化能力。此外,具有明確的物理規(guī)則還可以提高世界模型的可解釋性和透明度。
豐富社會維度
對于先進的世界模型來說,僅模擬物理元素是不夠的,因為人類行為和社會互動在許多重要場景中也起著至關重要的作用。例如,城市居民的行為對于構建城市環(huán)境的世界模型尤為重要。先前的研究表明,LLM的類人常識推理能力為使用生成代理模擬現(xiàn)實的人類行為提供了獨特的機會。然而,設計能夠模擬真實和全面的人類行為和社會互動的自主代理仍然是一個懸而未決的問題。最近的研究表明,人類行為模態(tài)和認知過程的理論可以為代理工作流程的設計提供信息,從而增強LLM的人類行為模擬能力,這是未來研究的一個重要方向。此外,對生成的人類行為的真實性的評估在很大程度上仍然依賴于主觀的人類評估,這很難擴展到大規(guī)模的世界模型。開發(fā)一個可靠且可擴展的評估方案將是未來的另一個研究方向,可以豐富世界模型的社會維度。
結論
了解世界和預測未來一直是開發(fā)人工生成智能的科學家的長期目標,強調了在各個領域構建世界模型的重要性。本文首次對世界模型進行了全面的調查,系統(tǒng)地探討了它們的兩個主要功能:隱式表示和外部世界的未來預測。我們對這些核心功能的現(xiàn)有研究進行了廣泛的總結,特別強調了決策中的世界模型、模型學習的世界知識、作為視頻生成的世界模型和作為體現(xiàn)環(huán)境的世界模型。此外,我們還回顧了世界模型關鍵應用的進展,包括自動駕駛、機器人和社會模擬。最后,認識到這一快速發(fā)展的領域中尚未解決的挑戰(zhàn),我們強調了懸而未決的問題,并提出了有前景的研究方向,希望促進這一新興領域的進一步研究。