Sora的狂歡、世界模型和AGI
01Sora的出現(xiàn),到底有哪些驚艷之處?
騰訊科技:第一次了解到Sora,最讓你驚訝或驚艷的地方在哪里??
魯為民:這次OpenAI 發(fā)布Sora生成的每一個視頻都很讓我驚嘆,特別是其高保真的效果以及視頻圖像的前后一致性。但是有一個視頻讓我印象最深刻,就是裝著果汁的玻璃杯在桌子上破碎的視頻,“果汁灑在桌面上,杯子橫在桌面上,杯子有一部分變扁,但是沒有玻璃碎片?!?這個事件發(fā)生的次序在物理世界是不可能的,但是視頻中各個事件的連貫表現(xiàn)得十分絲滑。Sora 模型生成的視頻讓人驚艷,但也展現(xiàn)出大模型一直存在違背規(guī)律和事實的“悖謬”和“幻覺”;這個也是對我們的一個提醒:Sora的實際應用還存在一些待解決的問題,更不用說 Sora 離世界模擬器還有相當?shù)木嚯x。
,時長00:08
騰訊科技:Sora生成的視頻中還是有不穩(wěn)定的情況產(chǎn)生,你可以看到一些邏輯明顯錯誤的視頻出來,而OpenAI也并不避諱放出這些視頻,為什么會有這些不穩(wěn)定的情況出現(xiàn)?
魯為民:基于Transformer的生成式模型是一種計算Token生成概率的預測模型。我認為只要牽涉到概率的模型,就會有一定的近似和不確定性,使得視頻的生成呈現(xiàn)不穩(wěn)定性,甚至出現(xiàn)明顯的邏輯錯誤。另一方面,訓練數(shù)據(jù)也很重要。訓練數(shù)據(jù)中包含一些場景,但這些場景是否能完全覆蓋生成的應用場景是一個問題。例如,前面提到的玻璃杯破碎的場景,可能在之前的訓練數(shù)據(jù)中,這種場景可能并不存在;在這種情況下,模型可能會對生成視頻做出最可能出現(xiàn)的預測,即模型依賴概率來估計圖像出現(xiàn)的時間序列,但后來我們發(fā)現(xiàn),這種估計在時間次序上并不符合物理規(guī)律或邏輯。
此外,對于一般正常的場景,視頻的呈現(xiàn)通常是平滑且連續(xù)的。然而,對于突然變化的場景,比如玻璃杯突然碎裂,以及不常發(fā)生的邊角事件在近似的模型中很難被準確模擬。盡管一般認為神經(jīng)網(wǎng)絡可以近似任何類型的線性或非線性關(guān)系,無論是連續(xù)還是非連續(xù)的,但它們?nèi)匀皇墙撇⒋嬖谡`差。在某些場景中,這些誤差的結(jié)果可能導致模型在表達世界時呈現(xiàn)物理原理、因果關(guān)系和時空細節(jié)等方面的錯誤。
這種問題不僅僅是在當前的Sora模型中存在,Gemini 和GPT系列的大模型也有類似的情況。這從經(jīng)驗上也證實幻覺問題是這類模型架構(gòu)存在的一個先天性問題。當然,我們可以不斷地對模型進行細致的優(yōu)化,不斷去逼近這個模型系統(tǒng)真實的解,但很難完全消除這樣的問題。然而,這并不妨礙這類模型在許多合適場景中的廣泛應用。
另外對于這類模型,包括將視覺元素整合進去的環(huán)境建?;蛭锢硎澜缃#覀兓旧嫌袃煞N不同的方法。一種方法是數(shù)據(jù)驅(qū)動的,比如Sora,使用擴散Transformer架構(gòu),延續(xù)了語言大模型的思路,通過大量的互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)來訓練模型。另一種方法,應用第一性原則來建模,比如Unreal Engine主要基于物理規(guī)律和其它數(shù)學模型生成圖像和視頻;所以如果使用用依賴基于第一性原則的Unreal Engine來建模,那么能夠覆蓋的場景范圍與可以這樣建模的場景數(shù)量和其普遍性有關(guān)。
這兩種方法代表了不同的思路。前者可能使得模型學習更廣泛的知識,可能涌現(xiàn)非設計的能力。后者可以建立更精確的模型。當然,如果能夠?qū)⑦@兩種方法結(jié)合起來,比如通過大模型來調(diào)用基于第一原則的生成視頻的工具,可能可以呈現(xiàn)兩者最好的一面。但是也可能被某一方法的局限,比如有可能你想要生成的視頻內(nèi)容是像Unreal Engine這樣的視頻生成引擎無法覆蓋的場景。所以通過基礎模型調(diào)用專有工具可能是一把雙刃劍,既有其優(yōu)勢,也可能帶來一些問題。
02Sora接近世界模型嗎
騰訊科技:這個話題直接讓人聯(lián)想到最近討論的物理世界引擎。OpenAI在Sora的技術(shù)報告中也刻意避免了世界模型這種詞匯,只是說這可能是AI通向物理世界的一個有希望的道路,各位怎么看呢?
魯為民:圖靈獎獲得者Yann LeCun提出了世界模型的概念,現(xiàn)在對世界模型概念都存在著支持和排斥兩種迥然不同的觀點,它們各自都有其合理性。
我個人對圖靈獎獲得者Yann LeCun的世界模型的觀點有一定程度的認可,尤其是在當前條件下,從第一性原理出發(fā)來對世界進行建模,可能更方便其應用在特定的場景。另外,他的世界模型架構(gòu)通過對環(huán)境的感知以及與環(huán)境的互動來生成行為,形成反饋閉環(huán),從而進一步學習影響環(huán)境。雖然這種世界模型的思路有其合理性,但目前還沒有特別突出的實際應用。雖然最近 Meta 發(fā)布了 V-JEPA 視頻模型,聲稱是一個早期的LeCun物理世界模型,并在檢測和理解物體之間的高度詳細的交互方面表現(xiàn)出色,在推動機器智能邁向了更加深入理解世界的重要一步。但其鋒芒被風頭正勁的OpenAI Sora 模型所掩蓋。
因為現(xiàn)在已經(jīng)有了足夠的條件,比如大算力和互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),可以大規(guī)模地訓練數(shù)據(jù)驅(qū)動的模型,使得像Sora這樣的數(shù)據(jù)驅(qū)動的生成模型的性能和效果、靈活性和涌現(xiàn)能力表現(xiàn)出色,在很多場景其生成的內(nèi)容令人驚艷。雖然目前來看(高質(zhì)量的)訓練數(shù)據(jù)可能還不夠,但我們一方面在不斷努力增加數(shù)據(jù)量,另一方面通過人工或合成的方式提高數(shù)據(jù)的多樣性和質(zhì)量,確保數(shù)據(jù)的多樣性和質(zhì)量。
在這兩個條件的基礎上,再加上新的模型架構(gòu),比如這次Sora采用以Diffusion Transformer為主的架構(gòu),確實能夠通過大力出奇跡的方式學習到一些關(guān)于環(huán)境或世界的知識,特別是它能夠利用足夠大的容量在某種程度上學會對世界的理解。
從這個角度來看,效果是顯而易見的,它在視頻長程一致性、3D一致性以及與現(xiàn)實世界的交互能力等方面的表現(xiàn)讓人印象深刻,例如吃了一個漢堡包后能留下缺口,或者狗被遮擋后再出現(xiàn)的場景。這些都是模型從現(xiàn)有數(shù)據(jù)學到的關(guān)于世界的知識。雖然Sora還可能不能完全理解世界,還存在違背規(guī)律和事實的“悖謬”和“幻覺”,但我相信通過OpenAI和其它機構(gòu)的持續(xù)努力,像 Sora 這類模型將會不斷地改進。希望在沒有其它更好的替代方法之前,能夠在應用中能夠充分利用這樣的進展,在合適的應用場景中產(chǎn)生一些正面的結(jié)果。
(除了世界模型,AGI也是人們常談到的一個相關(guān)概念。) 實際上AGI的沒有一個大家公認的定義。按照Wikipedia,AGI 可以學習完成人類能夠執(zhí)行的任何智力任務,即在大多數(shù)經(jīng)濟上有價值的任務中超越人類智能;AGI 是一個假設性的概念,所以其目標目前也不太可能定義得非常明確。建立世界模型是實現(xiàn) AGI的一條合理可信的路徑?,F(xiàn)在有關(guān)世界模型和AGI的各種實踐應該是沒有問題的;雖然各自發(fā)展的具體路徑會因為目標的不同而有所不同,但我們相信在目前這個階段這種百花齊放的多樣性是有益的。
我們之前討論過,對于AI系統(tǒng)的發(fā)展與其設定一個像 AGI 一樣遙遠的目標去試圖一步到位實現(xiàn),現(xiàn)在AI技術(shù)的推動實際上是沿著一種更為現(xiàn)實靈活的途徑。實際上,最近這些年AI的發(fā)展,我們首先看到的是語言模型的突破,語言模型已經(jīng)在語言理解、生成和處理方面取得了驚人的進展,盡管還有很多問題需要解決,但至少我們看到了語言模型已經(jīng)在跨越應用的門檻?,F(xiàn)在輪到視頻視覺了,像今天的 Sora 已經(jīng)初步顯示視頻模態(tài)理解、處理和生成的巨大應用潛力。
接下來,我們可能會看到更多的模態(tài)融合,不僅僅是語言和視頻,還包括語音、視覺、味覺甚至嗅覺等不同的模態(tài)。這些模態(tài)的加入可能會讓模型對現(xiàn)實世界和環(huán)境有更深的理解。具備了這樣的條件之后,我們再去討論對物理世界的理解、對人類環(huán)境的理解以及世界模型等概念,可能會更加水到渠成。
當然,要建立世界模型和達到 AGI,像Gemini、GPT-x和Sora 這樣的(語言或多模態(tài))大模型可能遠遠不夠,因為這類基于 Transformer 的大模型存在的一些包括對物理規(guī)律、邏輯、和實事上的悖謬和幻覺根本問題。需要在大模型本身能力的基礎上,系統(tǒng)需要加強或增加推理、規(guī)劃、搜索和行動等能力,以及具備自我改進和持續(xù)學習能力,讓系統(tǒng)逼近人類可接受的世界模型。而智能體 (Agents) 是實現(xiàn)這樣的整合能力的一個合理的框架。
03Sora的出現(xiàn),會帶來哪些創(chuàng)業(yè)生態(tài)的改變
騰訊科技:回到Sora,目前OpenAI只是開放了一小部分試用,未來還會有什么更廣闊的應用場景?
魯為民:目前,盡管Sora一亮像就很驚艷,但存在一些問題。例如,這些模型并不總是能夠生成令人滿意的圖片和視頻,有時甚至會出現(xiàn)在物理規(guī)律和邏輯上的嚴重錯誤。我們之前使用 ChatGPT時,可能也經(jīng)常遇到類似的問題。
一方面,我相信隨著時間的推移,這些模型的優(yōu)化使得其應用會變得更加成熟,成本會降低,也會有更多人使用。但具體來說,這些模型適合于哪些用戶群體目前還不太明確。比如,相比于語言模型,視頻生成模型可能更加小眾。AI從業(yè)者還需要不斷地應對各種各樣的挑戰(zhàn)。然而,我更關(guān)注這些模型對于更長遠目標實現(xiàn)的影響,比如我們需要它們對其環(huán)境有更好的理解和對世界有更強的認知能力。因為從長遠來看,我看好這些模型的應用能力可以擴展到能為機器人等真正地提供“大腦”,通過這些模型來增強它們的理解、推理和規(guī)劃能力。我相信這樣的應用方向可能會帶來更高的價值,并且更廣泛地惠及大眾。
另外,Sora 的能力很大程度上依賴 “暴力出奇跡”,使得Sora在很多方面表現(xiàn)出色,有潛在的廣泛應用前景。但是像其它大模型一樣,其計算算力成本也是需要考慮的問題,尤其是視頻生成模型的推理成本往往遠高于類似能力的語言模型。如何降低模型的應用成本,提高相適應的性能和能力的回報,這需要在模型架構(gòu)的設計時平衡考慮。
騰訊科技:“暴力出奇跡”的方法是不是也有瓶頸?目前模型已經(jīng)出現(xiàn)“涌現(xiàn)能力”當你再加大數(shù)據(jù)量的時候,是不是也不會再讓模型更優(yōu)化?
魯為民:Sora 在實踐上也呈現(xiàn)規(guī)模優(yōu)勢和涌現(xiàn)特性,即通過(高質(zhì)量的)數(shù)據(jù)、模型參數(shù)和算力的擴展,性能和能力的顯著提升。但數(shù)據(jù)和計算資源往往不是唾手可得的。模型的發(fā)展還有必要從其它方面突破。我覺得接下來的模型發(fā)展可以從兩方面來考慮,一個是模型繼續(xù)改進,另外一個是有沒有新的模型架構(gòu)的出現(xiàn)?
剛剛提到數(shù)據(jù)的挑戰(zhàn),數(shù)據(jù)對模型的改進非常重要。特別是在物理世界和機器人等領域,相關(guān)的經(jīng)驗數(shù)據(jù)的獲取因為受限往往缺失或不完整,這些數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)有很大不同。我們需要考慮如何在這些特定環(huán)境中利用有限的數(shù)據(jù)建立更好的模型,同時考慮必要時如何生成相關(guān)的數(shù)據(jù),例如機器人系統(tǒng)通過與環(huán)境的交互學習并影響環(huán)境,這涉及到強化學習,是一個有挑戰(zhàn)性的問題。
另外,世界的模型并非完全開放,它們?nèi)匀皇艿皆S多約束,比如我們需要模型避免與人類價值觀的不一致。目前,通過人類反饋進行強化學習等技術(shù)來微調(diào)模型是目前一個很好的實踐方向,但還有很多發(fā)展空間。此外這類生成式 AI大模型在理解生成上都有局限性,特別是在一些邊角場景中,模型可能不可靠。這些和其它的問題使得大模型在理解和模擬物理世界可能存在違背規(guī)律、邏輯和事實的“悖謬”和“幻覺”。
像Gemini、GPT-x和Sora 這樣的生成式 AI 模型的先天性局限,光靠模型本身的改進是不可能完全解決的。在這種情況下,我們需要充分利用模型之外的能力來補充、改進和強化這些大模型的能力。像智能體 (Agents) 這樣機制提供這樣的一種可行性。
特別是建立在語言或多模態(tài)的生成式 AI模型提供的上下文提示學習模式以及理解、推理和規(guī)劃能力基礎上,智能體的加持可以為應用系統(tǒng)提供的天然反饋閉環(huán)來實現(xiàn)持續(xù)學習和自我改進的能力,使得基于生成式AI大模型的智能體可以解決復雜問題、對環(huán)境交互行動,糾正可能的錯誤、并從經(jīng)驗中持續(xù)學習。
本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者:魯為民
