Runway官宣下場通用世界模型!解決視頻AI最大難題,竟靠AI模擬世界?
最近AI視頻賽道的Pika 1.0大火,兩位華人創(chuàng)始人團隊半年做出的產(chǎn)品幾乎碾壓了Runway接近兩年的發(fā)展成果。
面對Pika的步步緊逼,本以為Runway會發(fā)力,想辦法至少在公關(guān)上扳回一城,結(jié)果Runway的應(yīng)對策略是宣布:
我不和你們卷,我的目標是星辰大海。
Runway官方今天突然官宣,我們要做通用世界模型(General World Model),用Gen AI來模擬整個世界!
通用世界模型 (GWM)
我們相信,人工智能的下一個重大進步將來自理解視覺世界及其動態(tài)的系統(tǒng),這就是為什么我們要圍繞通用世界模型開始一項新的長期研究工作。
世界模型是一種對環(huán)境有著內(nèi)部理解的AI系統(tǒng)。它可以利用自己對環(huán)境的理解來模擬該環(huán)境中未來可能發(fā)生的事件。
迄今為止,世界模型的研究主要局限于非常有限和受控的環(huán)境中,比如在視頻游戲般的模擬世界或者是像駕駛這樣的特定領(lǐng)域。
而通用世界模型的目標則是要能夠呈現(xiàn)和模擬出像現(xiàn)實世界那樣廣泛和多樣的情景及互動。
在Runway看來,像Gen-2這樣的視頻生成系統(tǒng),可以被看作是通用世界模型的非常初步和有限的版本。
為了能生成逼真的短視頻,Gen-2需要某種程度上理解物理和動態(tài)。
但是,它在處理復(fù)雜的攝像機運動或物體運動等問題上仍然存在局限性。
為了構(gòu)建真正的通用世界模型,我們面臨著許多尚未解決的研究挑戰(zhàn)。其中之一是這些模型需要能夠生成一致的環(huán)境地圖,并具備在這些環(huán)境中導(dǎo)航和互動的能力。
它們不僅需要捕捉世界的動態(tài)變化,還要能夠理解其中居民的行為動態(tài),這就需要構(gòu)建接近現(xiàn)實的人類行為模型。
我們正在組建一個團隊來應(yīng)對這些挑戰(zhàn),如果你對加入我們的研究工作感興趣,我們非常期待你的加入。
針對Runway的這個世界模型宣言,從小了講,我們可以把它翻譯為:
現(xiàn)在我們的AI生視頻系統(tǒng),生成的視頻會有很多匪夷所思的內(nèi)容,比如這樣:
這樣,
甚至是這樣:
就像LLM會產(chǎn)生幻覺,信口胡謅一些不存在的內(nèi)容一樣,生視頻AI因為沒有辦法理解現(xiàn)實世界,同樣也會生成很多詭異的運動方式和畫面。
而面對這個情況,Runway我似乎沒有太好的解決辦法,所以現(xiàn)在需要招聘一些人來解決這個問題。
說白了就是讓AI能夠理解客觀世界,并且按照客觀世界的運動和發(fā)展規(guī)律來生成視頻。
而如果從大了講,而如果你能幫我們解決這個問題,我Runway就不僅僅是能做個AI生成視頻的工具,而是能按照客觀世界的原理和規(guī)律來生成一個和我們現(xiàn)實世界高度一致的新世界。
在這個新世界中,我們可以模擬一切現(xiàn)實世界可能可以發(fā)生的事情。
如果AI能有了這樣的能力,將會在很多地方都有應(yīng)用的場景和可能,我們就能干一些更大的事情。
至于Pika?他們不是說就想做一個拍電影的工具嘛,和我們根本不是一個賽道。
世界模型到底是什么?
對于現(xiàn)在的AI系統(tǒng)是否能夠理解我們生活的這個世界,現(xiàn)在人類還所知甚少。
圖靈巨頭LeCun不斷諷刺現(xiàn)在的LLM,說他看起來上天文下知地理,但是連3歲小孩的理解能力都沒有。
而也有其他科學(xué)家證實,LLM已經(jīng)能以某種方式來理解世界。
而LeCun本人的極力推崇的能夠理解世界的「世界模型」,現(xiàn)在幾乎還是一個停留在PPT上的概念,似乎還沒有找到現(xiàn)實落地的路徑。
網(wǎng)友熱議
對此,有網(wǎng)友表示,這是人工智能進化的下一個合乎邏輯的步驟。
甚至認為這是實現(xiàn)AGI的唯一途徑:LLM和其他神經(jīng)網(wǎng)絡(luò)系統(tǒng)可以很容易地描述一把椅子,但世界模特將能夠「體驗椅子」。