OpenAI 發(fā)布的視頻生成模型 Sora,到底有什么魔法?
大家好,我是木川
繼 OpenAI 推出文生文的模型 GPT、文生圖的模型 DALL-E 之后,OpenAI 發(fā)布了文生視頻模型 Sora ,可以生成長達分鐘級別的高質(zhì)量視頻。
從官方示例上看,生成的視頻效果確實驚艷。Sora 可以生成寬屏 1920x1080 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。
Sora 技術(shù)報告:https://openai.com/research/video-generation-models-as-world-simulators
Sora 的主要特點如下:
60s 超長長度
在一眾 AI 視頻,還掙扎在4s連貫性的邊緣,OpenAI 直接說:勞資支持 60s,都 TM 跪下。
Runway 是 18s,Pika 最開始是 3 秒,Sora 抬手就是 60s,見面就貼臉放大招
圖片
單視頻多角度鏡頭
想象一下,以前的電影或視頻制作就像是用一個相機拍攝一整個故事,你只能看到一個角度。
木川AI編程
但是現(xiàn)在,就像是有一堆不同的相機,可以從不同的角度來拍攝同一個場景。
而且厲害的地方在于,主角或物體在不同的角度切換時,看起來還是一樣的,不會感覺怪怪的。
,時長00:59
Sora 就好像是一個超級聰明的導(dǎo)演,只需要給他一個簡短的提示,他就能在一分鐘內(nèi)制作出一個有很多不同角度的視頻,而且每個角度看起來都很自然。
這對于以前來說簡直是不可思議的,就好像魔法一樣!
世界模型
“先記憶,再預(yù)測” 這種理解世界的方式,是人類理解世界的方式。這種方式有個名字,叫世界模型。
最最最可怕的一點來了,Sora身上,竟已經(jīng)有了世界模型的雛形?
通過觀察大量數(shù)據(jù),它竟然學(xué)會了許多關(guān)于世界的物理規(guī)律。
世界模型就像是你的大腦里有一張地圖,上面標著你家、學(xué)校、公園等地方。這張地圖幫助你知道周圍的環(huán)境,讓你知道該去哪里,怎么走。
對于電腦或機器來說,它們也可以有一種類似的東西,叫做世界模型。這就是它們對周圍世界的一種想象和理解方式,讓它們能夠知道周圍有什么東西,發(fā)生了什么事情。這有助于它們更聰明地處理任務(wù),就像你用地圖找到正確的路一樣。
舉個例子:當你拿起一杯咖啡時,大腦先通過以前的經(jīng)驗和記憶知道咖啡杯的典型重量。這個經(jīng)驗就是世界模型的一部分。你的大腦會根據(jù)這個模型,預(yù)測需要用多大的力去抓住杯子。這種預(yù)測是在潛意識中進行的,你不需要刻意去思考。
OpenAI 最終想做的,其實不是一個“文生視頻”的工具,而是一個通用的“物理世界模擬器”。也就是世界模型,為真實世界建模。