自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI Sora核心技術(shù),被曝縫合自DeepMind和謝賽寧論文?機(jī)器模擬人類世界邁出第一步

人工智能 新聞
為何Sora會(huì)掀起滔天巨浪?Sora的技術(shù),就是機(jī)器模擬我們世界的下一步。而且今天有人扒出,Sora創(chuàng)新的核心秘密時(shí)空Patches,竟是來(lái)自谷歌DeepMind和謝賽寧的論文成果。

OpenAI,永遠(yuǎn)快別人一步!

像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級(jí)大殺器Gemini 1.5才推出沒幾個(gè)小時(shí),全世界的目光就被OpenAI的Sora搶了去。

100萬(wàn)token的上下文,僅靠一本語(yǔ)法書就學(xué)會(huì)了一門全新的語(yǔ)言,如此震撼的技術(shù)進(jìn)步,在Sora的榮光下被襯得暗淡無(wú)光,著實(shí)令人唏噓。

這次,不過(guò)也是之前歷史的重演。

為什么ChatGPT會(huì)提前誕生?

《這就是ChatGPT》一書對(duì)此進(jìn)行了揭秘:當(dāng)時(shí)OpenAI管理層聽說(shuō),從OpenAI「叛逃」的前員工創(chuàng)立的公司Anthropic Claude有意提前推出Chatbot。

管理層立馬意識(shí)到這個(gè)產(chǎn)品潛力巨大,于是先下手為強(qiáng),第一時(shí)間改變節(jié)奏,出手截胡Anthropic。

11月中旬,在研發(fā)GPT-4的OpenAI員工收到指令:所有工作暫停,全力推出一款聊天工具。兩周后,ChatGPT誕生,從此改變?nèi)祟悮v史。

或許,這也就揭示了為什么一家公司可以永載史冊(cè)的原因:領(lǐng)導(dǎo)者能夠發(fā)現(xiàn)有市場(chǎng)潛力的新產(chǎn)品,全面攔截所有成功的可能性。

對(duì)于谷歌被截胡一事,網(wǎng)友銳評(píng)道:OpenAI用Sora對(duì)抗Gemini發(fā)布的方式簡(jiǎn)直了,谷歌從沒有受過(guò)這樣的打擊。

圖片

這不得不讓人懷疑,OpenAI手里是不是還攥著一堆秘密武器,每當(dāng)競(jìng)爭(zhēng)對(duì)手發(fā)布新技術(shù),他們就放出來(lái)一個(gè)爆炸級(jí)消息。

要知道,現(xiàn)在才剛剛是2024年2月,想想接下來(lái)要發(fā)生的事,不免覺得毛骨悚然。

為何Sora掀起滔天巨浪

Sora一出,馬斯克直接大呼:人類徹底完蛋了!

馬斯克為什么這么說(shuō)?

OpenAI科學(xué)家Tim Brooks表示,沒通過(guò)人類預(yù)先設(shè)定,Sora就自己通過(guò)觀察大量數(shù)據(jù),自然而然學(xué)會(huì)了關(guān)于3D幾何形狀和一致性的知識(shí)。

從本質(zhì)上說(shuō),Sora的技術(shù),就是機(jī)器模擬我們世界的一個(gè)里程碑。

外媒Decoder直言:OpenAI令人驚嘆的視頻模型處女作Sora的誕生,感覺就像是GPT-4時(shí)刻。

圖片

更有人表示,在Sora之中,我切實(shí)感受到了AGI。

圖片

這也就是為什么Sora會(huì)在全世界掀起滔天巨浪的原因。

要了解Sora如此強(qiáng)大的能力從何而來(lái),除了OpenAI官方給出的技術(shù)報(bào)告,行業(yè)大佬也進(jìn)行了進(jìn)一步的解讀。

LeCun轉(zhuǎn)發(fā)了華人學(xué)者謝賽寧的推文,認(rèn)為Sora基本上是基于謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設(shè)計(jì)而成的。

而和謝賽寧一起合著這篇論文的William Peebles之后也加入了OpenAI,領(lǐng)導(dǎo)了開發(fā)Sora的技術(shù)團(tuán)隊(duì)。

所以謝賽寧的對(duì)于Sora的技術(shù)解讀,具備極高的參考價(jià)值。

圖片

謝賽寧:Sora很厲害,不過(guò)好像是用了我的論文成果

AI大神謝賽寧,針對(duì)Sora的技術(shù)報(bào)告談了自己的看法。

項(xiàng)目地址:https://wpeebles.com/DiT

- 架構(gòu):Sora應(yīng)該是基于他和Bill之前在ICCV 2023上提出的以Transformer為主干的擴(kuò)散模型(DIT)

其中,DIT=[VAE編碼器+VIT+DDPM+VAE解碼器]。

根據(jù)技術(shù)報(bào)告,好像沒有其他特別的設(shè)計(jì)了。

-「視頻壓縮網(wǎng)絡(luò)」:似乎是一個(gè)VAE,但訓(xùn)練的是原始視頻數(shù)據(jù)。

在獲得良好的時(shí)間一致性方面,tokenize可能起了很重要的作用。

VAE是一個(gè)ConvNet。所以從技術(shù)上講,DIT是一個(gè)混合模型。

圖片

謝賽寧表示,他們?cè)贒IT項(xiàng)目沒有創(chuàng)造太多的新東西,但是兩個(gè)方面的問題:簡(jiǎn)單性和可擴(kuò)展性。

這可能就是Sora為什么要基于DIT構(gòu)建的主要原因。

首先,簡(jiǎn)單意味著靈活

當(dāng)涉及到輸入數(shù)據(jù)時(shí),如何使模型更加靈活。

例如,在掩碼自動(dòng)編碼器(MAE)中,VIT幫助我們只處理可見的patch,而忽略掉被mask的。

同樣,Sora可以通過(guò)在適當(dāng)大小的網(wǎng)格中安排隨機(jī)初始化的patch來(lái)控制生成的視頻的大小。

UNet并不直接提供這種靈活性。

猜測(cè):Sora可能還會(huì)使用谷歌的Patch n‘Pack(Navit),以使DIT能夠適應(yīng)不同的分辨率/持續(xù)時(shí)間/長(zhǎng)寬比。

其次,可擴(kuò)展性是DIT論文的核心主題

就每Flop的時(shí)鐘時(shí)間而言,優(yōu)化的DiT比UNet運(yùn)行得快得多。

更重要的是,Sora證明了DIT縮放法則不僅適用于圖像,現(xiàn)在也適用于視頻——Sora復(fù)制了DIT中觀察到的視覺縮放行為。

猜測(cè):在Sora的演示中,第一個(gè)視頻的質(zhì)量相當(dāng)差,謝懷疑它使用的是最基礎(chǔ)的模型。

粗略計(jì)算一下,DIT XL/2是B/2模型的5倍GFLOPs,因此最終的16倍計(jì)算模型可能是DIT-XL模型的3倍,這意味著Sora可能有約30億個(gè)參數(shù)。

圖片

如果真的是如此,Sora的模型規(guī)??赡軟]有那么大。

這可能表明,訓(xùn)練Sora可能不需要像人們預(yù)期的那樣,有非常大的算力要求,所以他預(yù)測(cè)未來(lái)Sora迭代的速度將會(huì)很快。

圖片

進(jìn)一步的,謝賽寧解釋了Sora提供的關(guān)鍵的洞見來(lái)自「涌現(xiàn)的模擬能力」這一表現(xiàn)上。

在Sora之前,尚不清楚長(zhǎng)期形式的一致性是否會(huì)自行涌現(xiàn),或者是否需要復(fù)雜的主題驅(qū)動(dòng)的其他流程,甚至是物理模擬器。

而現(xiàn)在OpenAI已經(jīng)表明,雖然現(xiàn)在結(jié)果還不完美,但這些行為和能力可以通過(guò)端到端的訓(xùn)練來(lái)實(shí)現(xiàn)。

然而,有兩個(gè)要點(diǎn)還不是很明確。

1. 訓(xùn)練數(shù)據(jù):技術(shù)報(bào)告沒有涉及訓(xùn)練的數(shù)據(jù)集,這可能意味著數(shù)據(jù)是Sora成功的最關(guān)鍵因素。

目前已經(jīng)有很多關(guān)于游戲引擎數(shù)據(jù)的猜測(cè)。他期待包括電影、紀(jì)錄片、電影長(zhǎng)鏡頭等。

2. (自回歸)長(zhǎng)視頻生成:Sora的一個(gè)重大突破是生成超長(zhǎng)視頻的能力。

制作一段2秒的視頻和1分鐘的視頻之間的差異是巨大的。

Sora可能是通過(guò)允許自回歸采樣的聯(lián)合幀預(yù)測(cè)來(lái)實(shí)現(xiàn)的,但這里最主要挑戰(zhàn)是如何解決誤差累積問題,并隨著時(shí)間的推移保持質(zhì)量/一致性。

OpenAI Sora的技術(shù),就是機(jī)器模擬我們世界的重要下一步

AI究竟如何將靜態(tài)圖形轉(zhuǎn)換為動(dòng)態(tài)、逼真的視頻?

Sora的一大創(chuàng)新,就是創(chuàng)新性地使用了時(shí)空patch。

通過(guò)底層訓(xùn)練和patch,Sora能夠理解和開發(fā)近乎完美的視覺模擬,比如Minecraft這樣的數(shù)字世界。這樣,它就會(huì)為未來(lái)的AI創(chuàng)造出訓(xùn)練內(nèi)容。有了數(shù)據(jù)和系統(tǒng),AI就能更好地理解世界。

從此,我們可以解鎖VR的新高度,因?yàn)樗淖兞宋覀兛创龜?shù)字環(huán)境的方式,將VR的邊界推向了新的高度,創(chuàng)建出近乎完美的3D環(huán)境??梢栽贏pple Vision Pro或Meta Quest上按需與空間計(jì)算配對(duì)了。

除了謝賽寧的解讀之外,AI專家Vincent Koc,也對(duì)此展開了詳細(xì)分析。

Sora的獨(dú)特方法如何改變視頻生成

以往,生成模型的方法包括GAN、自回歸、擴(kuò)散模型。它們都有各自的優(yōu)勢(shì)和局限性。

而Sora引入的,是一種全新的范式轉(zhuǎn)變——新的建模技術(shù)和靈活性,可以處理各種時(shí)間、縱橫比和分辨率。

Sora所做的,是把Diffusion和Transformer架構(gòu)結(jié)合在一起,創(chuàng)建了diffusion transformer模型。

于是,以下功能應(yīng)運(yùn)而生——

文字轉(zhuǎn)視頻:將文字內(nèi)容變成視頻 

圖片轉(zhuǎn)視頻:賦予靜止圖像動(dòng)態(tài)生命 

視頻風(fēng)格轉(zhuǎn)換:改變?cè)幸曨l的風(fēng)格 

視頻時(shí)間延展:可以將視頻向前或向后延長(zhǎng) 

創(chuàng)造無(wú)縫循環(huán)視頻:制作出看起來(lái)永無(wú)止境的循環(huán)視頻 

生成單幀圖像視頻:將靜態(tài)圖像轉(zhuǎn)化為最高2048 x 2048分辨率的單幀視頻 

生成各種格式的視頻:支持從1920 x 1080到1080 x 1920之間各種分辨率格式 

模擬虛擬世界:創(chuàng)造出類似于Minecraft等游戲的虛擬世界 

創(chuàng)作短視頻:制作最長(zhǎng)達(dá)一分鐘的視頻,包含多個(gè)短片

這就好比,我們正在廚房里。

傳統(tǒng)的視頻生成模型,比如Pika和RunwayML,就像照著食譜做飯的廚師一樣。

他們可以做出好吃的菜肴(視頻),但會(huì)受到他們所知的食譜(算法)所限。

使用特定的成分(數(shù)據(jù)格式)和技術(shù)(模型架構(gòu)),它們只擅長(zhǎng)烘焙蛋糕(短片)或烹飪意大利面(特定類型的視頻)。

圖片

而與他們不同的是,Sora是一位基礎(chǔ)知識(shí)扎實(shí)的新型廚師。

它不僅能照著舊食譜做菜,還能自己發(fā)明新食譜!

這位住大廚多才多藝,對(duì)于食材(數(shù)據(jù))和技術(shù)(模型架構(gòu))的掌握十分靈活,因而能夠做出各種高質(zhì)量的視頻。

探尋Sora秘密成分的核心:時(shí)空patch

時(shí)空patch,是Sora創(chuàng)新的核心。

圖片

它建立在Google DeepMind早期對(duì)NaViT和ViT(視覺Transformer)的研究之上。

圖片

論文地址:https://arxiv.org/abs/2307.06304

而這項(xiàng)研究,又是基于一篇2021年的論文「An Image is Worth 16x16 Words」。

圖片

論文地址:https://arxiv.org/abs/2010.11929

傳統(tǒng)上,對(duì)于視覺Transformer,研究者都是使用一系列圖像patch來(lái)訓(xùn)練用于圖像識(shí)別的Transformer模型,而不是用于語(yǔ)言Transformer的單詞。

這些patch,能使我們能夠擺脫卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像處理。

圖片

然而,視覺Transforemr對(duì)圖像訓(xùn)練數(shù)據(jù)的限制是固定的,這些數(shù)據(jù)的大小和縱橫比是固定的,這舊限制了質(zhì)量,并且需要大量的圖像預(yù)處理。

而通過(guò)將視頻視為patch序列,Sora保持了原始的縱橫比和分辨率,類似于NaViT對(duì)圖像的處理。

這種保存,對(duì)于捕捉視覺數(shù)據(jù)的真正本質(zhì)至關(guān)重要!

通過(guò)這種方法,模型能夠從更準(zhǔn)確的世界表示中學(xué)習(xí),從而賦予Sora近乎神奇的準(zhǔn)確性。

時(shí)空patch的可視化

這種方法使Sora能夠有效地處理各種視覺數(shù)據(jù),而無(wú)需調(diào)整大小或填充等預(yù)處理步驟。

這種靈活性確保了每條數(shù)據(jù)都有助于模型的理解,就像廚師可以使用各種食材,來(lái)增強(qiáng)菜肴的風(fēng)味特征一樣。

時(shí)空patch對(duì)視頻數(shù)據(jù)詳細(xì)而靈活的處理,為精確的物理模擬和3D一致性等復(fù)雜功能奠定了基礎(chǔ)。

從此,我們可以創(chuàng)建看起來(lái)逼真且符合世界物理規(guī)則的視頻,人類也得以一窺AI創(chuàng)建復(fù)雜、動(dòng)態(tài)視覺內(nèi)容的巨大潛力。

多樣化數(shù)據(jù)在訓(xùn)練中的作用

訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,對(duì)于模型的性能至關(guān)重要。

傳統(tǒng)的視頻模型,是在限制性更強(qiáng)的數(shù)據(jù)集、更短的長(zhǎng)度和更窄的目標(biāo)上進(jìn)行訓(xùn)練的。

而Sora利用了龐大而多樣的數(shù)據(jù)集,包括不同持續(xù)時(shí)間、分辨率和縱橫比的視頻和圖像。

它能夠重新創(chuàng)建像Minecraft這樣的數(shù)字世界,以及來(lái)自Unreal或Unity等系統(tǒng)的模擬世界鏡頭,以捕捉視頻內(nèi)容的所有角度和各種風(fēng)格。

這樣,Sora就成了一個(gè)「通才」模型,就像GPT-4對(duì)于文本一樣。

這種廣泛的訓(xùn)練,使Sora能夠理解復(fù)雜的動(dòng)態(tài),并生成多樣化、高質(zhì)量的內(nèi)容。

這種方法模仿了在各種文本數(shù)據(jù)上訓(xùn)練LLM的方式,將類似的理念應(yīng)用于視覺內(nèi)容,實(shí)現(xiàn)了通才功能。

圖片

可變Patches NaVit與傳統(tǒng)的視覺Transformer

NaViT模型通過(guò)將來(lái)自不同圖像的多個(gè)patch打包到單個(gè)序列中,得到了顯著的訓(xùn)練效率和性能提升一樣。

同樣地,Sora利用時(shí)空patch在視頻生成中實(shí)現(xiàn)類似的效率。

這種方法允許模型從龐大的數(shù)據(jù)集中更有效地學(xué)習(xí),提高了模型生成高保真視頻的能力,同時(shí)降低了與現(xiàn)有建模架構(gòu)相比所需的計(jì)算量。

讓物理世界栩栩如生:Sora對(duì)3D和連續(xù)性的掌握

3D空間和物體的一致性,是Sora演示中的關(guān)鍵亮點(diǎn)。

通過(guò)對(duì)各種視頻數(shù)據(jù)進(jìn)行訓(xùn)練,無(wú)需對(duì)視頻進(jìn)行調(diào)整或預(yù)處理,Sora就學(xué)會(huì)了以令人印象深刻的精度對(duì)物理世界進(jìn)行建模,原因就在于,它能夠以原始形式使用訓(xùn)練數(shù)據(jù)。

在Sora生成的視頻中,物體和角色在三維空間中令人信服地移動(dòng)和交互,即使它們被遮擋或離開框架,也能保持連貫性。

從此,現(xiàn)實(shí)不存在了,創(chuàng)造力和現(xiàn)實(shí)主義的界限被突破。

并且,Sora為模型的可能性設(shè)立了全新的標(biāo)準(zhǔn),開源社區(qū)很可能會(huì)掀起視覺模型的全新革命。

而現(xiàn)在,Sora的旅程才剛剛開始呢,正如OpenAI所說(shuō),擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的道路。

前方,就是AGI和世界模型了。

不過(guò)好在,OpenAI員工透露說(shuō),Sora短期內(nèi)不會(huì)面世。

一位OpenAI員工發(fā)推表示,現(xiàn)在Sora只會(huì)在有限的范圍內(nèi)試用,現(xiàn)在放出的demo主要是為了獲得社會(huì)大眾對(duì)它能力的反應(yīng)

現(xiàn)在,標(biāo)榜要開發(fā)負(fù)責(zé)任AGI的OpenAI,應(yīng)該不會(huì)冒著風(fēng)險(xiǎn)給大眾拋出一個(gè)潘多拉魔盒。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2018-02-10 11:24:39

Python數(shù)據(jù)程序

2020-07-22 22:10:34

互聯(lián)網(wǎng)物聯(lián)網(wǎng)IOT

2019-11-20 10:54:46

無(wú)密碼身份驗(yàn)證網(wǎng)絡(luò)安全

2017-03-29 21:01:22

微軟開源

2024-01-25 11:14:33

2015-10-28 22:25:45

SwiftAndroid應(yīng)用開發(fā)

2012-04-13 16:40:16

豌豆莢

2017-06-14 17:18:52

容器DevopsDocker

2022-10-20 14:29:25

2013-12-16 11:25:55

開源開源社區(qū)

2013-05-27 09:42:33

IEEE802.3以太網(wǎng)400G以太網(wǎng)

2015-11-03 15:02:23

技術(shù)周刊

2021-01-15 18:17:06

網(wǎng)絡(luò)協(xié)議分層

2017-07-03 10:58:35

DeepMind深度學(xué)習(xí)

2014-12-25 09:26:59

Docker容器創(chuàng)建容器管理

2024-02-21 12:19:00

AI模型

2009-01-18 08:49:04

Java入門JDK

2012-07-11 16:43:14

飛視美

2013-01-15 09:17:11

2017-09-19 09:36:55

思科服務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)