自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中國(guó)如何復(fù)刻Sora,華人團(tuán)隊(duì)長(zhǎng)文解構(gòu)!996 OpenAI研究員:Sora是視頻GPT-2時(shí)刻

人工智能 新聞
自曝996作息的OpenAI研究員Jason Wei表示,Sora代表著視頻生成的GPT-2時(shí)刻。競(jìng)爭(zhēng)的關(guān)鍵,就是算力和數(shù)據(jù)了。國(guó)內(nèi)有可能成功「復(fù)刻」Sora嗎?華人團(tuán)隊(duì)的這份37頁(yè)技術(shù)報(bào)告,或許能給我們一些啟發(fā)。

今天,這張圖在AI社區(qū)熱轉(zhuǎn)。

它列舉了一眾文生視頻模型的誕生時(shí)間、架構(gòu)和作者機(jī)構(gòu)。

毫不意外,谷歌依然是視頻模型開山之作的作者。不過如今AI視頻的聚光燈,全被Sora搶去了。

同時(shí),自曝996作息時(shí)間表的OpenAI研究員Jason Wei表示——

「Sora是一個(gè)里程碑,代表著視頻生成的GPT-2時(shí)刻。」

對(duì)于文字生成領(lǐng)域,GPT-2無(wú)疑是一個(gè)分水嶺。2018年GPT-2的推出,標(biāo)志著能夠生成連貫、語(yǔ)法正確的文本段落的新時(shí)代。

當(dāng)然,GPT-2也難以完成一篇完整無(wú)誤的文章,會(huì)出現(xiàn)邏輯不一致或捏造事實(shí)的情況。但是,它為后續(xù)的模型發(fā)展奠定了基礎(chǔ)。

在不到五年內(nèi),GPT-4已經(jīng)能夠執(zhí)行串聯(lián)思維這種復(fù)雜任務(wù),或者寫出一篇長(zhǎng)文章,過程中并不會(huì)捏造事實(shí)。

而今天,Sora已經(jīng)也意味著這樣的時(shí)刻。

它能創(chuàng)作出既有藝術(shù)感又逼真的短視頻。雖然還不能創(chuàng)作出長(zhǎng)達(dá)40分鐘的電視劇,但角色的一致性和故事性已經(jīng)非常引人入勝!

Jason Wei相信,在Sora以及未來(lái)的視頻生成模型中,保持長(zhǎng)期一致性、近乎完美的逼真度、創(chuàng)作有深度的故事情節(jié)這些能力,都會(huì)逐漸成型。

Sora會(huì)顛覆好萊塢嗎?它離電影大片還有多遠(yuǎn)?

好萊塢知名導(dǎo)演Tyler Perry在看到Sora生成的視頻后,大為震驚,決定撤掉自己亞特蘭大工作室耗資8億美元的擴(kuò)建計(jì)劃。

因?yàn)橐院笈臄z的大片中,可能不需要找取景地,或者搭建實(shí)景了。

所以,Sora會(huì)顛覆電影產(chǎn)業(yè)嗎?Jason Wei表示,它就像現(xiàn)在的GPT-4一樣,可以作為一種輔助工具提升作品質(zhì)量,所以距離專業(yè)的電影制作還有一段距離。

而現(xiàn)在,視頻和文本的最大區(qū)別就是,前者的信息密度較低,所以在視頻推理等技能的學(xué)習(xí)上,就會(huì)需要大量的算力和數(shù)據(jù)。

因此,高質(zhì)量視頻數(shù)據(jù)的競(jìng)爭(zhēng)會(huì)非常激烈!就像現(xiàn)在各家都在爭(zhēng)搶高質(zhì)量的文本數(shù)據(jù)集。

另外,將視頻與其他信息模式結(jié)合起來(lái),作為學(xué)習(xí)過程的輔助信息將極為關(guān)鍵。

并且在未來(lái),擁有視頻處理經(jīng)驗(yàn)的AI研究人員會(huì)變得非常搶手!不過,他們也需要像傳統(tǒng)的自然語(yǔ)言處理研究者那樣,適應(yīng)新的技術(shù)發(fā)展趨勢(shì)。

沒有中間物理模型,但已具備革命性

OpenAI的TikTok賬號(hào),還在不斷放出Sora的新作品。

Sora離好萊塢大片距離還有多遠(yuǎn)?讓我們來(lái)看看這個(gè)電影中經(jīng)常出現(xiàn)的場(chǎng)景——瓢潑大雨中,一輛車在夜色中飛速穿過城市街道。

圖片

A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives

再比如,Sora生成的工地上,叉車、挖掘機(jī)、腳手架和建筑工人們也都十分逼真。

并且,它還拍出了微型攝影的效果,讓一切都看起來(lái)像一個(gè)縮影。

圖片

當(dāng)然,仔細(xì)看,畫面還會(huì)存在一些問題。

比如一個(gè)人會(huì)突然分裂成好幾個(gè)人。

或者,一個(gè)人忽然變成了另一個(gè)。

圖片

AI公司創(chuàng)始人swyx總結(jié)說(shuō),根本原因還是因?yàn)镾ora沒有中間物理模型,這完全是LeCun所提世界模型的對(duì)立面。

不過,它依然為電影制作流程創(chuàng)造了質(zhì)的飛躍,大大降低了成本。

雖然Runway可以實(shí)現(xiàn)類似功能,但Sora將一切都提升到了一個(gè)新的水平。

以下是Sora和Pika、Runway Gen-2、AnimateDiff和LeonardoAI的比較。

圖片

圖片

人人都能拍自己的電影

在不久的將來(lái),或許我們每個(gè)人都可以在幾分鐘內(nèi)生成自己的電影了。

比如,我們可以用ChatGPT幫忙寫出劇本,然后用Sora進(jìn)行文字轉(zhuǎn)視頻。在未來(lái),Sora一定會(huì)突破60s的時(shí)間限制。

圖片

想象一下,在你的腦海里拍出一部從未存在過的電影,是什么感覺

或者,我們可以用Dall-E或者M(jìn)idjourney生成圖像,然后用Sora生成視頻。

圖片

D-ID可以讓角色的嘴部、身體動(dòng)作和所說(shuō)的臺(tái)詞保持一致。

此前風(fēng)靡全網(wǎng)的《哈利波特》巴黎世家時(shí)尚大片

ElevenLabs,可以為視頻中的角色配音,增強(qiáng)視頻的情感沖擊力,創(chuàng)造視覺和聽覺敘事的無(wú)縫融合。

做自己的大片,就是這么簡(jiǎn)單!

可惜的是,Sora的訓(xùn)練成本大概要千萬(wàn)美元級(jí)別。

去年ChatGPT發(fā)布后,一下子涌現(xiàn)出千模大戰(zhàn)的盛況。而這次Sora距離誕生已有半個(gè)月了,各家公司仍然毫無(wú)動(dòng)靜。

中國(guó)公司該如何復(fù)刻Sora?

恰恰在最近,華人團(tuán)隊(duì)也發(fā)布了非常詳細(xì)的Sora分析報(bào)告,或許能給這個(gè)問題一些啟發(fā)。

華人團(tuán)隊(duì)逆向工程分析Sora

最近,來(lái)自理海大學(xué)的華人團(tuán)隊(duì)和微軟副總裁高劍峰博士,聯(lián)合發(fā)布了一篇長(zhǎng)達(dá)37頁(yè)的分析論文。

通過分析公開的技術(shù)報(bào)告和對(duì)模型的逆向工程研究,全面審視了Sora的開發(fā)背景、所依賴的技術(shù)、其在各行業(yè)的應(yīng)用前景、目前面臨的挑戰(zhàn),以及文本轉(zhuǎn)視頻技術(shù)的未來(lái)趨勢(shì)。

其中,論文主要針對(duì)Sora的開發(fā)歷程和構(gòu)建這一「虛擬世界模擬器」的關(guān)鍵技術(shù)進(jìn)行了研究,并深入探討了Sora在電影制作、教育、營(yíng)銷等領(lǐng)域的應(yīng)用潛力及其可能帶來(lái)的影響。

圖片

論文地址:https://arxiv.org/abs/2402.17177

項(xiàng)目地址:https://github.com/lichao-sun/SoraReview

如圖2所示,Sora能夠表現(xiàn)出精準(zhǔn)地理解和執(zhí)行復(fù)雜人類指令的能力。

而在制作能夠細(xì)致展現(xiàn)運(yùn)動(dòng)和互動(dòng)的長(zhǎng)視頻方面,Sora也取得了長(zhǎng)足的進(jìn)展,突破了以往視頻生成技術(shù)在視頻長(zhǎng)度和視覺表現(xiàn)上的限制。這種能力標(biāo)志著AI創(chuàng)意工具的重大飛躍,使得用戶能將文字?jǐn)⑹鲛D(zhuǎn)化為生動(dòng)的視覺故事。

研究人員認(rèn)為,Sora之所以能達(dá)到這種高水平,不僅是因?yàn)樗芴幚碛脩糨斎氲奈谋?,還因?yàn)樗芾斫鈭?chǎng)景中各個(gè)元素復(fù)雜的相互關(guān)系。

如圖3所示,過去十年里,生成式計(jì)算機(jī)視覺(CV)技術(shù)的發(fā)展路徑十分多樣,尤其是在Transformer架構(gòu)成功應(yīng)用于自然語(yǔ)言處理(NLP)之后,變化顯著。

研究人員通過將Transformer架構(gòu)與視覺組件相結(jié)合,推動(dòng)了其在視覺任務(wù)中的應(yīng)用,比如開創(chuàng)性的視覺Transformer(ViT)和Swin Transformer。

與此同時(shí),擴(kuò)散模型在圖像與視頻生成領(lǐng)域也取得了突破,它們通過U-Net技術(shù)將噪聲轉(zhuǎn)化為圖像,展示了數(shù)學(xué)上的創(chuàng)新方法。

從2021年開始,AI領(lǐng)域的研究重點(diǎn),便來(lái)到了那些能夠理解人類指令的語(yǔ)言和視覺生成模型,即多模態(tài)模型。

隨著ChatGPT的發(fā)布,我們?cè)?023年看到了諸如Stable Diffusion、Midjourney、DALL-E 3等商業(yè)文本到圖像產(chǎn)品的涌現(xiàn)。

然而,由于視頻本身具有的時(shí)間復(fù)雜性,目前大多數(shù)生成工具僅能制作幾秒鐘的短視頻。

在這一背景下,Sora的出現(xiàn)象征著一個(gè)重大突破——它是第一個(gè)能夠根據(jù)人類指令生成長(zhǎng)達(dá)一分鐘視頻的模型,其意義可與ChatGPT在NLP領(lǐng)域的影響相媲美。

如圖4所示,Sora的核心是一個(gè)可以靈活地處理不同維度數(shù)據(jù)的Diffusion Transformer,其主要由三個(gè)部分組成:

1. 首先,時(shí)空壓縮器會(huì)把原始視頻轉(zhuǎn)映射到潛空間中。

2. 接著,視覺Transformer(ViT)模型會(huì)對(duì)已經(jīng)被分詞的潛表征進(jìn)行處理,并輸出去除噪聲后的潛表征。

3. 最后,一個(gè)與CLIP模型類似的系統(tǒng)根據(jù)用戶的指令(已經(jīng)通過大語(yǔ)言模型進(jìn)行了增強(qiáng))和潛視覺提示,引導(dǎo)擴(kuò)散模型生成具有特定風(fēng)格或主題的視頻。在經(jīng)過多次去噪處理之后,會(huì)得到生成視頻的潛表征,然后通過相應(yīng)的解碼器映射回像素空間。

圖片

數(shù)據(jù)預(yù)處理

- 可變的持續(xù)時(shí)間、分辨率和高寬比

如圖5所示,Sora的一大特色是它能夠處理、理解并生成各種大小的視頻和圖片,從寬屏的1920x1080p視頻到豎屏的1080x1920p視頻,應(yīng)有盡有。

如圖6所示,與那些僅在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的模型相比,Sora制作的視頻展示了更好的畫面布局,確保視頻場(chǎng)景中的主體被完整捕捉,避免了因正方形裁剪而造成的畫面有時(shí)被截?cái)嗟膯栴}。

圖片

Sora對(duì)視頻和圖片特征的精細(xì)理解和保留,在生成模型領(lǐng)域是一個(gè)重大的進(jìn)步。

它不僅展現(xiàn)了生成更真實(shí)和吸引人的視頻的可能性,還突出了訓(xùn)練數(shù)據(jù)的多樣性對(duì)生成式AI取得高質(zhì)量結(jié)果的重要性。

- 統(tǒng)一的視覺表征

為了有效處理各種各樣的視覺輸入,比如不同長(zhǎng)度、清晰度和畫面比例的圖片和視頻,一個(gè)重要的方法是把這些視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表征。這樣做還有利于對(duì)生成模型進(jìn)行大規(guī)模的訓(xùn)練。

具體來(lái)說(shuō),Sora首先將視頻壓縮到「低維潛空間」,然后再將表征分解成「時(shí)空patches」。

- 視頻壓縮網(wǎng)絡(luò)

如圖7所示,Sora的視頻壓縮網(wǎng)絡(luò)(或視覺編碼器)的目標(biāo)是降低輸入數(shù)據(jù)的維度,并輸出經(jīng)過時(shí)空壓縮的潛表征。

技術(shù)報(bào)告中的參考文獻(xiàn)顯示,這種壓縮技術(shù)是VAE或矢量量化-VAE(VQ-VAE)基礎(chǔ)上的。然而,根據(jù)報(bào)告,如果不進(jìn)行圖像的大小調(diào)整和裁剪,VAE很難將不同尺寸的視覺數(shù)據(jù)映射到一個(gè)統(tǒng)一且大小固定的潛空間中。

針對(duì)這個(gè)問題,研究人員探討了兩種可能的技術(shù)實(shí)現(xiàn)方案:

1. 空間patches壓縮

這一過程需要將視頻幀轉(zhuǎn)換成固定大小的patches,與ViT和MAE模型采用的方法相似(如圖8所示),然后再將其編碼到潛空間中。

通過這種方式,模型可以高效地處理具有不同分辨率和寬高比的視頻,因?yàn)樗芡ㄟ^分析這些patches來(lái)理解整個(gè)視頻幀的內(nèi)容。接下來(lái),這些空間Token會(huì)按時(shí)間順序排列,形成空間-時(shí)間潛表征。

圖片

2. 空間-時(shí)間patches壓縮

這種技術(shù)包含了視頻數(shù)據(jù)的空間和時(shí)間維度,不僅考慮了視頻畫面的靜態(tài)細(xì)節(jié),還關(guān)注了畫面之間的運(yùn)動(dòng)和變化,從而全面捕捉視頻的動(dòng)態(tài)特性。利用三維卷積是實(shí)現(xiàn)這種整合的直接而有效的方法

- 潛空間patches

在壓縮網(wǎng)絡(luò)部分還有一個(gè)關(guān)鍵問題:在將patches送入Diffusion Transformer的輸入層之前,如何處理潛空間維度的變化(即不同視頻類型的潛特征塊或patches的數(shù)量)。

根據(jù)Sora的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn),patch n' pack(PNP)很可能是一種解決方案。

如圖10所示,PNP將來(lái)自不同圖像的多個(gè)patches打包在一個(gè)序列中。

在這里,patch化和token嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成,但Sora可能會(huì)像Diffusion Transformer那樣,進(jìn)一步將潛在的patch化為Transformer token。

- Diffusion Transformer

建模

- 圖像Diffusion Transformer

DiT和U-ViT是最早將視覺Transformers用于潛在擴(kuò)散模型的工作之一。與ViT一樣,DiT也采用多頭自注意力層和點(diǎn)卷積前饋網(wǎng)絡(luò),交錯(cuò)一些層歸一化和縮放層。

此外,DiT還通過自適應(yīng)層歸一化(AdaLN)并增加了一個(gè)額外的MLP層進(jìn)行零初始化,這樣初始化每個(gè)殘差塊為恒等函數(shù),從而極大地穩(wěn)定了訓(xùn)練過程。

U-ViT將所有輸入,包括時(shí)間、條件和噪聲圖像patches,都視為token,并提出了淺層和深層Transformer層之間的長(zhǎng)跳躍連接。結(jié)果表明,U-ViT在圖像和文本到圖像生成中取得了破紀(jì)錄的FID分?jǐn)?shù)。

類似于掩碼自編碼器(MAE)的方法,掩碼擴(kuò)散Transformer(MDT)也在擴(kuò)散過程中加入了掩碼潛模型,有效提高了對(duì)圖像中不同對(duì)象部分之間上下文關(guān)系的學(xué)習(xí)能力。

如圖12所示,MDT會(huì)在訓(xùn)練階段使用側(cè)插值進(jìn)行額外的掩碼token重建任務(wù),以提高訓(xùn)練效率,并學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入進(jìn)行推理。與DiT相比,MDT實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。

在另一項(xiàng)創(chuàng)新工作中,Diffusion Vision Transformers(DiffiT)采用了時(shí)間依賴的自注意力(TMSA)模塊來(lái)對(duì)采樣時(shí)間步驟上的動(dòng)態(tài)去噪行為進(jìn)行建模。

此外,DiffiT還采用了兩種混合分層架構(gòu),分別在像素空間和潛空間中進(jìn)行高效去噪,并在各種生成任務(wù)中實(shí)現(xiàn)了新的SOTA。

- 視頻Diffusion Transformer

由于視頻的時(shí)空特性,在這一領(lǐng)域應(yīng)用DiT所面臨的主要挑戰(zhàn)是:

(1)如何從空間和時(shí)間上將視頻壓縮到潛空間,以實(shí)現(xiàn)高效去噪;

(2)如何將壓縮潛空間轉(zhuǎn)換為patches,并將其輸入到Transformer中;

(3)如何處理長(zhǎng)距離的時(shí)空依賴性,并確保內(nèi)容的一致性。

Imagen Video是谷歌研究院開發(fā)的文本到視頻生成系統(tǒng),它利用級(jí)聯(lián)擴(kuò)散模型(由7個(gè)子模型組成,分別執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率)將文本提示轉(zhuǎn)化為高清視頻。

如圖13所示,首先,凍結(jié)的T5文本編碼器會(huì)根據(jù)輸入的文本提示生成上下文嵌入。隨后,嵌入信息被注入基礎(chǔ)模型,用于生成低分辨率視頻,然后通過級(jí)聯(lián)擴(kuò)散模型對(duì)其進(jìn)行細(xì)化,以提高分辨率。

圖片

Blattmann等人提出了一種創(chuàng)新方法,可以將2D潛擴(kuò)散模型(Latent Diffusion Model, LDM)轉(zhuǎn)換為視頻潛擴(kuò)散模型(Video Latent Diffusion Model, Video LDM)。

語(yǔ)言指令跟隨

模型指令調(diào)優(yōu)旨在增強(qiáng)AI模型準(zhǔn)確跟隨提示的能力。

為了提高文本到視頻模型跟隨文本指令的能力,Sora采用了與DALL-E 3類似的方法。

該方法涉及訓(xùn)練一個(gè)描述性字幕生成模型,并利用該模型生成的數(shù)據(jù)進(jìn)一步微調(diào)。

通過這種指令調(diào)優(yōu),Sora能夠滿足用戶的各種要求,確保對(duì)指令中的細(xì)節(jié)給予精確的關(guān)注,進(jìn)而生成的視頻能夠滿足用戶的需求。

提示工程

- 文本提示

文本提示對(duì)于指導(dǎo)Sora等文本到視頻模型,制作既具有視覺沖擊力,又能精確滿足用戶創(chuàng)建視頻需求至關(guān)重要。

這就需要制作詳細(xì)的說(shuō)明來(lái)指導(dǎo)模型,以效彌補(bǔ)人類創(chuàng)造力與AI執(zhí)行能力之間的差距。

Sora的提示涵蓋了廣泛的場(chǎng)景。

最近研究工作,如VoP、Make-A-Video和Tune-A-Video等,都展示了提示工程如何利用模型的NLP能力來(lái)解碼復(fù)雜指令,并將其呈現(xiàn)為連貫、生動(dòng)和高質(zhì)量的視頻敘事。

如圖15所示經(jīng)典Sora演示,「一個(gè)時(shí)髦的女人走在霓虹燈閃爍的東京街頭...... 」

提示中,包含了人物的動(dòng)作、設(shè)定、角色出場(chǎng),甚至是所期望的情緒,以及場(chǎng)景氛圍。

就是這樣一個(gè)精心制作的文本提示,它確保Sora生成的視頻與預(yù)期的視覺效果非常吻合。

提示工程的質(zhì)量取決于對(duì)詞語(yǔ)的精心選擇、所提供細(xì)節(jié)的具體性,以及對(duì)其對(duì)模型輸出影響的理解。

- 圖像提示

圖像提示就是要給生成的視頻內(nèi)容和其他元素(如人物、場(chǎng)景和情緒),提供一個(gè)視覺錨點(diǎn)。

此外,文字提示還可以指示模型將這些元素動(dòng)畫化,例如,添加動(dòng)作、互動(dòng)和敘事進(jìn)展等層次,使靜態(tài)圖像栩栩如生。

通過使用圖像提示,Sora可以利用視覺和文本信息將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)、由敘事驅(qū)動(dòng)的視頻。

在圖16中,展示了AI生成的視頻「一只頭戴貝雷帽、身穿高領(lǐng)毛衣的柴犬」、「一個(gè)獨(dú)特的怪物家族」、「一朵云組成了SORA一詞」,以及 「沖浪者在一座歷史悠久的大廳內(nèi)乘著巨浪」。

這些例子展示了通過DALL-E生成的圖像提示Sora可以實(shí)現(xiàn)的功能。

圖片

- 視頻提示

視頻提示也可用于視頻生成。

最近的研究,如Fast-Vid2Vid表明,好的視頻提示需要具體,且靈活。

圖片

這樣既能確保模型在特定目標(biāo)(如特定物體和視覺主題的描述)上獲得明確的指導(dǎo),又能在最終輸出中富有想象力的變化。

例如,在視頻擴(kuò)展任務(wù)中,提示可以指定擴(kuò)展的方向(時(shí)間向前或向后)和背景或主題。

在圖17(a)中,視頻提示指示Sora向后延伸一段視頻,以探索原始起點(diǎn)的事件。

(b)所示,在通過視頻提示執(zhí)行視頻到視頻的編輯時(shí),模型需要清楚地了解所需的轉(zhuǎn)換,例如改變視頻的風(fēng)格、場(chǎng)景或氛圍,或改變燈光或情緒等微妙的方面。

(c)中,提示指示Sora連接視頻,同時(shí)確保視頻中不同場(chǎng)景中的物體之間平滑過渡。

圖片

Sora對(duì)各行業(yè)的影響

最后,研究團(tuán)隊(duì)還針對(duì)Sora可能在電影、教育、游戲、醫(yī)療保健和機(jī)器人領(lǐng)域產(chǎn)生的影響做了預(yù)測(cè)。

隨著以Sora為代表的視頻擴(kuò)散模型成為前沿技術(shù),其在不同研究領(lǐng)域和行業(yè)的應(yīng)用正在迅速加速。

這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了單純的視頻創(chuàng)作,為從自動(dòng)內(nèi)容生成到復(fù)雜決策過程等任務(wù)提供了變革潛力。

電影

視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進(jìn)入了一個(gè)新時(shí)代,用簡(jiǎn)單的文本中自主制作電影的夢(mèng)想正在變?yōu)楝F(xiàn)實(shí)。

研究人員已經(jīng)涉足電影生成領(lǐng)域,將視頻生成模型擴(kuò)展到電影創(chuàng)作中。

比如使用MovieFactory,利用擴(kuò)散模型從ChatGPT制作的腳本中生成電影風(fēng)格的視頻,整個(gè)工作流已經(jīng)跑通了。

MobileVidFactory只需用戶提供簡(jiǎn)單的文本,就能自動(dòng)生成垂直移動(dòng)視頻。

圖片

而Sora能夠毫不費(fèi)力地讓用戶生成效果非常炸裂的電影片段,標(biāo)志著人人都能制作電影的時(shí)刻來(lái)臨了。

這會(huì)大大降低了電影行業(yè)的準(zhǔn)入門檻,并為電影制作引入了一個(gè)新的維度,將傳統(tǒng)的故事講述方式與人工智能驅(qū)動(dòng)的創(chuàng)造力融為一體。

這些AI的影響不僅僅是讓電影制作變得簡(jiǎn)單,還有可能重塑電影制作的格局,使其在面對(duì)不斷變化的觀眾喜好和發(fā)行渠道時(shí),變得更加容易獲得,用途更加廣泛。

機(jī)器人

人們都說(shuō),2024年是機(jī)器人元年。

正是因?yàn)榇竽P偷谋l(fā),再加上視頻模型的迭代升級(jí),讓機(jī)器人進(jìn)入了一個(gè)新時(shí)代——

生成和解釋復(fù)雜的視頻序列,感知和決策能力增強(qiáng)。

尤其,視頻擴(kuò)散模型釋放了機(jī)器人新能力,使其能夠與環(huán)境互動(dòng),并以前所未有的復(fù)雜度和精確度執(zhí)行任務(wù)。

將web-scale擴(kuò)散模型引入機(jī)器人技術(shù),展示了利用大規(guī)模LLM增強(qiáng)機(jī)器人視覺和理解能力的潛力。

比如,在DALL-E加持下的機(jī)器人,能夠準(zhǔn)確擺好餐盤。

另一種視頻預(yù)測(cè)新技術(shù)——潛在擴(kuò)散模型(Latent diffusion model。

它可以通過語(yǔ)言指導(dǎo),讓機(jī)器人能夠通過預(yù)測(cè)視頻中的動(dòng)作結(jié)果,來(lái)理解和執(zhí)行任務(wù)。

此外,機(jī)器人研究對(duì)環(huán)境模擬的依賴,可以通過視頻擴(kuò)散模型——能創(chuàng)建高度逼真的視頻序列來(lái)解決。

這樣一來(lái),就能為機(jī)器人生成多樣化的訓(xùn)練場(chǎng)景,打破真實(shí)世界數(shù)據(jù)匱乏所帶來(lái)的限制。

研究人員相信,將Sora等技術(shù)整合到機(jī)器人領(lǐng)域有望取得突破性發(fā)展。

利用Sora的強(qiáng)大功能,未來(lái)的機(jī)器人技術(shù)將取得前所未有的進(jìn)步,機(jī)器人可以無(wú)縫導(dǎo)航并與周圍環(huán)境進(jìn)行互動(dòng)。

另外,對(duì)于游戲、教育、醫(yī)療保健等行業(yè),AI視頻模型也將為此帶來(lái)深刻的變革。

最后,好消息是,Sora現(xiàn)在雖然還沒有開放功能,但我們可以申請(qǐng)紅隊(duì)測(cè)試。

圖片

從申請(qǐng)表中可以看出,OpenAI正在尋找以下認(rèn)知科學(xué)、化學(xué)、生物、物理、計(jì)算機(jī)、經(jīng)濟(jì)學(xué)等領(lǐng)域的專家。

圖片

符合條件的同學(xué),可以上手申請(qǐng)了!

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-02-19 14:03:38

數(shù)據(jù)訓(xùn)練

2024-12-20 14:37:47

2024-02-19 09:10:46

OpenAISora功能

2022-07-15 10:37:22

AI研究數(shù)據(jù)

2024-04-28 08:50:00

模型數(shù)據(jù)

2024-12-18 07:15:00

2024-02-20 13:09:00

AI視頻

2024-02-23 15:53:13

OpenAISora人工智能

2024-02-22 08:00:00

SoraOpenAI

2024-06-20 13:44:48

OpenAIV2A模型

2024-03-22 13:05:23

數(shù)據(jù)訓(xùn)練

2024-02-19 07:58:01

OpenAI模型GPT

2025-03-05 11:23:44

2024-02-21 23:11:19

2024-02-28 16:14:28

2024-03-27 18:19:26

OpenAIChatGPT數(shù)據(jù)

2024-03-25 00:30:00

AI框架

2024-02-26 16:55:51

Sora人工智能

2024-02-19 09:19:54

OpenAIAI模型人工智能

2023-12-16 09:45:56

論文GPT-4AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)