中國(guó)如何復(fù)刻Sora,華人團(tuán)隊(duì)長(zhǎng)文解構(gòu)!996 OpenAI研究員:Sora是視頻GPT-2時(shí)刻
今天,這張圖在AI社區(qū)熱轉(zhuǎn)。
它列舉了一眾文生視頻模型的誕生時(shí)間、架構(gòu)和作者機(jī)構(gòu)。
毫不意外,谷歌依然是視頻模型開山之作的作者。不過如今AI視頻的聚光燈,全被Sora搶去了。
同時(shí),自曝996作息時(shí)間表的OpenAI研究員Jason Wei表示——
「Sora是一個(gè)里程碑,代表著視頻生成的GPT-2時(shí)刻。」
對(duì)于文字生成領(lǐng)域,GPT-2無(wú)疑是一個(gè)分水嶺。2018年GPT-2的推出,標(biāo)志著能夠生成連貫、語(yǔ)法正確的文本段落的新時(shí)代。
當(dāng)然,GPT-2也難以完成一篇完整無(wú)誤的文章,會(huì)出現(xiàn)邏輯不一致或捏造事實(shí)的情況。但是,它為后續(xù)的模型發(fā)展奠定了基礎(chǔ)。
在不到五年內(nèi),GPT-4已經(jīng)能夠執(zhí)行串聯(lián)思維這種復(fù)雜任務(wù),或者寫出一篇長(zhǎng)文章,過程中并不會(huì)捏造事實(shí)。
而今天,Sora已經(jīng)也意味著這樣的時(shí)刻。
它能創(chuàng)作出既有藝術(shù)感又逼真的短視頻。雖然還不能創(chuàng)作出長(zhǎng)達(dá)40分鐘的電視劇,但角色的一致性和故事性已經(jīng)非常引人入勝!
Jason Wei相信,在Sora以及未來(lái)的視頻生成模型中,保持長(zhǎng)期一致性、近乎完美的逼真度、創(chuàng)作有深度的故事情節(jié)這些能力,都會(huì)逐漸成型。
Sora會(huì)顛覆好萊塢嗎?它離電影大片還有多遠(yuǎn)?
好萊塢知名導(dǎo)演Tyler Perry在看到Sora生成的視頻后,大為震驚,決定撤掉自己亞特蘭大工作室耗資8億美元的擴(kuò)建計(jì)劃。
因?yàn)橐院笈臄z的大片中,可能不需要找取景地,或者搭建實(shí)景了。
所以,Sora會(huì)顛覆電影產(chǎn)業(yè)嗎?Jason Wei表示,它就像現(xiàn)在的GPT-4一樣,可以作為一種輔助工具提升作品質(zhì)量,所以距離專業(yè)的電影制作還有一段距離。
而現(xiàn)在,視頻和文本的最大區(qū)別就是,前者的信息密度較低,所以在視頻推理等技能的學(xué)習(xí)上,就會(huì)需要大量的算力和數(shù)據(jù)。
因此,高質(zhì)量視頻數(shù)據(jù)的競(jìng)爭(zhēng)會(huì)非常激烈!就像現(xiàn)在各家都在爭(zhēng)搶高質(zhì)量的文本數(shù)據(jù)集。
另外,將視頻與其他信息模式結(jié)合起來(lái),作為學(xué)習(xí)過程的輔助信息將極為關(guān)鍵。
并且在未來(lái),擁有視頻處理經(jīng)驗(yàn)的AI研究人員會(huì)變得非常搶手!不過,他們也需要像傳統(tǒng)的自然語(yǔ)言處理研究者那樣,適應(yīng)新的技術(shù)發(fā)展趨勢(shì)。
沒有中間物理模型,但已具備革命性
OpenAI的TikTok賬號(hào),還在不斷放出Sora的新作品。
Sora離好萊塢大片距離還有多遠(yuǎn)?讓我們來(lái)看看這個(gè)電影中經(jīng)常出現(xiàn)的場(chǎng)景——瓢潑大雨中,一輛車在夜色中飛速穿過城市街道。
A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives
再比如,Sora生成的工地上,叉車、挖掘機(jī)、腳手架和建筑工人們也都十分逼真。
并且,它還拍出了微型攝影的效果,讓一切都看起來(lái)像一個(gè)縮影。
當(dāng)然,仔細(xì)看,畫面還會(huì)存在一些問題。
比如一個(gè)人會(huì)突然分裂成好幾個(gè)人。
或者,一個(gè)人忽然變成了另一個(gè)。
AI公司創(chuàng)始人swyx總結(jié)說(shuō),根本原因還是因?yàn)镾ora沒有中間物理模型,這完全是LeCun所提世界模型的對(duì)立面。
不過,它依然為電影制作流程創(chuàng)造了質(zhì)的飛躍,大大降低了成本。
雖然Runway可以實(shí)現(xiàn)類似功能,但Sora將一切都提升到了一個(gè)新的水平。
以下是Sora和Pika、Runway Gen-2、AnimateDiff和LeonardoAI的比較。
人人都能拍自己的電影
在不久的將來(lái),或許我們每個(gè)人都可以在幾分鐘內(nèi)生成自己的電影了。
比如,我們可以用ChatGPT幫忙寫出劇本,然后用Sora進(jìn)行文字轉(zhuǎn)視頻。在未來(lái),Sora一定會(huì)突破60s的時(shí)間限制。
想象一下,在你的腦海里拍出一部從未存在過的電影,是什么感覺
或者,我們可以用Dall-E或者M(jìn)idjourney生成圖像,然后用Sora生成視頻。
D-ID可以讓角色的嘴部、身體動(dòng)作和所說(shuō)的臺(tái)詞保持一致。
此前風(fēng)靡全網(wǎng)的《哈利波特》巴黎世家時(shí)尚大片
ElevenLabs,可以為視頻中的角色配音,增強(qiáng)視頻的情感沖擊力,創(chuàng)造視覺和聽覺敘事的無(wú)縫融合。
做自己的大片,就是這么簡(jiǎn)單!
可惜的是,Sora的訓(xùn)練成本大概要千萬(wàn)美元級(jí)別。
去年ChatGPT發(fā)布后,一下子涌現(xiàn)出千模大戰(zhàn)的盛況。而這次Sora距離誕生已有半個(gè)月了,各家公司仍然毫無(wú)動(dòng)靜。
中國(guó)公司該如何復(fù)刻Sora?
恰恰在最近,華人團(tuán)隊(duì)也發(fā)布了非常詳細(xì)的Sora分析報(bào)告,或許能給這個(gè)問題一些啟發(fā)。
華人團(tuán)隊(duì)逆向工程分析Sora
最近,來(lái)自理海大學(xué)的華人團(tuán)隊(duì)和微軟副總裁高劍峰博士,聯(lián)合發(fā)布了一篇長(zhǎng)達(dá)37頁(yè)的分析論文。
通過分析公開的技術(shù)報(bào)告和對(duì)模型的逆向工程研究,全面審視了Sora的開發(fā)背景、所依賴的技術(shù)、其在各行業(yè)的應(yīng)用前景、目前面臨的挑戰(zhàn),以及文本轉(zhuǎn)視頻技術(shù)的未來(lái)趨勢(shì)。
其中,論文主要針對(duì)Sora的開發(fā)歷程和構(gòu)建這一「虛擬世界模擬器」的關(guān)鍵技術(shù)進(jìn)行了研究,并深入探討了Sora在電影制作、教育、營(yíng)銷等領(lǐng)域的應(yīng)用潛力及其可能帶來(lái)的影響。
論文地址:https://arxiv.org/abs/2402.17177
項(xiàng)目地址:https://github.com/lichao-sun/SoraReview
如圖2所示,Sora能夠表現(xiàn)出精準(zhǔn)地理解和執(zhí)行復(fù)雜人類指令的能力。
而在制作能夠細(xì)致展現(xiàn)運(yùn)動(dòng)和互動(dòng)的長(zhǎng)視頻方面,Sora也取得了長(zhǎng)足的進(jìn)展,突破了以往視頻生成技術(shù)在視頻長(zhǎng)度和視覺表現(xiàn)上的限制。這種能力標(biāo)志著AI創(chuàng)意工具的重大飛躍,使得用戶能將文字?jǐn)⑹鲛D(zhuǎn)化為生動(dòng)的視覺故事。
研究人員認(rèn)為,Sora之所以能達(dá)到這種高水平,不僅是因?yàn)樗芴幚碛脩糨斎氲奈谋?,還因?yàn)樗芾斫鈭?chǎng)景中各個(gè)元素復(fù)雜的相互關(guān)系。
如圖3所示,過去十年里,生成式計(jì)算機(jī)視覺(CV)技術(shù)的發(fā)展路徑十分多樣,尤其是在Transformer架構(gòu)成功應(yīng)用于自然語(yǔ)言處理(NLP)之后,變化顯著。
研究人員通過將Transformer架構(gòu)與視覺組件相結(jié)合,推動(dòng)了其在視覺任務(wù)中的應(yīng)用,比如開創(chuàng)性的視覺Transformer(ViT)和Swin Transformer。
與此同時(shí),擴(kuò)散模型在圖像與視頻生成領(lǐng)域也取得了突破,它們通過U-Net技術(shù)將噪聲轉(zhuǎn)化為圖像,展示了數(shù)學(xué)上的創(chuàng)新方法。
從2021年開始,AI領(lǐng)域的研究重點(diǎn),便來(lái)到了那些能夠理解人類指令的語(yǔ)言和視覺生成模型,即多模態(tài)模型。
隨著ChatGPT的發(fā)布,我們?cè)?023年看到了諸如Stable Diffusion、Midjourney、DALL-E 3等商業(yè)文本到圖像產(chǎn)品的涌現(xiàn)。
然而,由于視頻本身具有的時(shí)間復(fù)雜性,目前大多數(shù)生成工具僅能制作幾秒鐘的短視頻。
在這一背景下,Sora的出現(xiàn)象征著一個(gè)重大突破——它是第一個(gè)能夠根據(jù)人類指令生成長(zhǎng)達(dá)一分鐘視頻的模型,其意義可與ChatGPT在NLP領(lǐng)域的影響相媲美。
如圖4所示,Sora的核心是一個(gè)可以靈活地處理不同維度數(shù)據(jù)的Diffusion Transformer,其主要由三個(gè)部分組成:
1. 首先,時(shí)空壓縮器會(huì)把原始視頻轉(zhuǎn)映射到潛空間中。
2. 接著,視覺Transformer(ViT)模型會(huì)對(duì)已經(jīng)被分詞的潛表征進(jìn)行處理,并輸出去除噪聲后的潛表征。
3. 最后,一個(gè)與CLIP模型類似的系統(tǒng)根據(jù)用戶的指令(已經(jīng)通過大語(yǔ)言模型進(jìn)行了增強(qiáng))和潛視覺提示,引導(dǎo)擴(kuò)散模型生成具有特定風(fēng)格或主題的視頻。在經(jīng)過多次去噪處理之后,會(huì)得到生成視頻的潛表征,然后通過相應(yīng)的解碼器映射回像素空間。
數(shù)據(jù)預(yù)處理
- 可變的持續(xù)時(shí)間、分辨率和高寬比
如圖5所示,Sora的一大特色是它能夠處理、理解并生成各種大小的視頻和圖片,從寬屏的1920x1080p視頻到豎屏的1080x1920p視頻,應(yīng)有盡有。
如圖6所示,與那些僅在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的模型相比,Sora制作的視頻展示了更好的畫面布局,確保視頻場(chǎng)景中的主體被完整捕捉,避免了因正方形裁剪而造成的畫面有時(shí)被截?cái)嗟膯栴}。
Sora對(duì)視頻和圖片特征的精細(xì)理解和保留,在生成模型領(lǐng)域是一個(gè)重大的進(jìn)步。
它不僅展現(xiàn)了生成更真實(shí)和吸引人的視頻的可能性,還突出了訓(xùn)練數(shù)據(jù)的多樣性對(duì)生成式AI取得高質(zhì)量結(jié)果的重要性。
- 統(tǒng)一的視覺表征
為了有效處理各種各樣的視覺輸入,比如不同長(zhǎng)度、清晰度和畫面比例的圖片和視頻,一個(gè)重要的方法是把這些視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表征。這樣做還有利于對(duì)生成模型進(jìn)行大規(guī)模的訓(xùn)練。
具體來(lái)說(shuō),Sora首先將視頻壓縮到「低維潛空間」,然后再將表征分解成「時(shí)空patches」。
- 視頻壓縮網(wǎng)絡(luò)
如圖7所示,Sora的視頻壓縮網(wǎng)絡(luò)(或視覺編碼器)的目標(biāo)是降低輸入數(shù)據(jù)的維度,并輸出經(jīng)過時(shí)空壓縮的潛表征。
技術(shù)報(bào)告中的參考文獻(xiàn)顯示,這種壓縮技術(shù)是VAE或矢量量化-VAE(VQ-VAE)基礎(chǔ)上的。然而,根據(jù)報(bào)告,如果不進(jìn)行圖像的大小調(diào)整和裁剪,VAE很難將不同尺寸的視覺數(shù)據(jù)映射到一個(gè)統(tǒng)一且大小固定的潛空間中。
針對(duì)這個(gè)問題,研究人員探討了兩種可能的技術(shù)實(shí)現(xiàn)方案:
1. 空間patches壓縮
這一過程需要將視頻幀轉(zhuǎn)換成固定大小的patches,與ViT和MAE模型采用的方法相似(如圖8所示),然后再將其編碼到潛空間中。
通過這種方式,模型可以高效地處理具有不同分辨率和寬高比的視頻,因?yàn)樗芡ㄟ^分析這些patches來(lái)理解整個(gè)視頻幀的內(nèi)容。接下來(lái),這些空間Token會(huì)按時(shí)間順序排列,形成空間-時(shí)間潛表征。
2. 空間-時(shí)間patches壓縮
這種技術(shù)包含了視頻數(shù)據(jù)的空間和時(shí)間維度,不僅考慮了視頻畫面的靜態(tài)細(xì)節(jié),還關(guān)注了畫面之間的運(yùn)動(dòng)和變化,從而全面捕捉視頻的動(dòng)態(tài)特性。利用三維卷積是實(shí)現(xiàn)這種整合的直接而有效的方法
- 潛空間patches
在壓縮網(wǎng)絡(luò)部分還有一個(gè)關(guān)鍵問題:在將patches送入Diffusion Transformer的輸入層之前,如何處理潛空間維度的變化(即不同視頻類型的潛特征塊或patches的數(shù)量)。
根據(jù)Sora的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn),patch n' pack(PNP)很可能是一種解決方案。
如圖10所示,PNP將來(lái)自不同圖像的多個(gè)patches打包在一個(gè)序列中。
在這里,patch化和token嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成,但Sora可能會(huì)像Diffusion Transformer那樣,進(jìn)一步將潛在的patch化為Transformer token。
- Diffusion Transformer
建模
- 圖像Diffusion Transformer
DiT和U-ViT是最早將視覺Transformers用于潛在擴(kuò)散模型的工作之一。與ViT一樣,DiT也采用多頭自注意力層和點(diǎn)卷積前饋網(wǎng)絡(luò),交錯(cuò)一些層歸一化和縮放層。
此外,DiT還通過自適應(yīng)層歸一化(AdaLN)并增加了一個(gè)額外的MLP層進(jìn)行零初始化,這樣初始化每個(gè)殘差塊為恒等函數(shù),從而極大地穩(wěn)定了訓(xùn)練過程。
U-ViT將所有輸入,包括時(shí)間、條件和噪聲圖像patches,都視為token,并提出了淺層和深層Transformer層之間的長(zhǎng)跳躍連接。結(jié)果表明,U-ViT在圖像和文本到圖像生成中取得了破紀(jì)錄的FID分?jǐn)?shù)。
類似于掩碼自編碼器(MAE)的方法,掩碼擴(kuò)散Transformer(MDT)也在擴(kuò)散過程中加入了掩碼潛模型,有效提高了對(duì)圖像中不同對(duì)象部分之間上下文關(guān)系的學(xué)習(xí)能力。
如圖12所示,MDT會(huì)在訓(xùn)練階段使用側(cè)插值進(jìn)行額外的掩碼token重建任務(wù),以提高訓(xùn)練效率,并學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入進(jìn)行推理。與DiT相比,MDT實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。
在另一項(xiàng)創(chuàng)新工作中,Diffusion Vision Transformers(DiffiT)采用了時(shí)間依賴的自注意力(TMSA)模塊來(lái)對(duì)采樣時(shí)間步驟上的動(dòng)態(tài)去噪行為進(jìn)行建模。
此外,DiffiT還采用了兩種混合分層架構(gòu),分別在像素空間和潛空間中進(jìn)行高效去噪,并在各種生成任務(wù)中實(shí)現(xiàn)了新的SOTA。
- 視頻Diffusion Transformer
由于視頻的時(shí)空特性,在這一領(lǐng)域應(yīng)用DiT所面臨的主要挑戰(zhàn)是:
(1)如何從空間和時(shí)間上將視頻壓縮到潛空間,以實(shí)現(xiàn)高效去噪;
(2)如何將壓縮潛空間轉(zhuǎn)換為patches,并將其輸入到Transformer中;
(3)如何處理長(zhǎng)距離的時(shí)空依賴性,并確保內(nèi)容的一致性。
Imagen Video是谷歌研究院開發(fā)的文本到視頻生成系統(tǒng),它利用級(jí)聯(lián)擴(kuò)散模型(由7個(gè)子模型組成,分別執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率)將文本提示轉(zhuǎn)化為高清視頻。
如圖13所示,首先,凍結(jié)的T5文本編碼器會(huì)根據(jù)輸入的文本提示生成上下文嵌入。隨后,嵌入信息被注入基礎(chǔ)模型,用于生成低分辨率視頻,然后通過級(jí)聯(lián)擴(kuò)散模型對(duì)其進(jìn)行細(xì)化,以提高分辨率。
Blattmann等人提出了一種創(chuàng)新方法,可以將2D潛擴(kuò)散模型(Latent Diffusion Model, LDM)轉(zhuǎn)換為視頻潛擴(kuò)散模型(Video Latent Diffusion Model, Video LDM)。
語(yǔ)言指令跟隨
模型指令調(diào)優(yōu)旨在增強(qiáng)AI模型準(zhǔn)確跟隨提示的能力。
為了提高文本到視頻模型跟隨文本指令的能力,Sora采用了與DALL-E 3類似的方法。
該方法涉及訓(xùn)練一個(gè)描述性字幕生成模型,并利用該模型生成的數(shù)據(jù)進(jìn)一步微調(diào)。
通過這種指令調(diào)優(yōu),Sora能夠滿足用戶的各種要求,確保對(duì)指令中的細(xì)節(jié)給予精確的關(guān)注,進(jìn)而生成的視頻能夠滿足用戶的需求。
提示工程
- 文本提示
文本提示對(duì)于指導(dǎo)Sora等文本到視頻模型,制作既具有視覺沖擊力,又能精確滿足用戶創(chuàng)建視頻需求至關(guān)重要。
這就需要制作詳細(xì)的說(shuō)明來(lái)指導(dǎo)模型,以效彌補(bǔ)人類創(chuàng)造力與AI執(zhí)行能力之間的差距。
Sora的提示涵蓋了廣泛的場(chǎng)景。
最近研究工作,如VoP、Make-A-Video和Tune-A-Video等,都展示了提示工程如何利用模型的NLP能力來(lái)解碼復(fù)雜指令,并將其呈現(xiàn)為連貫、生動(dòng)和高質(zhì)量的視頻敘事。
如圖15所示經(jīng)典Sora演示,「一個(gè)時(shí)髦的女人走在霓虹燈閃爍的東京街頭...... 」
提示中,包含了人物的動(dòng)作、設(shè)定、角色出場(chǎng),甚至是所期望的情緒,以及場(chǎng)景氛圍。
就是這樣一個(gè)精心制作的文本提示,它確保Sora生成的視頻與預(yù)期的視覺效果非常吻合。
提示工程的質(zhì)量取決于對(duì)詞語(yǔ)的精心選擇、所提供細(xì)節(jié)的具體性,以及對(duì)其對(duì)模型輸出影響的理解。
- 圖像提示
圖像提示就是要給生成的視頻內(nèi)容和其他元素(如人物、場(chǎng)景和情緒),提供一個(gè)視覺錨點(diǎn)。
此外,文字提示還可以指示模型將這些元素動(dòng)畫化,例如,添加動(dòng)作、互動(dòng)和敘事進(jìn)展等層次,使靜態(tài)圖像栩栩如生。
通過使用圖像提示,Sora可以利用視覺和文本信息將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)、由敘事驅(qū)動(dòng)的視頻。
在圖16中,展示了AI生成的視頻「一只頭戴貝雷帽、身穿高領(lǐng)毛衣的柴犬」、「一個(gè)獨(dú)特的怪物家族」、「一朵云組成了SORA一詞」,以及 「沖浪者在一座歷史悠久的大廳內(nèi)乘著巨浪」。
這些例子展示了通過DALL-E生成的圖像提示Sora可以實(shí)現(xiàn)的功能。
- 視頻提示
視頻提示也可用于視頻生成。
最近的研究,如Fast-Vid2Vid表明,好的視頻提示需要具體,且靈活。
這樣既能確保模型在特定目標(biāo)(如特定物體和視覺主題的描述)上獲得明確的指導(dǎo),又能在最終輸出中富有想象力的變化。
例如,在視頻擴(kuò)展任務(wù)中,提示可以指定擴(kuò)展的方向(時(shí)間向前或向后)和背景或主題。
在圖17(a)中,視頻提示指示Sora向后延伸一段視頻,以探索原始起點(diǎn)的事件。
(b)所示,在通過視頻提示執(zhí)行視頻到視頻的編輯時(shí),模型需要清楚地了解所需的轉(zhuǎn)換,例如改變視頻的風(fēng)格、場(chǎng)景或氛圍,或改變燈光或情緒等微妙的方面。
(c)中,提示指示Sora連接視頻,同時(shí)確保視頻中不同場(chǎng)景中的物體之間平滑過渡。
Sora對(duì)各行業(yè)的影響
最后,研究團(tuán)隊(duì)還針對(duì)Sora可能在電影、教育、游戲、醫(yī)療保健和機(jī)器人領(lǐng)域產(chǎn)生的影響做了預(yù)測(cè)。
隨著以Sora為代表的視頻擴(kuò)散模型成為前沿技術(shù),其在不同研究領(lǐng)域和行業(yè)的應(yīng)用正在迅速加速。
這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了單純的視頻創(chuàng)作,為從自動(dòng)內(nèi)容生成到復(fù)雜決策過程等任務(wù)提供了變革潛力。
電影
視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進(jìn)入了一個(gè)新時(shí)代,用簡(jiǎn)單的文本中自主制作電影的夢(mèng)想正在變?yōu)楝F(xiàn)實(shí)。
研究人員已經(jīng)涉足電影生成領(lǐng)域,將視頻生成模型擴(kuò)展到電影創(chuàng)作中。
比如使用MovieFactory,利用擴(kuò)散模型從ChatGPT制作的腳本中生成電影風(fēng)格的視頻,整個(gè)工作流已經(jīng)跑通了。
MobileVidFactory只需用戶提供簡(jiǎn)單的文本,就能自動(dòng)生成垂直移動(dòng)視頻。
而Sora能夠毫不費(fèi)力地讓用戶生成效果非常炸裂的電影片段,標(biāo)志著人人都能制作電影的時(shí)刻來(lái)臨了。
這會(huì)大大降低了電影行業(yè)的準(zhǔn)入門檻,并為電影制作引入了一個(gè)新的維度,將傳統(tǒng)的故事講述方式與人工智能驅(qū)動(dòng)的創(chuàng)造力融為一體。
這些AI的影響不僅僅是讓電影制作變得簡(jiǎn)單,還有可能重塑電影制作的格局,使其在面對(duì)不斷變化的觀眾喜好和發(fā)行渠道時(shí),變得更加容易獲得,用途更加廣泛。
機(jī)器人
人們都說(shuō),2024年是機(jī)器人元年。
正是因?yàn)榇竽P偷谋l(fā),再加上視頻模型的迭代升級(jí),讓機(jī)器人進(jìn)入了一個(gè)新時(shí)代——
生成和解釋復(fù)雜的視頻序列,感知和決策能力增強(qiáng)。
尤其,視頻擴(kuò)散模型釋放了機(jī)器人新能力,使其能夠與環(huán)境互動(dòng),并以前所未有的復(fù)雜度和精確度執(zhí)行任務(wù)。
將web-scale擴(kuò)散模型引入機(jī)器人技術(shù),展示了利用大規(guī)模LLM增強(qiáng)機(jī)器人視覺和理解能力的潛力。
比如,在DALL-E加持下的機(jī)器人,能夠準(zhǔn)確擺好餐盤。
另一種視頻預(yù)測(cè)新技術(shù)——潛在擴(kuò)散模型(Latent diffusion model。
它可以通過語(yǔ)言指導(dǎo),讓機(jī)器人能夠通過預(yù)測(cè)視頻中的動(dòng)作結(jié)果,來(lái)理解和執(zhí)行任務(wù)。
此外,機(jī)器人研究對(duì)環(huán)境模擬的依賴,可以通過視頻擴(kuò)散模型——能創(chuàng)建高度逼真的視頻序列來(lái)解決。
這樣一來(lái),就能為機(jī)器人生成多樣化的訓(xùn)練場(chǎng)景,打破真實(shí)世界數(shù)據(jù)匱乏所帶來(lái)的限制。
研究人員相信,將Sora等技術(shù)整合到機(jī)器人領(lǐng)域有望取得突破性發(fā)展。
利用Sora的強(qiáng)大功能,未來(lái)的機(jī)器人技術(shù)將取得前所未有的進(jìn)步,機(jī)器人可以無(wú)縫導(dǎo)航并與周圍環(huán)境進(jìn)行互動(dòng)。
另外,對(duì)于游戲、教育、醫(yī)療保健等行業(yè),AI視頻模型也將為此帶來(lái)深刻的變革。
最后,好消息是,Sora現(xiàn)在雖然還沒有開放功能,但我們可以申請(qǐng)紅隊(duì)測(cè)試。
從申請(qǐng)表中可以看出,OpenAI正在尋找以下認(rèn)知科學(xué)、化學(xué)、生物、物理、計(jì)算機(jī)、經(jīng)濟(jì)學(xué)等領(lǐng)域的專家。
符合條件的同學(xué),可以上手申請(qǐng)了!