撰文&編譯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
AI視頻生成模型仍然熱鬧不斷!
上一周,Pika支持音效同步生成功能,終于實現(xiàn)了音頻、視頻“一鍋出”;看國內(nèi),阿里在推出令人驚艷的EMO框架后,再發(fā)圖像轉(zhuǎn)視頻模型AtomoVideo,一張海報就能生成吸睛的時尚大片。
Sora團(tuán)隊的最新采訪中,團(tuán)隊領(lǐng)導(dǎo)者Bill Peebles、Aditya Ramesh和Tim Brooks做客科技博客WVFRM Podcast,分享了他們對Sora獲得全球關(guān)注的感受并透露了正在努力的方向。
在采訪中,他們也被問到Sora是否會跟進(jìn)音效生成功能,團(tuán)隊負(fù)責(zé)人委婉表示,一鍋出是很好——但我們先專注做好視頻再說吧!
劃重點:
- Sora訓(xùn)練的一個創(chuàng)新之處是使用了多樣化的視頻數(shù)據(jù),這使得Sora能夠靈活生成不同尺寸和分辨率的視頻。
- 盡管Sora在視頻逼真度上取得突破,但在處理復(fù)雜物理現(xiàn)象和細(xì)節(jié)上仍有待提高。
- Sora團(tuán)隊把提高用戶對視頻生成細(xì)節(jié)的控制能力作為未來努力的方向,以探索AI視頻生成技術(shù)的新突破。
- 面對AI視頻生成可能帶來的社會挑戰(zhàn),Sora團(tuán)隊正在探索如何通過技術(shù)手段(如來源分類器)來幫助識別AI生成的視頻,并且計劃在短期內(nèi)不向公眾開放使用。
圖片
以下為Sora團(tuán)隊在WVFRM Podcast的對話整理:
WVFRM Podcast:我看了Sora的技術(shù)報告,還有你們提供的示例視頻,留下了非常深刻的印象。你能否非常簡潔地解釋,Sora究竟是如何工作的嗎?
Sora:概括性地說,Sora是一個生成模型。過去幾年里,涌現(xiàn)了許多非??岬纳赡P停瑥腉PT這樣的語言模型到DALL·E這樣的圖像生成模型。Sora是一個視頻生成模型,它通過查看大量視頻數(shù)據(jù)并學(xué)習(xí)以完全相同的方式生成逼真的視頻。
它實際上結(jié)合了像DALL·E這樣的基于擴(kuò)散模型的技術(shù),以及像GPT這樣的語言模型技術(shù)。它在訓(xùn)練上類似于DALL·E,但在架構(gòu)上更像GPT。但從高層次上講,它只是被訓(xùn)練來生成現(xiàn)實世界和數(shù)字世界的視頻,以及各種內(nèi)容。
WVFRM Podcast:就像生成模型一樣,Sora基于訓(xùn)練數(shù)據(jù)可以創(chuàng)造非常多的東西。Sora是用什么訓(xùn)練的?
Sora:我們不能透露太多細(xì)節(jié),但它是基于公開可用的數(shù)據(jù)以及OpenAI授權(quán)數(shù)據(jù)進(jìn)行組合訓(xùn)練的。我們在創(chuàng)建Sora時的一個創(chuàng)新是使其訓(xùn)練不同時長、不同寬高比和分辨率的視頻。這真的很新穎。
以前在訓(xùn)練圖像或視頻生成模型時,人們通常會在非常固定的(素材)尺寸上訓(xùn)練,例如只有一個分辨率。但我們做的是,我們接受各種寬高比、高分辨率、低分辨率的圖像和視頻,并將它們都變成小塊,我們稱之為補丁,然后我們能夠根據(jù)輸入的大小訓(xùn)練不同數(shù)量的補丁的視頻。這使我們的模型能夠非常靈活地訓(xùn)練更多樣化的數(shù)據(jù),并且能夠用于生成不同分辨率和大小的內(nèi)容。
WVFRM Podcast:你們對Sora的使用、構(gòu)建和優(yōu)化已經(jīng)有一段時間了,顯然視頻中有很多反應(yīng),比如我制作視頻,我知道有光線反射、各種物理現(xiàn)象和物體移動等。你們發(fā)現(xiàn)Sora在當(dāng)前狀態(tài)下擅長什么,或者有哪些特定的弱點,比如我稍后會展示的視頻(下圖),其中一只手上有六個手指。
圖片
Sora:Sora在(生成視頻的)逼真度方面確實取得了很大的進(jìn)步,(并且)視頻可以非常長,長達(dá)一分鐘,這確實是從以前的生成視頻工具中邁出的一大步。
但它仍然在一些方面存在困難,比如你提到的手部,以及一些物理方面。例如,在prompt里要求生成一個3D打印機,你可以看到它并沒有完全做對。
圖片
WVFRM Podcast:Sora做得好的地方真的很有趣,就像你說的那樣,(Sora生成的視頻)有很好的逼真度,光線和反射,甚至是特寫和紋理。
不過,這些視頻中沒有聲音,我非常好奇,添加聲音到這些視頻中是否比想象的更復(fù)雜,你覺得離能夠同步生成聲音的AI視頻還有多遠(yuǎn)?
Sora:很難給出這類事情的確切的時間線。對于Sora,我們真的很專注于推動視頻生成模型的能力向前發(fā)展。在此之前,很多AI生成的視頻只有四秒鐘,幀率相當(dāng)?shù)?,質(zhì)量也不好。
所以目前為止,我們的大部分努力都在(視頻生成能力)這里。我們同意,添加音頻內(nèi)容會使視頻更具沉浸感。所以,這是我們肯定在考慮的事情。但現(xiàn)在Sora主要是一個視頻生成模型,我們專注于推動這一領(lǐng)域內(nèi)的能力。
WVFRM Podcast:DALL·E隨著時間的推移已經(jīng)改進(jìn)了很多,它在很多方面的表現(xiàn)都提高了。你們也一直在不斷地努力使Sora變得更好。
Sora需要達(dá)到什么樣的標(biāo)準(zhǔn),(才會讓)你們覺得它已經(jīng)足夠好,可以向用戶公開使用了?我們期待有一個MIC drop(編者注:指把話筒故意脫手掉到地上以示演出結(jié)束)時刻,(在這之后)你們?nèi)绾未_定繼續(xù)努力的方向,讓Sora變得更好?
Sora:我們以博客文章形式發(fā)布Sora的主要動機,就是獲取反饋,以了解Sora對人們?nèi)绾斡杏?,以及需要進(jìn)行哪些安全工作,這將真正(幫助)我們設(shè)定研究路線圖。
但是它目前還不是一個(成熟的)產(chǎn)品。它還沒有在ChatGPT或其他任何地方可用,我們甚至沒有將其轉(zhuǎn)化為產(chǎn)品的時間線,現(xiàn)在我們正處于獲取反饋的階段。
所以我們肯定會改進(jìn)它,但我們應(yīng)該如何改進(jìn)它還是一個待解決的問題,我們想讓世界看到這個即將到來的技術(shù)。我們聽取人們的意見,Sora對用戶來說有什么用?聽取安全專家的意見,我們?nèi)绾问筍ora對世界(來說是)安全(的)?開始聽取一些藝術(shù)家的意見,這在你們的工作流程中有什么用?這真的將設(shè)定我們優(yōu)化Sora的工作。
WVFRM Podcast:那么你們接下來有什么計劃?
Sora:我們確實收到了一些反饋,人們對于更進(jìn)一步地控制(視頻中的)細(xì)節(jié)非常感興趣。所以這將是一個有趣的發(fā)展方向。目前,你可能只有一個相當(dāng)簡短的提示,但人們真的對(未來)生成的視頻有更多控制感興趣。
WVFRM Podcast:很有趣。我可以想象,例如想生成寬屏的(視頻),或者垂直的(視頻),或者(視頻中的)光線充足,類似的東西,這樣就不用擔(dān)心提示工程(prompt engineering)。
你們已經(jīng)研究生成視頻模型很長時間了,在未來,是否可以生成一個與真實視頻無法區(qū)分的AI視頻?因為這就是DALL·E隨著時間推移的進(jìn)化方式——它可以制作出來一個非常逼真的圖片。(AI生成的視頻與真實視頻沒有差別)你認(rèn)為這是實際上可能的事情嗎?
Sora:我認(rèn)為這最終是可能的。當(dāng)然,隨著我們接近這一點,我們希望更謹(jǐn)慎地公開這些能力,以便社交媒體上的人能知道一個視頻基本上是真實的還是假的,以及(確認(rèn))他們看到的視頻來自一個可信的來源。我們希望確保(AI視頻生成)能力不會被用于可能持續(xù)傳播誤導(dǎo)信息的場景。
WVFRM Podcast:Sora生成的視頻的右下角有一個水印,這顯然非常重要,但這樣的水印可以被裁剪。我很好奇,你們是否考慮過其他方法,可以輕松識別AI生成的視頻,特別是像Sora這樣(非常逼真)的工具?
Sora:是的,對于DALL·E-3,我們訓(xùn)練了來源分類器,可以判斷一個圖像是否由模型生成,或者給定的圖像是否由模型生成。我們正在努力將這項技術(shù)適應(yīng)到我們的視頻模型中,這不會是一個完整的解決方案,但這是一個開始。
WVFRM Podcast:明白了,有點像元數(shù)據(jù),或者像一種嵌入式的旗幟。如果你處理這個文件,你知道它是AI生成的。
Sora:我們訓(xùn)練的分類器可以運行在任何圖像或視頻上。它會告訴你,它是否認(rèn)為這個內(nèi)容由我們的模型生成。
WVFRM Podcast:我還很好奇,你對其他人對Sora的評價有什么感覺?有很多這樣的反饋,“這太酷了”、“這太神奇了”、“我的天哪”、“我的工作不保了”,你如何看待這些反饋?
Sora:我覺得很多反饋都與“接下來會發(fā)生什么的”焦慮相關(guān)。我們確實感覺到了(這些情緒),就我們的使命而言,我們需要確保Sora以安全的方式部署,并且以負(fù)責(zé)任的態(tài)度對待所有與視頻生成相關(guān)的事情。
但我也感覺到了很多機會,比如現(xiàn)在,有一個人想要制作電影,(但)很難獲得足夠的資金來真正制作這部電影。因為制作電影的預(yù)算非常大,制作公司必須意識到他們所做的投資所帶來的風(fēng)險。所以我認(rèn)為AI一個很酷的使用方式是,它可能大幅降低了從想法到完成視頻的成本。
WVFRM Podcast:Sora和DALL·E有很多相似的地方。當(dāng)DALL·E變得非常好時,我開始使用它作為頭腦風(fēng)暴工具,可以用它制作視頻的縮略圖。我可以看到Sora同樣有很多非??岬挠猛?。我知道你沒有明確的時間線,但你提到你們目前處于測試階段。你認(rèn)為Sora會很快進(jìn)入到開放使用的階段嗎?
Sora:我想不會。
WVFRM Podcast:好的,我的最后一個問題是關(guān)于未來的。當(dāng)Sora能制作五分鐘的YouTube視頻,并能配合聲音和完美的逼真度時,(AI)下一個應(yīng)該涉足的媒介是什么?
AI生成已經(jīng)從照片走向了視頻這個全新的維度,視頻有時間和物理(規(guī)律),以及所有新的變量,例如反應(yīng)和聲音。你們比我想象之中更快地跳入了這個領(lǐng)域。AI生成媒體內(nèi)容的下一個領(lǐng)域可能是什么?
Sora:讓我非常興奮的是,AI工具的使用將如何進(jìn)化并創(chuàng)造全新的內(nèi)容,我認(rèn)為這很大程度上將是我們從人們?nèi)绾问褂眠@些工具當(dāng)中,獲得新的啟發(fā)。通常想到AI工具如何被用來創(chuàng)造已經(jīng)存在的東西是簡單的。雖然實際上,我認(rèn)為AI將使我們能夠創(chuàng)造全新的內(nèi)容類型。但卻很難(預(yù)先)知道那是什么,直到它落入最有創(chuàng)造力的人手中。
當(dāng)這些有創(chuàng)造力的人擁有新工具時,他們會做出驚人的事情,他們會創(chuàng)造出以前不可能的新事物。這真的是我長期以來感到激動的事情,AI工具如何幫助人們創(chuàng)造完全新的媒體體驗。
但我認(rèn)為,這將是非常激動人心的,(而我們)只是允許真正有創(chuàng)造力的人通過制作全新的工具來推動創(chuàng)意的邊界。
WVFRM Podcast:是的,因為我們知道Sora是基于現(xiàn)有內(nèi)容進(jìn)行訓(xùn)練的,所以它只能基于已經(jīng)存在的東西來創(chuàng)造。你如何讓Sora變得有創(chuàng)造力,我想象你必須在提示工程的學(xué)習(xí)曲線上(learning curves of prompt engineering)做文章,并發(fā)現(xiàn)應(yīng)該怎樣對Sora進(jìn)行提示。這樣說準(zhǔn)確嗎?
Sora:除了基于文本的提示之外,模型還具有其他一些很酷的能力。在我們與Sora一起發(fā)布的研究帖子中,我們展示了一個例子,是兩個輸入視頻之間的混合。
那是一個非常酷的案例,左側(cè)的視頻開始是無人機飛越羅馬競技場,而右側(cè)的視頻逐漸過渡到像蝴蝶在水下游泳。在視頻中有一個點,競技場開始逐漸衰敗,看起來像是被珊瑚礁覆蓋,部分處于水下。這類生成的視頻開始給人一種過去技術(shù)所無法帶來的新感覺,我們對這些視頻效果感到興奮,甚至不僅僅是作為人們可以使用像Sora這樣的技術(shù)生成的新體驗。
在某種程度上,我們真的將模擬現(xiàn)實視為超越(舊技術(shù))的第一步。
WVFRM Podcast:是的,Sora的技術(shù)越成熟,就越能模擬現(xiàn)實。用戶就更能夠在此基礎(chǔ)上建立(新的現(xiàn)實)。理想情況下,這將能夠解鎖創(chuàng)意的無限可能。最后,你們還有什么想說的嗎,無論是關(guān)于Sora還是OpenAI?
Sora:我們對從視頻數(shù)據(jù)中學(xué)習(xí)如何讓AI變得更有用而感到興奮,而不僅僅是創(chuàng)造視頻,(這是)因為我們生活在一個視覺化的世界。就像我們正在看的視頻一樣,世界上有很多信息不是以文本形式存在的。雖然像GPT這樣的模型非常智能,了解很多關(guān)于世界的事情,但當(dāng)它們沒有以我們看視覺世界的方式看到世界時,它們就會遺漏一些信息。
因此,我們對Sora和其他基于Sora構(gòu)建的AI模型的未來感到興奮的是,通過從視覺數(shù)據(jù)中學(xué)習(xí)關(guān)于世界的信息,它們將有望更好地理解我們生活的世界,并在未來更好地幫助我們。
WVFRM Podcast:我非常期待,最終能夠在Sora中實現(xiàn)更多可能的那一刻。
WVFRM Podcast(補充):我忘了在錄音期間問他們,但每個人都想知道這個問題:用Sora生成一個視頻需要多長時間?我在結(jié)束采訪后又問了他們,答案是這取決于你的提示詞。但(在生成視頻時)你可能會離開,買杯咖啡,回來時它仍在處理視頻——看起來需要一段時間。
采訪鏈接:https://www.youtube.com/watch?v=Srh1lut4Q2A