生成式視頻的下一步是什么
上個月,當(dāng)OpenAI公布其新的生成式視頻模型Sora時,邀請了一些電影制作人來試用。本周,該公司發(fā)布了結(jié)果:七部超現(xiàn)實的短片,毫無疑問地表明了生成式視頻的未來即將迅速到來。
首批能將文本轉(zhuǎn)化為視頻的模型出現(xiàn)在2022年末,來自Meta、谷歌和視頻技術(shù)初創(chuàng)公司Runway等公司。這是一個很棒的技巧,但結(jié)果是顆粒狀、出現(xiàn)故障,并且只有幾秒鐘長。
快進(jìn)18個月,Sora的高清、逼真的最佳輸出令人震撼,一些激動的觀察者甚至預(yù)言好萊塢的死亡。Runway的最新模型可以生成與大片動畫工作室相媲美的短片。Midjourney和Stability AI,兩家最受歡迎的文本轉(zhuǎn)圖像模型背后的公司,現(xiàn)在也在致力于視頻領(lǐng)域的研發(fā)。
許多公司正在競相利用這些突破來開展業(yè)務(wù)。大多數(shù)公司在探索過程中才逐漸明確這種業(yè)務(wù)是什么?!爱?dāng)使用這些工具時,我經(jīng)常會興奮地尖叫‘哇,這太酷了’,”Vyond的首席執(zhí)行官Gary Lipkowitz說道,Vyond是一家提供點對點,點擊平臺來制作短動畫視頻的公司?!暗悄闳绾卧诠ぷ髦惺褂盟??”
無論對這個問題的答案是什么,它都可能徹底改變各種業(yè)務(wù),并改變從動畫制作人到廣告商等許多專業(yè)人士的角色。對于濫用的擔(dān)憂也在增長。廣泛使用生成虛假視頻將使網(wǎng)絡(luò)充斥著宣傳和非自愿色情,這比以往任何時候都更容易。我們可以看到這種情況正在發(fā)生。問題是,沒有人有一個好的解決方案。
當(dāng)我們繼續(xù)探索未來的前景——無論是好是壞——以下是四個需要考慮的事情。我們還精選了一些制作人使用這項技術(shù)制作的最佳視頻,其中包括洛杉磯制作公司Myles的實驗性短片《Somme Requiem》的獨家展示。繼續(xù)閱讀,了解人工智能電影制作的發(fā)展方向。
1. Sora 只是一個開始
目前,OpenAI 的 Sora 在視頻生成領(lǐng)域遙遙領(lǐng)先于競爭對手。但其他公司也在努力趕上。隨著更多公司完善其技術(shù)并開始推出 Sora 的競爭對手,未來幾個月市場將變得極其擁擠。
總部位于英國的初創(chuàng)公司 Haiper 本月剛剛走出隱身狀態(tài)。它由前谷歌 DeepMind 和 TikTok 的研究人員在 2021 年創(chuàng)立,他們想要研究稱為神經(jīng)輻射場或 NeRF 的技術(shù),該技術(shù)可以將 2D 圖像轉(zhuǎn)化為 3D 虛擬環(huán)境。他們認(rèn)為,將快照轉(zhuǎn)化為用戶可以進(jìn)入的場景的工具對于制作視頻游戲?qū)浅S杏谩?/p>
但是,六個月前,Haiper 將重心從虛擬環(huán)境轉(zhuǎn)移到了視頻剪輯上,調(diào)整其技術(shù)以適應(yīng)首席執(zhí)行官 Yishu Miao 認(rèn)為將比游戲市場更大的市場?!拔覀円庾R到視頻生成是最佳方向,”Miao 表示。“對此將會有超高的需求。”
,時長01:21
“Air Head” is a short film made by Shy Kids, a pop band and filmmaking collective based in Toronto, using Sora.
與 OpenAI 的 Sora 類似,Haiper的生成式視頻技術(shù)使用擴(kuò)散模型來管理視覺效果,并使用transformer(類似于 GPT-4 這樣的大型語言模型中的組件,使它們在預(yù)測接下來會發(fā)生什么方面表現(xiàn)出色)來管理幀之間的一致性?!耙曨l是數(shù)據(jù)序列,而transformer 是學(xué)習(xí)序列的最佳模型,”Miao 表示。
一致性是生成式視頻的一個巨大挑戰(zhàn),也是現(xiàn)有工具一次僅生成少量視頻的主要原因。用于視頻生成的transformer 可以提高剪輯的質(zhì)量和長度。不利之處在于,transformer 會編造東西,或者產(chǎn)生幻覺。在文本中,這并不總是明顯的。在視頻中,這可能導(dǎo)致,比如一個具有多個頭的人。保持transformer 在正確軌道上需要大量的訓(xùn)練數(shù)據(jù)和成堆的計算機(jī)。
這就是為什么由前微軟研究人員創(chuàng)立的 Irreverent Labs 采取了一種不同的方法。與 Haiper 類似,Irreverent Labs 最初是為游戲生成環(huán)境,然后轉(zhuǎn)向全面的視頻生成。但該公司不想通過復(fù)制 OpenAI 和其他公司的做法來隨波逐流?!耙驗槟菢拥脑?,這就是一場計算機(jī)的戰(zhàn)爭,一個完全的 GPU 戰(zhàn)爭,”Irreverent 的聯(lián)合創(chuàng)始人兼首席技術(shù)官 David Raskino 表示?!霸谶@種情況下,只有一個贏家,他穿著皮夾克。”(他指的是價值萬億美元的芯片巨頭 Nvidia 的 CEO Jensen Huang。)
與使用transformer 不同,Irreverent 的技術(shù)將擴(kuò)散模型與根據(jù)常識物理學(xué)(例如球如何彈跳或水如何濺在地板上)來預(yù)測下一幀內(nèi)容的模型相結(jié)合。Raskino 表示,這種方法既降低了訓(xùn)練成本,又減少了幻覺的數(shù)量。他說,該模型仍然會產(chǎn)生故障,但它們是物理學(xué)的扭曲(比如彈跳的球不遵循平滑曲線),這些問題有已知的數(shù)學(xué)修復(fù)方法可以應(yīng)用到生成的視頻中。
哪種方法會持久還有待觀察。Miao將今天的技術(shù)與 GPT-2 時代的大型語言模型進(jìn)行了比較。五年前,OpenAI 的突破性早期模型讓人們驚嘆,因為它展示了可能性。但是,該技術(shù)需要幾年時間才能成為一個改變游戲規(guī)則的技術(shù)。
Miao表示,視頻也是如此:“我們都處于山腳下?!?/p>
2. 人們會如何利用生成式視頻
視頻是互聯(lián)網(wǎng)的主要媒介。YouTube、TikTok、新聞片、廣告:在已有視頻的地方,預(yù)計會看到合成視頻的出現(xiàn)。
營銷行業(yè)是最熱衷于采用生成技術(shù)的行業(yè)之一。根據(jù) Adobe 最近在美國進(jìn)行的一項調(diào)查,三分之二的營銷專業(yè)人士在工作中嘗試過生成式人工智能,其中超過一半的人表示已經(jīng)使用該技術(shù)制作過圖像。
生成式視頻是下一個目標(biāo)。一些營銷公司已經(jīng)發(fā)布了短片,以展示技術(shù)的潛力。最新的例子是由 Myles 制作的時長 2.5 分鐘的《Somme Requiem》。您可以在 MIT Technology Review 的獨家報道中觀看該影片。
“Somme Requiem” is a short film made by Los Angeles production company Myles. Every shot was generated using Runway's Gen 2 model. The clips were then edited together by a team of video editors at Myles.
《Somme Requiem》描述了1914年第一次世界大戰(zhàn)期間的圣誕節(jié)停戰(zhàn)期間被困在雪中的士兵。這部電影由數(shù)十個不同的鏡頭組成,這些鏡頭是使用Runway的生成式視頻模型制作的,然后由Myles的人類視頻編輯人員進(jìn)行拼接、色彩校正,并配以音樂?!拔磥淼臄⑹路绞綄⑹腔旌瞎ぷ髁鞒?,”創(chuàng)始人兼首席執(zhí)行官Josh Kahn說道。
Kahn選擇戰(zhàn)時背景是為了表明自己的觀點。他指出,蘋果電視+系列電影《Masters of the Air》耗資2.5億美元,講述的是一群二戰(zhàn)飛行員的故事。彼得·杰克遜的第一次世界大戰(zhàn)紀(jì)錄片《They Shall Not Grow Old》的團(tuán)隊花了四年時間策劃和修復(fù)了100多小時的檔案影片?!按蠖鄶?shù)電影制作人只能夢想有機(jī)會在這個類型中講述一個故事,” Kahn說。
“獨立電影制作有點兒式微,”他補充道?!拔艺J(rèn)為這將會引發(fā)令人難以置信的復(fù)蘇?!?/p>
Raskino也希望如此?!翱植离娪邦愋褪侨藗儨y試新事物的地方,嘗試新事物直到它們被打破,”他說。“我認(rèn)為我們將會看到由四個人在某個地下室里使用人工智能創(chuàng)作的一部轟動的恐怖電影。”
那么,生成式視頻會摧毀好萊塢嗎?還沒有?!禨omme Requiem》中的背景鏡頭——空無一人的樹林,荒涼的軍營——看起來很棒。但其中的人物仍然受到了殘缺不全的手指和扭曲的面容的困擾,這是技術(shù)的標(biāo)志。生成式視頻最擅長的是廣角全景或延時特寫,這創(chuàng)造了一種怪異的氛圍,但幾乎沒有行動。如果《Somme Requiem》再長一點,它就會變得乏味。
但是,電影中經(jīng)常出現(xiàn)場景設(shè)定鏡頭。大多數(shù)鏡頭只有幾秒鐘長,但拍攝起來可能需要幾小時。Raskino建議,生成式視頻模型很快就可以用于以極低的成本制作這些中間鏡頭。這也可以在制作的后期階段實時完成,而不需要重新拍攝。
Gen Digital 的首席技術(shù)官Michal Pechoucek,該公司是一家網(wǎng)絡(luò)安全巨頭,旗下?lián)碛邪∟orton和Avast在內(nèi)的一系列殺毒軟件品牌,表示同意?!拔艺J(rèn)為技術(shù)的發(fā)展方向就是這樣,”他說。“我們將看到許多不同的模型,每個模型專門針對電影制作的某個領(lǐng)域進(jìn)行訓(xùn)練。這些只是由有才華的視頻制作團(tuán)隊使用的工具?!?/p>
我們還沒有完全達(dá)到這一點。生成式視頻的一個重大問題是用戶對輸出的控制能力有限。生成靜態(tài)圖像可能會命中或失誤;生成幾秒鐘的視頻甚至更加風(fēng)險。
“現(xiàn)在還很有趣,你會有恍然大悟的時刻,”Miao說道?!暗赏耆夏阋蟮囊曨l是一個非常困難的技術(shù)問題。從一個單一提示生成長而一致的視頻還有一段路要走?!?/p>
這就是為什么Vyond的Lipkowitz認(rèn)為,這項技術(shù)對大多數(shù)企業(yè)客戶來說尚未準(zhǔn)備好。他說,這些用戶對視頻外觀的控制想要比當(dāng)前工具給予的更多。
全球數(shù)千家公司,包括約65%的《財富》500強(qiáng)企業(yè),使用Vyond的平臺為內(nèi)部溝通、培訓(xùn)、營銷等創(chuàng)建動畫視頻。Vyond利用了一系列生成模型,包括文本到圖像和文本到語音,但提供了一個簡單的拖放界面,讓用戶一步一步手動組合視頻,而不是一鍵生成完整的剪輯。
運行生成模型就像擲骰子一樣,Lipkowitz說?!皩τ诖蠖鄶?shù)視頻制作團(tuán)隊來說,這是一個明確的拒絕,特別是在企業(yè)部門,其中一切都必須完美無瑕并符合品牌標(biāo)準(zhǔn),”他說。“如果視頻出現(xiàn)問題——也許人物有太多手指,或者可能有一個顏色錯誤的公司Logo——那就不幸了,這就是生成AI的工作原理?!?/p>
解決方案?更多的數(shù)據(jù),更多的訓(xùn)練,不斷重復(fù)?!拔蚁M夷苤赶蛞恍?fù)雜的算法,”Miao說道?!暗?,這只是更多的學(xué)習(xí)?!?/p>
3. 雖然誤導(dǎo)信息并不是新鮮事,但深度偽造視頻會使情況變得更糟
多年來,網(wǎng)絡(luò)誤導(dǎo)信息一直在破壞我們對媒體、制度和彼此的信任。一些人擔(dān)心,將虛假視頻加入混合中會摧毀我們留下的任何共同現(xiàn)實的支柱。
“我們正在用不信任、困惑、恐懼和仇恨取代信任,”Pechoucek說?!皼]有基本事實的社會將會墮落?!?/p>
Pechoucek特別擔(dān)心深度偽造視頻在選舉中的惡意使用。例如,在去年的斯洛伐克選舉中,攻擊者分享了一個虛假視頻,顯示領(lǐng)先的候選人討論了操縱選民的計劃。這段視頻質(zhì)量低,很容易識別為深度偽造。但Pechoucek認(rèn)為這已足以扭轉(zhuǎn)結(jié)果,使其有利于另一位候選人。
“Adventurous Puppies” is a short clip made by OpenAI using with Sora.
Blackbird AI是一家跟蹤和管理網(wǎng)絡(luò)誤導(dǎo)信息傳播的公司,該公司的戰(zhàn)略和創(chuàng)新團(tuán)隊負(fù)責(zé)領(lǐng)導(dǎo)。該公司的約翰·維辛格認(rèn)為,當(dāng)假視頻融合真實和虛假鏡頭時,假視頻會最具說服力。拿總統(tǒng)喬·拜登走過舞臺的兩段視頻為例。一段視頻中他摔倒了,而另一段沒有。誰能說哪個是真實的?
“假設(shè)某個事件確實發(fā)生了,但呈現(xiàn)給我的方式略有不同,”維辛格說?!斑@可能會影響我的情感反應(yīng)?!闭鏟echoucek所指出的那樣,一個假視頻甚至不需要很好,就足以產(chǎn)生影響。維辛格說,一個符合現(xiàn)有偏見的糟糕偽造視頻將比一個精心制作但與現(xiàn)實不符的偽造視頻造成更大的傷害。
這就是為什么Blackbird專注于誰與誰分享什么。在某種意義上,某事物是真是假并不像它來自何處以及它如何傳播那樣重要,維辛格說。他的公司已經(jīng)追蹤低技術(shù)誤導(dǎo)信息,例如在社交媒體上展示真實圖像但上下文不明確的帖子。生成技術(shù)使情況變得更糟,但是人們以誤導(dǎo)的方式呈現(xiàn)媒體的問題,無論是有意還是無意,都不是新問題,他說。
如果將機(jī)器人混入其中,在社交網(wǎng)絡(luò)上分享和推廣誤導(dǎo)信息,情況會變得混亂。只要知道有假媒體存在,就會在惡意討論中播下懷疑的種子。維辛格說:“你可以看到,很快就可能變得不可能再分辨出什么是合成的,什么是真實的了?!?/p>
4、我們正面臨著一個新的網(wǎng)絡(luò)現(xiàn)實
偽造品很快將無處不在,從虛假信息宣傳活動,到廣告片,再到好萊塢大片。那么,我們該如何區(qū)分現(xiàn)實和幻想呢?有一系列解決方案,但單獨任何一個都不足以解決問題。
科技行業(yè)正在研究這個問題。大多數(shù)生成工具嘗試強(qiáng)制執(zhí)行某些使用條款,比如防止人們創(chuàng)建公眾人物的視頻。但是有方法可以繞過這些過濾器,而開源版本的工具可能帶有更寬松的政策。
公司還在制定AI生成媒體的水印標(biāo)準(zhǔn)和檢測工具。但并非所有工具都會添加水印,而且水印可以從視頻的元數(shù)據(jù)中去除。也不存在可靠的檢測工具。即使這樣的工具有效,它們也將成為一場追趕模型進(jìn)步的貓鼠游戲的一部分,這些模型旨在監(jiān)管這些工具。
像X和Facebook這樣的在線平臺在內(nèi)容管理方面的記錄很差。一旦問題變得更加棘手,我們不應(yīng)指望它們能夠做得更好。Miao曾在TikTok工作,在那里他幫助構(gòu)建了一個內(nèi)容管理工具,用于檢測違反TikTok使用條款的視頻上傳。即使是他也對即將發(fā)生的事情感到擔(dān)憂:“真的存在著危險,”他說。“不要相信你在筆記本電腦上看到的東西。”
Blackbird開發(fā)了一個名為Compass的工具,它可以用來對文章和社交媒體帖子進(jìn)行事實核查。將鏈接粘貼到該工具中,一個大型語言模型將從可信的在線來源(維辛格說這些始終可以審查)中生成一個簡短摘要,為鏈接的材料提供一些背景信息。其結(jié)果與X、Facebook和Instagram等網(wǎng)站上有時會附加到有爭議的帖子上的社區(qū)注釋非常相似。該公司設(shè)想Compass為任何內(nèi)容生成社區(qū)注釋?!拔覀冋谂崿F(xiàn)這一目標(biāo),”維辛格說。
但是,將鏈接放入事實核查網(wǎng)站的人已經(jīng)相當(dāng)精明了,而許多其他人可能不知道這樣的工具存在,或者可能不愿相信它們。誤導(dǎo)信息往往也比任何隨后的更正傳播得更廣泛。
與此同時,人們對這究竟是誰的問題存在分歧。Pechoucek表示,科技公司需要開放其軟件,以促進(jìn)圍繞安全和信任的競爭。這也將使他這樣的網(wǎng)絡(luò)安全公司能夠開發(fā)第三方軟件來監(jiān)管這項技術(shù)。他說,這就是30年前Windows出現(xiàn)惡意軟件問題時發(fā)生的事情:“微軟允許殺毒軟件公司進(jìn)入幫助保護(hù)Windows。結(jié)果,網(wǎng)絡(luò)世界變得更安全了?!?/p>
但是Pechoucek并不太樂觀?!凹夹g(shù)開發(fā)者需要以安全為首要目標(biāo)來構(gòu)建他們的工具,”他說。“但更多的人考慮如何使技術(shù)更強(qiáng)大,而不是擔(dān)心如何使其更安全?!?/p>
Made by OpenAI using Sora.
在科技行業(yè)有一個常見的宿命論的說法:變革已經(jīng)到來,我們必須應(yīng)對?!吧墒饺斯ぶ悄懿粫蝗∠?,”Raskino說。“這可能不太受歡迎,但我認(rèn)為這是真的:我認(rèn)為科技公司無法承擔(dān)全部責(zé)任。歸根結(jié)底,對任何技術(shù)的最佳防御是一個受過良好教育的公眾。沒有捷徑?!?/p>
Miao也同意?!按笠?guī)模采用生成技術(shù)是不可避免的,”他說?!暗@也是整個社會的責(zé)任。我們需要教育人們?!?/p>
“技術(shù)會不斷發(fā)展,我們需要為這種變化做好準(zhǔn)備,”他補充道?!拔覀冃枰嵝盐覀兊母改?、朋友,他們在屏幕上看到的東西可能并不真實?!彼f,這對于老一輩人尤其重要:“我們的父母需要意識到這種危險。我認(rèn)為每個人都應(yīng)該共同努力?!?/p>
我們需要迅速共同努力。一個月前,Sora問世時,科技界對生成式視頻的迅速發(fā)展感到震驚。但絕大多數(shù)人甚至不知道這種技術(shù)的存在,維辛格說:“他們肯定不了解我們所處的趨勢線。我認(rèn)為這將會令世界大為震驚?!?/p>
