Sora爆紅視頻幕后:被騙了,用了成噸的后期才有這效果
今年 2 月份,OpenAI 發(fā)布了人工智能文生視頻大模型 Sora,并放出了第一批視頻片段,掀起了 AI 生成視頻浪潮。目前,Sora 仍未進(jìn)行公測(cè),只有一些視覺(jué)藝術(shù)家、設(shè)計(jì)師、電影制作人等獲得了 Sora 的訪問(wèn)權(quán)限。他們發(fā)布了一些 Sora 生成的視頻短片,其連貫、逼真的生成效果令人驚艷。
最近,被譽(yù)為「朋克搖滾皮克斯」的加拿大多媒體制作公司 Shy Kids 發(fā)布了一段借助 Sora 制作的視頻短片《Air Head》,在社交媒體上迅速引起廣泛關(guān)注。
據(jù)悉,這部制作精美的短片主要由 3 個(gè)人完成,花費(fèi)不到 2 周的時(shí)間。其中,Sidney Leeder 擔(dān)任制片人,Walter Woodman 擔(dān)任編劇和導(dǎo)演,而 Patrick Cederberg 負(fù)責(zé)后期制作。
本周,知名視覺(jué)特效總監(jiān) Mike Seymour 采訪了 Patrick Cederberg,就《Air Head》制作過(guò)程、技術(shù)難點(diǎn)等信息展開(kāi)了提問(wèn),并在 fxguide 上發(fā)布一篇文章介紹了 Sora 在視頻實(shí)際制作過(guò)程中發(fā)揮的作用和存在的問(wèn)題。
Patrick Cederberg
其中,Patrick 表示:「Sora 是一款非常強(qiáng)大的工具,我們已經(jīng)在思考如何把它融入現(xiàn)有電影制作流程中,但目前 Sora 仍處于測(cè)試階段,在影片制作過(guò)程中也會(huì)『翻車(chē)』。例如,氣球的顏色在每次生成中都會(huì)改變、鏡頭中會(huì)出現(xiàn)一些瑕疵等等,要想獲得最佳表現(xiàn)效果,仍需大量后期制作?!?/span>
AI 生成視頻并非僅僅是圖像生成器的進(jìn)階版。更準(zhǔn)確地說(shuō),它們可能是我們向通用人工智能(AGI) 邁出的重要一步。但正如 Sora 開(kāi)發(fā)團(tuán)隊(duì)本周接受采訪時(shí)所說(shuō)的,當(dāng)前的 AI 視頻模型仍處于早期階段。
OpenAI 研究科學(xué)家,Sora 項(xiàng)目領(lǐng)導(dǎo)者 Tim Brooks 表示:我覺(jué)得現(xiàn)在 Sora 位置,就像是視覺(jué)模型新范式的 GPT-1 階段。
《Air Head》是如何完成的?機(jī)器之心對(duì) Mike Seymour 的文章進(jìn)行了不改變?cè)獾木幾g、整理,以下是該文章原文:
用戶界面(UI)
Sora 的用戶界面允許用戶輸入一段文本 prompt,然后 ChatGPT 將其轉(zhuǎn)換為一個(gè)更長(zhǎng)的字符串,再觸發(fā)視頻片段的生成。目前,沒(méi)有其他輸入方式 —— 還沒(méi)有實(shí)現(xiàn)多模態(tài)輸入。這一點(diǎn)很重要,因?yàn)楸M管 Sora 因其生成結(jié)果中的對(duì)象一致性而受到稱贊,但目前還沒(méi)有任何方法來(lái)幫助匹配兩個(gè)鏡頭(即兩次生成)的內(nèi)容。即使第二次運(yùn)行相同的 prompt,生成結(jié)果也會(huì)不同。
Patrick 介紹說(shuō):「我們盡可能做到的是在我們的 prompt 中給出超級(jí)詳細(xì)的描述,例如解釋角色的服裝、氣球的類型。這是我們獲得一致性的方法。從一個(gè)鏡頭到另一個(gè)鏡頭 / 一次生成到下一次生成,還沒(méi)有完全控制一致性的方法?!?/span>
單個(gè)視頻片段的確可以展現(xiàn) Sora 令人驚嘆的技術(shù),但使用這些片段取決于你對(duì)隱式或顯式鏡頭生成的理解。
假設(shè)你要求 Sora 在廚房里進(jìn)行一個(gè)長(zhǎng)鏡頭跟蹤拍攝,桌子上有一個(gè)香蕉。在這種情況下,它將依賴其對(duì)「香蕉屬性」的隱式理解來(lái)生成一個(gè)展示香蕉的視頻。通過(guò)訓(xùn)練,Sora 已經(jīng)學(xué)習(xí)了一些香蕉屬性:比如「黃色」、「彎曲」、「有深色的末端」等等。沒(méi)有香蕉的實(shí)際記錄圖像。沒(méi)有「香蕉數(shù)據(jù)庫(kù)」,而是有一個(gè)更小的、壓縮的、隱藏的「潛在空間」,描述了香蕉是什么,每次運(yùn)行都會(huì)展示對(duì)潛在空間的一種新解釋。你的 prompt 依賴于對(duì)香蕉屬性的隱式理解。
制作角色
為了制作《Air Head》,團(tuán)隊(duì)根據(jù)大致的劇本生成了多個(gè)視頻片段,但是沒(méi)有明確的方式來(lái)確保黃色氣球頭在每個(gè)鏡頭中都保持相同。有時(shí),當(dāng) prompt 要一個(gè)黃色氣球時(shí),生成結(jié)果甚至可能不是黃色的。有時(shí),氣球上可能嵌入了一張臉,或者似乎在氣球的正面畫(huà)了一張臉。由于現(xiàn)實(shí)生活中許多氣球都有繩子,因此生成結(jié)果中稱為 Sonny 的氣球人經(jīng)常會(huì)在衣服前襟處有一根繩子。這是因?yàn)?Sora 隱式地將繩子與氣球聯(lián)系起來(lái),因此在后期制作中這些需要被移除。
分辨率
《Air Head》只使用了 Sora 生成的鏡頭,但其中很多鏡頭都經(jīng)過(guò)了調(diào)色、處理和穩(wěn)定化,所有鏡頭都被提高了分辨率。團(tuán)隊(duì)處理的這些片段最初是以較低分辨率生成的,然后使用 Sora 或 OpenAI 之外的 AI 工具進(jìn)行超分。
「你可以采用 720p 的分辨率,我相信已經(jīng)有 1080p 了,但它需要一段時(shí)間來(lái)渲染。為了速度,《Air Head》的所有鏡頭都是以 480p 制作的,然后使用 Topaz 來(lái)提高分辨率」,Patrick 介紹道。
在關(guān)鍵幀方面,Patrick 解釋道:「在實(shí)際生成中,不同動(dòng)作的發(fā)生有一點(diǎn)時(shí)間控制,但并不精確,甚至有點(diǎn)像是碰運(yùn)氣 —— 目前還不確定 Sora 是否真的能完成這一點(diǎn)?!共贿^(guò),Shy Kids 使用的是最早版本的模型,Sora 仍在不斷開(kāi)發(fā)中。
除了選擇分辨率,Sora 還允許用戶選擇長(zhǎng)寬比,比如肖像模式或風(fēng)景模式(或正方形)。這在從 Sonny 的牛仔褲向上搖攝到他的氣球頭的鏡頭中非常有用。遺憾的是,Sora 無(wú)法原生渲染這樣的移動(dòng),總是希望鏡頭的主要焦點(diǎn) —— 氣球頭出現(xiàn)在鏡頭中。因此,團(tuán)隊(duì)以肖像模式渲染了這個(gè)鏡頭,然后通過(guò)后期的裁剪手動(dòng)創(chuàng)建了向上搖攝的效果。
攝像機(jī)方向
對(duì)于許多生成式 AI 工具來(lái)說(shuō),訓(xùn)練數(shù)據(jù)附帶的元數(shù)據(jù)是寶貴的信息來(lái)源,比如攝像機(jī)元數(shù)據(jù)。例如,如果在靜態(tài)照片上進(jìn)行訓(xùn)練,攝像機(jī)元數(shù)據(jù)將提供鏡頭尺寸、光圈值以及其他許多對(duì)模型訓(xùn)練至關(guān)重要的信息。
在電影鏡頭中,「跟蹤」、「平搖」、「豎搖」、「推進(jìn)」等概念都不是元數(shù)據(jù)所能捕捉的術(shù)語(yǔ)或概念。
描述鏡頭對(duì)影片制作來(lái)說(shuō)非常重要,Patrick 指出:「最初 Sora 中并沒(méi)有這個(gè)功能。不同的人描述電影鏡頭的方法也不同。OpenAI 的研究人員在藝術(shù)家使用這個(gè)工具之前,并沒(méi)有真正像電影制作人那樣思考?!?/span>
Shy Kids 知道他們使用的是 Sora 早期版本,但「初始版本的 Sora 在攝像機(jī)角度方面有點(diǎn)隨機(jī)。」Sora 是否真的能理解 prompt 還不得而知,OpenAI 的研究人員只是專注于視覺(jué)生成,或許不考慮故事講述者將如何使用它。
「Sora 正在改進(jìn),生成控制還沒(méi)有完全到位。輸入一個(gè)『攝像機(jī)搖攝』,我認(rèn)為十次中有六次會(huì)得到想要的結(jié)果」,Patrick 說(shuō)道。
這不是一個(gè)個(gè)例問(wèn)題,幾乎所有 AI 視頻生成公司都面臨著同樣的問(wèn)題,Runway AI 可能是在提供描述攝像機(jī)運(yùn)動(dòng)方面最先進(jìn)的,但 Runway 渲染片段的質(zhì)量和長(zhǎng)度都不如 Sora。
渲染時(shí)間
視頻片段可以以不同長(zhǎng)度的時(shí)間段進(jìn)行渲染,如 3 秒、5 秒、10 秒、20 秒,最長(zhǎng)可達(dá)一分鐘。渲染時(shí)間取決于一天中的時(shí)間段(例如早、中、晚)以及云服務(wù)的需求量。
Patrick 介紹:「一般來(lái)說(shuō),每次渲染大約需要 10 到 20 分鐘。根據(jù)我的經(jīng)驗(yàn),我選擇的渲染時(shí)長(zhǎng)對(duì)渲染時(shí)間的影響很小。如果渲染時(shí)長(zhǎng)是 3 到 20 秒,渲染時(shí)間往往不會(huì)在 10 到 20 分鐘的范圍內(nèi)變化太大?!?/span>
雖然所有畫(huà)面都是 Sora 生成的,但《Air Head》仍然需要大量后期工作。例如,有時(shí)會(huì)有一張臉在氣球人 Sonny 上,就好像是用記號(hào)筆畫(huà)上去的,這些瑕疵將在后期工作中被移除。
原始素材 vs 最終成品 ——300:1
Shy Kids 的方法是像制作紀(jì)錄片一樣進(jìn)行后期制作和編輯,即有很多鏡頭,你需要從這些素材中編織出一個(gè)故事,而不是嚴(yán)格按照劇本拍攝。雖然這部短片有一個(gè)劇本,但團(tuán)隊(duì)需要靈活適應(yīng)。
「這就像是得到一大堆鏡頭,然后嘗試以一種有趣的方式剪輯到旁白中」,Patrick 介紹道。
對(duì)于最終出現(xiàn)在影片中的 90 秒鏡頭,Patrick 估計(jì)他們生成了「數(shù)百個(gè) 10 到 20 秒的片段」。他補(bǔ)充說(shuō):「我猜原始素材和最終成品的比例大概是 300:1。」
奇怪的「慢動(dòng)作」
《Air Head》的許多片段生成時(shí)就好像是以慢動(dòng)作拍攝的,盡管這并沒(méi)有在 prompt 中被要求。這種情況發(fā)生的原因尚不清楚,但許多片段因此需要重新調(diào)整時(shí)間,以使其看起來(lái)像是實(shí)時(shí)拍攝的。這似乎與訓(xùn)練數(shù)據(jù)有關(guān)。
值得一提的是,Shy Kids 在他們的 prompt 中使用了「35 mm film(35 毫米膠片)」這個(gè)關(guān)鍵詞,并發(fā)現(xiàn)這在一定程度上給了他們所追求的一致性。
版權(quán)問(wèn)題
OpenAI 試圖尊重版權(quán),不允許生成可能侵犯版權(quán)或侵犯肖像權(quán)的內(nèi)容。例如,如果用戶的 prompt 類似于「35 毫米膠片,在一個(gè)未來(lái)主義的太空船中,一個(gè)男人拿著光劍向前走」,Sora 將不允許生成該片段,因?yàn)樗咏缎乔虼髴?zhàn)》了。
Patrick 回憶說(shuō),當(dāng)他們最初只是想測(cè)試 Sora 時(shí):「我不假思索地輸入了『阿羅諾夫斯基類型的鏡頭』,然后就被告知不能這樣做。」Sora 出于版權(quán)問(wèn)題會(huì)拒絕這類 prompt。
值得注意的是,Sora 生成的視頻都是沒(méi)有聲音的,《Air Head》中主角 Sonny 的聲音是 Patrick 本人的聲音。
Shy Kids 團(tuán)隊(duì)表示已經(jīng)開(kāi)始為《Air Head》制作一部精彩的、人物有自我意識(shí)的、或許帶點(diǎn)諷刺意味的續(xù)集。但對(duì)于電影制作等實(shí)際項(xiàng)目來(lái)說(shuō),Sora 可能還需要一段時(shí)間才能達(dá)到創(chuàng)作者所需的精確度。