好萊塢抵制AI的罷工事件,被AI反手寫進(jìn)了最新一集劇本
今天以前,你可能還在為《權(quán)力的游戲》最后一季而失望。但想象一下,你現(xiàn)在能讓 AI 制作一個(gè)新的結(jié)局,以完全不同的方式進(jìn)行,甚至可以把你自己作為主角或其他角色放進(jìn)去。
最近,舊金山初創(chuàng)公司 Flable 推出了一個(gè)大型模擬項(xiàng)目「The Simulation」,并發(fā)布了名為「SHOW-1」的 Showrunner AI 技術(shù),能夠生成以用戶為主角的全新劇集。
考慮到好萊塢的編劇和演員都在因?yàn)榈种?AI 而罷工,這個(gè)成果的發(fā)布時(shí)機(jī)顯得非常有趣。
圖片
論文鏈接:https://fablestudio.github.io/showrunner-agents/static/pdfs/To_Infinity_and_Beyond_SHOW-1_And_Showrunner_Agents_in_Multi_Agent_Simulations.pdf
在這項(xiàng)工作中,他們結(jié)合了大型語(yǔ)言模型(LLM)、定制擴(kuò)散模型和多智能體模擬的能力,生成了高質(zhì)量的新劇集內(nèi)容,包括上下文關(guān)聯(lián)、故事進(jìn)展和行為控制。
像 Showrunner AI 這樣的工具毫不費(fèi)力地制作出不錯(cuò)的內(nèi)容,可以說(shuō)確實(shí)威脅到了影視行業(yè)的創(chuàng)意人員。眼下,好萊塢的編劇和演員正在罷工,要求抵制潛在的 AI 侵襲。而這些剛剛發(fā)生的現(xiàn)實(shí)情節(jié),卻已經(jīng)被 AI 寫進(jìn)了最新劇集之中,也算是一種反諷了:
如何生成新的劇集?
《South Park》是一部美國(guó)情景喜劇動(dòng)畫片,開播于 1997 年,一經(jīng)推出就獲得了巨大的成功,迄今已播出 26 季 325 集。該劇圍繞四個(gè)男孩 —— 斯坦 - 馬什(Stan Marsh)、凱爾 - 布羅夫洛夫斯基(Kyle Broflovski)、埃里克 - 卡曼(Eric Cartman)和肯尼 - 麥考密克(Kenny McCormick)以及他們?cè)诳屏_拉多州小鎮(zhèn)及其周圍的經(jīng)歷展開。
一個(gè)廣為人知的幕后故事是,這部劇的每一集都是在 6 天之內(nèi)制作完成的。在開會(huì)腦暴之后,編劇寫出劇本,然后由動(dòng)畫師、編輯、技術(shù)人員和音響工程師組成的整個(gè)團(tuán)隊(duì)完成制作 —— 他們通常要在接下來(lái)的一周內(nèi)工作 100-120 小時(shí)。
這種緊湊的制作流程在當(dāng)代的影視行業(yè)中并不少見,但在生成式 AI 逐漸強(qiáng)大之后,情況將會(huì)發(fā)生變化。
想生成一集完整的新劇集,用戶可以向故事系統(tǒng)提供一個(gè)高層次的想法,通常包括標(biāo)題、故事梗概和希望在一周模擬時(shí)間(大約 3 小時(shí)的游戲時(shí)間)內(nèi)發(fā)生的主要事件。
在此基礎(chǔ)上,故事系統(tǒng)會(huì)利用模擬數(shù)據(jù)作為提示鏈的一部分,自動(dòng)推斷出多達(dá) 14 個(gè)場(chǎng)景。劇務(wù)系統(tǒng)負(fù)責(zé)為每個(gè)場(chǎng)景挑選角色,以及如何通過(guò)情節(jié)模式推進(jìn)故事。每個(gè)場(chǎng)景都與一個(gè)情節(jié)字母(如 A、B、C)相關(guān)聯(lián),然后由節(jié)目編導(dǎo)在一集節(jié)目中交替使用不同的角色組,并跟蹤他們各自的故事情節(jié),以保持用戶的參與度。
最后,每個(gè)場(chǎng)景只需定義位置、演員和每個(gè)演員的對(duì)話。在舞臺(tái)系統(tǒng)和人工智能攝像系統(tǒng)完成初始設(shè)置后,場(chǎng)景將根據(jù)劇情模式(如 ABABC)進(jìn)行播放。每個(gè)角色的聲音都已事先克隆,每一句新的對(duì)白都會(huì)即時(shí)生成語(yǔ)音片段。
圖片
故事生成過(guò)程是模擬、用戶和 GPT-4 之間的共同任務(wù)。每個(gè)人都有自己的長(zhǎng)處和短處,也都有自己獨(dú)特的角色,貢獻(xiàn)可以有不同的權(quán)重。
「The Simulation」通常提供基于 IP 的背景、角色歷史、情感、事件和地點(diǎn),為最初的創(chuàng)作過(guò)程提供基礎(chǔ)?!赣脩簟挂胱约旱囊鈭D,對(duì)智能體進(jìn)行行為控制,并提供啟動(dòng)生成過(guò)程的初始提示,還要充當(dāng)最后的判斷者,在流程結(jié)束時(shí)對(duì)生成的故事內(nèi)容進(jìn)行評(píng)估。此外,「GPT-4」 作為主要的生成引擎,根據(jù)從用戶和模擬中接收到的提示來(lái)創(chuàng)建和推斷場(chǎng)景和對(duì)話。
這是一個(gè)共生的過(guò)程,每個(gè)參與方的優(yōu)勢(shì)都能促成一個(gè)連貫、引人入勝的故事。本文以提示鏈為形式的多步驟方法還提供了制衡,減少了可能出現(xiàn)的不必要的隨機(jī)性,使其與 IP 故事原本的世界更加一致。
圖片
在流程上,創(chuàng)作者可以:1、讓「The Simulation」自動(dòng)創(chuàng)建劇集;2、給一兩句話的提示;3、如果想了解細(xì)節(jié),可以給出提示,然后逐個(gè)場(chǎng)景編輯對(duì)話場(chǎng)景并重新生成。
圖片
研究方法
該研究使用大語(yǔ)言模型 (LLM)、定制化 SOTA 擴(kuò)散模型和多智能體模擬,實(shí)現(xiàn)情境化、故事進(jìn)展和行為控制,最終為故事 IP 生成了高質(zhì)量影視劇集內(nèi)容。
現(xiàn)有的生成式 AI 系統(tǒng),例如 Stable Diffusion(圖像生成模型)和 ChatGPT(大型語(yǔ)言模型),一般擅長(zhǎng)完成短期(short-term)任務(wù)。然而,使用人工智能模型生成完整、有構(gòu)思規(guī)劃的長(zhǎng)篇故事和影視劇集具有廣泛的應(yīng)用前景。
該研究的整體思路是將大型語(yǔ)言模型與圖像生成模型結(jié)合使用。其中大型語(yǔ)言模型主要使用的是 OpenAI 的 GPT-4 模型,圖像生成方面采用的是自定義的擴(kuò)散模型。
大型語(yǔ)言模型
該研究大量使用 GPT-4 來(lái)影響模擬中的智能體并生成南方公園劇集的場(chǎng)景。由于《South Park》大部分劇集本身就是 GPT-4 訓(xùn)練數(shù)據(jù)集的一部分,因此 GPT-4 已經(jīng)對(duì)角色的個(gè)性、談話風(fēng)格以及其整體幽默感有了很好的了解,無(wú)需定制微調(diào)模型。
為了模擬多步驟創(chuàng)意過(guò)程,該研究使用不同的提示鏈來(lái)比較和評(píng)估不同場(chǎng)景的事件,以及它們?nèi)绾螌⒄麄€(gè)故事推向令人滿意的、與 IP 一致的結(jié)局。
這模仿了人類頭腦風(fēng)暴的過(guò)程,即通過(guò)多個(gè)不連續(xù)的步驟對(duì)創(chuàng)意進(jìn)行構(gòu)建和完善。通過(guò)利用 LLM 的生成能力和提示鏈提供的迭代完善功能,該研究有效地構(gòu)建出了動(dòng)態(tài)、詳細(xì)且引人入勝的故事。
例如,在創(chuàng)作 14 個(gè)不同的場(chǎng)景時(shí),該研究先提供了一個(gè)概括性的提示,勾勒出總體敘事,然后再提供具體的提示,詳細(xì)說(shuō)明和評(píng)估每個(gè)場(chǎng)景的角色、地點(diǎn)和關(guān)鍵情節(jié)。
擴(kuò)散模型
為了訓(xùn)練自定義的擴(kuò)散模型,研究者從以往的劇集素材中收集了一個(gè)由大約 1200 個(gè)人物和 600 張背景圖片組成的綜合數(shù)據(jù)集,作為模型學(xué)習(xí)該劇風(fēng)格的原材料。
為了訓(xùn)練這些模型,研究者使用了 Dream Booth。訓(xùn)練階段的結(jié)果是創(chuàng)建了兩個(gè)專門的擴(kuò)散模型。
第一個(gè)模型專門用于生成以可摳像背景顏色為背景的單個(gè)角色。這有助于提取生成的角色進(jìn)行后續(xù)處理和動(dòng)畫制作,將新生成的角色無(wú)縫整合到各種場(chǎng)景和設(shè)置中。此外,角色擴(kuò)散模型允許用戶通過(guò)圖像到圖像的 stable diffusion 過(guò)程,根據(jù)自己的長(zhǎng)相創(chuàng)建一個(gè)角色,然后作為參與的智能體加入模擬。由于用戶可以克隆自己的聲音,因此很容易想象出一個(gè)基于用戶特有的長(zhǎng)相、寫作風(fēng)格和聲音而完全實(shí)現(xiàn)的自主角色。
圖片
第二個(gè)模型用來(lái)生成干凈的背景,尤其是外部和內(nèi)部環(huán)境。模型為生成的角色提供了互動(dòng)的「舞臺(tái)」,從而可以創(chuàng)建各種潛在的場(chǎng)景和情節(jié)。
圖片
由于這些模型的輸出是基于像素的,因此其生成的圖像在分辨率上存在固有的局限性。為了規(guī)避這一限制,研究者使用了 AI 升頻技術(shù)(特別是 R-ESRGAN-4x+-Anime6B)對(duì)生成的圖像進(jìn)行了后期處理,完善并提升了圖像質(zhì)量。
圖片
對(duì)于未來(lái)的 2D 交互,訓(xùn)練基于 transformer 的定制模型使其能夠生成基于矢量的輸出,這一點(diǎn)具有很多優(yōu)勢(shì)。與基于像素的圖像不同,矢量圖形在調(diào)整大小或縮放時(shí)不會(huì)降低質(zhì)量,因此具有無(wú)限分辨率的潛力。這使得模型能夠生成無(wú)論以何種比例觀看都能保持質(zhì)量和細(xì)節(jié)的圖像。
此外,基于矢量的圖形已經(jīng)被分離成單獨(dú)的部分,解決了基于像素的透明度和分割等后處理問(wèn)題,而這些問(wèn)題使得將生成的資產(chǎn)集成到程序化世界構(gòu)建和動(dòng)畫系統(tǒng)中變得更加復(fù)雜。
圖片
解決延遲問(wèn)題
當(dāng)然,在這個(gè)過(guò)程中,有一些問(wèn)題需要解決,比如延遲。
在實(shí)驗(yàn)中,生成一個(gè)場(chǎng)景可能需要長(zhǎng)達(dá)一分鐘的大量時(shí)間。由于是在游戲過(guò)程中生成劇集,因此生成時(shí)間大部分可以隱藏在用戶仍在與模擬或其他用戶界面交互的時(shí)刻。減少生成場(chǎng)景或情節(jié)所需時(shí)間的另一種方法是使用更快的模型,如 GPT-3.5-turbo,可用于質(zhì)量和準(zhǔn)確性要求不高的特定提示鏈。
下圖是 GPT-3.5-turbo 和 GPT-4 的響應(yīng)時(shí)間對(duì)比。隨著模型和服務(wù)基礎(chǔ)架構(gòu)的改進(jìn),以及其他因素(如因用戶需求高而導(dǎo)致的人為節(jié)流)的消除,生成速度在不久之后會(huì)有所提高。
圖片
在場(chǎng)景播放過(guò)程中,通過(guò)一個(gè)簡(jiǎn)單的緩沖系統(tǒng),至少一個(gè)語(yǔ)音片段是提前生成的,從而避免了與音頻生成有關(guān)的對(duì)話行之間不必要的停頓。這就意味著,當(dāng)一個(gè)角色正在播放其語(yǔ)音片段時(shí),下一個(gè)語(yǔ)音片段的網(wǎng)絡(luò)請(qǐng)求已經(jīng)發(fā)出了,等待其生成、下載文件,然后等待當(dāng)前發(fā)言人完成對(duì)話后再播放(延遲)。這樣,下一個(gè)對(duì)話行的語(yǔ)音片段就可以在沒(méi)有任何延遲的情況下發(fā)送。文本生成和語(yǔ)音克隆服務(wù)的速度越來(lái)越快,可以實(shí)現(xiàn)高度自適應(yīng)和近乎實(shí)時(shí)的語(yǔ)音對(duì)話。
圖片
此外,研究者還表示,本文方法的亮點(diǎn)在于緩解了「老虎機(jī)效應(yīng)」、「燕麥片問(wèn)題」和「空白頁(yè)問(wèn)題」等困擾傳統(tǒng)生成式 AI 系統(tǒng)的問(wèn)題。更多研究細(xì)節(jié),可參考原論文。
以前,AI 生成的內(nèi)容通常被認(rèn)為質(zhì)量較低,但「The Simulation」卻提供了一種全新的可能。設(shè)想一下,如果迪士尼公開宣稱制作了一部完全由 AI 生成的電影呢?如果斯皮爾伯格單槍匹馬制作了一部 AI 電影呢?這種看法會(huì)不會(huì)立即改變,現(xiàn)在還真是很難說(shuō)。