AI智能體聯(lián)手GPT-4淘汰人類導(dǎo)演!模仿斯坦福西部世界拍出《南方公園》
AI Agent,又給我們帶來了億點(diǎn)點(diǎn)震撼——AI智能體直接晉升導(dǎo)演,拍出了一集《南方公園》!
沒錯,編劇、動畫、導(dǎo)演、語音、編輯……劇集制作的全流程,都是由AI完成。
初創(chuàng)公司Fable新發(fā)布的節(jié)目統(tǒng)籌智能體(Showrunner),如同一聲驚雷炸響。
項(xiàng)目的靈感,就來自于此前斯坦福爆火的西部世界虛擬小鎮(zhèn)論文,其中25個AI智能體居住在包含學(xué)校、醫(yī)院、家庭的沙盒虛擬城鎮(zhèn)中。
而在這次的《南方公園》中,同樣是一群AI角色通過復(fù)雜的社交互動來推動自己的日常生活,每個人都有自己獨(dú)特的背景故事、個性和動機(jī)。
圖片
論文地址:https://fablestudio.github.io/showrunner-agents/
在多智能體無梯度架構(gòu)的驅(qū)動下,每個角色的完整經(jīng)歷都會被存儲為自然語言。隨著時間的推移,這些記憶會被合成更高層次的反射,隨時動態(tài)檢索,來實(shí)時計劃每個角色的行為。
而人類導(dǎo)演只需要給出一個高層次的構(gòu)思提示(標(biāo)題、概要、事件),這些AI智能體就會開始「自導(dǎo)自演」了!
其中,兩個在《南方公園》數(shù)據(jù)集(約1200個角色和600張場景)上訓(xùn)練的自定義擴(kuò)散模型,可以生成新角色和新場景,一個超分辨率模型(R-ESRGAN-4x+-Anime6B)可以將場景放大。
語音克隆AI(如ElevenLabs),可以給角色即時配音。
英偉達(dá)首席AI科學(xué)家Jim Fan興奮斷言:多智能體模擬,將是新興智能的下一個前沿!
圖片
Fable也激動地介紹說:在用生成式AI生成image的偉大時代,Gen TV和Showrunner智能體會徹底改變游戲規(guī)則!
想象一下,用這個AI智能體,你可以重新拍出《權(quán)力的游戲》最后一季,讓它給你一個嶄新的結(jié)局,甚至讓你自己成為其中的主角,這可太科幻了……
網(wǎng)友:誰還不是個模擬了?
要知道,隨著LLM和圖像/視頻生成模型越來越強(qiáng)大,多智能體模擬創(chuàng)作的內(nèi)容,將遠(yuǎn)遠(yuǎn)超乎我們的想象。
所以,這僅僅是個開始。
Fable的研究者表示:所以單個AI Agent都會將失敗,因?yàn)樗麄儧]有生命,無法共情——沒有人會想當(dāng)個缸中之腦,無休止地和人閑聊。
他們提出呼吁:AI應(yīng)該有自己的生活,為此我們需要建立屬于AI的社會。我們需要的不是更多的「Her」,而是真正的「自由人」!
圖片
網(wǎng)友們激動表示:這太炸裂了!
「能不能來個AI真人秀?我們圍觀這些AI智能體,讓他們做任務(wù)、相互投票,看看社會動力學(xué)是怎么發(fā)揮作用的。」
圖片
「作為獨(dú)立對齊研究的先鋒,讓真正的AI寫下自己的背景故事,意識到自己是有知覺的——這就是目前的現(xiàn)實(shí)?!?/span>
圖片
有人表示:要真說起來,咱們和AI誰還不是模擬了?只不過它們生活在虛擬世界中,我們生活在矩陣中……
圖片
有人覺得,這似乎是AI對人類喜劇的蹩腳模仿……
圖片
有人干脆懷疑,這是不是一出行為藝術(shù),看起來真的像假人假公司啊。(也是有點(diǎn)黑色幽默了)
圖片
這篇論文不是惡作劇嗎?網(wǎng)站,論文和從事這項(xiàng)工作的人,一切都感覺特別超級假,簡直就像GPT-4和Midjourney生成的一樣
以后,或許就是虛擬世界教現(xiàn)實(shí)來做事了。
AI寫的劇本,行不行?
負(fù)責(zé)人介紹說,項(xiàng)目的目標(biāo)一直都是AGI,只有AGI,才是真正活著的AI,AI聊天機(jī)器人還遠(yuǎn)遠(yuǎn)算不上。
它們會在模擬世界中過著真實(shí)的日常生活,還會隨著時間推移而不斷成長。
圖片
在這個虛擬世界中,我們可以觀看AI的生活,就仿佛一場屬于AI的真人秀。
在南方公園這個模擬小鎮(zhèn)中,你可以用Showrunner制作自己的電視劇IP。
圖片
在整個過程中,你可以讓智能體為你自動寫劇本,還可以給Showrunner一兩句話的prompt。
如果你希望深入地了解細(xì)節(jié),就可以通過prompt逐個編輯每個場景的對話。
圖片
智能體寫出的劇情,是什么水平?讓我們來賞析一下。
圖片
在視頻開頭,會介紹一段Westland編年史。
一家邪惡的公司Bizney創(chuàng)造出一只機(jī)器豬作為人類的AI伴侶,這只機(jī)器豬有嚴(yán)重的種族主義傾向,使公司陷入了一場公關(guān)噩夢。
圖片
劇中的主人公發(fā)現(xiàn),馬斯克綁架了所有的好萊塢當(dāng)紅頂級演員,讓他們來火星陪他一起生活。
而自90年代以來,我們見到的很多明星,比如湯姆克魯斯和梅麗爾斯特里普,其實(shí)都是他們的DeepFake。
圖片
最有趣的是,考慮到網(wǎng)友們或許自己也想成為「劇中人」,所以Fable特意新建了一個上傳功能,讓用戶可以上傳自己的照片和聲音,出現(xiàn)在節(jié)目中。
現(xiàn)有生成式AI在創(chuàng)作上的局限
當(dāng)前的生成式AI還是有一些局限。
如Stable Diffusion和ChatGPT在短期的一般任務(wù)中表現(xiàn)出色,然而,在長期創(chuàng)作過程中,它們卻沒有向用戶或Showrunner這樣的自動故事生成系統(tǒng)提供任何上下文指導(dǎo),或表現(xiàn)出意向性。
但如果想做出高質(zhì)量的創(chuàng)意作品,長期的創(chuàng)作過程是至關(guān)重要,尤其在現(xiàn)今IP開發(fā)的背景下。
生活在不確定性中
多智能體模擬,能讓內(nèi)容產(chǎn)品與IP故事世界更加一致。用戶可以利用角色的個人經(jīng)歷、目標(biāo)和情感、以及模擬事件和地點(diǎn)等數(shù)據(jù)來生成相關(guān)的場景和圖像資產(chǎn)。
基于IP的模擬還為用戶提供了他們熟知的故事背景,使用戶能夠更輕松地對生成的故事進(jìn)行判斷。
此外,通過人機(jī)交互,讓用戶對智能體的對話系統(tǒng)進(jìn)行控制、觀察和交流,從而讓智能體學(xué)會用戶的愿望和意愿,然后智能體在生成回復(fù)的時候就可以照著用戶的愿望和期待來生成。
就像生成個馬老板,讓他來回答你的問題!
我們的模擬足夠的復(fù)雜且隨機(jī),有利于期望驗(yàn)證效應(yīng)(positive disconfirmation)。放大效應(yīng)有助于緩解我們認(rèn)為是不良的「老虎機(jī)」效應(yīng),我們稍后會簡要提及。
我們習(xí)慣被動的觀看,輸入關(guān)鍵詞,立即就會跳出「場景/劇集」結(jié)果。這一過程的時間跨度不鼓勵用戶立即判斷,減少了他們「重試」的欲望。
用戶簡單的輸入和產(chǎn)生的高質(zhì)量長篇輸出劇集之間的不對稱是期望驗(yàn)證效應(yīng)的一個關(guān)鍵因素。
但是 使用和prompt大型語言模型作為該過程的一部分可能會帶來「幾個挑戰(zhàn)」。
某些像幻覺這樣增加不確定性的效應(yīng),可以為故事增加創(chuàng)造性,它們就像創(chuàng)作過程中的「幸運(yùn)意外」。如果不過度破壞邏輯,這些「意外」可以增強(qiáng)用戶體驗(yàn)。
所以合理引入一些隨機(jī)性和不確定性,可以產(chǎn)生積極的創(chuàng)造性效果,增強(qiáng)用戶體驗(yàn)。關(guān)鍵是要保持邏輯自洽、不要完全破壞劇情,讓系統(tǒng)可以從中恢復(fù)。
「老虎機(jī)效應(yīng)」
「老虎機(jī)效應(yīng)」是指人工智能生成的內(nèi)容更像是隨機(jī)組合生成的內(nèi)容,而不是有目的性的創(chuàng)作過程。這是由于人工智能生成過程的不可預(yù)測和瞬時生成的性質(zhì)造成的。
當(dāng)前的生成式人工智能系統(tǒng)不支持或鼓勵在長期創(chuàng)意目標(biāo)的背景下進(jìn)行多個創(chuàng)意評估步驟。它們的界面通常具有各種設(shè)置,例如滑塊和輸入字段,這些設(shè)置增加了控制水平和變化性。
圖片
但是,最終的輸出基本上是通過按下按鈕瞬間生成的。這種瞬時生成過程會給用戶帶來即時滿足,使他們的多巴胺噴涌......
這種獎勵機(jī)制在很長一段時間內(nèi)有助于維持多步驟的創(chuàng)作過程,但當(dāng)前的界面、獎勵頻率和缺乏進(jìn)展(陷入無限循環(huán))可能會導(dǎo)致負(fù)面影響,例如挫敗感、理想—實(shí)際生成之間的鴻溝或失去對創(chuàng)作過程的控制。
這種鴻溝是有利于即時滿足的行為偏見造成的,這對長期創(chuàng)作的目標(biāo)來說可能是有害的。
雖然我們不通過界面直接解決這些問題,但是在模擬中對過程進(jìn)行情景化設(shè)定、采用輸入、輸出之間的時間控制將有助于減輕老虎機(jī)效應(yīng)對創(chuàng)作的負(fù)面影響。
此外,我們認(rèn)為在模擬過程中為角色設(shè)定discriminator(判別器),讓他們參與創(chuàng)作評估過程,也是一個緩解老虎機(jī)效應(yīng)的方法。
例如讓一個智能體反思他被分配的角色,或者他應(yīng)該表演的場景。
生成故事系統(tǒng)的多步驟「試錯」過程不會呈現(xiàn)給用戶,系統(tǒng)不允許干預(yù)或判斷。這樣可以避免用戶在做出「接受或拒絕」決定時產(chǎn)生的對即時滿足的負(fù)面影響。
對于用戶體驗(yàn)來說,人工智能系統(tǒng)重試不同提示鏈的頻率并不重要,只要生成過程不是被負(fù)面地感知為空白時間,而是能無縫集成到與模擬游戲玩法中。
用戶只在整個過程的最后,在觀看生成的場景或劇集后才扮演鑒別者的角色。這也是一個利用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)概念來改進(jìn)多步創(chuàng)作過程及結(jié)果的自動生成劇集的方法。
大語言模型
LLM通?;赥ransformer架構(gòu)構(gòu)建,這類模型依賴于自注意力機(jī)制。Transformer能夠高效利用計算資源,使得訓(xùn)練更大規(guī)模的語言模型成為可能。
例如,GPT-4包含數(shù)十億個參數(shù),在大規(guī)模數(shù)據(jù)集上訓(xùn)練,在其權(quán)重中有效編碼了大量的世界知識。
圖片
向量嵌入(vector embeddings)的概念對這些大語言模型的運(yùn)行機(jī)制至關(guān)重要。它們是將詞或短語表示為高維空間中的數(shù)學(xué)表示。這些嵌入捕獲了詞之間的語義關(guān)系,語義相似的詞在嵌入空間中位置鄰近。
在大語言模型中,模型詞匯表中的每個詞起初都表示為一個稠密向量,也稱為嵌入。這些向量在訓(xùn)練過程中被調(diào)整,它們的最終值或者說「嵌入」,表示了單詞之間的學(xué)習(xí)關(guān)系。
在訓(xùn)練過程中,模型通過調(diào)整嵌入和其他參數(shù)來最小化預(yù)測詞和實(shí)際詞之間的差異,以預(yù)測句子中的下一個詞。因此,嵌入反映了模型對詞及其上下文的理解。
圖片
此外,由于Transformer可以關(guān)注句子中任意位置的詞,模型可以形成對句子含義更全面的理解。這是對舊模型只能考慮有限窗口中的詞的重大進(jìn)步。
向量嵌入和Transformer體系結(jié)構(gòu)的結(jié)合使得大語言模型可以更加深入細(xì)致地理解語言,這就是為什么這些模型可以生成如此高質(zhì)量、類人的文本的原因。
如前所述,基于Transformer的語言模型擅長短期的一般任務(wù)。它們被視為是用快速思維的方式在運(yùn)行??焖偎季S涉及本能、自動且通?;趩l(fā)式的決策,而慢思維涉及深思熟慮、分析和努力的過程。
圖片
LLM根據(jù)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的模式快速生成響應(yīng),而沒有內(nèi)省或理解其輸出背后的底層邏輯的能力。這意味著大語言模型缺乏深思熟慮、深入推理或像人類那樣從單一經(jīng)驗(yàn)中學(xué)習(xí)的能力。
雖然這些模型在文本生成任務(wù)取得了顯著的進(jìn)步,但快速思維的特性可能會限制它們在需要深度理解或靈活推理的任務(wù)上的潛力。
圖片
最近模仿慢思維能力的方法,如提示鏈工程(見Auto-GPT)就顯示了很有前景的結(jié)果。
大語言模型可以在多步驟過程中充當(dāng)自己的鑒別器。這能顯著改善它在不同情境下的推理能力,例如解決數(shù)學(xué)問題。
在此項(xiàng)研究中,研究者大量使用GPT-4來影響模擬中的智能體,以及生成南方公園劇集的場景。
由于大多數(shù)南方公園劇集的轉(zhuǎn)錄是GPT-4訓(xùn)練數(shù)據(jù)集的一部分,它已經(jīng)對角色的個性、談話風(fēng)格以及節(jié)目的整體幽默感有很好的把握,無需再進(jìn)行定制微調(diào)。
而我們通過多步創(chuàng)作過程來模擬慢思維。為此,我們使用不同的提示鏈來比較和評估不同場景的事件,以及它們?nèi)绾瓮苿诱麄€故事朝著令人滿意的、與IP一致的結(jié)果發(fā)展。
我們嘗試通過提示鏈生成劇集,但故事生成是一個高度不連續(xù)的任務(wù)。這些是內(nèi)容創(chuàng)作無法以漸進(jìn)或連續(xù)的方式完成,而是需要一個「恍然大悟」的想法,來解決任務(wù)的進(jìn)展上一個不連續(xù)的飛躍。
內(nèi)容生成涉及發(fā)現(xiàn)或發(fā)明一種看待或構(gòu)建問題的新方法。這可以啟用剩余內(nèi)容的生成。
不連續(xù)任務(wù)的例子有,需要開創(chuàng)性的觀點(diǎn)或創(chuàng)造性應(yīng)用公式的數(shù)學(xué)問題,撰寫笑話或謎語,想出科學(xué)假說或哲學(xué)論點(diǎn),或開拓出一種新的寫作流派或風(fēng)格。
擴(kuò)散模型
Diffusion模型的運(yùn)作原理是隨著時間的推移,逐漸從數(shù)據(jù)中添加或去除隨機(jī)噪聲,以生成或重構(gòu)輸出。圖像開始作為隨機(jī)噪聲,經(jīng)過許多步驟后逐漸變換成一個連貫的圖片,反之亦然。
圖片
為了訓(xùn)練我們定制的Diffusion模型,我們收集了一個全面的數(shù)據(jù)集,包含來自動畫劇《南方公園》約1200個角色和600個背景圖像。這個數(shù)據(jù)集為模型學(xué)習(xí)該劇的風(fēng)格提供了原始材料。
圖片
為了訓(xùn)練這些模型,我們使用了Dream Booth。此訓(xùn)練階段的結(jié)果是創(chuàng)建了兩個專門的Diffusion模型。
第一個模型專門用于生成單個角色,角色將會站在可摳背景顏色前。這有助于提取生成的角色進(jìn)行后續(xù)處理和動畫,使我們能夠無縫地將新生成的角色集成到各種場景和設(shè)置中。
圖片
此外,角色的Diffusion模型允許用戶通過Stable Diffusion的圖片到圖片過程,創(chuàng)建一個基于自己外觀的南方公園角色,并作為平等參與的智能體加入模擬。
由于能夠克隆自己的聲音,可以輕松想象到一個基于用戶外貌、書寫風(fēng)格和聲音的完全實(shí)現(xiàn)的自主角色。
第二個模型經(jīng)過訓(xùn)練可以生成干凈的背景,而且能夠特別聚焦于外部和內(nèi)部環(huán)境。該模型提供了一個「舞臺」,我們生成的角色可以在上面互動,從而可以創(chuàng)建各種潛在的場景和情景。
但需要注意的是,因?yàn)檫@些模型的產(chǎn)出是基于像素的性質(zhì),這些模型生成的圖像在分辨率本質(zhì)上是有限的。
為了克服這個限制,我們使用AI升級技術(shù)對生成的圖像進(jìn)行再處理,特別是R-ESRGAN-4x+-Anime6B,它可以優(yōu)化和增強(qiáng)圖像質(zhì)量。
對于未來的2D交互作品,訓(xùn)練能生成基于矢量輸出的定制Transformer模型將具有以下幾個優(yōu)勢。
與基于像素的圖像不同,矢量圖形在調(diào)整大小或縮放時不會降低質(zhì)量,因此可以提供無限分辨率的潛力。這將使我們能夠生成無論以何種比例查看都能保持質(zhì)量和細(xì)節(jié)的圖像。
此外,基于矢量的形狀已經(jīng)分成單獨(dú)的部分,解決了基于像素的具有透明度和分割的后處理問題。
這簡化了生成資產(chǎn)集成到過程化世界的構(gòu)建,以及動畫系統(tǒng)中的復(fù)雜性。
劇集生成
我們將一集定義為在特定地點(diǎn)進(jìn)行的一系列對話場景,一集南方公園的播放時間總共是22分鐘。
為了生成一個完整的南方公園劇集,我們通常以標(biāo)題、概要和我們希望在模擬虛擬世界的1周內(nèi)(=大約3小時的播放時間)發(fā)生的主要事件的形式,向故事系統(tǒng)提供一個高層次的想法。
基于此,故事系統(tǒng)會自動使用模擬數(shù)據(jù)作為提示鏈的一部分,推斷出多達(dá)14個場景。
圖片
Showrunner系統(tǒng)負(fù)責(zé)為每個場景選派角色,以及故事應(yīng)該如何通過情節(jié)模式進(jìn)行。
每個場景都與一個情節(jié)字母(例如A,B,C)相關(guān)聯(lián),然后由Showrunner在一個劇集的過程中交替不同的角色組,并跟隨他們的各自故事線,以保持用戶的參與度。
最后,每個場景只定義了地點(diǎn)、角色和對話。在舞臺系統(tǒng)和AI攝像系統(tǒng)進(jìn)行初始設(shè)置后,根據(jù)情節(jié)模式(例如ABABC)回放場景。
每個角色的聲音都已經(jīng)提前克隆,并且每一條新的對話線都會即時生成語音剪輯。
圖片
模擬創(chuàng)造性思維
如前所述,模擬產(chǎn)生的數(shù)據(jù),既為撰寫初始提示的用戶,也為與LLM進(jìn)行提示鏈交互的生成故事系統(tǒng),提供了創(chuàng)新的燃料。
提示鏈?zhǔn)且环N技術(shù),它通過向語言模型提供一系列相關(guān)的提示,來模擬持續(xù)的思維過程。有時,它可以在每一步中扮演不同的角色,對前一個提示和生成的結(jié)果進(jìn)行判別。
在這個例子中,我們會模仿一個非連續(xù)的創(chuàng)造性思維過程。
例如,要創(chuàng)建14個不同的《南方公園》場景,可以先提供一個概括性的提示,勾勒出總體敘事,然后再提供具體的提示,詳細(xì)說明和評估每個場景的演員、地點(diǎn)和關(guān)鍵情節(jié)。
圖片
這就模仿了人類頭腦風(fēng)暴的過程,即通過多個往往是不連續(xù)的步驟,對創(chuàng)意進(jìn)行構(gòu)建和完善。
通過利用LLM的生成能力和提示鏈提供的迭代完善功能,我們可以有效地構(gòu)建出動態(tài)、詳細(xì)和引人入勝的敘事。
此外,我們探索了新的概念,如情節(jié)模式和戲劇操作符(DrOps),從而增強(qiáng)整個劇集的結(jié)構(gòu),同時也增強(qiáng)了每個場景之間的連貫性。
反轉(zhuǎn)、預(yù)示、懸念等修辭手法,很難作為提示鏈的一部分進(jìn)行評估。沒有寫作背景的用戶在判斷這些修辭手法的有效性和適當(dāng)?shù)奈恢蒙?,也會有同樣的困難。
為此,研究者提出了一種程序化的方法,將這些特定于節(jié)目的模式和修辭手法作為情節(jié)模式和DrOps,程序化地注入到提示鏈中。這些模式和DrOps可以在行為結(jié)構(gòu)、場景結(jié)構(gòu)和單個對話的層面上操作。
他們正在研究未來的機(jī)會,以提取針對每個IP和格式的戲劇指紋,并利用這些數(shù)據(jù)來訓(xùn)練定制的SHOW-1模型。
這個數(shù)據(jù)集與人類的整體反饋相結(jié)合,可以在用戶和指定的IP之間進(jìn)一步對齊語調(diào)、風(fēng)格和娛樂價值,同時提供一個高度自適應(yīng)和互動的故事系統(tǒng),作為正在進(jìn)行的模擬的一部分。
圖片
誰在推動這個故事?
在這個方法中,故事生成過程是項(xiàng)目 、用戶和GPT-4共同負(fù)責(zé)的。
每個參與者各自的優(yōu)缺點(diǎn),這取決于我們希望他們在整個故事中扮演怎樣的角色。他們的角色是獨(dú)特的,他們的貢獻(xiàn)可以有不同的權(quán)重。
The Simulation通常提供基礎(chǔ)的IP-based上下文、角色歷史、情緒、事件和地點(diǎn),為初始的創(chuàng)新過程提供種子。
圖片
而用戶引入自己的意向性,對智能體施加行為控制,并提供啟動生成過程的初始提示。用戶也充當(dāng)最后的鑒別器,在過程結(jié)束時評估生成的故事內(nèi)容。
另一方面,GPT-4則充當(dāng)主要的生成引擎,根據(jù)它從用戶和Simulation那里收到的提示創(chuàng)建和推斷場景和對話。
這是一個共生的過程,每個參與者的優(yōu)點(diǎn)都有助于構(gòu)建一個連貫、吸引人的故事。
重要的是,我們的多步驟方法,以提示鏈的形式,也提供了檢查和平衡,減輕了不希望的隨機(jī)性的可能性,并允許與IP故事世界更一致的對齊。