1000+AI智能體復活,OpenAI版元宇宙上線? ChatGPT+VR百分百還原「西部世界」
游戲版的「西部世界」已然成為現(xiàn)實。
YouTube博主Art from the Machine正式發(fā)布Mantella,能夠讓「上古卷軸5」中的NPC們復活的全新AI Mod。
項目一經(jīng)發(fā)布,在Reddit上掀起軒然大波。
通過ChatGPT、以及文本轉語音工具xVASynth、語音識別模型Whisper直接讓游戲中AI智能體擁有意識,進行自然對話。
值得一提的是,Mantella Mod支持1000多個NPC,以及20+種語言。
網(wǎng)友紛紛表示,絕對要改變游戲規(guī)則。
很多玩家在游戲里打怪升級什么的早就玩膩了。
可以想象,在VR模式下安裝了這個Mod后,肯定有玩家就在「上古卷軸」里面找NPC聊天,一聊就是一整天。
升級是不可能升級的,這輩子都不會升級了,打怪什么的又難打。只有找NPC聊天才能打發(fā)游戲里的時間。
游戲里的老哥們各個都有自己的故事,說話又好聽,超喜歡和NPC們在游戲里聊天的了。
有網(wǎng)友甚至覺得,這個Mod不僅僅是游戲,而是開啟了一個人類和計算機交互新時代。
1000+NPC注入「靈魂」
過去的幾個月里,Mantella一直在進行公開測試,作者在19日終于發(fā)布了這個Mod。
簡單來說,這個Mod就是把「上古卷軸5:天際」里邊所有的NPC都接入了ChatGPT GPT,讓AI幫助原本只會來回移動的NPC真的活過來了。
這1000多個NPC全部都直接能語音互動,而且每個人都有自己獨特的背景。
NPC能夠記住你和他之前對話的內容,也知道他們自己所處的位置,游戲里的時間,以及玩家在游戲中他看到的操作,比如拾取了什么物品。
NPC的對話內容由ChatGPT生成,而在游戲內的語音實現(xiàn)則由一款名為xVASynth的AI工具完成。
一起看看,NPC們如何與人對話交流。
玩家:這些奶酪多少錢?
NPC:這些奶酪是我們這里的精品,需要10金幣。你還有其他需要的嗎?
玩家:麥當勞。
NPC:對不起,「上古卷軸」里沒有麥當勞。
玩家:我搶走了的你的妻子。
NPC:我不信,我沒有結婚,更別說有妻子了,你可能搞錯了...
更有趣的是,NPC還會幽默回復你的對話。
NPC:如果你是在暗示,你假設是我的妻子或你沒有妻子,我很抱歉聽到這個消息。
其實,用AI讓游戲角色更加鮮活,英偉達也在攻關。
還記得,老黃在今年的COMPUTEX大會上,推出了全新的定制AI模型代工服務 ——Avatar Cloud Engine (ACE) for Game。
在一個充滿「賽博朋克」風格的拉面店場景中,玩家按下一個按鈕,可以用自己的聲音說話,然后店主Jin會進行回答。
Jin是一個NPC角色,但他的回答是由生成式AI根據(jù)玩家的語音輸入實時生成的。
Jin還有著逼真的面部動畫和聲音,全部與玩家的語氣和背景故事相符。
這個逼真人物角色的生成,使用了一個實時人工智能模型渲染工具Nvidia ACE。
老黃表示,這個游戲中的角色并沒有預先設定。他們有一個典型的任務提供者NPC類型。
背后技術介紹
Mod制作者通過ChatGPT—xVASynth—Whisper,構成了一個「群活」NPC的技術框架。
Whisper能夠識別玩家通過麥克風輸入的語音內容,并且轉化成文字,經(jīng)由API調用ChatGPT對玩家說的話進行文字回復。
然后再通過xVASynth將ChatGPT生成的文字回復生成符合游戲角色特點的游戲內語音,和玩家直接進行語音交流。
而且整個流程的實現(xiàn)幾乎沒有成本,只需要支付一點點調用ChatGPT API的費用。大概玩一天需要幾美分。
xVASynth
https://www.nexusmods.com/skyrimspecialedition/mods/44184
他可以根據(jù)游戲中某一個聲音,來生成符合這個聲音的游戲NPC配音臺詞。
xVASynth使用神經(jīng)語音合成(Neural Speech Synthesis)來專門生成游戲中的NPC的語音對話。它是基于一個根據(jù)游戲中的角色語音數(shù)據(jù)單獨訓練的模型。
支持從文本到語音的轉換(TTS)或者音頻直接輸入進行語音轉換(V/C)。
通過這個工具,用戶只要提供一小段特定的聲音素材作為模板,就能使用文字來直接生成和模板風格一致的語音內容。
Mentella就是采用了ChatGPT生成NPC對話內容+xVASynth轉化為游戲內語音的框架完成的。
xVASynth針對文字的語音轉換,能讓用戶可以控制語音的很多細節(jié),例如單個字母的音高和持續(xù)時間、能量、情感和風格,來突出角色所要表達的情緒和重點。
神經(jīng)語音合成技術的使用可以讓它產(chǎn)生自然的聲音,現(xiàn)有數(shù)據(jù)串聯(lián)的傳統(tǒng)方法很難做到這一點。這也意味著可以在配音演員已經(jīng)讀出的內容之外生成全新的語音內容。
這樣生成的語音就不會是一段「機里機氣」的AI轉述音頻了,能讓NPC的真實感和游戲玩家的沉浸感大大加強。
更吊的是它可以支持28種語言,并且可以使用同一文本提示在多種語言之間切換輸出。大大方便了游戲制作者進行多語言版本的制作。
為了方便用戶處理游戲中成千上萬個不同的游戲語音,它還內建了一個3D語音嵌入可視化工具。
這個3D可視化UI也是由AI生成的,用戶可以按游戲的NPC的屬性對語音進行上色,比如性別,職業(yè)等等,讓用戶擺脫了傳統(tǒng)通過時間軸來控制語音的方式。
現(xiàn)在xVASynth也已經(jīng)上架Steam,可以讓游戲開發(fā)者和玩家免費使用大部分功能。
Whisper
而為了完成語音交互,NPC除了自己發(fā)音,還必須要能識別玩家和他們的語音交流。
Mod開發(fā)者使用的是由OpenAI發(fā)布的語音轉文字AI工具:Whisper。
OpenAI通過網(wǎng)絡收集了超過68萬小時的多語言和多任務監(jiān)督數(shù)據(jù)訓練出了Whisper。
使用如此龐大且多樣化的數(shù)據(jù)集使得Whisper對口音、背景噪音和專有名詞有非常強的適應能力。此外,還可以進行多種語言的轉錄和翻譯。
Whisper采用的是一種簡單的端到端的構架,通過Transformer編碼器-Transformer解碼器的形式實現(xiàn)語音的識別。
輸入音頻被分成 30 秒的塊,轉換為梅爾頻譜圖,然后傳遞到編碼器。
解碼器經(jīng)過訓練來預測相應的文本內容,并與特殊標記混合在一起,指示單個模型來執(zhí)行語言識別、多語言語音轉錄和英語語音翻譯等任務。
下載與安裝
要求
硬件:目前還沒有發(fā)現(xiàn)最低要求,但有報告稱Mantella在運行2000個Mod的modlist時崩潰了。Mantella需要一定數(shù)量的硬件分配才能成功運行,如果這被其他硬件密集型mod占用,它可能會崩潰。
存儲:安裝所有語音模型時,Mod需要約17GB的空間。解壓語音模型總共需要約32GB。
兼容性
- 已經(jīng)確認,Mantella可與 FUS(將 skyrim_folder 指向 Skyrim)、Librum(將 skyrim_folder 指向 overwrite/root)和 Wildlands(將 skyrim_folder 指向 Wildlander/SKSE)Wabbajack mod 列表一起使用。
- 如果你安裝了非官方的Skyrim SE版(USSEP),則需要在此mod之后加載Mantella
注意:由于 Mantella 會訪問和寫入「上古卷軸」文件夾中的文件,因此如果你將「上古卷軸」存儲在「Program Files」(程序文件)中,則 Mantella 可能無法正常工作。請確保將其存儲在此文件夾之外(例如 C:\Games\Steam)。
將此Mantella文件夾解壓。
MantellaSpell.zip
該壓縮文件的安裝方式與其他 MOD 相同。如果你以前沒有手動安裝過模塊,在模塊管理器2的用戶界面左上角有一個光盤圖標,你可以指向MantellaSpell.zip壓縮文件進行安裝。
對于Vortex,你可以將壓縮的MOD拖入Vortex面板。
xVASynth
- 通過
Steam(https://store.steampowered.com/app/1765720/xVASynth/)或Nexus(https://www.nexusmods.com/skyrimspecialedition/mods/44184)下載xVASynth。
- 為你可能遇到的所有或任何角色下載經(jīng)過xVASynth訓練的Skyrim語音模型。你必須通過Nexus Mods頁面手動下載,或使用Nexus Premium自動下載,xVASynth中包含了Nexus Premium的API。
- 在 https://www.nexusmods.com/skyrimspecialedition/mods/44184?tab=files 的 「可選」選項下,將壓縮文件存儲到一個文件夾中。
打開xVASynth,將文件夾中所有壓縮的聲音模型文件拖入聲音面板。等待安裝完成。
如果這種方法不適合你,你也可以手動將模型解壓縮到正確的xVASynth文件夾中(xVASynth\resources\app\models\skyrim)。解壓縮完成后,就可以刪除壓縮的語音模型文件了。
最后,具體操作步驟,可參考視頻。
網(wǎng)友熱議
試過之后網(wǎng)友表示非常好,語音恰到好處,一點不違和,沉浸感爆棚。
也許是《上古卷軸》歷史上最具突破性的Mod!
這個網(wǎng)友跟了這個Mod很長時間,認為Mod直接讓《上古卷軸:天際》變了一個游戲,未來也許所有游戲的交互方式都會發(fā)生改變。
等不及要馬上爽一把了!