首個(gè)VR端3D角色扮演AI發(fā)布!南洋理工公開SOLAMI技術(shù)報(bào)告,端到端VLA模型驅(qū)動(dòng),唱跳都能陪你玩
世界上第一個(gè)VR端 3D版的角色扮演AI就在剛剛誕生了!
AI角色扮演類游戲(如C.AI、Talkie)從發(fā)布以來,一直都是人們最喜歡的AI產(chǎn)品之一。雖然廣受歡迎,但不少用戶提出,期待和這些角色在VR中有更進(jìn)一步的交流。
近日,來自南洋理工大學(xué)的研究團(tuán)隊(duì)在VR中實(shí)現(xiàn)了第一個(gè)3D版角色扮演AI系統(tǒng)SOLAMI,并公開其詳細(xì)的技術(shù)報(bào)告。沒錯(cuò),這意味著和各種角色在VR中沉浸式聊天已經(jīng)是可實(shí)現(xiàn)的!
項(xiàng)目主頁(yè):https://solami-ai.github.io/
技術(shù)報(bào)告:https://arxiv.org/abs/2412.00174
完整介紹視頻:https://www.bilibili.com/video/BV1D6zpYHEyc/
從技術(shù)報(bào)告中我們可以看到,SOLAMI支持多種角色,有超級(jí)英雄蝙蝠俠,小可愛機(jī)器人,二次元老婆,香蕉貓,世界名人特朗普,……
SOLAMI驅(qū)動(dòng)的AI角色能識(shí)別用戶的肢體語(yǔ)言,從而去關(guān)心和理解用戶.
想讓角色跳個(gè)舞?只要說句話,角色就能聽懂做到.
還可以和角色玩游戲,比如跟著用戶節(jié)奏動(dòng)起來,或者剪刀石頭布.
那么SOLAMI提出的動(dòng)機(jī)是什么?模型是怎么工作的?使用了什么樣的數(shù)據(jù)訓(xùn)練的?
研究背景
大家有沒有想過和一個(gè)虛擬角色進(jìn)行面對(duì)面的深度對(duì)話?不僅僅是簡(jiǎn)單的語(yǔ)言交流,而是能像現(xiàn)實(shí)社交一樣,觀察對(duì)方的面部表情、自然的身體語(yǔ)言,甚至是細(xì)微的情緒變化。
心理學(xué)研究表明,在社交互動(dòng)中,沉浸程度越高,用戶體驗(yàn)就越好。但目前的AI角色(如Character.ai等) 仍然局限于文本或者語(yǔ)音的交互。這促使我們思考:如何構(gòu)建具有更豐富模態(tài)的3D自主角色呢?
要實(shí)現(xiàn)這個(gè)目標(biāo),主要面臨兩個(gè)挑戰(zhàn):
1. 3D角色需要準(zhǔn)確觀察和理解用戶行為信息,并基于上下文和角色設(shè)定通過語(yǔ)音、肢體動(dòng)作和表情做出合適的回應(yīng)。這已經(jīng)超越了之前的單一任務(wù)(動(dòng)作理解,動(dòng)作生成,語(yǔ)音驅(qū)動(dòng)肢體等)的范疇。
2. 數(shù)據(jù)稀缺的問題。人和3D角色進(jìn)行多模態(tài)交互的數(shù)據(jù)極其稀缺,收集這類數(shù)據(jù)需要復(fù)雜的設(shè)備和巨大成本。
傳統(tǒng)的LLM-Agent框架雖然在高層次任務(wù)(如規(guī)劃和記憶)表現(xiàn)不錯(cuò),但在理解用戶行為和提供及時(shí)的肢體語(yǔ)言反饋上存在局限。這是因?yàn)橛梦谋咀鳛樽幽K之間聯(lián)系的媒介會(huì)丟失很多細(xì)微的信息。
有趣的是,機(jī)器人領(lǐng)域的研究給了我們啟發(fā):對(duì)于低層次的操作任務(wù),基于LLM構(gòu)建的端到端視覺-語(yǔ)言-行為 (Vision-Language-Action,VLA)模型表現(xiàn)更好。數(shù)字角色本質(zhì)上就是虛擬人形態(tài)的機(jī)器人,那么構(gòu)建一個(gè)偏向于社交互動(dòng)的VLA模型會(huì)不會(huì)是一個(gè)有潛力的方向?
Social VLA模型
SOLAMI推理圖
如圖所示,SOLAMI中所有角色的驅(qū)動(dòng)都是由一個(gè)統(tǒng)一的端到端VLA多模態(tài)模型驅(qū)動(dòng)。給定角色的設(shè)定,模型以用戶的語(yǔ)音和動(dòng)作作為輸入,將這兩種模態(tài)通過Motion Tokenizer和Speech Tokenizer分別編碼為L(zhǎng)LM新的詞表中的token,LLM基座會(huì)自回歸輸出角色的語(yǔ)音和動(dòng)作token,再通過解碼器分別解碼為角色的3D動(dòng)作和語(yǔ)音,來驅(qū)動(dòng)角色做出反應(yīng)。
與GPT-4o相比,這個(gè)模型多了個(gè)用戶動(dòng)作的模態(tài),用于理解用戶的肢體語(yǔ)言,生成角色的動(dòng)作。
在這里,用戶的動(dòng)作以SMPL-X的3D旋轉(zhuǎn)進(jìn)行表示,動(dòng)作被拆為三個(gè)部分:相對(duì)于3D角色的相對(duì)位置,肢體動(dòng)作,和手部動(dòng)作。分別經(jīng)過3個(gè)VQVAE進(jìn)行編碼。用戶的語(yǔ)音使用RVQ-VAE結(jié)構(gòu)進(jìn)行編碼,使用的SoundStorm進(jìn)行解碼,在解碼過程中,只要輸入小段角色的語(yǔ)音作為prompt,就可以實(shí)現(xiàn)聲音克隆。
SOLAMI訓(xùn)練過程
模型的訓(xùn)練主要分為兩個(gè)階段:多任務(wù)預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練。
多任務(wù)預(yù)訓(xùn)練階段主要使用動(dòng)作-文本、語(yǔ)音-文本相關(guān)的數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練任務(wù)包括 text-to-speech, automatic speech recognition,speech-to-speech,motion understanding,motion generation,interactive motion generation六個(gè)任務(wù)。目的在于讓SOLAMI學(xué)習(xí)動(dòng)作、語(yǔ)音和文本之間的關(guān)聯(lián)。
指令微調(diào)階段主要訓(xùn)練模型進(jìn)行多輪多模態(tài)對(duì)話的能力。使用合成的數(shù)據(jù)集,模型被要求學(xué)習(xí)基于角色設(shè)定和用戶輸入該如何做出語(yǔ)音和動(dòng)作的反饋。
數(shù)據(jù)收集
用于訓(xùn)練模型的數(shù)據(jù)是相當(dāng)稀缺的。畢竟,很少人能和蝙蝠俠面對(duì)面說過話。因此,研究人員考慮使用現(xiàn)有不同模態(tài)的數(shù)據(jù)進(jìn)行合成。
首先,研究人員基于公開的動(dòng)作-文本數(shù)據(jù)集構(gòu)建了一個(gè)大規(guī)模的帶有語(yǔ)義標(biāo)注的動(dòng)作庫(kù),包含4萬(wàn)多個(gè)人體動(dòng)作,然后使用GPT-4o生成角色和用戶對(duì)話的純文本的臺(tái)詞劇本。
根據(jù)生成的劇本動(dòng)作,從動(dòng)作庫(kù)檢索最合適的已有動(dòng)作,根據(jù)檢索到的動(dòng)作修繕好對(duì)應(yīng)的臺(tái)詞。這樣生成的文字劇本能和合成數(shù)據(jù)中的動(dòng)作較好吻合。最后,通過聲音克隆合成角色特有聲音。這樣,一個(gè)低成本可用的合成數(shù)據(jù)集得以實(shí)現(xiàn)。
SOLAMI合成數(shù)據(jù)管線
VR工程實(shí)現(xiàn)
SOLAMI VR工程框架
研究人員基于Oculus Quest 3開發(fā)了一個(gè)完整的VR交互系統(tǒng)。
前端支持用戶與3D虛擬角色的沉浸式交互,后端由2塊H800 GPU提供計(jì)算支持,可以支持多種模型和方法。
在交互時(shí),VR頭顯會(huì)實(shí)時(shí)捕捉用戶的語(yǔ)音和全身動(dòng)作,發(fā)送給后端。后端運(yùn)行SOLAMI模型,生成角色的語(yǔ)音、肢體動(dòng)作和面部表情響應(yīng),發(fā)送給前端來驅(qū)動(dòng)角色。
實(shí)驗(yàn)結(jié)果
在本工作中,研究人員希望探討兩個(gè)問題:與純語(yǔ)音相比,3D角色與動(dòng)作是否會(huì)給AI角色扮演帶來體驗(yàn)提升?與LLM-Agent結(jié)構(gòu)相比,端到端的VLA結(jié)構(gòu)是否在交互質(zhì)量和延遲上有體驗(yàn)提升?
為此,研究人員選擇了兩種對(duì)比方法:LLM+Speech,DLP(MoitonGPT)。前者是純語(yǔ)音的交互,后者是LLM-Agent結(jié)構(gòu)驅(qū)動(dòng)的數(shù)字角色。為了保證公平,這些方法的基座模型都是llama2-7B,并使用vLLM部署進(jìn)行加速。
定量實(shí)驗(yàn)結(jié)果
定量實(shí)驗(yàn)結(jié)果表明,SOLAMI在動(dòng)作質(zhì)量和語(yǔ)音質(zhì)量上表現(xiàn)都優(yōu)于對(duì)比方法,并且有較低的事件延遲。消融實(shí)驗(yàn)也表明,多任務(wù)的預(yù)訓(xùn)練對(duì)模型最終效果有重要提升。
實(shí)驗(yàn)定性分析與VR使用流程
除了定量試驗(yàn)外,研究人員還做了用戶實(shí)驗(yàn),通過讓用戶在VR頭顯中跟各種角色互動(dòng),并且根據(jù)體驗(yàn)進(jìn)行打分??梢园l(fā)現(xiàn)SOLAMI體驗(yàn)明顯好于純語(yǔ)音方法和LLM-Agent結(jié)構(gòu)方法。有趣的是,雖然純語(yǔ)音方法在對(duì)話內(nèi)容上比LLM-Agent結(jié)構(gòu)方法好,但是總體體驗(yàn)上還是弱于后者,這印證了角色和肢體語(yǔ)言在AI角色扮演中對(duì)于體驗(yàn)的重要性。
總結(jié)
研究人員在這篇工作中,提出了一個(gè)Social VLA的端到端建模3D數(shù)字角色的技術(shù)框架,一種從現(xiàn)有不完備模態(tài)的數(shù)據(jù)合成多模態(tài)社交互動(dòng)數(shù)據(jù)的管線,和一個(gè)支持用戶和角色進(jìn)行沉浸式互動(dòng)的VR交互系統(tǒng)。
當(dāng)然,作為一個(gè)新的方向,研究者們指出了一些值得探索的方向,比如輸入輸出模態(tài)的設(shè)定、數(shù)據(jù)搜集方式、跨具身問題、長(zhǎng)短時(shí)記憶問題、技能學(xué)習(xí)方法等。感興趣的朋友可以參考技術(shù)報(bào)告。