自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

實時語音交互的游戲隊友——網(wǎng)易伏羲 AI Agent 創(chuàng)新應用

人工智能
本文將重點講解語音 AI 隊友的設計和實現(xiàn),及其背后的 AOP(Agent-Oriented-Programming,面向智能體編程)框架,最后還會分享語音技術在游戲場景的一些創(chuàng)新應用。

在 PVP 多人對戰(zhàn)類的游戲中,社恐玩家的社交和情緒價值、對戰(zhàn)局的操控感,無法得到有效滿足。因此,網(wǎng)易伏羲助力《永劫無間》手游率先發(fā)布了全球首創(chuàng)的游戲 Copilot-多模態(tài)實時交互的語音 AI 隊友。它可以在戰(zhàn)斗中自主跑圖、戰(zhàn)斗、聽指令、報戰(zhàn)況,還會和玩家進行自由對話,給玩家?guī)順O高的情緒價值。本文將重點講解語音 AI 隊友的設計和實現(xiàn),及其背后的 AOP(Agent-Oriented-Programming,面向智能體編程)框架,最后還會分享語音技術在游戲場景的一些創(chuàng)新應用。

一、網(wǎng)易伏羲介紹

網(wǎng)易伏羲是國內(nèi)首個游戲人工智能研究機構(gòu),自 2017 年成立以來,已在全球各類學術頂級會議中發(fā)表 270 余篇學術論文,并持有 600 多項技術專利,為人工智能、元宇宙、數(shù)字孿生、智能決策技術等眾多前沿科技領域的理論研究和實踐應用做出貢獻。

圖片

自成立以來,網(wǎng)易伏羲不斷推陳出新,積極探索前沿技術和應用場景,實現(xiàn)了游戲AI 領域的多項創(chuàng)新技術突破,推出了基于照片、文字的 AI 捏臉、智能 NPC、劇組模式、語音交互式捏臉和語音 AI 隊友等多個行業(yè)首創(chuàng)的AI 應用。通過將 AI 技術融入游戲系統(tǒng)的各個層面,網(wǎng)易伏羲成功助力《逆水寒》手游、《永劫無間》手游等游戲打造多項創(chuàng)新玩法,極大地提升了玩家的游戲體驗。

近期,網(wǎng)易伏羲助力《永劫無間》手游推出全新的游戲 Copilot——“語音 AI 隊友”,該玩法一經(jīng)推出即受到玩家的高度評價,相關用戶生成內(nèi)容迅速登上抖音和 B 站熱門榜單。

二、語音 AI 隊友的設計與實現(xiàn)

圖片

傳統(tǒng)游戲中,機器人往往存在行為呆板、缺乏互動交流等問題。對于有社交焦慮的玩家,他們希望在避免與真人玩家直接語音交流的同時,仍能享受游戲中的社交體驗及多人對戰(zhàn)的樂趣。此外,玩家匹配到技術不佳或配合度低的隊友,會導致游戲體驗不佳。因此,玩家希望能夠找到一個既能提供高質(zhì)量的游戲技巧支持又能陪伴聊天的對象,從而滿足自身情緒需求,提升整體游戲體驗。

為了滿足玩家對于游戲互動性和情緒價值的需求,《永劫無間》手游推出了一種多模態(tài)實時交互的語音 AI 隊友。AI 隊友能夠在戰(zhàn)斗中自主跑圖、執(zhí)行戰(zhàn)術動作,并根據(jù)玩家指令匯報戰(zhàn)況。此外,它還能與玩家進行自然對話,提供情感支持。對于新手玩家,該語音 AI 隊友還具備教學引導功能,可以幫助他們更快地熟悉游戲機制。

在《永劫無間》手游中設計的 AI 隊友 Agent 能夠綜合處理游戲環(huán)境中的狀態(tài)變化和玩家輸入的語音信息?;趯Ξ斍碍h(huán)境狀況的認知、決策能力,以及利用游戲知識庫與戰(zhàn)斗記憶,該 AI 隊友能夠做出合理的行動決策并給予相應的語音反饋。

圖片

在這一應用場景下,為實現(xiàn)高效互動和輔助功能,Agent 需要具備的認知與決策能力主要包括:語音識別、指令理解、教學問答、人設對話、語音生成,以及協(xié)同完成任務所需的戰(zhàn)斗智能體等。

接下來將詳細介紹幾個核心能力。

圖片

首先,作為 AI 隊友,必須具備“聽得懂”的能力,能夠像真人一樣與玩家實時語音互動。因此在設計之初就去掉了智能音箱等場景中常用的喚醒詞設計,比如“Hey Siri”,而是采用全開麥實時語音交互。這種模式雖然極大地提升了用戶體驗,但也帶來了很大挑戰(zhàn)。比如環(huán)境噪音、不同設備的兼容性、玩家方言口音差異以及存在一些專業(yè)術語等問題。為了解決這些問題,我們基于 AOP(Agent-Oriented-Programming,面向智能體編程)框架的核心能力,構(gòu)建了自主數(shù)據(jù)閉環(huán)的訓練模型,使 Agent 具備自主進化的能力,并且構(gòu)建了標準的測試集,有效利用測試和線上數(shù)據(jù)擴充數(shù)據(jù)集,推動模型迭代。我們的語音識別在經(jīng)過幾次場景數(shù)據(jù)的閉環(huán)訓練之后,在噪聲過濾、熱詞適配等方面都得到了顯著的加強。

圖片

除了聽得懂,AI 隊友還需能夠進行表達和對話。通過結(jié)合大語言模型與文語轉(zhuǎn)換(TTS)技術,AI 隊友實現(xiàn)了自主對話的功能。為了增強語音生成模型的泛化能力,我們利用多年積累的大數(shù)據(jù)對語音基礎大模型進行了訓練,并針對具體游戲場景進行了自適應優(yōu)化。

圖片

在聽得懂、能說話的基礎上,我們給 AI 隊友設計了非常豐富的人設選項,比如彩虹屁萌妹、溫柔體貼御姐以及溫暖深情暖男等等。這些具有鮮明個性的 AI 隊友,不僅可以和玩家產(chǎn)生復雜的互動關系,還可以根據(jù)不同的游戲情境展現(xiàn)出其獨特的性格特點,進一步增強游戲的沉浸感和互動感。比如上圖中展示的,一個玩家在玩的過程中通過和不同 AI 隊友的交互體驗,畫出了一個關系圖。

圖片

作為游戲的陪玩或隊友,對于游戲的理解需要非常到位,對于問到游戲相關內(nèi)容時,要做出非常好的回答。為了實現(xiàn) AI 隊友的教學問答功能,我們構(gòu)建了一個強大的知識庫系統(tǒng),該系統(tǒng)包括游戲的靜態(tài)知識(如規(guī)則和機制)和動態(tài)知識(如賽事信息)。當玩家提出問題時,AI 會通過 embedding 模型將問題轉(zhuǎn)化為向量,并在向量庫中搜索最匹配的答案。如果答案不明確,則會利用 RAG(檢索增強生成)和更高級的大語言模型進行進一步的檢索和推理,以確保提供準確的回答。

圖片

AI 隊友還必須擁有基本的游戲執(zhí)行能力。當玩家發(fā)出如“集火胡桃”這樣的指令時,系統(tǒng)首先在預處理模塊中解析并理解該指令的意圖。識別出意圖后,系統(tǒng)將“集火”這一行為類型和“胡桃”這一目標轉(zhuǎn)化為狀態(tài)信息,并將其作為戰(zhàn)斗模塊的輸入。最終,基于強化學習的戰(zhàn)斗模型會根據(jù)這些輸入信息做出相應的行動決策,從而執(zhí)行玩家的指令,做出集火胡桃的動作在客戶端表現(xiàn)出來。

基于上述介紹,可以看到 AI 隊友系統(tǒng)具備多種能力,包括理解語音、自然對話、展現(xiàn)個性以及執(zhí)行任務等,因此它是一個多智能體系統(tǒng),類似于人類大腦中不同區(qū)域分工明確且協(xié)同工作的機制。行業(yè)中已有一些成熟的多智能體框架,如 MetaGPT 和 AutoGEN 等,支持復雜系統(tǒng)的開發(fā)與應用。

在做 Agent 設計和落地時,常會遇到場景適配的問題,比如語音識別,需要適配環(huán)境噪音、口音等問題。我們是如何解決這些問題的呢?這就引入了下一部分內(nèi)容——AOP 框架。

三、Agent 能力迭代- AOP 數(shù)據(jù)閉環(huán)

圖片

AOP(Agent-Oriented-Programming,面向智能體編程) 是網(wǎng)易伏羲設計的一套全新的編程范式,其核心價值在于為開發(fā)者對接智能體(包括 AI 和人),提供統(tǒng)一范式的接口和服務,并自動構(gòu)建數(shù)據(jù)閉環(huán)讓智能體具備自主進化能力。開發(fā)者可通過 AOP 使用伏羲有靈機器人平臺預置的公共智能體能力,包括 ChatGPT、Midjourney 等預訓練模型,以及數(shù)據(jù)標注、美術制作、工程機械操控等眾包能力,也可針對行業(yè)細分場景定制化構(gòu)建智能體應用。

AOP 的設計思想,是基于馬爾可夫決策過程(Markov Decision Processes,MDP)的定義來進行任務建模,即 Agent(智能體,包括人類或機器)在進行某個任務時,首先會和環(huán)境進行交互,產(chǎn)生新的狀態(tài)(State),同時環(huán)境會給予相應的獎勵(Reward),這一過程循環(huán)往復,Agent 與環(huán)境之間的交互產(chǎn)生了大量的數(shù)據(jù)。Agent 利用這些新數(shù)據(jù)不斷調(diào)整自身的行為策略,經(jīng)過多次迭代后,Agent 便能夠?qū)W習到完成特定任務所需的最佳動作策略。

圖片

圖片

圖中展示的是我們所定義的一個用于語音識別的智能體。我們詳細規(guī)定了該智能體的狀態(tài)觀察機制及其自身的能力,無論是指定使用人工智能還是人工操作。一旦完成接口描述語言(IDL, Interface Description Language)的定義,便能夠生成并編譯出這一智能體。編譯完成后,我們將獲得一段運行時代碼,這段代碼提供了同步與異步調(diào)用的接口。接著,利用 AOP 平臺的一鍵發(fā)布功能,即可實現(xiàn)智能體的快速部署。部署完畢后,就可以在具體的業(yè)務場景中直接調(diào)用此智能體。例如,根據(jù)圖示代碼所示,可以選擇調(diào)用 AI 執(zhí)行的自動語音識別(ASR)功能或人類執(zhí)行的語音識別服務。

該 AOP 框架已成功應用于多個案例之中,除了文本提到的 AI 語音隊友以外,還在《逆水寒》手游的文字捏臉、《永劫無間》手游的交互式捏臉等應用中落地。

四、語音技術在游戲場景的應用

最后來分享一下語音技術在游戲場景的一些其他應用。

圖片

在游戲場景下,除了實時互動的語音 AI 隊友,我們在音頻內(nèi)容生產(chǎn)上也做了一定工作。游戲場景下的音頻內(nèi)容,主要包含音樂、音效、語音三個方面。游戲音樂,包括背景音樂、劇情、戰(zhàn)斗和關卡中的音樂等等。音效包括各種各樣的聲音效果,像環(huán)境音效、動作音效等等,例如法術釋放、技能特效、爆炸聲等,完美的音效設計可以給玩家?guī)砀玫某两泻突芋w驗。游戲人物語音是指游戲角色所發(fā)出的人聲,常見的有對話語音、戰(zhàn)斗語音,語音設計師可以根據(jù)角色的角色設定、角色性格、場景和情節(jié)需求,來創(chuàng)造適合的語音內(nèi)容和表達方式。在傳統(tǒng)的游戲生產(chǎn)鏈路中,這三部分都是人工完成的,耗費人力和時間很多,隨著 AI 生成式技術的興起,我們嘗試用技術去幫助游戲音頻設計師更快更好地生產(chǎn)內(nèi)容。下面,將以人物語音為例,介紹我們在游戲里面的一些落地案例。

圖片

《逆水寒》手游自去年上線就獲得了很大的關注度,玩家可以在汴京、虹橋等很多地方,和瀾兒、高衙內(nèi)等數(shù)十個 NPC 進行互動交流,這種細致入微的互動,為游戲增添了更多的樂趣和豐富性。游戲里大家所聽到的這些 NPC 的聲音,就是我們語音合成技術所實時合成的。形形色色的會說話的 NPC,增加了《逆水寒》手游街頭巷尾的煙火氣息,讓玩家獲得了更好的沉浸式體驗。

為了增強游戲的社交性、可玩性,提高游戲豐富度在《逆水寒》手游中,我們首次在游戲里加入了聲音的 DIY 玩法——自定義技能喊話,玩家可以設置技能釋放時候播放的語音內(nèi)容,玩家可以輸入文本,選擇音色進行定制,也可以輸入自己的語音進行音色轉(zhuǎn)換來定制。

另外,我們還應用了歌聲合成和轉(zhuǎn)換技術,來制作歌聲內(nèi)容。

在游戲場景中,對變聲器,即語音轉(zhuǎn)換能力的需求比語音合成更多,我們在這塊做了深入的探索,發(fā)表的論文有 DualVC、DualVC2、DualVC3、Expressive-VC 等等。比如在直播時可以選擇將自己的聲音更換為另一種特定的音色。實時變聲器可以在很多玩法上做嵌套,但也會遇到法律邊界的挑戰(zhàn)。

圖片

圍繞語音生成,網(wǎng)易伏羲在 Codec 和 LLM 兩個方面都做了探索。Codec 方面,網(wǎng)易伏羲基于自身技術積累,自研了適配生成式大語言模型的語音 Codec,不僅實現(xiàn)了語音的離散化和高質(zhì)量重建,而且做到了內(nèi)容屬性與音色屬性的解耦。

LLM 方面,在文本生成語音時,使用了 Speech LLM,利用數(shù)十萬小時的語音數(shù)據(jù)訓練,融合 SFT+RLHF 等手段,實現(xiàn)了媲美真人的語音合成效果。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-09-20 08:31:49

AIGA深度學習

2017-12-22 21:42:24

游戲語音游戲?qū)崟r語音

2025-02-17 10:36:00

微軟開源模型

2018-03-01 09:46:11

游戲實時語音

2021-11-11 19:35:16

人工智能AI深度學習

2024-11-05 09:32:47

2020-09-21 07:00:00

語音識別AI人工智能

2024-07-08 09:31:02

2020-04-13 13:13:20

NLPAI語音

2017-07-26 18:35:53

科勝訊
點贊
收藏

51CTO技術棧公眾號