自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

與「李白」賞圖賦詩,同「猴哥」直面天命,人大高瓴提出MMRole多模態(tài)角色扮演

人工智能 新聞
近日,中國人民大學高瓴人工智能學院的研究團隊率先提出了「多模態(tài)角色扮演智能體」(MRPAs)的概念。

代彥琪是中國人民大學高瓴人工智能學院的三年級博士生,師從盧志武教授,2022年畢業(yè)于大連理工大學軟件學院。他的研究興趣包括多任務學習、多模態(tài)大模型以及角色扮演智能體等領域,近期尤其關注多模態(tài)大模型指令微調中的多任務沖突問題。

隨著大語言模型的飛速發(fā)展,角色扮演智能體(RPAs)正逐漸成為 AI 領域的熱門話題。這類智能體不僅能夠為人們提供陪伴、互動和娛樂,還在教育、社會模擬等領域展現(xiàn)出重要的應用潛力。然而,當前市面上的大多數(shù)角色扮演智能體都只會「文字聊天」,其理解能力僅限于單一的文本模態(tài),遠遠無法與具備多模態(tài)感知能力的人類相比。這讓我們不禁思考:我們真的只能與這些「單調」的智能體對話嗎?顯然,答案是否定的!

近日,中國人民大學高瓴人工智能學院的研究團隊率先提出了「多模態(tài)角色扮演智能體」(MRPAs)的概念。這類智能體不僅能夠扮演特定角色,還能夠圍繞圖像進行多模態(tài)對話。與此同時,團隊正式推出了 MMRole—— 一個專為 MRPAs 開發(fā)與評測量身打造的綜合框架。

圖片

  • 代碼倉庫:https://github.com/YanqiDai/MMRole
  • 論文地址:https://arxiv.org/abs/2408.04203

圖片

圖 1:MMRole 框架概述。

如圖 1 所示,該框架包括一個大規(guī)模、高質量的多模態(tài)角色扮演數(shù)據(jù)集 MMRole-Data,并配備了一套健全的評測方法 MMRole-Eval,涵蓋三個維度下的八項指標。在此基礎上,團隊開發(fā)了首個專門的多模態(tài)角色扮演智能體 ——MMRole-Agent,在多模態(tài)信息理解和角色扮演能力上明顯優(yōu)于同等參數(shù)規(guī)模的通用對話模型。

MMRole 打破了傳統(tǒng)角色扮演智能體僅限于單一模態(tài)的局限,讓智能體能夠在圖像和文字之間自由切換,帶來更為沉浸的對話體驗,進一步擴展了角色扮演智能體的應用場景與價值。

MMRole-Data 數(shù)據(jù)集

如圖 1(a)所示,MMRole-Data 是一個大規(guī)模、高質量的多模態(tài)角色扮演數(shù)據(jù)集,包含 85 個角色及其身份信息、11K 張圖像,以及 14K 段圍繞圖像展開的單輪或多輪對話,共生成了 85K 條訓練樣本和 294 條測試樣本。在數(shù)據(jù)構建過程中,團隊借助了 GPT-4V 進行輔助生成,并執(zhí)行了嚴格的人工質量審查,為角色扮演智能體的訓練和性能評測奠定了堅實基礎。

圖片

圖 2:MMRole-Data 中構建的所有角色。

如圖 2 所示,MMRole-Data 涵蓋了三種角色類型:虛構角色、歷史和公眾人物,以及假想現(xiàn)實角色。前兩類角色的身份信息由 GPT-4 通過總結 Wikipedia 或百度百科的人物介紹生成,而第三類角色的身份信息則通過 GPT-4 采用兩階段生成方式,在確保多樣性的基礎上隨機生成。前兩類角色在之前的研究中已有較多探討,團隊特別引入了第三類角色,旨在提升和評測 MRPAs 在并不廣為人知的角色上的性能,使其在多樣化角色扮演場景中展現(xiàn)出更強的靈活性與泛化性。

進一步地,MMRole-Data 引入來自 MS-COCO 數(shù)據(jù)集的通用圖像,確保了對廣泛視覺概念的覆蓋。同時,團隊還人工收集和標注了劇照等與角色密切相關的圖像,以更有效地喚起角色的個人經歷和情感。

圖片

圖 3:MMRole-Data 中三種對話場景的示例。

最后,如圖 3 所示,團隊利用 GPT-4V 生成了三類以圖像為中心的對話場景:評論性交互、用戶 - 角色對話,以及角色間對話。這些對話經過多輪規(guī)則過濾和嚴格的人工質量審查,確保了對話內容的準確性和角色一致性。

圖片

圖 4:MMRole-Data 中文示例。

特別地,如圖 4 所示,團隊對數(shù)據(jù)集的中文部分進行了精細打磨,成功再現(xiàn)了李白、孫悟空等經典人物的形象。通過深入挖掘這些角色的獨特個性和背景故事,MRPAs 能夠在多模態(tài)對話中更具表現(xiàn)力和沉浸感,為用戶帶來更加真實的互動體驗。

MMRole-Eval 評測方法

如圖 1(b)所示,MMRole-Eval 是一套穩(wěn)健而全面的多模態(tài)角色扮演智能體評測方法,涵蓋三個維度下的八項評測指標,確保對智能體的多方面能力進行深入評估。具體的評測指標包括:

基礎對話技巧

  • 指令遵循度(Instruction Adherence, IA)
  • 流暢度(Fluency, Flu)
  • 連貫性(Coherency, Coh)

多模態(tài)理解能力

  • 圖文相關性(Image-Text Relevance, ITR)
  • 響應準確度(Response Accuracy, RA)

角色扮演質量

  • 性格一致性(Personality Consistency, PC)
  • 知識一致性(Knowledge Consistency, KC)
  • 語氣一致性(Tone Consistency, TC)

為了定量評估 MRPAs 在各項指標上的性能,團隊開發(fā)了一個專門的獎勵模型。該模型首先對待評估的 MRPA 與構建的標準答案之間的相對性能進行簡要的定性評價,隨后為其生成一個定量的分數(shù)對,MRPA 的最終得分為該分數(shù)對中兩個分數(shù)的比值。為了開發(fā)這一獎勵模型,團隊利用 GPT-4 在所有測試樣本上對多個 MRPAs 進行評測,生成了大量評測軌跡,這些軌跡隨后被轉換為獎勵模型的訓練和驗證數(shù)據(jù)。

評測結果與分析

圖片

表 1:MMRole-Eval 評測結果。In-Test 表示在訓練集中出現(xiàn)過的角色上的測試,而 Out-Test 表示在訓練集中未見過的角色上的測試。

如表 1 所示,團隊開發(fā)的首個專門的多模態(tài)角色扮演智能體 MMRole-Agent(9B)在各項指標上表現(xiàn)出了卓越的性能,整體性能遠超同等參數(shù)規(guī)模(<10B)的通用對話模型,甚至優(yōu)于部分參數(shù)量更大(10B-100B)的模型。此外, MMRole-Agent 在未見過的角色上同樣展現(xiàn)出了強大的泛化能力。

圖片

圖 5:MMRole-Eval 評測結果的可視化。

此外,如圖 5 所示,團隊將評測結果進行了可視化分析,發(fā)現(xiàn)所有 MRPAs 在流暢度指標上均獲得了較高分數(shù),表明生成流暢內容對于現(xiàn)有的大模型而言相對容易。然而,在其他評測指標上,尤其是性格一致性和語氣一致性指標,不同的 MRPAs 之間存在顯著差異。這說明,在多模態(tài)角色扮演智能體的開發(fā)中,多模態(tài)理解能力和角色扮演質量是更具挑戰(zhàn)性的方面,需要在未來的研究和優(yōu)化中予以特別關注。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-05 12:42:35

2011-06-28 10:11:41

Top Girl應用

2024-12-27 13:30:00

2023-04-18 08:01:30

AI寫作時間

2024-01-02 12:59:06

AI技術

2022-06-16 16:19:12

模型神經網絡

2023-11-20 07:29:32

大模型人工智能

2024-11-04 09:35:00

2025-02-18 13:00:00

2023-04-14 13:58:17

代碼智能

2024-08-30 12:58:43

AI多模態(tài)技術

2011-09-22 09:21:50

Qomo 3.0

2023-09-20 08:37:33

語音翻譯同傳翻譯

2011-04-29 11:12:46

Ubuntu 11.0視頻

2016-10-09 19:50:01

代碼審查

2014-09-22 10:53:45

聯(lián)想陳旭東

2011-06-27 09:42:46

2023-09-12 14:47:09

AI模型

2021-02-06 06:55:33

AI物聯(lián)網人工智能
點贊
收藏

51CTO技術棧公眾號