自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

1000多個智能體組成,AI社會模擬器MATRIX-Gen助力大模型自我進(jìn)化

人工智能 新聞
本研究提出了一種基于 AI 智能體社會模擬的后訓(xùn)練數(shù)據(jù)合成框架。

本文作者來自于上海交通大學(xué)人工智能學(xué)院的Multi-Agent Governance & Intelligence Crew (MAGIC團(tuán)隊)和牛津大學(xué)。共同第一作者有唐鑠、龐祥鶴、劉澤希和唐博瀚。指導(dǎo)老師包括上海交大的王延峰教授、陳思衡副教授,以及牛津大學(xué)的董曉文副教授。

隨著大語言模型(LLMs)在處理復(fù)雜任務(wù)中的廣泛應(yīng)用,高質(zhì)量數(shù)據(jù)的獲取變得尤為關(guān)鍵。為了確保模型能夠準(zhǔn)確理解并執(zhí)行用戶指令,模型必須依賴大量真實且多樣化的數(shù)據(jù)進(jìn)行后訓(xùn)練。然而,獲取此類數(shù)據(jù)往往伴隨著高昂的成本和數(shù)據(jù)稀缺性。因此,如何有效生成能夠反映現(xiàn)實需求的高質(zhì)量合成數(shù)據(jù),成為了當(dāng)前亟需解決的核心挑戰(zhàn)。

那么,真實數(shù)據(jù)的需求是如何產(chǎn)生的?設(shè)想一位程序員在進(jìn)行機(jī)器學(xué)習(xí)模型的開發(fā)與調(diào)優(yōu)時,他會提出問題:「如何調(diào)整超參數(shù)以提高模型預(yù)測準(zhǔn)確率?」 這種指令并非憑空而來,而是源于他所處的具體工作情境 —— 數(shù)據(jù)分析和模型優(yōu)化。同樣,用戶在日常生活中的指令無論是編程任務(wù)、醫(yī)療診斷還是商業(yè)決策,往往與他們所面臨的具體場景密切相關(guān)。要生成能夠真實反映用戶需求的合成數(shù)據(jù),必須從這些實際情境中出發(fā),模擬出與用戶需求相匹配的場景。

基于這一理念,上海交通大學(xué)與牛津大學(xué)的研究團(tuán)隊提出了一項創(chuàng)新方案 —— 基于多智能體模擬的數(shù)據(jù)合成。團(tuán)隊提出了 MATRIX——AI 社會模擬器,構(gòu)建了一個由 1000 多個 AI 智能體組成的模擬社會。在這個模擬社會中,每一個 AI 智能體代表了一個擁有獨立身份和人格的數(shù)字人,這些 AI 智能體可以模擬出復(fù)雜的交流和互動模式,涵蓋了從軟件開發(fā)到商業(yè)活動的廣泛場景?;谶@些場景,團(tuán)隊進(jìn)一步開發(fā)了 MATRIX-Gen 數(shù)據(jù)合成器,能夠根據(jù)不同需求合成高度多樣化且高質(zhì)量的訓(xùn)練指令數(shù)據(jù)。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2410.14251
  • 代碼主頁:https://github.com/ShuoTang123/MATRIX-Gen

為驗證 MATRIX-Gen 合成數(shù)據(jù)的高質(zhì)量,研究團(tuán)隊使用 Llama-3-8B-Instruct 驅(qū)動社會模擬,僅合成了 2 萬條數(shù)據(jù)用于訓(xùn)練 Llama-3-8B-Base 模型。盡管數(shù)據(jù)量極少,訓(xùn)練后的模型在 AlpacaEval 2 和 Arena-Hard 基準(zhǔn)測試中竟然大幅超越了 Llama-3-8B-Instruct 自身。這一結(jié)果不僅證明了 MATRIX-Gen 合成數(shù)據(jù)的高效性,也標(biāo)志著模型在合成數(shù)據(jù)驅(qū)動下實現(xiàn)了自我進(jìn)化。此外,在代碼生成、多輪對話和安全性任務(wù)上,MATRIX-Gen 生成的專用數(shù)據(jù)同樣表現(xiàn)優(yōu)異,甚至超越了為這些特定任務(wù)設(shè)計的專用數(shù)據(jù)集。這項研究為通過合成數(shù)據(jù)提升大語言模型性能提供了全新的解決方案,展示了 AI 模擬社會在數(shù)據(jù)合成中的巨大潛力,為未來大語言模型的后訓(xùn)練數(shù)據(jù)合成開辟了創(chuàng)新的路徑。

基于合成數(shù)據(jù)的后訓(xùn)練系統(tǒng)

本研究提出的后訓(xùn)練系統(tǒng)旨在利用基于多智能體模擬技術(shù)構(gòu)建的 AI 模擬社會,合成高質(zhì)量的訓(xùn)練數(shù)據(jù),以提升預(yù)訓(xùn)練大語言模型的指令跟隨能力。該系統(tǒng)的核心理念源于人類在現(xiàn)實場景中提問的方式 —— 人們基于自身需求提出多樣且深入的問題。因此,本研究通過 AI 模擬社會合成人類社會中的場景,并利用這些場景引導(dǎo) LLM 提出信息豐富、貼近現(xiàn)實的問題,從而產(chǎn)生高質(zhì)量的訓(xùn)練數(shù)據(jù)。

如下圖所示,該系統(tǒng)包含三個步驟:

圖片

1. 合成社會場景:利用多智能體模擬技術(shù)構(gòu)建 AI 模擬社會,該社會中的每個場景由一組 AI 智能體及其對應(yīng)的文本行動構(gòu)成。為了確保社會場景的真實性和多樣性,本研究設(shè)計了大規(guī)模人類社會模擬器 MATRIX,創(chuàng)建了一個包含各種 AI 智能體的互動環(huán)境。此模擬器充分發(fā)揮了 LLM 的角色扮演能力,使得 AI 智能體能夠逼真地模擬人類行為,進(jìn)行規(guī)劃、觀察和行動,進(jìn)而生成豐富且高度真實的社會場景。

2. 合成訓(xùn)練數(shù)據(jù):根據(jù)合成的社會場景,生成符合任務(wù)需求的后訓(xùn)練數(shù)據(jù)。本研究設(shè)計了場景驅(qū)動的指令生成器 MATRIX-Gen,模擬人類在日常生活中提出問題的過程,結(jié)合場景生成指令,確保更高的真實性;通過選擇特定場景,能夠合成符合任務(wù)需求的數(shù)據(jù),具備可控性。這一步驟合成包括 SFT、DPO 以及各種專用數(shù)據(jù)集。

3. 模型微調(diào):利用合成的 SFT 數(shù)據(jù)集,對預(yù)訓(xùn)練模型進(jìn)行監(jiān)督微調(diào),以獲得具備指令跟隨能力的模型。隨后,基于合成的偏好數(shù)據(jù)集,采用 DPO 進(jìn)一步訓(xùn)練模型。

AI 社會模擬器 MATRIX

為了合成多樣且豐富的場景,以助力數(shù)據(jù)的合成,本研究提出了人類社會模擬器 MATRIX。該模擬器的輸入為若干 AI 智能體檔案,輸出為文本形式的場景。通過模擬人類的 AI 智能體和結(jié)構(gòu)化的通信機(jī)制,MATRIX 實現(xiàn)了大規(guī)模的人類社會模擬,從而生成多樣且真實的場景。

圖片

  • 模擬人類的智能體:每個 AI 智能體根據(jù)匿名化的真實人類檔案進(jìn)行初始化,并由 LLM 生成其個性和人生目標(biāo)。這些目標(biāo)進(jìn)一步分解為可執(zhí)行的步驟,形成 AI 智能體的行動計劃。例如,一個醫(yī)學(xué)教授的生活目標(biāo)可能包括傳播科學(xué)知識,而其計劃則包括進(jìn)行研究、發(fā)表論文、進(jìn)行講座和組織教育項目。這些步驟指導(dǎo) AI 智能體未來的行動,確保它們朝著目標(biāo)努力并展現(xiàn)出有目的的行為。當(dāng)出現(xiàn)新觀察時,AI 智能體會根據(jù)其記憶和個性做出反應(yīng);在沒有新觀察的情況下,它們則遵循既定計劃追求目標(biāo)。


  • 結(jié)構(gòu)化的通信機(jī)制:受人類社會中同質(zhì)性現(xiàn)象的啟發(fā),我們根據(jù)相似特征對 AI 智能體進(jìn)行分組,以減少不必要的連接,從而提高模擬的可擴(kuò)展性。在每組中,本研究引入一個集中調(diào)節(jié)器來管理組內(nèi)和組間的溝通。這一設(shè)計促進(jìn)了相似 AI 智能體之間的更多互動,同時仍允許長距離交流,豐富信息流并增強(qiáng)真實性。此外,這種結(jié)構(gòu)化通信機(jī)制能夠防止 AI 智能體接收到過多無關(guān)信息,確保模擬的有效性。

數(shù)據(jù)合成器 MATRIX-Gen

在合成了真實多樣化的社會場景后,本研究設(shè)計了場景驅(qū)動的指令生成器 MATRIX-Gen,以滿足特定任務(wù)需求并合成后訓(xùn)練數(shù)據(jù)。通過選擇與用戶需求相關(guān)的場景,MATRIX-Gen 能夠生成符合人類意圖的指令,從而確保合成指令的真實性和可控性。

如下圖所示,在合成后訓(xùn)練數(shù)據(jù)的過程中,MATRIX-Gen 模擬了人類提問的過程。針對不同數(shù)據(jù)場景的需求(如通用任務(wù)或代碼任務(wù)),MATRIX-Gen 結(jié)合每個 AI 智能體的個性和行動,將這些信息整合到指令生成提示中,模擬人類在日常生活中提出問題的方式。隨后,基于上述指令生成提示,MATRIX-Gen 直接調(diào)用對齊的 LLM 生成合成指令及其對應(yīng)的回答。

圖片

下圖展示了一位 IT 經(jīng)理在汽車數(shù)據(jù)分析場景下,提出「如何調(diào)整超參數(shù)以提高模型預(yù)測準(zhǔn)確率」的例子:

圖片

通過這一方法,本研究能夠合成三種類型的數(shù)據(jù)集,包括監(jiān)督微調(diào)數(shù)據(jù)集 MATRIX-Gen-SFT、偏好調(diào)優(yōu)數(shù)據(jù)集 MATRIX-Gen-DPO,以及特定領(lǐng)域的 SFT 數(shù)據(jù)。每種數(shù)據(jù)集的指令生成在復(fù)雜性和專業(yè)性上各具特點,確保滿足不同場景下的需求。

性能表現(xiàn)

在實驗中,本研究選擇 Llama-3-8B-Instruct 作為數(shù)據(jù)合成模型,選擇 Llama-3-8B 作為訓(xùn)練的模型,通過模型的訓(xùn)練效果評估 MATRIX-Gen 在通用任務(wù)、多輪對話、代碼生成上的數(shù)據(jù)合成能力。

圖片

AlpacaEval 2 和 Arena-Hard 上的評估結(jié)果表明,通過多智能體模擬合成的 MATRIX-Gen-SFT 數(shù)據(jù)優(yōu)于多個真實數(shù)據(jù)集以及合成數(shù)據(jù)集。

圖片

在 MATRIX-SFT 模型上 DPO 的訓(xùn)練結(jié)果表明,通過 MATRIX-Gen-DPO 訓(xùn)練的模型超越多種合成偏好數(shù)據(jù)訓(xùn)練的模型,以及 Llama-3-8B-Instruct。值得注意的是,MATRIX-Gen-DPO 訓(xùn)練后的模型總共僅使用了 2 萬條合成數(shù)據(jù),便實現(xiàn)了對 Llama-3-8B-Instruct 自身的超越,充分展示了其高質(zhì)量和自我進(jìn)化的能力。

圖片

在代碼生成與安全輸出的任務(wù)中,MATRIX-Gen 合成的數(shù)據(jù)集均超越了對應(yīng)領(lǐng)域的專用數(shù)據(jù)集,顯示出 MATRIX-Gen 在合成數(shù)據(jù)上的高可控性。

圖片

上圖展示了 MATRIX-Gen-SFT 合成指令的可視化,顯示出合成數(shù)據(jù)的多樣性。

總結(jié)與展望

本研究提出了一種基于 AI 智能體社會模擬的后訓(xùn)練數(shù)據(jù)合成框架。依托 MATRIX 合成的 AI 模擬社會,MATRIX-Gen 能夠可控地合成高質(zhì)量的多樣數(shù)據(jù)。在通用和專用任務(wù)中,僅使用 0.2% 的數(shù)據(jù),即可獲得優(yōu)于大模型研發(fā)領(lǐng)軍團(tuán)隊 Meta AI 所用數(shù)據(jù)集的模型訓(xùn)練效果,突顯了 MATRIX-Gen 在數(shù)據(jù)合成中的優(yōu)勢。

本研究希望該數(shù)據(jù)合成框架能夠幫助定量研究何種類型的數(shù)據(jù)更適合用于監(jiān)督微調(diào)和偏好優(yōu)化,深入探討不同數(shù)據(jù)特性對模型性能的影響。此外,我們展望通過引入更強(qiáng)大的 AI 智能體,如具備工具調(diào)用能力的 AI 智能體,以及接入更豐富的環(huán)境,進(jìn)一步合成更復(fù)雜的數(shù)據(jù),從而提升大語言模型在復(fù)雜任務(wù)中的表現(xiàn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-13 09:20:26

2023-11-15 13:18:50

2024-02-27 11:45:59

2025-02-19 14:00:00

模型AI訓(xùn)練

2024-10-28 14:05:00

2022-06-21 14:08:25

AIGitHub模仿人類

2024-04-01 13:11:00

AI智能體SIMA

2025-03-10 09:15:00

2024-12-05 13:30:00

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-02-24 09:58:09

2024-02-19 08:35:00

2024-08-01 13:46:08

2024-11-04 15:54:16

2024-01-23 10:35:09

ChatGPT人工智能

2018-06-28 22:04:25

智能體華為云人工智能

2017-11-22 09:22:00

AI智能機(jī)器學(xué)習(xí)

2025-03-03 11:16:18

點贊
收藏

51CTO技術(shù)棧公眾號