自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸

譯文 精選
人工智能
本文介紹了多代理微調(diào)的基本概念,框架組成,以及在實(shí)際應(yīng)用中的優(yōu)勢。

譯者 | 陳峻

審校 | 重樓

最近,麻省理工學(xué)院、哈佛大學(xué)、斯坦福大學(xué)以及 DeepMind 的研究人員聯(lián)合提出了一種新技術(shù),它使用多個(gè)代理(Multiple Agents)來解決大語言模型 (LLM) 最緊迫的問題之一:缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù)。畢竟頂尖模型已經(jīng)消耗了互聯(lián)網(wǎng)上的大部分可用的內(nèi)容,并讓AI 實(shí)驗(yàn)室已經(jīng)用完了適合訓(xùn)練 LLM 的數(shù)據(jù)。

解決這一瓶頸問題的一種方案是通過創(chuàng)建合成數(shù)據(jù)(Synthetic Data)來自我提升,讓LLM 生成高質(zhì)量的范例來訓(xùn)練自己。例如,系統(tǒng)會(huì)提示 LLM 解決數(shù)學(xué)、推理或編碼問題。該模型生成推理鏈和響應(yīng)、評估結(jié)果,并將有效的示例添加到訓(xùn)練數(shù)據(jù)集中,用于在下一個(gè)訓(xùn)練周期中微調(diào)模型。

不同的研究表明,這是一種有效但也有限的方法。該方法在幾次訓(xùn)練迭代之后會(huì)趨于穩(wěn)定,進(jìn)而限制了其自我提升方法的適用性。

多代理辯論和微調(diào)

為了提高性能,新技術(shù)使用了多代理辯論(Multiagent Debate)的概念,即:由多個(gè) LLM 代理一起起草和完善響應(yīng)。該框架并非微調(diào)單個(gè)模型,而是使用相同的辯論和改進(jìn)框架,來生成不同的數(shù)據(jù)集,并微調(diào)多個(gè)模型。這些模型往往派生自相同的基本模型,并且每個(gè)模型都會(huì)得到訓(xùn)練,以被專門用于目標(biāo)任務(wù)的某些部分。

通常,該框架由生成代理和批評代理所組成。其中:

對于每個(gè)問題,第一組 LLM(生成代理)會(huì)創(chuàng)建初始響應(yīng)。而生成模型的作用就是準(zhǔn)確地回答輸入的問題。每個(gè)模型都以不同的方式,被提示創(chuàng)建一組不同的推理鏈與響應(yīng)。

接著,批評代理會(huì)評估所有生成代理的輸出,并選擇最有效的響應(yīng)、或生成反饋,以進(jìn)行改進(jìn)。在此,批評代理的作用是對 LLM 生成的回答提供準(zhǔn)確的批評,并使用這些回答來提供更新的答案。而且,代理可以參與多輪辯論和反饋,以進(jìn)一步完善答案。

然后,更新的響應(yīng)和批評被用來創(chuàng)建數(shù)據(jù)集,以微調(diào)生成和批評代理。一旦兩組代理都開啟了訓(xùn)練,它們就會(huì)重復(fù)這個(gè)循環(huán),以創(chuàng)建更好的響應(yīng)。為了確保多樣性,每個(gè)生成代理和批評代理都會(huì)根據(jù)其交互生成的一組不同的示例進(jìn)行微調(diào)。當(dāng)這個(gè)循環(huán)被重復(fù)時(shí),它們就會(huì)創(chuàng)建出越來越好的數(shù)據(jù)集,并且每個(gè)代理在任務(wù)的特定部分都會(huì)變得更好。

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)

多代理微調(diào)(來源:arXiv)

與經(jīng)典的自我提升框架不同,基于訓(xùn)練數(shù)據(jù)所創(chuàng)造的行為多樣性,會(huì)讓訓(xùn)練數(shù)據(jù)的質(zhì)量在多輪迭代中不斷提升。

研究人員曾寫道:“我們發(fā)現(xiàn),多代理微調(diào)的迭代應(yīng)用會(huì)促進(jìn)持續(xù)學(xué)習(xí)和適應(yīng),并隨著時(shí)間的推移,產(chǎn)生逐漸細(xì)化且更為準(zhǔn)確的響應(yīng)。同時(shí),研究人員進(jìn)一步指出,“通過在不同的數(shù)據(jù)集和角色上訓(xùn)練每個(gè)模型,我們的方法促進(jìn)了模型之間的專業(yè)化,并增加了模型社會(huì)的多樣化。因此,與單一代理的自我提升方法相比,我們的系統(tǒng)可以通過多輪微調(diào)實(shí)現(xiàn)自主改進(jìn)?!?/p>

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)

多代理微調(diào)在多次迭代中繼續(xù)提高 MATH 基準(zhǔn)測試的性能,而單一代理微調(diào)則會(huì)快速達(dá)到平臺(tái)期(來源: arXiv)

在推理過程中,該框架可以使用生成代理和批評代理的生態(tài)系統(tǒng),來起草多個(gè)響應(yīng),并通過多代理辯論對其進(jìn)行提煉。每個(gè)代理都能夠從所有其他代理那里獲取響應(yīng),并在每一輪的辯論中生成新的響應(yīng)。

研究人員還寫道:“我們發(fā)現(xiàn),總結(jié)其他代理的回答不但有助于消除冗余的信息,而且可以保留最重要的細(xì)節(jié),從而進(jìn)一步提高性能。

多代理微調(diào)的實(shí)際應(yīng)用

如下所示,研究人員在算術(shù)、小學(xué)數(shù)學(xué)和競賽級別的數(shù)學(xué)問題的數(shù)個(gè)推理基準(zhǔn)上,測試了該方法。他們將其與Mistral 7B、Llama 3-8B 和 Phi 3-4B等開源模型,以及 GPT-3.5 一起使用。由于多代理辯論和微調(diào)不需要訪問模型的內(nèi)部權(quán)重,因此它同時(shí)適用于開放和封閉的模型。

多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)多代理微調(diào)如何克服 LLM 的數(shù)據(jù)瓶頸-AI.x社區(qū)

結(jié)果表明,多代理方法優(yōu)于包括多數(shù)投票(即:模型產(chǎn)生幾個(gè)獨(dú)立的答案,并從中選擇最佳答案)在內(nèi)的其他技術(shù),以及那些優(yōu)化各個(gè)代理的答案,而無法經(jīng)由微調(diào)過程的方法。此外,微調(diào)后的模型也可以被推廣到看不見的任務(wù)上,且勝過直接在目標(biāo)任務(wù)上訓(xùn)練模型的基線方法。例如,在 MATH 數(shù)據(jù)集上微調(diào)的代理生態(tài)系統(tǒng),就會(huì)在 GSM 基準(zhǔn)測試中得到非常出色的表現(xiàn)。

更重要的是,多代理在多次迭代中會(huì)持續(xù)表現(xiàn)出改進(jìn)的性能,而其他自我提升的方法則會(huì)在幾個(gè)周期后開始出現(xiàn)退化。

總而言之,由于多代理方法需要多個(gè)模型的副本來同時(shí)訓(xùn)練和運(yùn)行,因此它實(shí)際上是一種從成本角度給出的權(quán)衡方法。雖然 LoRA 和量化等優(yōu)化技術(shù)也可能實(shí)現(xiàn)相似的效果,但是就目前而言,多代理微調(diào)似乎能夠更好地解決 AI 社區(qū)所面臨的首要問題。

原文標(biāo)題:How multiagent fine-tuning overcomes the data bottleneck of LLMs,作者:Ben Dickson

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2018-06-07 16:10:08

數(shù)據(jù)湖客戶互動(dòng)互動(dòng)分析

2024-06-05 13:48:04

2024-06-06 08:25:30

2025-01-26 09:07:46

2016-05-04 16:20:55

多源數(shù)據(jù)大數(shù)據(jù)

2010-12-06 15:28:31

2016-05-03 14:46:54

數(shù)據(jù)源數(shù)據(jù)分析數(shù)據(jù)融合

2024-11-21 08:22:45

2011-07-29 09:49:35

2011-08-01 09:25:18

2024-07-11 16:16:27

ChatGPTLLM

2025-03-11 08:00:00

LLM開發(fā)深度學(xué)習(xí)

2024-02-27 16:09:28

數(shù)據(jù)管理數(shù)字化轉(zhuǎn)型

2024-04-11 10:02:31

物聯(lián)網(wǎng)IOT數(shù)據(jù)集成

2024-10-17 08:10:02

2024-06-25 09:00:00

架構(gòu)軟件開發(fā)

2020-12-25 10:14:39

物聯(lián)網(wǎng)數(shù)據(jù)集成IOT

2020-11-30 15:11:51

大數(shù)據(jù)

2024-11-11 13:33:28

2024-06-11 08:21:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)