自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)量即力量!騰訊揭秘:Agent數(shù)量越多,大語言模型效果越好

人工智能 新聞
來自騰訊的研究者發(fā)現(xiàn):只需通過一種簡單的采樣投票法,大語言模型的性能就會隨著實(shí)例化 agent 的數(shù)量的增大而增強(qiáng),呈現(xiàn)scaling property(可拓展性),無需復(fù)雜的多 LLM agents 協(xié)作框架以及prompt工程方法的加持。此外,該方法與現(xiàn)有的復(fù)雜方法正交,結(jié)合之后,可進(jìn)一步增強(qiáng) LLM,其增強(qiáng)程度與任務(wù)難度相關(guān)。

來自騰訊的研究者們做了一個關(guān)于 agent 的scaling property(可拓展性)的工作。發(fā)現(xiàn):通過簡單的采樣投票,大語言模型(LLM)的性能,會隨著實(shí)例化agent數(shù)量的增加而增強(qiáng)。其第一次在廣泛的場景下驗(yàn)證了該現(xiàn)象的普遍性,與其他復(fù)雜方法的正交性,以及研究了其背后的原因,并提出進(jìn)一步促成scaling發(fā)揮威力的辦法。

圖片


  • 論文標(biāo)題:More Agents Is All You Need
  • 論文地址:https://arxiv.org/abs/2402.05120
  • 代碼地址:https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

本文中,來自騰訊的研究者發(fā)現(xiàn):只需通過一種簡單的采樣投票法,大語言模型的性能就會隨著實(shí)例化 agent 的數(shù)量的增大而增強(qiáng),呈現(xiàn)scaling property(可拓展性),無需復(fù)雜的多 LLM agents 協(xié)作框架以及prompt工程方法的加持。此外,該方法與現(xiàn)有的復(fù)雜方法正交,結(jié)合之后,可進(jìn)一步增強(qiáng) LLM,其增強(qiáng)程度與任務(wù)難度相關(guān)。該論文做了第一個關(guān)于 raw agent(指不依賴復(fù)雜的prompt工程和協(xié)作框架的LLM agent)的 scaling property 的研究,其對各種 LLM 基準(zhǔn)進(jìn)行了全面的實(shí)驗(yàn),以驗(yàn)證此發(fā)現(xiàn)的普遍性,并研究了可以促進(jìn)其發(fā)生的策略。目前代碼已開源。

圖片

多個小模型超過大模型

論文討論了諸多集成 LLM 的相關(guān)工作,包括 LLM 自集成、異構(gòu) LLM 集成、還有關(guān)于多個 LLM Agents 協(xié)作框架的工作,并與提出的方法進(jìn)行了對比,可以看出論文進(jìn)行了更全面的研究和分析:

圖片

為了研究大型語言模型的性能如何隨著實(shí)例化 agents 數(shù)量的增加而提升。論文使用了一種簡單的采樣和投票方法(作者用了 simple (st) 的說法,可見他們認(rèn)為這個方法也許是最簡單的方法之一)。值得注意的是,此方法可與現(xiàn)有的復(fù)雜方法正交結(jié)合。它可以被分為兩個階段:

  • 將任務(wù) query 輸入到單個 LLM 或多個 LLM Agents 協(xié)作框架中,生成多個輸出;
  • 通過多數(shù)投票確定最終結(jié)果

圖片

論文從 Llama2 和 GPT 系列選擇不同規(guī)模的語言模型進(jìn)行評估,任務(wù)數(shù)據(jù)集涵蓋推理和生成等多個領(lǐng)域。實(shí)驗(yàn)結(jié)果表明,在所有任務(wù)和不同種類、規(guī)模的 LLM 上,發(fā)現(xiàn) LLM 的性能隨著實(shí)例化 agent 的數(shù)量而增加。

圖片

例如,在 GSM8K 任務(wù)上提升了 12% 至 24%,在 MATH 上提升了 6% 至 10%。有趣的是,多個小 LLM 集成可以達(dá)到甚至超越較大 LLM 的性能。例如,多個 Llama2-13B 的集成在 GSM8K 上達(dá)到了 59% 準(zhǔn)確率,超過了單一 Llama2-70B 的 54% 的準(zhǔn)確率。

進(jìn)一步地,作者還探索了與其他方法的兼容性。盡管這些方法實(shí)現(xiàn)各不相同,但是在與之結(jié)合使用時,性能可以進(jìn)一步提升,并同樣符合實(shí)例化 agent 越多,性能增益越強(qiáng)的現(xiàn)象。實(shí)驗(yàn)結(jié)果顯示增益范圍從 1% 到 27% 不等,說明這個簡單的方法通過和其他方法正交使用可以進(jìn)一步增強(qiáng) LLM 的性能。

圖片

基于 LLama13B

圖片

基于 LLama70B

圖片

基于 GPT-3.5-Turbo

此外,論文還分析了性能提升與問題難度之間的關(guān)系。

  • 固有難度:隨著任務(wù)固有難度的增加,性能提升(即相對性能增益)也會增加,但當(dāng)難度達(dá)到一定程度后,增益會逐漸減少。這表明在任務(wù)過于復(fù)雜時,模型的推理能力可能無法跟上,導(dǎo)致性能提升的邊際效應(yīng)遞減。
  • 步驟數(shù)量:隨著解決任務(wù)所需的步驟數(shù)量增加,性能提升也會增加。這表明在多步驟任務(wù)中,通過增加 agent 數(shù)量可以幫助模型更好地處理每一步,從而整體提高任務(wù)的解決性能。
  • 先驗(yàn)概率:正確答案的先驗(yàn)概率越高,性能提升越大。這意味著在正確答案更有可能的情況下,增加 agent 數(shù)量更有可能帶來顯著的性能提升。

圖片

節(jié)點(diǎn):步驟,虛線:可能的替代步驟。節(jié)點(diǎn)的深度:步驟的數(shù)量,顏色的強(qiáng)度:固有難度的水平。圖示幫助讀者理解任務(wù)的復(fù)雜性是如何通過這些維度來衡量的。

基于此,論文提出了兩種優(yōu)化策略來進(jìn)一步提升方法的有效性:

  • 逐步采樣和投票(Step-wise Sampling-and-Voting):這種方法將任務(wù)分解為多個步驟,并在每個步驟中應(yīng)用采樣和投票,以減少累積錯誤并提高整體性能。
  • 分層采樣和投票(Hierarchical Sampling-and-Voting):這種方法將低概率任務(wù)分解為多個高概率子任務(wù),并分層解決,同時可以使用不同模型來處理不同概率的子任務(wù)以降低成本。

圖片

最后,提出了未來的工作方向,包括優(yōu)化采樣階段以降低成本,并繼續(xù)開發(fā)相關(guān)機(jī)制來減輕 LLM 幻覺(hallucinations)的帶來的潛在負(fù)面影響,確保這些強(qiáng)大模型的部署既負(fù)責(zé)任又有益。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-17 08:16:53

2023-02-14 09:00:26

2023-08-31 07:16:32

人工智能AI算力

2023-06-12 12:43:52

Bash腳本

2025-03-24 06:40:00

特征工程機(jī)器學(xué)習(xí)模型

2022-04-04 17:52:20

模型計算DeepMind

2024-12-11 08:28:15

2025-04-03 07:00:00

2020-03-27 15:18:45

漏洞bug開源

2018-08-22 17:48:03

騰訊云東京數(shù)據(jù)中心

2024-11-06 09:47:00

2023-09-12 07:02:19

騰訊混元大模型

2020-05-16 12:27:26

5G頻段手機(jī)廠商

2014-09-16 16:33:32

無線路由

2024-11-18 11:20:00

視頻大模型

2023-06-07 12:28:47

開源數(shù)據(jù)

2023-09-28 07:24:13

KOSMOS模型文檔

2012-04-25 14:31:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號