自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="tcw8q"><rp id="tcw8q"></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好

發(fā)布于 2024-3-27 16:57

瀏覽

0收藏

來自騰訊的研究者們做了一個關(guān)于 agent 的scaling property（可拓展性）的工作。發(fā)現(xiàn)：通過簡單的采樣投票，大語言模型（LLM）的性能，會隨著實例化agent數(shù)量的增加而增強(qiáng)。其第一次在廣泛的場景下驗證了該現(xiàn)象的普遍性，與其他復(fù)雜方法的正交性，以及研究了其背后的原因，并提出進(jìn)一步促成scaling發(fā)揮威力的辦法。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

論文標(biāo)題：

More Agents Is All You Need

論文地址：

??https://arxiv.org/abs/2402.05120???

代碼地址：

??https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need??

本文中，來自騰訊的研究者發(fā)現(xiàn)：只需通過一種簡單的采樣投票法，大語言模型的性能就會隨著實例化 agent 的數(shù)量的增大而增強(qiáng)，呈現(xiàn) scaling property（可拓展性），無需復(fù)雜的多 LLM agents 協(xié)作框架以及prompt工程方法的加持。此外，該方法與現(xiàn)有的復(fù)雜方法正交，結(jié)合之后，可進(jìn)一步增強(qiáng) LLM，其增強(qiáng)程度與任務(wù)難度相關(guān)。

該論文做了第一個關(guān)于 raw agent（指不依賴復(fù)雜的prompt工程和協(xié)作框架的LLM agent）的 scaling property 的研究，其對各種 LLM 基準(zhǔn)進(jìn)行了全面的實驗，以驗證此發(fā)現(xiàn)的普遍性，并研究了可以促進(jìn)其發(fā)生的策略。目前代碼已開源。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū) ▲ 多個小模型超過大模型

論文討論了諸多集成 LLM 的相關(guān)工作，包括 LLM 自集成、異構(gòu) LLM 集成、還有關(guān)于多個 LLM Agents 協(xié)作框架的工作，并與提出的方法進(jìn)行了對比，可以看出論文進(jìn)行了更全面的研究和分析：

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

為了研究大型語言模型的性能如何隨著實例化 agents 數(shù)量的增加而提升。論文使用了一種簡單的采樣和投票方法（作者用了 simple (st) 的說法，可見他們認(rèn)為這個方法也許是最簡單的方法之一）。值得注意的是，此方法可與現(xiàn)有的復(fù)雜方法正交結(jié)合。它可以被分為兩個階段：

將任務(wù) query 輸入到單個 LLM 或多個 LLM Agents 協(xié)作框架中，生成多個輸出；
通過多數(shù)投票確定最終結(jié)果

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

論文從 Llama2 和 GPT 系列選擇不同規(guī)模的語言模型進(jìn)行評估，任務(wù)數(shù)據(jù)集涵蓋推理和生成等多個領(lǐng)域。實驗結(jié)果表明，在所有任務(wù)和不同種類、規(guī)模的 LLM 上，發(fā)現(xiàn) LLM 的性能隨著實例化 agent 的數(shù)量而增加。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

例如，在 GSM8K 任務(wù)上提升了 12% 至 24%，在 MATH 上提升了 6% 至 10%。有趣的是，多個小 LLM 集成可以達(dá)到甚至超越較大 LLM 的性能。例如，多個 Llama2-13B 的集成在 GSM8K 上達(dá)到了 59% 準(zhǔn)確率，超過了單一 Llama2-70B 的 54% 的準(zhǔn)確率。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

進(jìn)一步地，作者還探索了與其他方法的兼容性。盡管這些方法實現(xiàn)各不相同，但是在與之結(jié)合使用時，性能可以進(jìn)一步提升，并同樣符合實例化 agent 越多，性能增益越強(qiáng)的現(xiàn)象。實驗結(jié)果顯示增益范圍從 1% 到 27% 不等，說明這個簡單的方法通過和其他方法正交使用可以進(jìn)一步增強(qiáng) LLM 的性能。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū) ▲ 基于 LLama13B

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū) ▲ 基于 LLama70B

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū) ▲ 基于 GPT-3.5-Turbo

此外，論文還分析了性能提升與問題難度之間的關(guān)系。

固有難度：隨著任務(wù)固有難度的增加，性能提升（即相對性能增益）也會增加，但當(dāng)難度達(dá)到一定程度后，增益會逐漸減少。這表明在任務(wù)過于復(fù)雜時，模型的推理能力可能無法跟上，導(dǎo)致性能提升的邊際效應(yīng)遞減。
步驟數(shù)量：隨著解決任務(wù)所需的步驟數(shù)量增加，性能提升也會增加。這表明在多步驟任務(wù)中，通過增加 agent 數(shù)量可以幫助模型更好地處理每一步，從而整體提高任務(wù)的解決性能。
先驗概率：正確答案的先驗概率越高，性能提升越大。這意味著在正確答案更有可能的情況下，增加 agent 數(shù)量更有可能帶來顯著的性能提升。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

▲ 節(jié)點：步驟，虛線：可能的替代步驟。節(jié)點的深度：步驟的數(shù)量，顏色的強(qiáng)度：固有難度的水平。圖示幫助讀者理解任務(wù)的復(fù)雜性是如何通過這些維度來衡量的。

基于此，論文提出了兩種優(yōu)化策略來進(jìn)一步提升方法的有效性：

逐步采樣和投票（Step-wise Sampling-and-Voting）：這種方法將任務(wù)分解為多個步驟，并在每個步驟中應(yīng)用采樣和投票，以減少累積錯誤并提高整體性能。
分層采樣和投票（Hierarchical Sampling-and-Voting）：這種方法將低概率任務(wù)分解為多個高概率子任務(wù)，并分層解決，同時可以使用不同模型來處理不同概率的子任務(wù)以降低成本。

數(shù)量即力量！騰訊揭秘：Agent數(shù)量越多，大語言模型效果越好-AI.x社區(qū)

最后，提出了未來的工作方向，包括優(yōu)化采樣階段以降低成本，并繼續(xù)開發(fā)相關(guān)機(jī)制來減輕 LLM 幻覺（hallucinations）的帶來的潛在負(fù)面影響，確保這些強(qiáng)大模型的部署既負(fù)責(zé)任又有益。

本文轉(zhuǎn)載自讓你更懂AI的，作者：PaperWeekly

原文鏈接：??https://mp.weixin.qq.com/s/HCVgn1Lj-jHYpGaXEyMGsA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述

laokugonggao ? 3719瀏覽 ? 0回復(fù)
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復(fù)
Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級波動

輕薄滴假象 ? 2676瀏覽 ? 0回復(fù)
谷歌重磅發(fā)布CAT3D：一分鐘搞定任意數(shù)量視圖到3D場景重建

angel ? 4056瀏覽 ? 0回復(fù)
騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 3333瀏覽 ? 0回復(fù)
Flames 安全評測基準(zhǔn)：大語言模型的對齊效果如何？

戀戀青鳥 ? 3427瀏覽 ? 0回復(fù)
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 2450瀏覽 ? 0回復(fù)
Agent Planning大揭秘：輕松拿捏多計劃選擇！

探索AGI ? 2717瀏覽 ? 0回復(fù)
Agent planning大揭秘：記憶增強(qiáng)規(guī)劃能力！

探索AGI ? 2879瀏覽 ? 0回復(fù)
普林斯頓大學(xué)提出首個基于MoE的稀疏時序預(yù)測大模型，參數(shù)量擴(kuò)展到2.4billion

海因斯DK ? 3239瀏覽 ? 0回復(fù)
Agent memory大揭秘：記憶從哪兒來？

探索AGI ? 3191瀏覽 ? 0回復(fù)
從傳統(tǒng) RAG 到圖 RAG，賦予大型語言模型更強(qiáng)大的知識力量

NLP前沿1 ? 2254瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等

sbf_2000 ? 6097瀏覽 ? 0回復(fù)
HunYuan MoE：聊一聊 LLM 參數(shù)量、計算量和 MFU 等

amei2000go ? 2957瀏覽 ? 0回復(fù)
大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 3462瀏覽 ? 0回復(fù)
推薦系統(tǒng)未必數(shù)據(jù)越多，效果越好！

51CTO內(nèi)容精選 ? 1601瀏覽 ? 0回復(fù)
4000+實驗揭秘：如何在512個GPU上訓(xùn)練大語言模型？

sbf_2000 ? 1608瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2439瀏覽 ? 0回復(fù)
BlobCtrl帶你玩轉(zhuǎn)元素級視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1286瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICLR 2024 | 脈沖神經(jīng)網(wǎng)絡(luò)的meta架構(gòu)設(shè)計：啟發(fā)下一代神經(jīng)形態(tài)芯片設(shè)計 2024-03-27 21:07:42發(fā)布
調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述 2024-03-27 20:58:09發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

下一篇：配置不同的學(xué)習(xí)率，LoRA還能再漲一點？

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="uqnrq"></blockquote>}

<style id="uqnrq"></style>

<style id="uqnrq"></style>

<sub id="uqnrq"></sub>