自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<strike id="hqtq6"></strike>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

卷起來！讓智能體評估智能體，Meta發(fā)布Agent-as-a-Judge

作者：機器之心 2024-10-18 15:20:00

人工智能新聞

微軟發(fā)布了 Copilot，Apple 將 Apple Intelligence 接入了 OpenAI 以增強 Siri。多智能體也是 OpenAI 未來重要的研究方向之一，這家公司的最新成果 ——Swarm，一個實驗性質(zhì)的多智能體編排框架在開源后引起了熱烈討論，有網(wǎng)友表示這能幫助簡化許多潛在多智能體用例的工作流程。

本論文作者主要包括德國計算機科學(xué)家、LSTM 之父 Jürgen Schmidhuber；Meta AI 研究團(tuán)隊（FAIR）研究科學(xué)家總監(jiān)田淵棟，他負(fù)責(zé)領(lǐng)導(dǎo)大語言模型（LLMs）在推理、規(guī)劃和決策方面的研究團(tuán)隊，主導(dǎo)了 OpenGo、StreamingLLM 和 GaLore 項目，專注于提升大模型的訓(xùn)練和推理效率；Vikas Chandra，Meta Reality Lab AI 負(fù)責(zé)人；諸葛鳴晨，Meta 研究科學(xué)家實習(xí)生，同時在沙特阿卜杜拉國王科技大學(xué)（KAUST）攻讀博士三年級，師從Jürgen Schmidhuber，GPTSwarm 第一作者，MetaGPT 共同第一作者；Zechun Li，Meta Reality Lab 研究科學(xué)家，MobileLLM 的第一作者；Yunyang Xiong，Meta Reality Lab 高級研究科學(xué)家，EfficientSAM 第一作者。

如果說去年大廠的競爭焦點是 LLM，那么今年，各大科技公司紛紛推出了各自的智能體應(yīng)用。

微軟發(fā)布了 Copilot，Apple 將 Apple Intelligence 接入了 OpenAI 以增強 Siri。多智能體也是 OpenAI 未來重要的研究方向之一，這家公司的最新成果 ——Swarm，一個實驗性質(zhì)的多智能體編排框架在開源后引起了熱烈討論，有網(wǎng)友表示這能幫助簡化許多潛在多智能體用例的工作流程。

扎克伯格更是斷言：「AI 智能體的數(shù)量可能會達(dá)到數(shù)十億，最終甚至超過人類?！乖?nbsp;Meta Connect 2024大會上，Meta 推出了接入 Llama 3.2 的智能眼鏡 Orion 和升級版 Quest 3S，顯示出智能體正在迅速滲透進(jìn) Meta 的各個應(yīng)用領(lǐng)域。

近日，Meta 提出了 Agent-as-a-Judge 的概念，被視為智能體優(yōu)化方面的又一重要成果。傳統(tǒng)的智能體評估方式往往只關(guān)注最終結(jié)果，忽略了執(zhí)行過程中的關(guān)鍵細(xì)節(jié)，或依賴大量人力進(jìn)行評估。為了解決這一痛點，Meta 推出了用智能體評估智能體的新方法，使評估過程更加靈活且自動化。

該框架在 LLM-as-a-Judge 的基礎(chǔ)上進(jìn)行了升級，增加了中間反饋功能，確保任務(wù)的每個環(huán)節(jié)都能得到精準(zhǔn)評估與優(yōu)化，同時還能有效模擬并接近人類反饋。

論文標(biāo)題：Agent-as-a-Judge: Evaluate Agents with Agents
論文地址：https://arxiv.org/pdf/2410.10934
項目地址：https://github.com/metauto-ai/agent-as-a-judge

為了克服現(xiàn)有基準(zhǔn)存在的問題，并為 Agent-as-a-Judge 提供一個概念驗證測試平臺，研究者還提出了 DevAI，一個包含 55 項現(xiàn)實自動人工智能開發(fā)任務(wù)的新基準(zhǔn)。它包括豐富的手動注釋，如總共 365 個分層用戶需求。

Agent-as-a-Judge：智能體評估智能體

Agent-as-a-Judge 框架最大的亮點在于其與人類評估者的高度一致性。在實驗中，該框架的評估結(jié)果與人類專家的對齊率高達(dá) 90.44%，遠(yuǎn)超 LLM-as-a-Judge 的 70.76%。這一結(jié)果表明，智能體在處理復(fù)雜任務(wù)時，能夠像人類一樣精確地判斷并修復(fù)問題，極大地減少了對人工評估的依賴，同時顯著提高了效率。

顯著的效率提升。實驗表明，Agent-as-a-Judge 在效率上也具有明顯優(yōu)勢。與人類評估者耗費 86.5 小時相比，Agent-as-a-Judge 僅需 118.43 分鐘就能完成相同任務(wù)，大幅節(jié)省了時間和成本。評估 55 個任務(wù)的總成本僅為 30.58 美元，平均每個任務(wù)的評估費用僅為 0.55 美元，顯示了極高的性價比和工作效率。

填補評估中的反饋空白。當(dāng)前，智能體評估方法普遍缺乏中間反饋機制，只關(guān)注最終結(jié)果，忽視了任務(wù)執(zhí)行中的關(guān)鍵步驟。智能體在解決復(fù)雜問題時，通常像人類一樣，逐步思考并解決問題。因此，評估不僅應(yīng)該關(guān)注結(jié)果，還需考察每個步驟的思維過程和行為軌跡。Agent-as-a-Judge 通過提供中間反饋，填補了這一空白，標(biāo)志著智能體評估進(jìn)入了一個新的階段。

數(shù)據(jù)集挑戰(zhàn)與系統(tǒng)表現(xiàn)。實驗還揭示，即使是表現(xiàn)較好的智能體系統(tǒng)（如 GPT-Pilot 和 OpenHands）也僅能滿足 DevAI 數(shù)據(jù)集中約 29% 的任務(wù)需求，任務(wù)完成率有限，凸顯了該數(shù)據(jù)集的挑戰(zhàn)性。在與人類專家評估的對比中，Agent-as-a-Judge 表現(xiàn)出色，達(dá)到了 90% 的對齊率，而 LLM-as-a-Judge 僅為 70%。更值得注意的是，Agent-as-a-Judge 的表現(xiàn)甚至優(yōu)于單個專家評估者，意味著在某些情況下，該框架不僅能夠替代人類評估，還可能更加有效。

高性價比與潛力。通過節(jié)省 97.72% 的時間和 97.64% 的成本，Agent-as-a-Judge 展示了其在 AI 評估中的巨大潛力。它為智能體技術(shù)的發(fā)展提供了強有力的支持，標(biāo)志著 AI 評估工具邁向了更高效和低成本的新紀(jì)元。

行業(yè)趨勢與 Cognition AI。值得注意的是，近期獲得融資的 Cognition AI 也采取了類似思路，即使用智能體來評估智能體，這顯示出這一概念正在成為業(yè)界的一個重要趨勢（更多信息請參見：https://www.cognition.ai/blog/evaluating-coding-agents）。

綜上，Agent-as-a-Judge 的提出有如下價值：

（1）智能體自我改進(jìn)的中間反饋機制

Agent-as-a-Judge 的一個核心優(yōu)勢在于其提供的中間反饋，這對于實現(xiàn)智能體的高效優(yōu)化至關(guān)重要。盡管在本研究中這一潛力尚未被充分發(fā)掘，但它的作用已經(jīng)初見端倪。通過學(xué)習(xí)輔助獎勵函數(shù)，能夠解決強化學(xué)習(xí)中的稀疏獎勵問題，提供關(guān)鍵的中間反饋。Agent-as-a-Judge 框架的亮點在于，它使智能體在處理復(fù)雜、多階段問題時，能夠?qū)崟r發(fā)現(xiàn)并修復(fù)解決方案中的問題，而傳統(tǒng)的延遲反饋機制難以做到這一點。引入 Agent-as-a-Judge 后，為構(gòu)建智能體版本的過程監(jiān)督獎勵模型（PRM）打開了大門，從而進(jìn)一步提升智能體的優(yōu)化效率。

（2）由 Agent-as-a-Judge 驅(qū)動的飛輪效應(yīng)

Agent-as-a-Judge 和被評估智能體之間的相互改進(jìn)，通過不斷的迭代反饋逐步演進(jìn)，這一循環(huán)展示了廣闊的發(fā)展前景。通過將 Agent-as-a-Judge 作為核心機制，或許能夠催生出一種智能體自我博弈系統(tǒng)。隨著 Agent-as-a-Judge 與被評估智能體的持續(xù)交互，這種過程可能會產(chǎn)生飛輪效應(yīng) —— 每次改進(jìn)相互強化，從而不斷推動性能的提升。這種迭代不僅能增強智能體系統(tǒng)的能力，還可能成為 LLM 推理數(shù)據(jù)的重要補充，有助于將智能體的能力更好地嵌入基礎(chǔ)模型中，進(jìn)一步拓展智能體系統(tǒng)的潛力。

DevAI：從用戶角度出發(fā)的 AI 自動化數(shù)據(jù)集

過去一年中，LLM 智能體系統(tǒng)的能力顯著提升，從解決簡單的「玩具問題」逐步擴展到處理復(fù)雜的實際任務(wù)。然而，大多數(shù)現(xiàn)有的評估方法和數(shù)據(jù)集仍然基于為基礎(chǔ)模型設(shè)計的標(biāo)準(zhǔn)，難以全面反映智能體在現(xiàn)實任務(wù)中的表現(xiàn)和挑戰(zhàn)。以 HumanEval 和 MBPP 等數(shù)據(jù)集為例，盡管它們在評估基礎(chǔ)模型的算法能力方面有效，但在代碼生成等領(lǐng)域，現(xiàn)有方法過于依賴最終結(jié)果，無法捕捉開發(fā)者在現(xiàn)實任務(wù)中遇到的復(fù)雜性和動態(tài)過程。

盡管 SWE-Bench 嘗試引入更接近現(xiàn)實的評估標(biāo)準(zhǔn)，但它依然主要依賴「解決率」（resolve rate），這一指標(biāo)未能提供開發(fā)過程中每個階段的具體反饋，也難以捕捉智能體系統(tǒng)的動態(tài)表現(xiàn)。因此，這類評估標(biāo)準(zhǔn)無法準(zhǔn)確反映智能體在實際任務(wù)中的真實能力。

相關(guān)研究甚至表明，即使不具備智能體特性，模型也能達(dá)到 27% 的解決率。此外，激烈的競爭還引發(fā)了對 SWE-Bench 得分真實性的擔(dān)憂，許多高分可能通過對獨立任務(wù)的過擬合獲得，無法真實反映智能體的實際能力。

鑒于此，迫切需要新的評估方法來彌補這些不足。為此，Meta 推出了專門為智能體系統(tǒng)設(shè)計的 DevAI 數(shù)據(jù)集。DevAI 涵蓋了 55 個 AI 開發(fā)任務(wù)，涉及監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、計算機視覺和自然語言處理等領(lǐng)域。每個任務(wù)包含用戶查詢、365 個任務(wù)需求和 125 個偏好標(biāo)準(zhǔn)。

與傳統(tǒng)評估方法不同，DevAI 不僅關(guān)注任務(wù)的最終結(jié)果，還跟蹤并評估任務(wù)執(zhí)行過程中的每個階段，從而提供更全面的反饋（圖 4 所示）。雖然這些任務(wù)規(guī)模相對較小，但它們真實反映了開發(fā)中的實際問題，且計算成本較低，適合廣泛應(yīng)用。值得注意的是，DevAI 不關(guān)注「玩具」數(shù)據(jù)集（如 FashionMNIST）上的高分表現(xiàn)，而更注重智能體在處理現(xiàn)實任務(wù)中的能力。此外，DevAI 采用有向無環(huán)圖（DAG）結(jié)構(gòu)排列任務(wù)需求，確保評估具備層次性，不再依賴簡單的成功或失敗判斷，而是要求智能體具備更深入的解決問題能力。未來，代碼生成領(lǐng)域的標(biāo)準(zhǔn)評估方法可能會采用類似 DevAI 這樣的數(shù)據(jù)集，提供中間反饋，以模塊化提升智能體的能力；在能力提升后，使用 OpenAI 的 MLE-Bench 進(jìn)一步評估智能體解決復(fù)雜問題的能力。

收集人類專家評估

人類評估設(shè)置

在完成基線執(zhí)行結(jié)果和基本統(tǒng)計分析后，研究團(tuán)隊邀請了三位具備 5 年以上 AI 開發(fā)經(jīng)驗人類專家評估員（匿名為 231a、38bb 和 cn90）對 AI 開發(fā)者的基線輸出進(jìn)行審查，評估每項需求是否得到了滿足。評估分為兩輪。為了盡量捕捉人類評估中常見的偏差（模擬實際部署場景），在第一輪中，評估員討論了基本標(biāo)準(zhǔn)。雖然允許評估員帶有個人偏好，但評估過程需基于統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行。在第一輪評估完成后（總計約 58 小時），評估員再次進(jìn)行討論，進(jìn)一步修正和達(dá)成一致意見，確保評估結(jié)果更加統(tǒng)一和一致。這一過程共耗時 28.5 小時，最終的共識作為每種方法的最終人類評估結(jié)果。

性能分析。實驗結(jié)果顯示（如表 2），表現(xiàn)最好的兩種方法 ——GPT-Pilot 和 OpenHands—— 僅能滿足約 29% 的需求（忽略前提條件后為 44%），且僅在一個任務(wù)中滿足了所有要求。這表明 DevAI 為當(dāng)前及未來的智能體方法設(shè)定了較高的挑戰(zhàn)性。此外，正如第 2 節(jié)所討論的，DevAI 不僅揭示了任務(wù)最終結(jié)果，還通過反饋揭示了智能體在任務(wù)過程中出現(xiàn)的問題，為評估提供了更豐富的層次。

錯誤分析。在實驗中，評估員在初步評估后進(jìn)行了深入辯論，直到他們對每個任務(wù)的需求達(dá)成一致意見。共識評估（consensus）通過這種方式模擬實際情況，減少了個體評估中的偏差。在 Human-as-a-Judge 框架下，評估員可以通過討論和證據(jù)修正自己的判斷，從而調(diào)整評估結(jié)果。這種方式也用來近似估計個體的錯誤率。理論上，集體討論達(dá)成的共識應(yīng)比任何個體評估更接近真實結(jié)果。

雖然共識評估可能并不完美（某些錯誤仍然存在），但相較于個體評估，理論上共識評估應(yīng)更接近真實結(jié)果。如圖 5 所示，實驗結(jié)果證實了這一假設(shè)。盡管評估員之間的錯誤率有所不同，但多數(shù)投票有效地修正了大部分錯誤。例如，評估員 cn90 在評估 GPT-Pilot 時犯下了最多的錯誤（錯誤率達(dá) 23.77%）。然而，通過多數(shù)投票（majority vote），三位評估員的整體錯誤率降低至 6.01%，顯示了多數(shù)投票在減少評估偏差方面的優(yōu)勢。

結(jié)論。人類評估中的錯誤是不可避免的。為減少這些錯誤，研究提出了兩種策略。第一，像本研究一樣，在每次評估后引入討論環(huán)節(jié)，評估員可以根據(jù)新的證據(jù)調(diào)整他們的判斷。這一方法在評估員數(shù)量較少時尤其有效，因為小組評估中的多數(shù)投票仍可能產(chǎn)生一定誤差（如圖 5 所示，相比共識評估大約有 5% 的錯誤率）。第二，組建更大的專家團(tuán)隊來提高評估的準(zhǔn)確性。研究表明，當(dāng)評估員人數(shù)超過 5 人時，評估準(zhǔn)確性有望超過 50%。然而，由于動員更多專家的成本較高，實踐中這種方法并不總是可行。因此，本研究更傾向于通過討論和共識投票來減少評估中的偏差。

使用

目前，作者已在 GitHub 上提供了開源代碼，支持對任意工作區(qū)（workspace）進(jìn)行提問，并通過 Agent-as-a-Judge 功能在 DevAI 數(shù)據(jù)集上進(jìn)行自動評估。未來的開源智能體評估將進(jìn)一步改進(jìn)，首先利用 DevAI 對中間過程進(jìn)行判斷和優(yōu)化，最終通過類似 MLE-Bench 的工具測試智能體的整體性能。

責(zé)任編輯：張燕妮來源：機器之心

微軟智能體

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="ht9v3"></blockquote>}

<p id="ht9v3"></p>

<cite id="ht9v3"></cite>

<cite id="ht9v3"></cite>