自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="nmz5q"></pre>

<sub id="nmz5q"></sub>

<cite id="nmz5q"><track id="nmz5q"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

田淵棟團隊新作祭出Agent-as-a-Judge！AI智能體自我審判，成本暴跌97%

作者：新智元 2024-10-28 08:50:00

人工智能新聞

AI評估AI可靠嗎？來自Meta、KAUST團隊的最新研究中，提出了Agent-as-a-Judge框架，證實了智能體系統(tǒng)能夠以類人的方式評估。它不僅減少97%成本和時間，還提供豐富的中間反饋。

AI智能體，能否像人類一樣有效地評估其他AI智能體？

對于AI智能體來說，評估決策路徑一直是棘手的問題。

已有的評估方法，要么只關(guān)注結(jié)果，要么要要過多的人工完成。

為了解決這一問題，田淵棟、Jürgen Schmidhuber帶領(lǐng)的團隊提出了「Agent-as-a-Judge」框架。

簡言之，讓智能體來評估智能體系統(tǒng)，讓AI審AI。

它不僅可以減少97%的成本和時間，還能提供豐富的中間反饋。

這是「LLM-as-a-Judge」框架的有機延伸，通過融入智能體特性，能夠為整個任務(wù)解決過程提供中間反饋。

論文地址：https://arxiv.org/abs/2410.10934v1

研究人員提出了DevAI基準(zhǔn)，為全新框架提供概念驗證測試平臺。包含55個真實的AI開發(fā)任務(wù)，帶有詳細的手動注釋。

通過對三個領(lǐng)先的智能體系統(tǒng)進行基準(zhǔn)測試，發(fā)現(xiàn)它大大優(yōu)于「LLM-as-a-Judge」框架。

總之，這項研究真正的變革之處在于：它提供了可靠的獎勵信號，為可擴展的、自我改進的智能體系統(tǒng)鋪平了道路。

「法官」智能體，擊敗大模型

現(xiàn)有評估方法，無法為智能體系統(tǒng)的中間任務(wù)解決階段，提供足夠的反饋。

另一方面，通過人工進行更好的評估，代價太大。

而智能體系統(tǒng)的思考方式，更像人類，通常是逐步完成，并且在內(nèi)部經(jīng)常使用類人的符號通信來解決問題。

因此，智能體也能夠提供豐富的反饋，并關(guān)注完整的思考和行動軌跡。

「Agent-as-a-Judge」不僅保留了「LLM-as-a-Judge」成本效益，還具備智能體特性，使其在整個過程中提供中間反饋。

下圖展示了，大模型、智能體、人類作為評判者的示意圖。

DevAI：自動化AI開發(fā)數(shù)據(jù)集

另外，在代碼生成領(lǐng)域，基準(zhǔn)測試的發(fā)展也落后于智能體系統(tǒng)的快速進步。

比如，HumanEval僅關(guān)注算法問題，而MBPP則處理簡單的編程任務(wù)，但這兩者都沒有反映出開發(fā)者面臨的最實際的挑戰(zhàn)。

作為一個改進，SWE-Bench基準(zhǔn)確實引入了GitHub現(xiàn)實問題，提供一種全新評估的方法。

不過，它仍需要關(guān)注自動修復(fù)任務(wù)的開發(fā)過程。

為了解決當(dāng)前代碼生成基準(zhǔn)測試中的上述問題，研究人員引入了DevAI：AI開發(fā)者數(shù)據(jù)集，其中包含55個由專家注釋者創(chuàng)建的真實世界綜合AI應(yīng)用開發(fā)任務(wù)。

DevAI結(jié)構(gòu)是這樣的：智能體系統(tǒng)首先接收用戶查詢以開始開發(fā)，然后根據(jù)AI系統(tǒng)滿足需求的程度來評估它，其中偏好作為可選的、較為柔性的標(biāo)準(zhǔn)。

圖3展示了DevAI任務(wù)的一個例子。

DevAI中的任務(wù)規(guī)模相對較小，但涵蓋了常用的關(guān)鍵開發(fā)技術(shù)。

如圖2所示，任務(wù)被標(biāo)記并覆蓋了AI的多個關(guān)鍵領(lǐng)域：監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、計算機視覺、自然語言處理、生成模型等。

每個任務(wù)都是，可能交給研究工程師的真實世界問題，并降低了在這個基準(zhǔn)上評估方法的計算成本。

接下來，研究人員將領(lǐng)先的開源代碼生成智能體框架，應(yīng)用于DevAI中的任務(wù)：MetaGPT、GPT-Pilot、OpenHands。

他們讓人類評判者、大模型評判者、以及智能體評判者框架，來評估其性能。

結(jié)果如表1所示，MetaGPT最具成本效益（1.19美元），而OpenHands是最昂貴的（6.38美元）。

從開發(fā)時間來看，OpenHands完成任務(wù)平均耗時362.41秒，而GPT-Pilot耗時最長，為1622.38秒。

平均而言，使用這三者之一對DevAI進行完整評估，大約需要210.65美元和14小時才能完成。

Human-as-a-Juge：DevAI手動評估

為了確定DevAI的實用有效性，并準(zhǔn)確估計當(dāng)前最先進的智能體系統(tǒng)實際代碼生成能力，研究人員手動評估三個AI開發(fā)者基線在DevAI中的應(yīng)用。

如表2所示，（I）和（D）代表獨立性能與考慮任務(wù)依賴性的性能。表示多個專家的進化，并且意味著評估使用白盒測試（允許訪問生成的workspace、人類收集的軌跡和開源代碼庫）。

兩種性能最好的方法（GPT-Pilot和OpenHands）可以滿足大約29%的要求，但只有一項任務(wù)可以滿足所有要求。

另外，在三位人類評估者之間，他們的個人評估存在大量分歧，說明了單一人類評估的不可靠性。

下圖5總結(jié)了人類評估和共識評估的不匹配度。

??????????-????-??-??????????：智能體評估智能體

根據(jù)以往智能體設(shè)計的經(jīng)驗，并通過模仿人類評估過程，研究人員涉及了8個模塊化交互組件，具體包括：

1 圖像模塊：構(gòu)建一個圖像，獲取項目整個結(jié)構(gòu)，包括文件、模塊、依賴項，還可以將代碼塊分解為代碼片段

2 定位模塊：識別需求所引用的特定文件夾/文件

3 讀取模塊：超越了簡單的文件解析，支持跨33種不同格式的多模態(tài)數(shù)據(jù)的讀取和理解

4 搜索模塊：提供了對代碼的上下文理解，并且可以快速檢索高度相關(guān)的代碼片段，以及其背后細微差別

5 檢索模塊：從上下文中提取信息，識別軌跡中相關(guān)片段

6 查詢模塊：確定是否滿足給定要求

7 記憶模塊：存儲歷史判斷信息，允許智能體基于過去記憶評估

8 規(guī)劃模塊：允許智能體根據(jù)當(dāng)前狀態(tài)和項目目標(biāo)制定策略，并排序任務(wù)。

具體操作流程，如下圖9所示。

下表3展示了，Agent-as-a-Judge在各項任務(wù)中始終優(yōu)于 LLM-as-a-Judge，特別是在那些訓(xùn)在任務(wù)依賴關(guān)系的情況下。

評判開發(fā)者智能體，是一項類別不平衡的任務(wù)，滿足要求的情況要比失敗的情況少的多。

而判斷轉(zhuǎn)移和對齊率等指標(biāo)可能會產(chǎn)生誤導(dǎo)。比如，由于MetaGPT很少滿足要求， LLM-as-a-Judge很容易將大多數(shù)情況識別為負面（在黑盒設(shè)置中達到84.15%）。

PR曲線通過平衡精確度和召回率，提供更清晰的性能衡量標(biāo)準(zhǔn)。

這表明，在某些情況下，Agent-as-a-Judge幾乎可以取代人類評估員。

最后，在消融研究中，研究人員分析了各種組件的添加，對Agent-as-a-Judge判斷OpenHands性能的影響。

責(zé)任編輯：張燕妮來源：新智元

AI 系統(tǒng)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="gjf2c"></sub>