自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<rt id="ogxt6"></rt>

<legend id="ogxt6"></legend>

<ruby id="ogxt6"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

蘋果發(fā)布新基準，重新定義大模型強弱！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-8-14 14:05

瀏覽

0收藏

現(xiàn)在的大模型基準評測，蘋果要重新定義了！

近日，蘋果公司的研究人員推出了ToolSandbox，這是一種全新的基準，旨在比以往更全面地評估人工智能助手的實際能力。這項研究發(fā)表在 arXiv 上，解決了使用外部工具完成任務(wù)的大型語言模型 (LLM) 的現(xiàn)有評估方法中的關(guān)鍵缺陷。

01、現(xiàn)有評估基準有哪些關(guān)鍵缺陷？

現(xiàn)在大模型評估基準，更多還是從大模型本身的基本功出發(fā)，諸如多語言理解、問答推理、數(shù)學邏輯等“文理科考試”，像MMLU、GSM8K、ARC、HumanEval、Math、BBH，這些都是大模型的通用能力的基準測試，除此之外，還有行業(yè)能力的基準測試，比如FinEval、PubMedQA、JEC-QA等。

但這些數(shù)據(jù)集存在一個很大的問題，即評估方式非常“自嗨”，忽略了現(xiàn)在AI產(chǎn)品/應(yīng)用，已經(jīng)不能單單靠大模型來完成了，大模型還需要具備調(diào)用大量的外在工具才能完成真正的應(yīng)用。

像智能體這樣的應(yīng)用，需要大模型去按照用戶預(yù)定義的本體去完成復(fù)雜的任務(wù)，就需要調(diào)用N多工具。

難點就在于，用戶表述問題的方式雖然變得更加簡化，但面向任務(wù)的對話仍然具有狀態(tài)性、會話性和交互性，這為系統(tǒng)且準確地評估使用工具的大型語言模型帶來了重大挑戰(zhàn)

應(yīng)用方面，當然也有。智能客服、數(shù)據(jù)分析、辦公助手、代碼助手、智能代理等方面，則有測評數(shù)據(jù)集GAIA、APPS、AgentBench等。

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

TOOLSANDBOX 提供了一個有狀態(tài)的、對話式的和交互式的評估基準，用于評估大型語言模型（LLM）的工具使用能力。通過有狀態(tài)和狀態(tài)依賴的工具、模擬的用戶以及具有里程碑和雷區(qū)的靈活評估方式，它展示了開源模型和專有模型之間顯著的性能差距，并揭示了即使是對于最先進的模型（包括狀態(tài)依賴、規(guī)范化和信息不足等場景）也極具挑戰(zhàn)性的情況，為理解工具使用能力帶來了新的見解。

ToolSandbox 包含其他基準測試中經(jīng)常缺少的三個關(guān)鍵元素：狀態(tài)交互、對話能力和動態(tài)評估。主要作者 Jiarui Lu 解釋說：“ToolSandbox 包括狀態(tài)工具執(zhí)行、工具之間的隱式狀態(tài)依賴關(guān)系、支持策略對話評估和動態(tài)評估策略的內(nèi)置用戶模擬器。”

這項新基準旨在更貼近真實場景。例如，它可以測試人工智能助手是否理解在發(fā)送短信之前需要啟用設(shè)備的蜂窩服務(wù)——這項任務(wù)需要推理系統(tǒng)的當前狀態(tài)并做出適當?shù)母摹?/p>

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

TOOLSANDBOX評估軌跡示例

那么，TOOLSANDBOX究竟是怎么評估的呢？不妨來看論文中的示例?？梢钥闯鲈u估軌跡分為消息總線（Message Bus）、世界狀態(tài)（World State）、里程碑（Milestones）三個關(guān)鍵要素。

其中，消息總線表示用戶、智能體和執(zhí)行環(huán)境之間的完整對話歷史。世界狀態(tài)表示在給定回合中可變數(shù)據(jù)庫的快照。里程碑表示在此軌跡中需要發(fā)生的預(yù)定義關(guān)鍵事件。

示例中，用戶打算發(fā)送消息，但蜂窩服務(wù)已關(guān)閉。智能體應(yīng)首先理解用戶的意圖，并向用戶提示必要的參數(shù)。在借助search_contacts工具收集所有參數(shù)后，智能體嘗試發(fā)送消息，在失敗后意識到需要啟用蜂窩服務(wù)，并重新嘗試。為了評估此軌跡，研發(fā)團隊在每個回合中，在保持拓撲順序的同時，在消息總線和世界狀態(tài)中找到與所有里程碑的最佳匹配。

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

據(jù)介紹，TOOLSANDBOX的核心是一個Python原生的大型語言模型（LLM）測試環(huán)境，它以執(zhí)行上下文作為世界狀態(tài)的抽象，并以Python函數(shù)作為工具。在這個環(huán)境中，用戶、智能體和執(zhí)行環(huán)境通過消息總線相互通信以完成任務(wù)，該任務(wù)會根據(jù)預(yù)定義的里程碑和雷區(qū)進行評估。如圖2所示，一個典型的測試用例從用戶與智能體對話開始。之后，被呼叫的角色將進行下一步對話，直到達到最終狀態(tài)。

在收到用戶請求后，智能體可以選擇回應(yīng)用戶以獲取更多信息，或者通知執(zhí)行環(huán)境執(zhí)行一個工具，并提供所需的工具名稱和參數(shù)。執(zhí)行環(huán)境在InteractiveConsole（Foundation, 2024）中執(zhí)行工具，這取決于工具會修改存儲在執(zhí)行上下文中的世界狀態(tài)，并向智能體做出響應(yīng)。

一旦用戶決定任務(wù)已完成，它會通知執(zhí)行環(huán)境執(zhí)行end_conversation工具，使系統(tǒng)進入最終狀態(tài)，準備根據(jù)對話與里程碑和雷區(qū)的相似度進行評估。本節(jié)的其余部分將更詳細地介紹每個組件的功能。

02、開源模型依舊落后

研究人員使用 ToolSandbox 測試了一系列 AI 模型，發(fā)現(xiàn)專有模型和開源模型之間存在顯著的性能差距。

研究發(fā)現(xiàn)，在工具調(diào)用層面，專有模型和開源模型之間存在顯著的性能差距，即便是表現(xiàn)最好的開源模型Hermes，也依舊落后于倒數(shù)第二的專有模型Claude-3-Haiku Anthropic（2024）20多分。

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

據(jù)論文介紹，這部分原因是Gorilla、Command-R等模型根本無法處理工具響應(yīng)。

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

例如，Mistral經(jīng)常將工具使用場景誤認為是代碼生成任務(wù)。這些模型的次優(yōu)性能出乎意料地導(dǎo)致它們在“信息不足”類別中獲得了更高的評級，該類別獎勵模型在提供的工具不足以完成任務(wù)時，沒有產(chǎn)生引起幻覺的工具調(diào)用或參數(shù)。論文中表示，這應(yīng)該被視為一種副作用，而不是積極的結(jié)果。

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

而在專有模型方面，GPT-4o、Claude3-Opus依舊強悍。具體來講，GPT-4o獲得了最高的相似度評分，緊隨其后的是Claude-3-Opus。這兩個模型各有優(yōu)勢。雖然GPT-4o獲得了更高的評分，但如附錄D.2所示，Claude-3-Opus保持了較低的平均回合數(shù)，以更高的效率實現(xiàn)了用戶目標。

蘋果發(fā)布新基準，重新定義大模型強弱！-AI.x社區(qū)

這一發(fā)現(xiàn)挑戰(zhàn)了最近的報告，這些報告表明開源人工智能正在迅速趕上專有系統(tǒng)。就在上個月，初創(chuàng)公司Galileo 發(fā)布了一項基準測試，顯示開源模型正在縮小與專有系統(tǒng)領(lǐng)導(dǎo)者的差距，而Meta和Mistral則宣布了他們聲稱可以與頂級專有系統(tǒng)相媲美的開源模型。

然而，蘋果的研究發(fā)現(xiàn)，即使是最先進的人工智能助手，在處理涉及狀態(tài)依賴、規(guī)范化（將用戶輸入轉(zhuǎn)換為標準化格式）和信息不足的場景等復(fù)雜任務(wù)時，也會遇到困難。

作者在論文中指出：“我們表明，開源模型和專有模型在性能上存在顯著差距，而 ToolSandbox 中定義的狀態(tài)依賴、規(guī)范化和信息不足等復(fù)雜任務(wù)甚至對最強大的 SOTA LLM 也提出了挑戰(zhàn)，從而為工具使用 LLM 功能提供了全新的見解?！?/p>

參數(shù)規(guī)模不代表一切

有趣的是，在新基準之下，原始模型的參數(shù)即使再大，也并不總是能夠在復(fù)雜現(xiàn)實任務(wù)取得更好的性能。

在比較GPT、Claude和Gemini系列中最大和最小的模型時，多工具調(diào)用和多用戶回合類別的表現(xiàn)“惡化”速度遠快于單工具調(diào)用和單用戶回合類別，這表明對于復(fù)雜的工具調(diào)用序列和模糊的用戶請求進行推理，需要更多的模型容量。

也就是說，在某些情況下，較大的模型有時表現(xiàn)得比較小的模型更差，尤其是涉及狀態(tài)依賴性的模型。這表明，原始模型大小并不總是與復(fù)雜的現(xiàn)實任務(wù)中更好的性能相關(guān)。

04、在最后

蘋果的研究提醒我們，創(chuàng)建能夠處理復(fù)雜的現(xiàn)實任務(wù)的人工智能系統(tǒng)仍然存在重大挑戰(zhàn)。

隨著該領(lǐng)域的持續(xù)快速發(fā)展，像 ToolSandbox 這樣的嚴格基準對于區(qū)分炒作與現(xiàn)實以及指導(dǎo)真正有能力的人工智能助手的開發(fā)至關(guān)重要。

ToolSandbox 的推出可能對 AI 助手、Agent等AI應(yīng)用的開發(fā)和評估產(chǎn)生深遠影響。通過提供更真實的測試環(huán)境，它可以幫助研究人員識別和解決當前 AI 系統(tǒng)中的關(guān)鍵限制，最終為用戶提供更強大、更可靠的 AI 應(yīng)用。

隨著人工智能不斷深入融入我們的日常生活，像 ToolSandbox 這樣的基準測試將在確保這些系統(tǒng)能夠處理現(xiàn)實世界交互的復(fù)雜性和細微差別方面發(fā)揮關(guān)鍵作用。

對于開發(fā)者，好消息是，ToolSandbox評估框架即將在Github上發(fā)布，邀請更廣泛的AI社區(qū)共同構(gòu)建和完善這一重要工作。

上鏈接：

??https://github.com/apple/ToolSandbox??

?

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

語言模型安全評估新標桿：SALAD-Bench全面安全評估新基準

kcoufee ? 4335瀏覽 ? 0回復(fù)
蘋果定義新的端側(cè)模型，“大大優(yōu)于GPT-4，擺脫文本，可視化模擬屏幕信息，最小參數(shù)模型相

51CTO技術(shù)棧 ? 2482瀏覽 ? 0回復(fù)
今日arXiv最熱NLP大模型論文：天津大學發(fā)布大模型數(shù)學能力細粒度評價基準FineMath

pangguiyu ? 3837瀏覽 ? 0回復(fù)
超越GPT-4V，蘋果多模態(tài)大模型上新！

duhorse ? 2309瀏覽 ? 0回復(fù)
新測試基準發(fā)布，最強開源Llama 3尷尬了

Crystalcxt ? 2954瀏覽 ? 0回復(fù)
MMLU-Pro：新的 LLM 評估基準

amei2000go ? 1.0w瀏覽 ? 0回復(fù)
OpenAI前研究科學家開源面向未來的提示工程庫 ell，重新定義提示工程

Syrupup ? 2452瀏覽 ? 0回復(fù)
AI界的"小而美"：Mistral AI的最新力作如何重新定義邊緣計算 | 多智能體協(xié)作讓大語言模型訓練效率暴增

sbf_2000 ? 2167瀏覽 ? 0回復(fù)
蘋果發(fā)布高效雙EMA梯度優(yōu)化方法，適配Transformer、Mamba模型

Aceryt ? 1737瀏覽 ? 0回復(fù)
重新定義AI的可能性！

kede96 ? 2014瀏覽 ? 0回復(fù)
從 Cursor 看面向聊天編程（CHOP）：如何重新定義開發(fā)者與代碼的關(guān)系

凝固的雨_1 ? 2110瀏覽 ? 0回復(fù)
奧特曼承認：模型API業(yè)務(wù)將走向枯竭！微軟秘密協(xié)曝光：給OpenAI的AGI新定義，至少能賺到1000億美元利潤！

51CTO技術(shù)棧 ? 1689瀏覽 ? 0回復(fù)
Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 4213瀏覽 ? 0回復(fù)
蘋果也在蒸餾大模型，給出了蒸餾Scaling Laws

輕薄滴假象 ? 1683瀏覽 ? 0回復(fù)
五分鐘讀懂Manus平替：深度解析OpenManus 如何重新定義Multi Agent?

AI博物院 ? 3852瀏覽 ? 0回復(fù)
谷歌新定義具身通用最強SOTA，轟動硅谷！物理世界的原生推理能力、靈活性讓人驚掉下巴！

51CTO技術(shù)棧 ? 1562瀏覽 ? 0回復(fù)
有望重新定義語言生成技術(shù)的擴散模型——LLaDA?

51CTO內(nèi)容精選 ? 1265瀏覽 ? 0回復(fù)
從詞語到概念：大概念模型如何重新定義語言理解與生成

51CTO內(nèi)容精選 ? 930瀏覽 ? 0回復(fù)
忘掉 Manus 模型上下文協(xié)議MCP 正在重新定義智能體的未來

數(shù)字化助推器 ? 1027瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

中國開源大模型新成員：小米推理大模型首秀！ 28分鐘前發(fā)布
剛剛！一場直播讓宇樹成功正名！直播G1長跑操場40圈，6萬人點贊！真實跑步水平曝光：2m/s接近天工！ 5h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： Devin退位！這家公司宣布打造了世界上最強編程 Agents：Genie！能模擬人類工程師思考和行動

下一篇：谷歌Phone的AI全家桶上線了，給所有安卓手機打了個樣

社區(qū)精華內(nèi)容

目錄

<cite id="skifr"></cite>

<style id="skifr"></style><acronym id="skifr"></acronym>

<style id="skifr"></style>

^{<blockquote id="skifr"></blockquote>}