自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

?哪個模型擅長調(diào)用工具?這個7B模型躋身工具調(diào)用綜合榜單第一

人工智能 新聞
Hammer 模型通過函數(shù)掩碼技術和不相關性檢測數(shù)據(jù)增強,在多個評測基準中取得了良好的效果,表現(xiàn)出強大的泛化能力和穩(wěn)定性,為輕量化工具調(diào)用模型在終端應用向前邁了一步。

工具調(diào)用是 AI 智能體的關鍵功能之一,AI 智能體根據(jù)場景變化動態(tài)地選擇和調(diào)用合適的工具,從而實現(xiàn)對復雜任務的自動化處理。例如,在智能辦公場景中,模型可同時調(diào)用文檔編輯工具、數(shù)據(jù)處理工具和通信工具,完成文檔撰寫、數(shù)據(jù)統(tǒng)計和信息溝通等多項任務。

業(yè)界已發(fā)布的工具調(diào)用模型,在特定評測基準上有接近甚至超越閉源 SOTA 模型(比如 GPT-4)的表現(xiàn),但在其他評測基準上下降明顯,難以泛化到新工具和新場景。為應對這一挑戰(zhàn),來自 OPPO 研究院上海交通大學的研究團隊提出函數(shù)掩碼(Function Masking) 方法,構建了具備強大泛化能力的輕量化工具調(diào)用系列模型:Hammer,并開源了完整的技術棧,旨在幫助開發(fā)者構建個性化的終端智能應用。

在工具調(diào)用典型評測基準上,包括 Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools 等,Hammer 系列模型展現(xiàn)了出色的總體性能,特別是 Hammer-7B 模型,綜合效果僅次于 GPT-4 等閉源大模型,在工具調(diào)用模型中綜合排名第一,具備強大的新場景和新工具泛化能力。

圖片

  • 模型地址:https://huggingface.co/MadeAgents
  • 論文地址:https://arxiv.org/abs/2410.04587
  • 代碼地址:https://github.com/MadeAgents/Hammer

工具調(diào)用任務說明

工具調(diào)用作為 AI 智能體執(zhí)行復雜任務所必備的核心能力,要求模型不僅能夠識別正確的函數(shù),還要準確填寫函數(shù)的輸入?yún)?shù);如果給定函數(shù)列表無法滿足用戶的意圖,模型也應具備拒絕任務的能力。下圖是工具調(diào)用模型輸入輸出的一個樣例:

圖片

Hammer 訓練方法

研究團隊在 Hammer 的訓練過程中引入了一項關鍵技術:函數(shù)掩碼(Function Masking) 和一個增強數(shù)據(jù)集:不相關性檢測增強數(shù)據(jù)集(Irrelevance-Augmented Dataset)。

  • 函數(shù)掩碼旨在減少模型對函數(shù)名稱和參數(shù)名稱的依賴,核心是通過哈?;瘮?shù)名稱和參數(shù)名稱,使模型在執(zhí)行工具調(diào)用任務時不得不依賴更完備且可靠的功能描述信息,而不是對名稱的記憶或匹配。這種方式有助于減少因命名差異導致的誤判問題,提升模型在多樣化命名風格和應用場景中的穩(wěn)定性和適應性。
  • 不相關性檢測增強數(shù)據(jù)集旨在幫助模型在給定用戶意圖而當前無適用函數(shù)的情況下,能夠正確判斷并給出「不相關」信號。該數(shù)據(jù)集包含了 7,500 個增強樣本,設計時平衡了工具調(diào)用任務和不相關性檢測任務的比例,以達到最佳的綜合效果。(已開源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k

圖片

Hammer 總體表現(xiàn)

Hammer 系列模型在工具調(diào)用典型評測基準上均展現(xiàn)了出色的性能,具體表現(xiàn)如下面的兩張表格所示??梢钥吹?,在 BFCL 榜單上,Hammer-7B 模型的總體準確率達到 83.92%,接近閉源 SOTA 模型 GPT-4 的 95.79%,優(yōu)于其他工具調(diào)用模型。同時,在其他評測基準上,Hammer-7B 模型的平均 F1 達到 76.21%,接近閉源模型 GPT-4 的 78.79%,大幅領先其他工具調(diào)用模型。Hammer-7B 能夠在參數(shù)規(guī)模較小的情況下,在不同評測基準上與閉源 SOTA 大模型競爭,充分展示了 Hammer 模型在各種工具調(diào)用任務中的準確性和穩(wěn)定性。

圖片

圖片

函數(shù)掩碼技術的通用性

研究團隊還將函數(shù)掩碼和數(shù)據(jù)增強技術應用于不同的基礎模型,以驗證其通用性。實驗選擇了 Qwen 系列和 Deepseek-Coder 系列模型作為基準,并在相同的訓練和測試條件下進行比較。下表中的結果顯示,經(jīng)過函數(shù)掩碼技術調(diào)優(yōu)后的 Hammer 版本顯著提升了基礎模型的工具調(diào)用準確性,遠高于未調(diào)優(yōu)版本,證明了函數(shù)掩碼和不相關性數(shù)據(jù)增強對不同模型架構均有顯著的優(yōu)化效果。同時,在使用相同的基座模型和基礎數(shù)據(jù)的情況下,與 xLAM(同樣基于 Deepseek 微調(diào)而來的工具調(diào)用模型)的對比,也體現(xiàn)了函數(shù)掩碼及不相關性數(shù)據(jù)增強的作用。

圖片

不相關性數(shù)據(jù)增強比例的權衡

在設計不相關性數(shù)據(jù)增強時,研究團隊測試了不同比例的不相關性數(shù)據(jù)樣本對模型表現(xiàn)的影響。下圖實驗結果表明,合理比例的不相關性增強數(shù)據(jù)(約占總數(shù)據(jù)的 10%)能夠在提升工具調(diào)用準確性的同時,顯著增強模型在不相關檢測場景中的識別能力,降低錯誤調(diào)用的風險。實驗結果還顯示,進一步增加不相關性數(shù)據(jù)會略微降低功能調(diào)用的準確性,因此找到適當?shù)钠胶恻c至關重要。

圖片

總結

Hammer 模型通過函數(shù)掩碼技術和不相關性檢測數(shù)據(jù)增強,在多個評測基準中取得了良好的效果,表現(xiàn)出強大的泛化能力和穩(wěn)定性,為輕量化工具調(diào)用模型在終端應用向前邁了一步。

Hammer 系列目前已更新至 2.0 版本,歡迎感興趣的讀者通過 huggingface 進行體驗!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-25 08:00:00

2024-07-15 08:58:00

2024-06-03 10:43:34

2024-03-08 10:05:09

SpringHTTP接口

2023-06-28 21:47:54

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2024-05-15 09:17:30

模型AI

2025-03-17 12:13:26

AI模型生成

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-09-05 14:25:00

訓練代碼

2023-10-13 19:58:33

Mistral7B模型

2024-08-13 15:40:00

2010-06-04 17:56:22

Linux 常用工具

2025-04-27 07:57:50

大模型工具JSON

2024-06-11 14:30:18

2025-02-17 08:00:00

DeepSeek模型AI

2025-02-10 14:30:00

模型數(shù)據(jù)開源

2025-04-17 09:12:00

點贊
收藏

51CTO技術棧公眾號