自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個系統(tǒng)性工具使用獎勵范式,ToolRL刷新大模型訓(xùn)練思路

人工智能 新聞
伊利諾伊大學(xué)香檳分校的研究團(tuán)隊率先提出了一項開創(chuàng)性的研究 ——ToolRL。

錢成目前是伊利諾伊大學(xué)香檳分校 (UIUC) 一年級博士生,導(dǎo)師為季姮教授。本科就讀于清華大學(xué),導(dǎo)師為劉知遠(yuǎn)教授。其工作集中在大語言模型工具使用與推理以及人工智能體方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多個學(xué)術(shù)會議發(fā)表論文十余篇,一作及共一論文十余篇,谷歌學(xué)術(shù)引用超 500,現(xiàn)擔(dān)任 ACL Area Chair,以及 AAAI,EMNLP,COLM 等多個會議 Reviewer。

「工欲善其事,必先利其器?!?如今,人工智能正以前所未有的速度革新人類認(rèn)知的邊界,而工具的高效應(yīng)用已成為衡量人工智能真正智慧的關(guān)鍵標(biāo)準(zhǔn)。大語言模型憑借卓越的推理與規(guī)劃能力,正在快速融入人類生產(chǎn)與生活,但傳統(tǒng)的監(jiān)督訓(xùn)練方法在面對復(fù)雜或全新的工具場景時,卻常常顯得捉襟見肘。如何幫助人工智能突破這一瓶頸,擁有真正自如運(yùn)用工具的能力?ToolRL 的出現(xiàn)為我們帶來了答案。

伊利諾伊大學(xué)香檳分校的研究團(tuán)隊率先提出了一項開創(chuàng)性的研究 ——ToolRL。不同于傳統(tǒng)的監(jiān)督式微調(diào),ToolRL 首次系統(tǒng)性地探討了強(qiáng)化學(xué)習(xí)范式下的工具使用訓(xùn)練方法,通過精細(xì)化的獎勵設(shè)計,有效解決了工具推理中的泛化難題。

圖片

  • 標(biāo)題:ToolRL: Reward is All Tool Learning Needs
  • 論文鏈接:https://arxiv.org/pdf/2504.13958
  • 代碼倉庫:https://github.com/qiancheng0/ToolRL

圖片

圖 1: 主要 Benchmark 任務(wù)上不同訓(xùn)練策略效果對比。精細(xì)化獎勵設(shè)計 ToolRL + GRPO 冷啟動能夠在不同模型上表現(xiàn)出最佳效果。觀察右側(cè)訓(xùn)練曲線,隨著訓(xùn)練數(shù)據(jù)增加,獎勵也呈現(xiàn)迅速攀升。

Tool-Integrated Reasoning:LLM 的 「工具鏈?zhǔn)剿季S」

在 ToolRL 中,研究者將工具調(diào)用問題建模為 Tool-Integrated Reasoning (TIR) 的任務(wù)范式。這種任務(wù)不僅僅要求模型 「用」 工具,更要求它以合理順序和邏輯調(diào)用多個工具,并基于中間結(jié)果靈活調(diào)整接下來的思維路徑。

TIR 任務(wù)的關(guān)鍵特征包括:

  • 多步交互:一個任務(wù)通常需要多次調(diào)用工具,每步都有中間觀察結(jié)果(如 API 反饋)。
  • 組合調(diào)用:每一步可調(diào)用一個或多個工具,模型需生成參數(shù)化調(diào)用。
  • 推理驅(qū)動:模型必須在自然語言 「思考」 后決定調(diào)用哪些工具、輸入什么參數(shù)。

圖片

圖 2: SFT 在工具推理上難以泛化,可能造成過度推理等問題,而基于 RL 的方法具有更好的泛化能力。

設(shè)計的關(guān)鍵 —— 不是 「對」 就夠了

ToolRL 首次系統(tǒng)性地分析了工具使用任務(wù)中的獎勵設(shè)計維度,包括:

  • 尺度:不同獎勵信號之間如何平衡?
  • 粒度:如何拆解獎勵信號粒度而非僅是二值選擇?
  • 動態(tài)性:訓(xùn)練過程中,獎勵信號應(yīng)否隨時間變化?

研究表明,粗粒度、靜態(tài)、或者僅以最終答案匹配為目標(biāo)的獎勵往往無法最有效地指導(dǎo)模型學(xué)習(xí)工具推理能力。為此,ToolRL 引入了一種結(jié)構(gòu)化獎勵設(shè)計,結(jié)合 「格式規(guī)范」 與 「調(diào)用正確性」,確保模型不僅生成合理的工具鏈?zhǔn)剿季S,更能準(zhǔn)確理解工具含義與調(diào)用語義,激發(fā)更好更精準(zhǔn)的模型工具推理能力。

圖片

圖 3: 工具推理中的 Rollout 示意圖,以及精細(xì)化獎勵設(shè)計示例。除了正確性外,獎勵信號額外涉及 「工具名稱」,「參數(shù)名稱」 以及 「參數(shù)內(nèi)容」 進(jìn)行精細(xì)化匹配,以取得更好的工具推理獎勵效果。

實驗:從模仿到泛化,ToolRL 如何激發(fā)工具智能?

為了驗證 ToolRL 在多工具推理任務(wù)中的有效性,研究團(tuán)隊在多個基準(zhǔn)上進(jìn)行了系統(tǒng)實驗,涵蓋從工具調(diào)用(Berkeley Function Calling Leaderboard)、API 交互(API-Bank)到問答任務(wù)(Bamboogle)的真實應(yīng)用場景。

實驗設(shè)置

  • 模型:使用 Qwen2.5 和 LLaMA3 系列作為基礎(chǔ)模型;
  • 訓(xùn)練方式:對比原始模型、監(jiān)督微調(diào)(SFT)、近端策略優(yōu)化(PPO)以及 ToolRL 提出的 GRPO + 獎勵設(shè)計策略;
  • 評估維度:準(zhǔn)確率、對新任務(wù) / 工具的泛化能力等。

核心結(jié)果

  • 顯著性能提升:在多個下游任務(wù)中,ToolRL 訓(xùn)練的模型準(zhǔn)確率相比 SFT 平均提升超過 15%,比原模型基線表現(xiàn)超過 17%;
  • 更強(qiáng)的泛化能力:在未見過的工具、語言或任務(wù)目標(biāo)中,ToolRL 模型依然保持領(lǐng)先表現(xiàn),展現(xiàn)出主動性和抗干擾能力;
  • 調(diào)用更合理:在問答類任務(wù)中,ToolRL 模型能靈活控制調(diào)用次數(shù),避免無意義操作,效率更高,推理更穩(wěn)健

實驗結(jié)果表明,ToolRL 不僅提升了語言模型的工具使用能力,更重要的是,它促使模型學(xué)會 「何時該調(diào)用工具、如何調(diào)用工具」—— 這正是智能體走向自主智能的關(guān)鍵一步。

圖片

圖片

表 1-3: 在三個 Benchmark 上的測試結(jié)果,文章發(fā)現(xiàn) GRPO 冷啟動的方法往往能取得最好的效果

結(jié)語:ToolRL 不僅是一個方法,更是一套通用的獎勵范式

結(jié)論:ToolRL 不僅是一種方法,更開創(chuàng)了基于工具調(diào)用的強(qiáng)化學(xué)習(xí)獎勵新范式。通過大規(guī)模實驗與深入對比分析,文章驗證了三個核心發(fā)現(xiàn):

  1. 簡潔勝于冗長 —— 過度展開的推理路徑在工具使用上并不能帶來更高的性能,反而可能引入噪聲導(dǎo)致過度推理;
  2. 動態(tài)獎勵助力平滑過渡 —— 基于訓(xùn)練步數(shù)實時調(diào)整的獎勵機(jī)制,能夠使模型能從簡單目標(biāo)泛化至復(fù)雜目標(biāo),逐步積累工具推理能力;
  3. 細(xì)粒度反饋是關(guān)鍵 —— 針對每一次工具調(diào)用的精細(xì)化獎懲,極大提升了模型執(zhí)行多步操作并正確利用外部工具的能力。

圖片

表 4-5: TooRL 訓(xùn)練出的模型在不相關(guān)工具檢測(BFCL 子任務(wù))中表現(xiàn)出更好的泛化性與合理平衡工具調(diào)用以及自我知識的主動性。

相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)研究往往單純以「結(jié)果正確性」為唯一優(yōu)化目標(biāo),ToolRL 在獎勵信號設(shè)計上引入了更豐富的維度,不僅量化了 「是否正確」,還反映了 「工具名稱」、「參數(shù)規(guī)范」 等多方面指標(biāo),彌補(bǔ)了現(xiàn)有方法對復(fù)雜工具鏈學(xué)習(xí)的欠缺。展望未來,ToolRL 所提出的獎勵擴(kuò)展框架不僅能適配更多樣的任務(wù)類別,也為 LLM 與外部工具協(xié)同帶來了更靈活、更可控的訓(xùn)練思路。我們期待基于這一范式的后續(xù)研究,進(jìn)一步深化多模態(tài)工具交互、知識檢索與規(guī)劃生成等領(lǐng)域的智能化水平。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-09 07:29:03

模型文本document

2013-03-06 10:24:12

ksar工具系統(tǒng)性能

2017-06-22 00:03:00

深度學(xué)習(xí)DeepXplore機(jī)器學(xué)習(xí)

2017-06-19 17:52:36

深度學(xué)習(xí)人工智能

2024-11-08 14:10:00

模型視頻生成

2020-03-02 16:25:03

性能系統(tǒng)軟件

2025-02-17 12:30:00

2025-02-11 08:11:56

大型語言模型神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

2023-05-26 17:20:29

模型工具

2025-02-03 14:17:27

2024-04-28 08:00:41

2025-03-05 04:00:00

2021-04-26 15:41:02

計算

2023-05-15 08:44:15

Redis數(shù)據(jù)庫

2025-04-01 15:35:11

2011-09-19 14:30:47

Vista緩存

2024-02-05 09:31:40

仿真駕駛模型
點贊
收藏

51CTO技術(shù)棧公眾號