首個系統(tǒng)性工具使用獎勵范式，ToolRL刷新大模型訓(xùn)練思路

作者：機(jī)器之心 2025-04-29 09:12:00

伊利諾伊大學(xué)香檳分校的研究團(tuán)隊率先提出了一項開創(chuàng)性的研究 ——ToolRL。

錢成目前是伊利諾伊大學(xué)香檳分校 (UIUC) 一年級博士生，導(dǎo)師為季姮教授。本科就讀于清華大學(xué)，導(dǎo)師為劉知遠(yuǎn)教授。其工作集中在大語言模型工具使用與推理以及人工智能體方向。曾在 ACL，EMNLP，COLM，COLING，ICLR 等多個學(xué)術(shù)會議發(fā)表論文十余篇，一作及共一論文十余篇，谷歌學(xué)術(shù)引用超 500，現(xiàn)擔(dān)任 ACL Area Chair，以及 AAAI，EMNLP，COLM 等多個會議 Reviewer。

「工欲善其事，必先利其器?！?如今，人工智能正以前所未有的速度革新人類認(rèn)知的邊界，而工具的高效應(yīng)用已成為衡量人工智能真正智慧的關(guān)鍵標(biāo)準(zhǔn)。大語言模型憑借卓越的推理與規(guī)劃能力，正在快速融入人類生產(chǎn)與生活，但傳統(tǒng)的監(jiān)督訓(xùn)練方法在面對復(fù)雜或全新的工具場景時，卻常常顯得捉襟見肘。如何幫助人工智能突破這一瓶頸，擁有真正自如運(yùn)用工具的能力？ToolRL 的出現(xiàn)為我們帶來了答案。

伊利諾伊大學(xué)香檳分校的研究團(tuán)隊率先提出了一項開創(chuàng)性的研究 ——ToolRL。不同于傳統(tǒng)的監(jiān)督式微調(diào)，ToolRL 首次系統(tǒng)性地探討了強(qiáng)化學(xué)習(xí)范式下的工具使用訓(xùn)練方法，通過精細(xì)化的獎勵設(shè)計，有效解決了工具推理中的泛化難題。

標(biāo)題：ToolRL: Reward is All Tool Learning Needs
論文鏈接：https://arxiv.org/pdf/2504.13958
代碼倉庫：https://github.com/qiancheng0/ToolRL

圖 1: 主要 Benchmark 任務(wù)上不同訓(xùn)練策略效果對比。精細(xì)化獎勵設(shè)計 ToolRL + GRPO 冷啟動能夠在不同模型上表現(xiàn)出最佳效果。觀察右側(cè)訓(xùn)練曲線，隨著訓(xùn)練數(shù)據(jù)增加，獎勵也呈現(xiàn)迅速攀升。

Tool-Integrated Reasoning：LLM 的「工具鏈?zhǔn)剿季S」

在 ToolRL 中，研究者將工具調(diào)用問題建模為 Tool-Integrated Reasoning (TIR) 的任務(wù)范式。這種任務(wù)不僅僅要求模型「用」工具，更要求它以合理順序和邏輯調(diào)用多個工具，并基于中間結(jié)果靈活調(diào)整接下來的思維路徑。

TIR 任務(wù)的關(guān)鍵特征包括：

多步交互：一個任務(wù)通常需要多次調(diào)用工具，每步都有中間觀察結(jié)果（如 API 反饋）。
組合調(diào)用：每一步可調(diào)用一個或多個工具，模型需生成參數(shù)化調(diào)用。
推理驅(qū)動：模型必須在自然語言「思考」后決定調(diào)用哪些工具、輸入什么參數(shù)。

圖 2: SFT 在工具推理上難以泛化，可能造成過度推理等問題，而基于 RL 的方法具有更好的泛化能力。

設(shè)計的關(guān)鍵 —— 不是「對」就夠了

ToolRL 首次系統(tǒng)性地分析了工具使用任務(wù)中的獎勵設(shè)計維度，包括：

尺度：不同獎勵信號之間如何平衡？
粒度：如何拆解獎勵信號粒度而非僅是二值選擇？
動態(tài)性：訓(xùn)練過程中，獎勵信號應(yīng)否隨時間變化？

研究表明，粗粒度、靜態(tài)、或者僅以最終答案匹配為目標(biāo)的獎勵往往無法最有效地指導(dǎo)模型學(xué)習(xí)工具推理能力。為此，ToolRL 引入了一種結(jié)構(gòu)化獎勵設(shè)計，結(jié)合「格式規(guī)范」與「調(diào)用正確性」，確保模型不僅生成合理的工具鏈?zhǔn)剿季S，更能準(zhǔn)確理解工具含義與調(diào)用語義，激發(fā)更好更精準(zhǔn)的模型工具推理能力。

圖 3: 工具推理中的 Rollout 示意圖，以及精細(xì)化獎勵設(shè)計示例。除了正確性外，獎勵信號額外涉及「工具名稱」，「參數(shù)名稱」以及「參數(shù)內(nèi)容」進(jìn)行精細(xì)化匹配，以取得更好的工具推理獎勵效果。

實驗：從模仿到泛化，ToolRL 如何激發(fā)工具智能？

為了驗證 ToolRL 在多工具推理任務(wù)中的有效性，研究團(tuán)隊在多個基準(zhǔn)上進(jìn)行了系統(tǒng)實驗，涵蓋從工具調(diào)用（Berkeley Function Calling Leaderboard）、API 交互（API-Bank）到問答任務(wù)（Bamboogle）的真實應(yīng)用場景。

實驗設(shè)置

模型：使用 Qwen2.5 和 LLaMA3 系列作為基礎(chǔ)模型；
訓(xùn)練方式：對比原始模型、監(jiān)督微調(diào)（SFT）、近端策略優(yōu)化（PPO）以及 ToolRL 提出的 GRPO + 獎勵設(shè)計策略；
評估維度：準(zhǔn)確率、對新任務(wù) / 工具的泛化能力等。

核心結(jié)果

顯著性能提升：在多個下游任務(wù)中，ToolRL 訓(xùn)練的模型準(zhǔn)確率相比 SFT 平均提升超過 15%，比原模型基線表現(xiàn)超過 17%；
更強(qiáng)的泛化能力：在未見過的工具、語言或任務(wù)目標(biāo)中，ToolRL 模型依然保持領(lǐng)先表現(xiàn)，展現(xiàn)出主動性和抗干擾能力；
調(diào)用更合理：在問答類任務(wù)中，ToolRL 模型能靈活控制調(diào)用次數(shù)，避免無意義操作，效率更高，推理更穩(wěn)健。

實驗結(jié)果表明，ToolRL 不僅提升了語言模型的工具使用能力，更重要的是，它促使模型學(xué)會「何時該調(diào)用工具、如何調(diào)用工具」—— 這正是智能體走向自主智能的關(guān)鍵一步。

表 1-3: 在三個 Benchmark 上的測試結(jié)果，文章發(fā)現(xiàn) GRPO 冷啟動的方法往往能取得最好的效果

結(jié)語：ToolRL 不僅是一個方法，更是一套通用的獎勵范式

結(jié)論：ToolRL 不僅是一種方法，更開創(chuàng)了基于工具調(diào)用的強(qiáng)化學(xué)習(xí)獎勵新范式。通過大規(guī)模實驗與深入對比分析，文章驗證了三個核心發(fā)現(xiàn)：

簡潔勝于冗長 —— 過度展開的推理路徑在工具使用上并不能帶來更高的性能，反而可能引入噪聲導(dǎo)致過度推理；
動態(tài)獎勵助力平滑過渡 —— 基于訓(xùn)練步數(shù)實時調(diào)整的獎勵機(jī)制，能夠使模型能從簡單目標(biāo)泛化至復(fù)雜目標(biāo)，逐步積累工具推理能力；
細(xì)粒度反饋是關(guān)鍵 —— 針對每一次工具調(diào)用的精細(xì)化獎懲，極大提升了模型執(zhí)行多步操作并正確利用外部工具的能力。

表 4-5: TooRL 訓(xùn)練出的模型在不相關(guān)工具檢測（BFCL 子任務(wù)）中表現(xiàn)出更好的泛化性與合理平衡工具調(diào)用以及自我知識的主動性。

相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)研究往往單純以「結(jié)果正確性」為唯一優(yōu)化目標(biāo)，ToolRL 在獎勵信號設(shè)計上引入了更豐富的維度，不僅量化了「是否正確」，還反映了「工具名稱」、「參數(shù)規(guī)范」等多方面指標(biāo)，彌補(bǔ)了現(xiàn)有方法對復(fù)雜工具鏈學(xué)習(xí)的欠缺。展望未來，ToolRL 所提出的獎勵擴(kuò)展框架不僅能適配更多樣的任務(wù)類別，也為 LLM 與外部工具協(xié)同帶來了更靈活、更可控的訓(xùn)練思路。我們期待基于這一范式的后續(xù)研究，進(jìn)一步深化多模態(tài)工具交互、知識檢索與規(guī)劃生成等領(lǐng)域的智能化水平。

責(zé)任編輯：張燕妮來源：機(jī)器之心

系統(tǒng)AI 工具

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個系統(tǒng)性工具使用獎勵范式，ToolRL刷新大模型訓(xùn)練思路

Tool-Integrated Reasoning：LLM 的 「工具鏈?zhǔn)剿季S」

設(shè)計的關(guān)鍵 —— 不是 「對」 就夠了

實驗：從模仿到泛化，ToolRL 如何激發(fā)工具智能？

結(jié)語：ToolRL 不僅是一個方法，更是一套通用的獎勵范式

Tool-Integrated Reasoning：LLM 的「工具鏈?zhǔn)剿季S」

設(shè)計的關(guān)鍵 —— 不是「對」就夠了

實驗：從模仿到泛化，ToolRL 如何激發(fā)工具智能？

結(jié)語：ToolRL 不僅是一個方法，更是一套通用的獎勵范式