首個系統(tǒng)性工具使用獎勵范式,ToolRL刷新大模型訓(xùn)練思路
錢成目前是伊利諾伊大學(xué)香檳分校 (UIUC) 一年級博士生,導(dǎo)師為季姮教授。本科就讀于清華大學(xué),導(dǎo)師為劉知遠(yuǎn)教授。其工作集中在大語言模型工具使用與推理以及人工智能體方向。曾在 ACL,EMNLP,COLM,COLING,ICLR 等多個學(xué)術(shù)會議發(fā)表論文十余篇,一作及共一論文十余篇,谷歌學(xué)術(shù)引用超 500,現(xiàn)擔(dān)任 ACL Area Chair,以及 AAAI,EMNLP,COLM 等多個會議 Reviewer。
「工欲善其事,必先利其器?!?如今,人工智能正以前所未有的速度革新人類認(rèn)知的邊界,而工具的高效應(yīng)用已成為衡量人工智能真正智慧的關(guān)鍵標(biāo)準(zhǔn)。大語言模型憑借卓越的推理與規(guī)劃能力,正在快速融入人類生產(chǎn)與生活,但傳統(tǒng)的監(jiān)督訓(xùn)練方法在面對復(fù)雜或全新的工具場景時,卻常常顯得捉襟見肘。如何幫助人工智能突破這一瓶頸,擁有真正自如運(yùn)用工具的能力?ToolRL 的出現(xiàn)為我們帶來了答案。
伊利諾伊大學(xué)香檳分校的研究團(tuán)隊率先提出了一項開創(chuàng)性的研究 ——ToolRL。不同于傳統(tǒng)的監(jiān)督式微調(diào),ToolRL 首次系統(tǒng)性地探討了強(qiáng)化學(xué)習(xí)范式下的工具使用訓(xùn)練方法,通過精細(xì)化的獎勵設(shè)計,有效解決了工具推理中的泛化難題。
- 標(biāo)題:ToolRL: Reward is All Tool Learning Needs
- 論文鏈接:https://arxiv.org/pdf/2504.13958
- 代碼倉庫:https://github.com/qiancheng0/ToolRL
圖 1: 主要 Benchmark 任務(wù)上不同訓(xùn)練策略效果對比。精細(xì)化獎勵設(shè)計 ToolRL + GRPO 冷啟動能夠在不同模型上表現(xiàn)出最佳效果。觀察右側(cè)訓(xùn)練曲線,隨著訓(xùn)練數(shù)據(jù)增加,獎勵也呈現(xiàn)迅速攀升。
Tool-Integrated Reasoning:LLM 的 「工具鏈?zhǔn)剿季S」
在 ToolRL 中,研究者將工具調(diào)用問題建模為 Tool-Integrated Reasoning (TIR) 的任務(wù)范式。這種任務(wù)不僅僅要求模型 「用」 工具,更要求它以合理順序和邏輯調(diào)用多個工具,并基于中間結(jié)果靈活調(diào)整接下來的思維路徑。
TIR 任務(wù)的關(guān)鍵特征包括:
- 多步交互:一個任務(wù)通常需要多次調(diào)用工具,每步都有中間觀察結(jié)果(如 API 反饋)。
- 組合調(diào)用:每一步可調(diào)用一個或多個工具,模型需生成參數(shù)化調(diào)用。
- 推理驅(qū)動:模型必須在自然語言 「思考」 后決定調(diào)用哪些工具、輸入什么參數(shù)。
圖 2: SFT 在工具推理上難以泛化,可能造成過度推理等問題,而基于 RL 的方法具有更好的泛化能力。
設(shè)計的關(guān)鍵 —— 不是 「對」 就夠了
ToolRL 首次系統(tǒng)性地分析了工具使用任務(wù)中的獎勵設(shè)計維度,包括:
- 尺度:不同獎勵信號之間如何平衡?
- 粒度:如何拆解獎勵信號粒度而非僅是二值選擇?
- 動態(tài)性:訓(xùn)練過程中,獎勵信號應(yīng)否隨時間變化?
研究表明,粗粒度、靜態(tài)、或者僅以最終答案匹配為目標(biāo)的獎勵往往無法最有效地指導(dǎo)模型學(xué)習(xí)工具推理能力。為此,ToolRL 引入了一種結(jié)構(gòu)化獎勵設(shè)計,結(jié)合 「格式規(guī)范」 與 「調(diào)用正確性」,確保模型不僅生成合理的工具鏈?zhǔn)剿季S,更能準(zhǔn)確理解工具含義與調(diào)用語義,激發(fā)更好更精準(zhǔn)的模型工具推理能力。
圖 3: 工具推理中的 Rollout 示意圖,以及精細(xì)化獎勵設(shè)計示例。除了正確性外,獎勵信號額外涉及 「工具名稱」,「參數(shù)名稱」 以及 「參數(shù)內(nèi)容」 進(jìn)行精細(xì)化匹配,以取得更好的工具推理獎勵效果。
實驗:從模仿到泛化,ToolRL 如何激發(fā)工具智能?
為了驗證 ToolRL 在多工具推理任務(wù)中的有效性,研究團(tuán)隊在多個基準(zhǔn)上進(jìn)行了系統(tǒng)實驗,涵蓋從工具調(diào)用(Berkeley Function Calling Leaderboard)、API 交互(API-Bank)到問答任務(wù)(Bamboogle)的真實應(yīng)用場景。
實驗設(shè)置
- 模型:使用 Qwen2.5 和 LLaMA3 系列作為基礎(chǔ)模型;
- 訓(xùn)練方式:對比原始模型、監(jiān)督微調(diào)(SFT)、近端策略優(yōu)化(PPO)以及 ToolRL 提出的 GRPO + 獎勵設(shè)計策略;
- 評估維度:準(zhǔn)確率、對新任務(wù) / 工具的泛化能力等。
核心結(jié)果
- 顯著性能提升:在多個下游任務(wù)中,ToolRL 訓(xùn)練的模型準(zhǔn)確率相比 SFT 平均提升超過 15%,比原模型基線表現(xiàn)超過 17%;
- 更強(qiáng)的泛化能力:在未見過的工具、語言或任務(wù)目標(biāo)中,ToolRL 模型依然保持領(lǐng)先表現(xiàn),展現(xiàn)出主動性和抗干擾能力;
- 調(diào)用更合理:在問答類任務(wù)中,ToolRL 模型能靈活控制調(diào)用次數(shù),避免無意義操作,效率更高,推理更穩(wěn)健。
實驗結(jié)果表明,ToolRL 不僅提升了語言模型的工具使用能力,更重要的是,它促使模型學(xué)會 「何時該調(diào)用工具、如何調(diào)用工具」—— 這正是智能體走向自主智能的關(guān)鍵一步。
表 1-3: 在三個 Benchmark 上的測試結(jié)果,文章發(fā)現(xiàn) GRPO 冷啟動的方法往往能取得最好的效果
結(jié)語:ToolRL 不僅是一個方法,更是一套通用的獎勵范式
結(jié)論:ToolRL 不僅是一種方法,更開創(chuàng)了基于工具調(diào)用的強(qiáng)化學(xué)習(xí)獎勵新范式。通過大規(guī)模實驗與深入對比分析,文章驗證了三個核心發(fā)現(xiàn):
- 簡潔勝于冗長 —— 過度展開的推理路徑在工具使用上并不能帶來更高的性能,反而可能引入噪聲導(dǎo)致過度推理;
- 動態(tài)獎勵助力平滑過渡 —— 基于訓(xùn)練步數(shù)實時調(diào)整的獎勵機(jī)制,能夠使模型能從簡單目標(biāo)泛化至復(fù)雜目標(biāo),逐步積累工具推理能力;
- 細(xì)粒度反饋是關(guān)鍵 —— 針對每一次工具調(diào)用的精細(xì)化獎懲,極大提升了模型執(zhí)行多步操作并正確利用外部工具的能力。
表 4-5: TooRL 訓(xùn)練出的模型在不相關(guān)工具檢測(BFCL 子任務(wù))中表現(xiàn)出更好的泛化性與合理平衡工具調(diào)用以及自我知識的主動性。
相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)研究往往單純以「結(jié)果正確性」為唯一優(yōu)化目標(biāo),ToolRL 在獎勵信號設(shè)計上引入了更豐富的維度,不僅量化了 「是否正確」,還反映了 「工具名稱」、「參數(shù)規(guī)范」 等多方面指標(biāo),彌補(bǔ)了現(xiàn)有方法對復(fù)雜工具鏈學(xué)習(xí)的欠缺。展望未來,ToolRL 所提出的獎勵擴(kuò)展框架不僅能適配更多樣的任務(wù)類別,也為 LLM 與外部工具協(xié)同帶來了更靈活、更可控的訓(xùn)練思路。我們期待基于這一范式的后續(xù)研究,進(jìn)一步深化多模態(tài)工具交互、知識檢索與規(guī)劃生成等領(lǐng)域的智能化水平。