自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從思考到行動(dòng):大模型自主工具調(diào)用能力的深度實(shí)現(xiàn)

人工智能 新聞
GPT - 4o、Deepseek - R1 等高級(jí)模型已展現(xiàn)出令人驚嘆的「深度思考」能力:理解上下文關(guān)聯(lián)、拆解多步驟問題、甚至通過思維鏈(Chain - of - Thought)進(jìn)行自我驗(yàn)證、自我反思等推理過程。

本項(xiàng)目由復(fù)旦大學(xué)知識(shí)工場實(shí)驗(yàn)室肖仰華教授、梁家卿青年副研究員領(lǐng)導(dǎo),博士生韓槿一,碩士生李廷云、熊程元、姜子上、王昕奕等同學(xué)共同參與完成。

GPT - 4o、Deepseek - R1 等高級(jí)模型已展現(xiàn)出令人驚嘆的「深度思考」能力:理解上下文關(guān)聯(lián)、拆解多步驟問題、甚至通過思維鏈(Chain - of - Thought)進(jìn)行自我驗(yàn)證、自我反思等推理過程。

但是,多數(shù)主流模型仍在基礎(chǔ)問題上犯錯(cuò),復(fù)雜四則運(yùn)算計(jì)算失誤,簡單「兩個(gè)小數(shù)比大小」出錯(cuò)、甚至連數(shù)清楚 strawberry 里有幾個(gè)「r」都能翻車……即使提示像 R1 這樣具備深度思考能力的大模型也要消耗大量的 token 才能勉強(qiáng)答對(duì)。

合適的工具調(diào)用能夠拓展大模型的能力邊界,但現(xiàn)有工具調(diào)用方式將大模型限制在預(yù)設(shè)的工具使用框架內(nèi),更像是一個(gè)被動(dòng)的「提線木偶」,而非真正具備主動(dòng)性的智能體。主要體現(xiàn)在以下幾個(gè)方面:

  •  淺層模仿而非深度理解:SFT 只是學(xué)會(huì)了特定場景下工具調(diào)用的表面模式,而非真正理解工具的功能邊界、適用場景和內(nèi)部工作機(jī)制 
  • 上下文依賴性強(qiáng):基于 Prompt 的工具調(diào)用方法高度依賴于提示的精確性和完整性。一旦用戶描述模糊或提示設(shè)計(jì)不當(dāng),模型就無法正確選擇和使用工具 
  • 工具組合能力受限:當(dāng)需要多個(gè)工具協(xié)同解決復(fù)雜問題時(shí),現(xiàn)有方法難以支持模型進(jìn)行靈活的工具組合

復(fù)旦大學(xué)知識(shí)工場實(shí)驗(yàn)室團(tuán)隊(duì)在開源項(xiàng)目 SimpleGRPO 中開源實(shí)現(xiàn)了大模型自主工具調(diào)用機(jī)制,通過引入大模型的深度思考能力,從根本上重構(gòu)了大模型工具調(diào)用的范式。該技術(shù)使大模型實(shí)現(xiàn)了從被動(dòng)執(zhí)行的「提線木偶」到具備自主決策能力的智能體的根本躍遷。

  • 項(xiàng)目開源地址為:https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program 

為什么大模型需要自主調(diào)用工具的能力?

  • 深度整合:大模型不僅是工具的「操控者」,而是能在推理過程中深度理解工具的功能,知道什么時(shí)候、如何使用工具才能更高效地解決問題。
  • 動(dòng)態(tài)調(diào)整每次調(diào)用工具后,模型會(huì)根據(jù)新獲得的信息自動(dòng)調(diào)整思路,不斷改進(jìn)解決方案,讓每一次思考都更精確。
  • 連續(xù)性與靈活性:不同于傳統(tǒng)的單次工具調(diào)用,自主工具調(diào)用能力可以使得模型能夠在復(fù)雜任務(wù)中多次調(diào)用工具,通過連續(xù)的交互獲取最佳答案。
  • 創(chuàng)新組合:當(dāng)一個(gè)工具無法完成任務(wù)時(shí),模型能創(chuàng)新性地將多個(gè)工具結(jié)合起來,解決更為復(fù)雜的挑戰(zhàn)。

圖片

表. 一般模型和融入思考進(jìn)行自主工具調(diào)用的模型在工具調(diào)用上的能力表現(xiàn)的差異 

如何實(shí)現(xiàn)大模型的工具自主調(diào)用?

我們使用強(qiáng)化學(xué)習(xí)算法給 LLM 裝上「決策中樞」,實(shí)現(xiàn)兩種神仙模式: 

方案 1【邊想邊干】:LLM 思考到一半突然寫代碼輔助解決 → 編譯器運(yùn)行 → 繼續(xù)思考完成后續(xù)的推理

當(dāng)大模型在生成推理或解決問題的過程中,意識(shí)到某些步驟需要借助編程工具(如 Python)來完成時(shí),它會(huì)直接生成相應(yīng)的代碼片段,并通過編譯器執(zhí)行這些代碼,執(zhí)行結(jié)果會(huì)被捕獲并作為輸入重新融入到大模型的推理過程中。

這種即時(shí)反饋機(jī)制使得模型能夠動(dòng)態(tài)調(diào)整后續(xù)的生成內(nèi)容。這種方式類似于人類在解決問題時(shí),發(fā)現(xiàn)某個(gè)計(jì)算或分析任務(wù)復(fù)雜到需要用程序來輔助,便動(dòng)手編寫代碼并運(yùn)行結(jié)果。 

方案 2【專業(yè)分工】:LLM 負(fù)責(zé)提需求,直接說「我需要計(jì)算 38 和 16 的最小公倍數(shù)」,專屬代碼小弟秒速響應(yīng)!強(qiáng)強(qiáng)聯(lián)手更精準(zhǔn)!

生成模型在推理過程中,當(dāng)遇到需要編程工具協(xié)助的任務(wù)時(shí),會(huì)明確描述出需求。例如,「我需要計(jì)算一組數(shù)據(jù)的標(biāo)準(zhǔn)差」或「請(qǐng)幫我實(shí)現(xiàn)一個(gè)排序算法」。這種需求描述通常以自然語言的形式表達(dá),清晰且易于理解。接收到需求后,專門的代碼生成模型會(huì)根據(jù)描述生成對(duì)應(yīng)的 Python 代碼。

該模型經(jīng)過大量代碼訓(xùn)練,擅長將自然語言需求轉(zhuǎn)化為準(zhǔn)確的代碼實(shí)現(xiàn)。生成的代碼通過編譯器執(zhí)行,執(zhí)行結(jié)果被返回給生成模型。生成模型根據(jù)結(jié)果調(diào)整后續(xù)推理路徑,確保整個(gè)過程連貫一致。

大模型邊思考邊行動(dòng)

大模型自主調(diào)用 Python 命令行

我們首先在簡單數(shù)學(xué)題上驗(yàn)證模型能否通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)調(diào)用工具計(jì)算器來輔助解決問題,并觀察其泛化性。我們?cè)O(shè)定模型可在回答中通過「>>>」調(diào)用 Python 命令行,檢測(cè)到需要調(diào)用 python 程序時(shí),編譯執(zhí)行并將代碼運(yùn)行結(jié)果插入到先前的生成過程中。以 Qwen2.5 - 7B 為基礎(chǔ)模型,在 GSM8K 上訓(xùn)練。

  • 模型執(zhí)行復(fù)雜運(yùn)算時(shí)會(huì)自主調(diào)用命令行來計(jì)算

圖片

  • 模型在訓(xùn)練時(shí)只接觸數(shù)學(xué)題,但推理時(shí)能自主泛化到其他問題上
  • 3.11 和 3.9 誰大?

以前:瞎蒙(甚至理直氣壯答錯(cuò))

現(xiàn)在:秒寫代碼 print(3.11 > 3.9),輸出 False,鐵證如山!

圖片

  • strawberry 有幾個(gè)「r」?

以前:靠概率硬猜(結(jié)果常漏數(shù))

現(xiàn)在:直接上代碼 "strawberry".count('r'),精準(zhǔn)輸出 3!

圖片

模型調(diào)用 Python 程序

面對(duì)更難的問題時(shí),我們發(fā)現(xiàn)命令行難以發(fā)揮作用。例如,模型使用 Python 來解方程時(shí),需要導(dǎo)入相應(yīng)的包,如果使用互相獨(dú)立的命令行難以完成,將多個(gè)命令行一起執(zhí)行則模型容易在格式和代碼編寫上出錯(cuò)。因此,我們嘗試讓模型自己寫整段的 python 程序。

  • 基礎(chǔ)模型:Qwen2.5 - Math - 7B - Base
  • 算法:Reinforce++ ? 數(shù)據(jù)集:MATH level3 - 5 上進(jìn)行訓(xùn)練
  • 訓(xùn)練重要參數(shù)設(shè)置:temperature:0;學(xué)習(xí)率:4e - 7;batch_size: 32;
  • 獎(jiǎng)勵(lì)設(shè)置:回答中包含 \boxed{} 且其中答案正確,則獎(jiǎng)勵(lì)為 1,否則獎(jiǎng)勵(lì)為 0

訓(xùn)練結(jié)果如下:

圖片

  • 復(fù)雜一元三次方程求解借助編程解決

模型內(nèi)心 OS:「這題手算會(huì)崩,看我召喚 Python!」

圖片

大模型主動(dòng)提出調(diào)用工具需求

實(shí)驗(yàn)細(xì)節(jié)

1、訓(xùn)練數(shù)據(jù)集構(gòu)建:

從 MATH、Numina、OpenThoughts 中篩選訓(xùn)練問題時(shí)按照以下原則:

  • 使用 Qwen2.5 - 7B - Base 對(duì)問題生成多個(gè)答案,過濾掉對(duì)模型而言較為簡單的題(正確率為 100%)
  • 過濾掉選擇題、概念題等沒有標(biāo)準(zhǔn)答案的問題

2、測(cè)試數(shù)據(jù)集: 以 GSM8K 題目為原型,將其中的數(shù)值替換成超大(9~11 位)或者更加復(fù)雜(小數(shù))的數(shù)值。 

數(shù)據(jù)集開源地址:https://huggingface.co/datasets/JinyiHan/big-value-gsm

3、算法:GRPO

4、訓(xùn)練技巧:

  • 獎(jiǎng)勵(lì)設(shè)置:我們注重對(duì)格式的獎(jiǎng)懲,這樣可以保證在模型訓(xùn)練前期能快速學(xué)習(xí)到格式,格式準(zhǔn)確率能夠逐漸達(dá)到 95% 以上;從而在后期訓(xùn)練階段模型能夠?qū)W⒂谔嵘卮鸬臏?zhǔn)確率。

圖片

  • 課程學(xué)習(xí):按照模型正確回答的概率從大到小進(jìn)行排列
  • 避免 GRPO 同組得分同質(zhì)化:在訓(xùn)練過程中,得分完全相同的樣本直接過濾掉

5、模型選擇:

生成模型:Qwen2.5 - 7B - Instruct

代碼模型:Qwen2.5 - 7B - Instruct

實(shí)驗(yàn)結(jié)果

圖片


  • 模型反復(fù)多次提需求調(diào)用工具

以前:硬著頭皮硬算,強(qiáng)行編答案

現(xiàn)在:思考后主動(dòng)使用工具輔助解決

圖片

圖片

其他有意思的觀察:

  • 模型能夠根據(jù)代碼編譯結(jié)果能進(jìn)一步反思

當(dāng)模型編寫的 python 代碼出現(xiàn)編譯報(bào)錯(cuò)、沒有輸出或運(yùn)行超時(shí):

以前:出現(xiàn)錯(cuò)誤后,后續(xù)生成的內(nèi)容全部出錯(cuò)

現(xiàn)在:模型會(huì)根據(jù)報(bào)錯(cuò)信息繼續(xù)調(diào)整策略

圖片

  • 自主調(diào)用工具的能力能在未見的任務(wù)上進(jìn)行泛化

以前:特定領(lǐng)域微調(diào)后并不會(huì)遷移到未見任務(wù)上

現(xiàn)在:掌握工具后可以在其他領(lǐng)域靈活使用

case1: Knight & Knave (Logic - RL)

圖片

case2: CountDown

圖片

  • 解鎖新能力,使用 python 來驗(yàn)證生成答案的正確性

圖片

總結(jié)

我們探索了結(jié)合大模型的深度思考能力提升大模型自主工具調(diào)用的能力的兩種方式,包括讓大模型邊思考邊行動(dòng)、以及讓大模型提出調(diào)用工具的需求。

我們發(fā)現(xiàn),通過強(qiáng)化學(xué)習(xí)的訓(xùn)練方式,邊想邊干和專業(yè)分工兩種方式都能夠使大模型靈活、自主地調(diào)用工具,并在生成過程中多次調(diào)用工具,將工具調(diào)用的結(jié)果無縫融入后續(xù)的推理與決策流程中。

更重要的是,這種自主工具調(diào)用能力展現(xiàn)出強(qiáng)大的泛化性,能夠成功應(yīng)用于完全未見過的任務(wù)場景,表現(xiàn)出令人驚嘆的潛力。

這一研究成果為未來大模型深度思考能力的實(shí)際應(yīng)用提供了重要的參考價(jià)值和技術(shù)基礎(chǔ)。我們計(jì)劃在不久后發(fā)布相關(guān)技術(shù)報(bào)告或論文,對(duì)這些方法進(jìn)行更詳細(xì)的闡述和討論,敬請(qǐng)期待。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-09-05 14:43:15

2023-10-04 09:17:03

機(jī)器人AI

2015-05-11 13:11:16

華為

2023-10-07 08:28:06

語言模型代碼技術(shù)

2024-11-05 16:47:27

2025-04-02 01:25:00

2024-12-18 08:33:01

2025-04-27 00:32:00

AIAgent智能體

2024-11-04 12:48:12

2025-03-21 09:35:29

2013-07-25 10:50:49

2023-12-04 14:28:15

模型應(yīng)用設(shè)計(jì)

2024-09-13 10:06:21

2025-04-02 08:40:00

人工智能大模型AI

2023-10-27 07:49:33

AI大模型

2023-09-12 07:02:19

騰訊混元大模型

2025-01-14 13:04:08

2023-04-27 13:46:08

語言模型ChatGPT人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)