自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="kbtd6"><dfn id="kbtd6"><pre id="kbtd6"></pre></dfn></meter>

<wbr id="kbtd6"></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

從思考到行動(dòng)：大模型自主工具調(diào)用能力的深度實(shí)現(xiàn)

作者：機(jī)器之心 2025-04-17 09:12:00

人工智能新聞

GPT - 4o、Deepseek - R1 等高級(jí)模型已展現(xiàn)出令人驚嘆的「深度思考」能力：理解上下文關(guān)聯(lián)、拆解多步驟問題、甚至通過思維鏈（Chain - of - Thought）進(jìn)行自我驗(yàn)證、自我反思等推理過程。

本項(xiàng)目由復(fù)旦大學(xué)知識(shí)工場實(shí)驗(yàn)室肖仰華教授、梁家卿青年副研究員領(lǐng)導(dǎo)，博士生韓槿一，碩士生李廷云、熊程元、姜子上、王昕奕等同學(xué)共同參與完成。

GPT - 4o、Deepseek - R1 等高級(jí)模型已展現(xiàn)出令人驚嘆的「深度思考」能力：理解上下文關(guān)聯(lián)、拆解多步驟問題、甚至通過思維鏈（Chain - of - Thought）進(jìn)行自我驗(yàn)證、自我反思等推理過程。

但是，多數(shù)主流模型仍在基礎(chǔ)問題上犯錯(cuò)，復(fù)雜四則運(yùn)算計(jì)算失誤，簡單「兩個(gè)小數(shù)比大小」出錯(cuò)、甚至連數(shù)清楚 strawberry 里有幾個(gè)「r」都能翻車……即使提示像 R1 這樣具備深度思考能力的大模型也要消耗大量的 token 才能勉強(qiáng)答對(duì)。

合適的工具調(diào)用能夠拓展大模型的能力邊界，但現(xiàn)有工具調(diào)用方式將大模型限制在預(yù)設(shè)的工具使用框架內(nèi)，更像是一個(gè)被動(dòng)的「提線木偶」，而非真正具備主動(dòng)性的智能體。主要體現(xiàn)在以下幾個(gè)方面：

淺層模仿而非深度理解：SFT 只是學(xué)會(huì)了特定場景下工具調(diào)用的表面模式，而非真正理解工具的功能邊界、適用場景和內(nèi)部工作機(jī)制
上下文依賴性強(qiáng)：基于 Prompt 的工具調(diào)用方法高度依賴于提示的精確性和完整性。一旦用戶描述模糊或提示設(shè)計(jì)不當(dāng)，模型就無法正確選擇和使用工具
工具組合能力受限：當(dāng)需要多個(gè)工具協(xié)同解決復(fù)雜問題時(shí)，現(xiàn)有方法難以支持模型進(jìn)行靈活的工具組合

復(fù)旦大學(xué)知識(shí)工場實(shí)驗(yàn)室團(tuán)隊(duì)在開源項(xiàng)目 SimpleGRPO 中開源實(shí)現(xiàn)了大模型自主工具調(diào)用機(jī)制，通過引入大模型的深度思考能力，從根本上重構(gòu)了大模型工具調(diào)用的范式。該技術(shù)使大模型實(shí)現(xiàn)了從被動(dòng)執(zhí)行的「提線木偶」到具備自主決策能力的智能體的根本躍遷。

項(xiàng)目開源地址為：https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program

為什么大模型需要自主調(diào)用工具的能力？

深度整合：大模型不僅是工具的「操控者」，而是能在推理過程中深度理解工具的功能，知道什么時(shí)候、如何使用工具才能更高效地解決問題。
動(dòng)態(tài)調(diào)整：每次調(diào)用工具后，模型會(huì)根據(jù)新獲得的信息自動(dòng)調(diào)整思路，不斷改進(jìn)解決方案，讓每一次思考都更精確。
連續(xù)性與靈活性：不同于傳統(tǒng)的單次工具調(diào)用，自主工具調(diào)用能力可以使得模型能夠在復(fù)雜任務(wù)中多次調(diào)用工具，通過連續(xù)的交互獲取最佳答案。
創(chuàng)新組合：當(dāng)一個(gè)工具無法完成任務(wù)時(shí)，模型能創(chuàng)新性地將多個(gè)工具結(jié)合起來，解決更為復(fù)雜的挑戰(zhàn)。

表. 一般模型和融入思考進(jìn)行自主工具調(diào)用的模型在工具調(diào)用上的能力表現(xiàn)的差異

如何實(shí)現(xiàn)大模型的工具自主調(diào)用？

我們使用強(qiáng)化學(xué)習(xí)算法給 LLM 裝上「決策中樞」，實(shí)現(xiàn)兩種神仙模式：

方案 1【邊想邊干】：LLM 思考到一半突然寫代碼輔助解決 → 編譯器運(yùn)行 → 繼續(xù)思考完成后續(xù)的推理

當(dāng)大模型在生成推理或解決問題的過程中，意識(shí)到某些步驟需要借助編程工具（如 Python）來完成時(shí)，它會(huì)直接生成相應(yīng)的代碼片段，并通過編譯器執(zhí)行這些代碼，執(zhí)行結(jié)果會(huì)被捕獲并作為輸入重新融入到大模型的推理過程中。

這種即時(shí)反饋機(jī)制使得模型能夠動(dòng)態(tài)調(diào)整后續(xù)的生成內(nèi)容。這種方式類似于人類在解決問題時(shí)，發(fā)現(xiàn)某個(gè)計(jì)算或分析任務(wù)復(fù)雜到需要用程序來輔助，便動(dòng)手編寫代碼并運(yùn)行結(jié)果。

方案 2【專業(yè)分工】：LLM 負(fù)責(zé)提需求，直接說「我需要計(jì)算 38 和 16 的最小公倍數(shù)」，專屬代碼小弟秒速響應(yīng)！強(qiáng)強(qiáng)聯(lián)手更精準(zhǔn)！

生成模型在推理過程中，當(dāng)遇到需要編程工具協(xié)助的任務(wù)時(shí)，會(huì)明確描述出需求。例如，「我需要計(jì)算一組數(shù)據(jù)的標(biāo)準(zhǔn)差」或「請(qǐng)幫我實(shí)現(xiàn)一個(gè)排序算法」。這種需求描述通常以自然語言的形式表達(dá)，清晰且易于理解。接收到需求后，專門的代碼生成模型會(huì)根據(jù)描述生成對(duì)應(yīng)的 Python 代碼。

該模型經(jīng)過大量代碼訓(xùn)練，擅長將自然語言需求轉(zhuǎn)化為準(zhǔn)確的代碼實(shí)現(xiàn)。生成的代碼通過編譯器執(zhí)行，執(zhí)行結(jié)果被返回給生成模型。生成模型根據(jù)結(jié)果調(diào)整后續(xù)推理路徑，確保整個(gè)過程連貫一致。

大模型邊思考邊行動(dòng)

大模型自主調(diào)用 Python 命令行

我們首先在簡單數(shù)學(xué)題上驗(yàn)證模型能否通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)調(diào)用工具計(jì)算器來輔助解決問題，并觀察其泛化性。我們?cè)O(shè)定模型可在回答中通過「>>>」調(diào)用 Python 命令行，檢測(cè)到需要調(diào)用 python 程序時(shí)，編譯執(zhí)行并將代碼運(yùn)行結(jié)果插入到先前的生成過程中。以 Qwen2.5 - 7B 為基礎(chǔ)模型，在 GSM8K 上訓(xùn)練。

模型執(zhí)行復(fù)雜運(yùn)算時(shí)會(huì)自主調(diào)用命令行來計(jì)算

模型在訓(xùn)練時(shí)只接觸數(shù)學(xué)題，但推理時(shí)能自主泛化到其他問題上
3.11 和 3.9 誰大？

以前：瞎蒙（甚至理直氣壯答錯(cuò)）

現(xiàn)在：秒寫代碼 print(3.11 > 3.9)，輸出 False，鐵證如山！

strawberry 有幾個(gè)「r」？

以前：靠概率硬猜（結(jié)果常漏數(shù)）

現(xiàn)在：直接上代碼 "strawberry".count('r')，精準(zhǔn)輸出 3！

模型調(diào)用 Python 程序

面對(duì)更難的問題時(shí)，我們發(fā)現(xiàn)命令行難以發(fā)揮作用。例如，模型使用 Python 來解方程時(shí)，需要導(dǎo)入相應(yīng)的包，如果使用互相獨(dú)立的命令行難以完成，將多個(gè)命令行一起執(zhí)行則模型容易在格式和代碼編寫上出錯(cuò)。因此，我們嘗試讓模型自己寫整段的 python 程序。

基礎(chǔ)模型：Qwen2.5 - Math - 7B - Base
算法：Reinforce++ ? 數(shù)據(jù)集：MATH level3 - 5 上進(jìn)行訓(xùn)練
訓(xùn)練重要參數(shù)設(shè)置：temperature：0；學(xué)習(xí)率：4e - 7；batch_size: 32；
獎(jiǎng)勵(lì)設(shè)置：回答中包含 \boxed{} 且其中答案正確，則獎(jiǎng)勵(lì)為 1，否則獎(jiǎng)勵(lì)為 0

訓(xùn)練結(jié)果如下：

復(fù)雜一元三次方程求解借助編程解決

模型內(nèi)心 OS：「這題手算會(huì)崩，看我召喚 Python！」

大模型主動(dòng)提出調(diào)用工具需求

實(shí)驗(yàn)細(xì)節(jié)

1、訓(xùn)練數(shù)據(jù)集構(gòu)建：

從 MATH、Numina、OpenThoughts 中篩選訓(xùn)練問題時(shí)按照以下原則：

使用 Qwen2.5 - 7B - Base 對(duì)問題生成多個(gè)答案，過濾掉對(duì)模型而言較為簡單的題（正確率為 100%）
過濾掉選擇題、概念題等沒有標(biāo)準(zhǔn)答案的問題

2、測(cè)試數(shù)據(jù)集：以 GSM8K 題目為原型，將其中的數(shù)值替換成超大（9～11 位）或者更加復(fù)雜（小數(shù)）的數(shù)值。

數(shù)據(jù)集開源地址：https://huggingface.co/datasets/JinyiHan/big-value-gsm

3、算法：GRPO

4、訓(xùn)練技巧：

獎(jiǎng)勵(lì)設(shè)置：我們注重對(duì)格式的獎(jiǎng)懲，這樣可以保證在模型訓(xùn)練前期能快速學(xué)習(xí)到格式，格式準(zhǔn)確率能夠逐漸達(dá)到 95% 以上；從而在后期訓(xùn)練階段模型能夠?qū)Ｗ⒂谔嵘卮鸬臏?zhǔn)確率。

課程學(xué)習(xí)：按照模型正確回答的概率從大到小進(jìn)行排列
避免 GRPO 同組得分同質(zhì)化：在訓(xùn)練過程中，得分完全相同的樣本直接過濾掉

5、模型選擇：

生成模型：Qwen2.5 - 7B - Instruct

代碼模型：Qwen2.5 - 7B - Instruct

實(shí)驗(yàn)結(jié)果

模型反復(fù)多次提需求調(diào)用工具

以前：硬著頭皮硬算，強(qiáng)行編答案

現(xiàn)在：思考后主動(dòng)使用工具輔助解決

其他有意思的觀察：

模型能夠根據(jù)代碼編譯結(jié)果能進(jìn)一步反思

當(dāng)模型編寫的 python 代碼出現(xiàn)編譯報(bào)錯(cuò)、沒有輸出或運(yùn)行超時(shí)：

以前：出現(xiàn)錯(cuò)誤后，后續(xù)生成的內(nèi)容全部出錯(cuò)

現(xiàn)在：模型會(huì)根據(jù)報(bào)錯(cuò)信息繼續(xù)調(diào)整策略

自主調(diào)用工具的能力能在未見的任務(wù)上進(jìn)行泛化

以前：特定領(lǐng)域微調(diào)后并不會(huì)遷移到未見任務(wù)上

現(xiàn)在：掌握工具后可以在其他領(lǐng)域靈活使用

case1: Knight & Knave (Logic - RL)

case2: CountDown

解鎖新能力，使用 python 來驗(yàn)證生成答案的正確性

總結(jié)

我們探索了結(jié)合大模型的深度思考能力提升大模型自主工具調(diào)用的能力的兩種方式，包括讓大模型邊思考邊行動(dòng)、以及讓大模型提出調(diào)用工具的需求。

我們發(fā)現(xiàn)，通過強(qiáng)化學(xué)習(xí)的訓(xùn)練方式，邊想邊干和專業(yè)分工兩種方式都能夠使大模型靈活、自主地調(diào)用工具，并在生成過程中多次調(diào)用工具，將工具調(diào)用的結(jié)果無縫融入后續(xù)的推理與決策流程中。

更重要的是，這種自主工具調(diào)用能力展現(xiàn)出強(qiáng)大的泛化性，能夠成功應(yīng)用于完全未見過的任務(wù)場景，表現(xiàn)出令人驚嘆的潛力。

這一研究成果為未來大模型深度思考能力的實(shí)際應(yīng)用提供了重要的參考價(jià)值和技術(shù)基礎(chǔ)。我們計(jì)劃在不久后發(fā)布相關(guān)技術(shù)報(bào)告或論文，對(duì)這些方法進(jìn)行更詳細(xì)的闡述和討論，敬請(qǐng)期待。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 智能體

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="4nys6"><p id="4nys6"></p></blockquote>