自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

全面增強LLM推理/規(guī)劃/執(zhí)行力！北航提出全新「內置CoT」思考方法

作者：新智元 2025-03-05 04:00:00

基于內置思維鏈的思考方法為解決多輪會話中存在的問題提供了研究方向。按照思考方法收集訓練數(shù)據(jù)集，通過有監(jiān)督學習微調大語言模型；訓練一個一致性獎勵模型，并將該模型用作獎勵函數(shù)，以使用強化學習來微調大語言模型。結果大語言模型的推理能力和計劃能力，以及執(zhí)行計劃的能力得到了增強。

用戶已經習慣于將大模型如ChatGPT、Llama-3-chat等當作聊天對象，然而在用戶和聊天助手的會話中，有的用戶提示（例如一些命令或請求）不能在一輪會話中結束，需要大語言模型和用戶進行多輪會話。

這種跨越多輪的會話目前仍然存在一些問題：大語言模型的回答容易出錯，不能幫助用戶達到目標，且隨著會話輪數(shù)增加出錯概率會增大。

對同一個命令或問題，大語言模型比較難以根據(jù)實際需求產生不同流程的響應，在需要大語言模型與環(huán)境交互時，目前比較流行的做法是使用函數(shù)調用或工具調用，但不夠優(yōu)雅和高效，而且由于上下文窗口的限制，能支持的工具調用數(shù)量有限。

這些問題的主要原因是因為大語言模型沒有像人類一樣的思考能力，缺乏推理能力和計劃能力，缺乏執(zhí)行計劃的能力。

為了解決這些問題，國內學者提出了一個基于內置思維鏈的思考方法：在多輪會話中，對于每一個用戶提示，大語言模型基于會話歷史，思考上下文，行動調用，記憶和知識等要素進行思考，進行詳細的推理和計劃，并根據(jù)計劃進行行動。大語言模型按照這種思考方法產生的思維鏈是內置于響應里，由特殊詞元包裝起來，通稱內置思維鏈。

圖片

論文鏈接：https://arxiv.org/pdf/2502.13475

項目鏈接：https://github.com/HaunLeung/thinkandaction

論文還探討了大語言模型通過這個思考方法來增強思考能力的方式：按照思考方法收集訓練數(shù)據(jù)集，通過有監(jiān)督學習微調大語言模型；訓練一個一致性獎勵模型，并將該模型用作獎勵函數(shù)，以使用強化學習來微調大語言模型，強化大語言模型按照這種思考方法輸出。

總的來說，這篇論文的貢獻包括：

（1）基于內置思維鏈的思考方法

為了解決模型在完成行動任務時存在的諸多問題，研究人員提出了基于內置思維鏈的思考方法，定義了模型思考時基于的五個要素，以及思考流程；為收集訓練數(shù)據(jù)集指定了方針，最終增強了模型的思考能力。

（2）一致性獎勵模型

多輪會話中，模型根據(jù)用戶提示和行動調用結果輸出響應，如何判斷模型輸出響應序列的質量，成了強化訓練效果的關鍵。通常是用人類偏好獎勵模型來判斷，但這準確性不高。

由于行動任務是非準確性推理問題，所以不能用Deepseek-R1的基于規(guī)則的獎勵。

為了解決這個問題，文中創(chuàng)新性地引入一致性獎勵模型，一致性獎勵模型給模型輸出響應序列進行一致性判斷，最后發(fā)現(xiàn)一致性獎勵模型大大增強了強化訓練的效果。

（3）局部思考上下文

系統(tǒng)上下文通常用來存放背景資料和信息，以及工具調用。它的缺點有：系統(tǒng)上下文會占用上下文窗口長度，使得輸出響應長度有限制；有限的上下文窗口長度使得函數(shù)或工具調用數(shù)量有限制；過長的系統(tǒng)上下文會使得推理速度變慢；有時候模型回答提示根本不需要任何一個已經加載在系統(tǒng)上下文里的函數(shù)或工具。

為了解決這些問題，文中創(chuàng)新使用局部思考上下文，它能夠按照需求來加載背景信息和工具，不會造成上述問題，而且支持無限多工具。

（4）行動調用

關于工具使用，研究人員使用的是行動調用。和函數(shù)調用或工具調用相比，它不但語法優(yōu)雅而且行動高效。

基于內置思維鏈的思考方法

為什么要引入思考方法

在處理行動任務時，大語言模型需要仔細地思考，進行詳細的推理和計劃，并根據(jù)計劃進行行動。但計劃是否正確？是否能完成所有的計劃步驟？如何和環(huán)境交互？工具調用時發(fā)生異常如何處理？在行動任務執(zhí)行過程中，用戶發(fā)起新的任務時怎么辦？在行動任務執(zhí)行過程中，用戶輸入提示噪音，干擾正確的流程時怎么辦？

如果處理不好這些復雜的問題，那么大語言模型的回答就會出錯，需要一個明確的處理方針。

于是研究人員提出了基于內置思維鏈的思考方法，主要有五個思考要素，兩個處理邏輯，一個計劃步驟執(zhí)行，一個思考流程將這五個要素，兩個處理邏輯和計劃步驟執(zhí)行連接起來。思考方法的流程圖如圖所示。

圖片

思考方法流程

基于要素進行思考：在多輪會話中，對于用戶的每一個輸入提示，模型首先基于會話歷史，全局思考上下文，內置行動調用，記憶和知識四個要素進行思考。

最后一個計劃步驟匹配：如果輸入提示是對應于最后一個未完成計劃的最后一個計劃步驟，那么模型會收集輸入提示里的有用信息，并接著進行計劃的當前或下一個步驟，必要時會使用行動調用和環(huán)境交互，并根據(jù)行動調用結果推理出答案；反之，模型會基于已有的四個要素思考如何回答。

思考如何回答：如果模型覺得已有的四個要素并不能回答提示，它會進一步獲得和提示相關的局部思考上下文。如果和提示相關的局部思考上下文不存在，那么最終答案是"無法提供幫助"之類；如果存在，那么會進入下一步判斷是否需要計劃流程。如果模型覺得已有的四個要素能回答提示，那么會進入下一步判斷是否需要計劃流程。

是否需要計劃：判斷是否需要計劃流程，如果回答不需要制定計劃，那么進行推理；反之，進行推理和計劃。

推理處理邏輯：在推理階段，模型會基于五個要素進行嚴密的推理，必要時會使用行動調用和環(huán)境交互，并根據(jù)行動調用結果推理出答案。

推理和計劃處理邏輯：在推理和計劃階段，模型會基于五個要素進行嚴密的推理和計劃，制定一個包含多個步驟的計劃，并開始執(zhí)行計劃的第一個步驟，必要時會使用行動調用和環(huán)境交互，并根據(jù)行動調用結果推理出答案。

內置思維鏈

除了答案外，思考方法產生的思考過程被封裝在特殊詞元<<think>>和<</think>>內，這通常稱作內置思維鏈。這和 OpenAI GPT-o1-preview 和 Deepseek-R1 做法相似。

思考要素及優(yōu)先級

思考要素包括五個要素：會話歷史，全局思考上下文，內置行動調用，局部思考上下文，記憶和知識。這些思考要素的優(yōu)先級如下：

圖片

模型思考時優(yōu)先考慮優(yōu)先級高的要素，然后才是低優(yōu)先級要素。例如，全局思考上下文或局部思考上下文里的背景信息和指導規(guī)則，會優(yōu)先于模型具有的記憶和知識。要注意全局思考上下文和局部思考上下文這兩個要素有時候不一定存在，例如有時候全局思考上下文不存在系統(tǒng)上下文中，例如獲取局部思考上下文時可能返回空。

行動調用

行動調用在模型和環(huán)境發(fā)生交互時使用，作用和函數(shù)調用或工具調用類似。

但行動調用比函數(shù)調用或工具調用語法上優(yōu)雅且高效。

行動調用定義使用 json 結構，屬性有name, description, parameters, exception.

name: 行動調用的名字，模型思考時使用這個名字進行調用。

description: 行動調用的詳細描述，關于用途和使用場景。

parameters: 使用行動調用時傳入的參數(shù)描述，包括不局限于單位，枚舉值，是否可選等。

exception: 使用行動調用時可能發(fā)生的異常描述，以及異常處理建議。

例如，實時天氣查詢的行動調用定義如下：

圖片

模型在思考時，會使用行動調用。行動調用的使用格式：

圖片

模型在使用行動調用時，在生成<</action>>符號時采樣算法會停止采樣，并把<<action>>和<</action>>符號之間的字符串交給代理Agent。Agent解析行動調用名字，解析參數(shù)和參數(shù)值，再執(zhí)行和行動調用名對應的函數(shù)，并返回函數(shù)產生的結果。采樣算法把返回結果連接在<<observation>>符號后面，并以<</observation>>符號結束。然后模型繼續(xù)進行思考。

全局/局部思考上下文

研究人員內置了幾個行動調用，目的是方便模型思考時使用，包括獲取上下文、搜索互聯(lián)網(wǎng)、打開文件、郵件發(fā)送、數(shù)學計算。

全局思考上下文由兩個部分組成：思考背景和指南、行動調用定義。

思考背景：模型思考時依據(jù)的資料和信息；

思考指南：模型思考時依據(jù)的指導規(guī)則，通常用于指導如何創(chuàng)建計劃。

行動調用定義：定義了一個行動調用列表，模型思考時可以使用這些行動調用和環(huán)境發(fā)生交互。

全局思考上下文寫在系統(tǒng)上下文(system context)里。全局思考上下文的作用和傳統(tǒng)意義上的系統(tǒng)上下文類似，指導模型如何做，以及用什么來做。眾所周知，ChatGPT等聊天模型通常把函數(shù)調用和工具調用放在系統(tǒng)上下文里。系統(tǒng)上下文的缺點有：會導致占用上下文窗口，限制了輸出長度；同時過長的系統(tǒng)上下文會導致推理速度減慢；有時有的輸入提示根本不需要使用任何工具調用。

為了解決這些痛點，研究人員開發(fā)出了局部思考上下文。

局部思考上下文由兩個部分組成：思考背景和指南、行動調用定義，其解釋和全局思考上下文一樣。

對于每一個用戶輸入提示，模型首先基于會話歷史，全局思考上下文，內置行動調，記憶和知識用四個要素進行思考。如果模型覺得已有的四個要素并不能幫助回答提示，會進一步獲得和提示相關的局部思考上下文。模型獲得局部思考上下文是通過一個內置的行動調用。

在實際應用中，研究人員建議首選使用局部思考上下文，不建議使用全局思考上下文；支持全局思考上下文只是為了和傳統(tǒng)的系統(tǒng)上下文的作用兼容。

全局思考上下文和局部思考上下文的例子如圖所示。

訓練方法

首先，基于這個思考方法收集一個行動任務數(shù)據(jù)集；

其次，使用這個行動任務數(shù)據(jù)集有監(jiān)督微調基礎語言模型，獲得一個初始策略；

然后，從這個初始策略開始，進行強化訓練過程，該過程由 3 個步驟組成，可以迭代重復。

第 1 步：從現(xiàn)有策略中收集樣本。對于每個行動任務數(shù)據(jù)集樣本，從兩個來源采樣響應，包括當前策略、初始策略；將行動任務數(shù)據(jù)集樣本和采樣樣本組成一對，并由人工評估員來評定一致性，獲得一致性標簽構造一致性數(shù)據(jù)集。

第 2 步：訓練一致性獎勵模型。使用一致性數(shù)據(jù)集來訓練獎勵模型，來預測一致性的對數(shù)幾率。

第 3 步：根據(jù)一致性獎勵模型優(yōu)化策略。將一致性獎勵模型的輸出視為使用強化學習優(yōu)化的獎勵。

行動任務數(shù)據(jù)集準備

基于思考方法，研究人員收集了一個包含千份樣本的行動任務數(shù)據(jù)集，采用人工標注的收集方式，基于高性能語言模型的提示工程。

圖片

樣本格式：x1, y1', x2, y2', ...., xn, yn'. 如上圖所示。xi是用戶提示或行動調用的結果，yi'是標簽回答。每個樣本還包含參考回答，即除了yi'，還要有一個yi'_ref，這兩個響應在內容和邏輯上是一致性的（見句子對的一致性）。

樣本分布：構建樣本時要充分考慮各種分布，這些分布不限于以下情況。

行動調用異常: 行動調用時，可能會產生并返回各種異常，模型需要處理好這些異常，盡量保證計劃繼續(xù)進行。
用戶主動中斷任務: 在模型執(zhí)行計劃步驟中，用戶可能會主動中斷計劃。
用戶提示噪音: 在模型執(zhí)行計劃步驟中，用戶輸入干擾流程的提示，模型需要思考并應對。
任務嵌套: 在模型執(zhí)行計劃步驟中，用戶輸入提示進行新的任務，例如行動任務和其他任務。
應用情景：外賣，購物，麥當勞點餐，設備控制，客服...

有監(jiān)督微調

使用這個行動任務數(shù)據(jù)集有監(jiān)督微調基礎語言模型，獲得一個初始策略。

強化微調

從現(xiàn)有策略中收集樣本。

收集樣本：對于每個行動任務數(shù)據(jù)集樣本，從兩個來源采樣響應，包括當前策略、初始策略。對于行動任務數(shù)據(jù)集里的一個樣本：(x1, y1', x2, y2', ...., xn, yn'）~D, xi是用戶提示或行動調用的結果，yi'是標簽回答。使用 (x1, x2, ..., xn) 進行策略采樣，得到策略輸出：(y1, y2, ...., yn).

圖片

一致性評定：將行動任務數(shù)據(jù)集樣本里的標簽回答和策略的采樣輸出組成一對：[(y1',y1), (y2',y2), ...., (yn',yn)]。并由人工評估員來評定一致性，即所有句子對是否都一致，獲得一致性標簽 t 等于0或1。最后獲得了一個一致性數(shù)據(jù)集D'：[(y1',y1,t1), (y2',y2,t2), ...., (yn',yn,tn)] ~ D'。

句子對的一致性：如果兩個句子描述的內容和邏輯基本一樣，就可以認為是一致的。但要需注意對推理和計劃產生的計劃步驟，計劃的步驟不能打亂，如果順序不一樣，就說兩個句子是不一致的。

例如下面例子（一致consistent）：

圖片

例如下面例子（不一致inconsistent）：

圖片

訓練一個一致性獎勵模型

從已經獲得的一致性數(shù)據(jù)集D'，訓練一個獎勵模型來預測一致性的對數(shù)幾率；出于性能考慮，基于高性能小型語言模型（例如Llama-3-8B）訓練一個一致性獎勵模型。

具體做法: 去掉transformer解碼器的反嵌入層，增加一個輸出維度為2的預測頭，一致性的對數(shù)概率由預測頭輸出給出。

對于一致性數(shù)據(jù)集D'的一個樣本：[(y1',y1,t1), (y2',y2,t2), ...., (yn',yn,tn)] ~ D'，把樣本里的 (yi',yi) 對封裝到一個提示 xi 里，然后訓練獎勵模型判斷一致性。獎勵模型損失寫成：

圖片

其中rθ(x)是具有參數(shù)θ的獎勵模型的輸出。cross_entropy_error是交叉熵損失函數(shù)。x是由句子對構造而成的提示，t是一致性標簽。

一致性提示模板：假設一致性數(shù)據(jù)集樣本有一個句子對，提示x構造如下：

圖片

其中粗體為提示模板填入的句子對。

根據(jù)一致性獎勵模型優(yōu)化策略

使用上面訓練的一致性獎勵模型來訓練一個策略，強化策略按照上述思考方法輸出，將策略初始化為在行動任務數(shù)據(jù)集上微調過的模型。

對于行動任務數(shù)據(jù)集里的每個訓練樣本：(x1, y1', x2, y2', ..., xn, yn') ~ D，xi是用戶提示或行動調用的結果，yi'是標簽回答；使用 (x1, x2, ..., xn) 進行策略 ???? 采樣，得到一組輸出 (y1, y2, ...., yn)：

將下述獎勵函數(shù)的輸出視為策略輸出的獎勵，來優(yōu)化策略????。

圖片

獎勵函數(shù)

獎勵函數(shù)主要由兩種類型的獎勵組成：格式獎勵和一致性獎勵。

格式獎勵：判斷策略輸出 (y1, y2, ...., yn) 里的'<<think>>'和'<</think>>'標簽，以及'<<action>>'和'<</action>>'標簽是否符合規(guī)則。

一致性獎勵：由一致性獎勵模型給出。將 [(y1,y1'), (y2,y2'), ..., (yn,yn')] 封裝成提示[x1, x2, …, xn]，再批量輸入一致性獎勵模型來判斷一致性，獲得結果 [r1, r2, …, rn]。最終的一致性獎勵是。

工程實踐：實際中，為了便于在軟件工程上實現(xiàn)一致性獎勵核心思想，通過逐步強化訓練來達目的。

即在行動任務數(shù)據(jù)集所有訓練樣本上先進行第一輪y1的一致性強化訓練，即使用x1來進行策略采樣得到y(tǒng)1，然后根據(jù) (y1,y1’) 的一致性來強化策略，反復訓練直到策略輸出y1和y1’一致后，才接著進行第二輪y2的一致性強化訓練，即以(x1,y1,x2)來采樣y2。

以此類推，yn也進行了一致性強化訓練，最后策略輸出(y1, y2, ...., yn)全部和訓練樣本一致了。

結果對比

模型的思考能力得到了增強

通過和基線模型對比，研究人員發(fā)現(xiàn)模型的推理能力和計劃能力，以及執(zhí)行計劃的能力得到了增強。

使用行動任務測試數(shù)據(jù)集，給與基線模型相同的全局思考上下文（系統(tǒng)上下文）、相同的用戶提示、相同的行動調用結果（注意基線模型的工具調用的格式和行動調用不一樣），然后通過人工判斷和一致性獎勵模型來判斷模型對任務的完成率，結果發(fā)現(xiàn)基線模型對任務的完成率沒有文中提出的模型高。

行動調用比工具調用語法優(yōu)雅且高效

行動調用在語法上比工具調用優(yōu)雅。工具調用需要增加兩個新的消息類型，而行動調用不需要增加新的消息類型。行動調用只是內置于思維鏈里的一個消息。而且行動調用的名字使用的是人類生活中出現(xiàn)的語句，廣泛分布在訓練數(shù)據(jù)中。

行動調用在效率上也比工具調用高：使用行動任務測試數(shù)據(jù)集，在基線模型上使用工具調用，在該模型上使用行動調用，進行有監(jiān)督訓練微調；工具調用和行動調用的功能相同，可以觀察到在相同的訓練數(shù)據(jù)量下，行動調用的效果更好。

局限和展望

局限性

該工作的一個限制是收集思考上下文比較困難，難以覆蓋多種情景，會導致模型的泛化能力不高。從策略采集輸出，通過人工標簽員評定一致性也費時費力，導致一致性數(shù)據(jù)集規(guī)模較小，從而導致一致性獎勵模型泛化能力不足。要思考如何提高強化算法，進行更有效的策略采樣和強化訓練。

未來方向

未來的工作，研究人員將探索在各種任務上用思考方法進行大規(guī)模強化學習。把行動任務，推理任務，和其他任務融入思考方法流程，并進行大規(guī)模強化學習。同時思考如何能收集更多有意義的思考上下文，并覆蓋更大的應用范圍。

參考資料：https://arxiv.org/pdf/2502.13475

責任編輯：武曉燕來源：新智元

訓練數(shù)據(jù)集 LLM

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營