從自我進(jìn)化視角出發(fā),全面解析LLM的推理能力技術(shù)演進(jìn)路徑
- 論文標(biāo)題:A Survey on LLM Complex Reasoning through the Lens of Self-Evolution
- 論文鏈接:
https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution?channel=doi&linkId=67b8b5b0207c0c20fa9111fb&showFulltext=true
- 倉庫鏈接:https://github.com/cs-holder/Reasoning-Self-Evolution-Survey
1. 引言
在人工智能領(lǐng)域,大型語言模型的復(fù)雜推理研究正成為學(xué)術(shù)界和工業(yè)界關(guān)注的焦點(diǎn)。隨著 OpenAI 的 O1 以及后續(xù) DeepSeek R1 等突破性成果的發(fā)布,這一領(lǐng)域的研究熱度持續(xù)升溫,引發(fā)了廣泛的學(xué)術(shù)討論和實(shí)踐探索。這些里程碑式的研究成果不僅推動了相關(guān)技術(shù)的快速發(fā)展,也激勵著研究者們不斷嘗試復(fù)現(xiàn)并拓展其應(yīng)用邊界。
為促進(jìn)該領(lǐng)域的深入研究,哈工大賽爾實(shí)驗(yàn)室知識挖掘組從自我進(jìn)化的視角對現(xiàn)有技術(shù)體系進(jìn)行了系統(tǒng)性分析從自我進(jìn)化的視角對現(xiàn)有技術(shù)體系進(jìn)行了系統(tǒng)性分析。我們的研究框架包含三個相互支撐的核心維度:數(shù)據(jù)進(jìn)化、模型進(jìn)化和自我進(jìn)化。在數(shù)據(jù)進(jìn)化維度,我們著重探討了推理訓(xùn)練數(shù)據(jù)的優(yōu)化策略,包括任務(wù)設(shè)計(jì)的改進(jìn)和推理計(jì)算過程的優(yōu)化,旨在提升思維鏈推理的質(zhì)量和效率;在模型進(jìn)化維度,我們系統(tǒng)梳理了通過訓(xùn)練優(yōu)化模型模塊來增強(qiáng)復(fù)雜推理能力的技術(shù)路徑;在自我進(jìn)化維度,我們深入分析了進(jìn)化策略與模式,并基于此對 O1 類代表性工作進(jìn)行解讀。
本研究基于對 200 余篇前沿文獻(xiàn)的深入調(diào)研,全面總結(jié)了提升 LLM 推理能力的技術(shù)演進(jìn)路徑。從基于樹搜索的短思維鏈到基于強(qiáng)化學(xué)習(xí)的長思維鏈,我們系統(tǒng)梳理了當(dāng)前最先進(jìn)的研究方法,并對未來可能的研究方向進(jìn)行了前瞻性展望。我們期待這篇綜述能夠?yàn)?LLM 復(fù)雜推理研究社區(qū)提供新的思路,推動該領(lǐng)域向更深層次發(fā)展,為提升 LLM 的推理能力開辟新的研究路徑。
2. 章節(jié)組織
本文將從三個主要部分介紹 LLM 復(fù)雜推理的自我進(jìn)化方法:數(shù)據(jù)進(jìn)化、模型進(jìn)化和自我進(jìn)化。最后,我們將分析具有代表性的 O1 類工作,并對未來研究方向進(jìn)行展望。
- 數(shù)據(jù)進(jìn)化:探討如何通過任務(wù)進(jìn)化和思維鏈進(jìn)化來生成更高質(zhì)量的訓(xùn)練數(shù)據(jù)。
- 模型進(jìn)化:關(guān)注如何通過優(yōu)化模型模塊來提升系統(tǒng)的推理能力。
- 自我進(jìn)化:探討如何通過迭代的數(shù)據(jù)和模型進(jìn)化來實(shí)現(xiàn)系統(tǒng)的自我優(yōu)化。
3. 數(shù)據(jù)進(jìn)化
數(shù)據(jù)進(jìn)化關(guān)注的是如何通過生成更高質(zhì)量的訓(xùn)練數(shù)據(jù)來提升系統(tǒng)的推理能力。這一部分主要包含任務(wù)進(jìn)化和思維鏈進(jìn)化。我們將詳細(xì)介紹每個部分的優(yōu)化策略和技術(shù)。
3.1 任務(wù)進(jìn)化
任務(wù)進(jìn)化專注于生成更多樣化和更具挑戰(zhàn)性的任務(wù),以提升模型的推理和泛化能力。當(dāng)前研究中,任務(wù)進(jìn)化的三個關(guān)鍵方向包括任務(wù)多樣性、任務(wù)復(fù)雜性和任務(wù)可靠性。
- 任務(wù)多樣性:為提高任務(wù)多樣性,一些研究提示 LLM 修改數(shù)據(jù)類型和邏輯操作,生成結(jié)構(gòu)相似但邏輯不同的任務(wù)。另一些研究使用 LLM 重新表述參考問題,或采用溫度采樣和以多樣性為重點(diǎn)的提示來豐富問題生成。還有研究明確指導(dǎo) LLM 創(chuàng)建罕見且領(lǐng)域特定的問題。此外,結(jié)合人工編寫的任務(wù)與模型生成的任務(wù),通過特定提示生成新任務(wù)也是一種有效方法。
- 任務(wù)復(fù)雜性:生成更復(fù)雜任務(wù)的方法包括添加約束、深化、具體化、增加推理步驟和增加輸入復(fù)雜性。例如,通過引入額外的約束或要求來增加任務(wù)難度,或通過擴(kuò)展查詢深度和廣度來提升模型的推理能力。具體化方法將問題中的通用概念替換為更具體的概念,使指令更清晰。增加推理步驟則通過要求額外的推理步驟來加強(qiáng)模型的邏輯思維能力。增加輸入復(fù)雜性則通過修改問題條件,引入結(jié)構(gòu)化數(shù)據(jù)或特定輸入格式,提升模型的魯棒性和泛化能力。
- 任務(wù)可靠性:自動生成任務(wù)可能會產(chǎn)生未解決的任務(wù)或錯誤答案。為解決這一問題,一些研究使用微調(diào)的 LLM 對任務(wù)進(jìn)行評分并選擇高質(zhì)量任務(wù)。另一些研究從原始問題生成任務(wù),并通過驗(yàn)證答案過濾不一致性。還有一些研究通過 Python 解釋器和預(yù)定義規(guī)則驗(yàn)證編程任務(wù)的正確性以確保質(zhì)量。此外,生成對抗網(wǎng)絡(luò)(GAN)可用于合成任務(wù),并通過評估與真實(shí)數(shù)據(jù)相似性的批評器提高可靠性。從數(shù)學(xué)解決方案中推導(dǎo)問題,或從高質(zhì)量開源代碼中創(chuàng)建編程任務(wù),也是提高任務(wù)可靠性的有效方法。
3.2 思維鏈進(jìn)化
思維鏈進(jìn)化通過定義三個關(guān)鍵的元操作來構(gòu)建更強(qiáng)大的推理鏈,這些元操作通過搜索算法擴(kuò)展,生成更高質(zhì)量的推理鏈。
3.2.1 元操作
思維鏈進(jìn)化通過定義三個關(guān)鍵的元操作來構(gòu)建更強(qiáng)大的推理鏈:逐步推理、評估和后處理。逐步推理將問題分解為逐步依賴的步驟,評估則在推理過程中進(jìn)行自我評估和反思,后處理則對推理結(jié)果進(jìn)行修正和總結(jié)。這些元操作通過搜索算法擴(kuò)展,生成更高質(zhì)量的推理鏈。
- 逐步推理:將復(fù)雜問題分解為一系列逐步依賴的步驟,使模型能夠逐步解決每個子問題。這種方法通過遞歸分解,使模型能夠處理更復(fù)雜的任務(wù)。例如,CoT 通過逐步提示解決每個子問題,Plan-and-Solve 通過生成計(jì)劃并基于計(jì)劃進(jìn)行推理,Least-to-Most Prompting 通過顯式分解問題并逐步解決每個子問題,ReACT 通過結(jié)合迭代推理和行動來增強(qiáng)推理過程。
- 評估:在推理過程中進(jìn)行自我評估和反思,使模型能夠識別和糾正錯誤。評估可以分為結(jié)果級、步驟級和 token 級。結(jié)果級評估在推理完成后對整個解決方案進(jìn)行評估,步驟級評估在推理過程中對每個步驟進(jìn)行評估,token 級評估對每個生成的 token 進(jìn)行評估。這些評估方法通過不同的粒度,提供更細(xì)致的反饋,幫助模型改進(jìn)推理過程。
- 后處理:后處理對推理結(jié)果進(jìn)行修正和總結(jié),使模型能夠從錯誤中學(xué)習(xí)并改進(jìn)未來的推理。后處理方法包括過濾、總結(jié)和修正。過濾直接移除低質(zhì)量的推理結(jié)果,總結(jié)從推理過程中提取關(guān)鍵信息,修正則通過糾正錯誤來優(yōu)化推理結(jié)果。這些方法通過不同的方式,提高推理結(jié)果的質(zhì)量和可靠性。
3.2.2 顯式樹搜索(Short CoT)
顯式樹搜索方法通過樹狀搜索算法(如 BFS/DFS、Beam Search、A * 和 MCTS)來探索多個推理路徑,生成正確且簡潔的推理鏈。這些方法在搜索過程中使用評估函數(shù)指導(dǎo)探索方向,并進(jìn)行剪枝以提高效率。例如,BFS/DFS 通過經(jīng)典搜索算法探索多樣化推理路徑,Beam Search 通過維護(hù)候選序列平衡搜索準(zhǔn)確性和計(jì)算效率,A * 通過評估函數(shù)優(yōu)化搜索效率,MCTS 則通過平衡探索和利用來找到高質(zhì)量的推理路徑。
3.2.3 隱式試錯搜素(Long CoT)
隱式試錯搜素方法通過線性化整個搜索過程,允許模型在推理過程中進(jìn)行自我評估和自我修正,生成包含錯誤檢測、回溯和修正的長推理鏈。這種方法不依賴外部評估器或修正器,而是通過模型的自我評估機(jī)制來調(diào)整推理路徑。例如,O1 Journey 通過蒸餾方法訓(xùn)練模型生成長推理鏈,而 DeepSeek-R1、Kimi-k1.5 和 T1 則通過強(qiáng)化學(xué)習(xí)訓(xùn)練模型生成長推理鏈。
3.2.4 顯式樹搜索與隱式試錯搜索的比較和關(guān)聯(lián)
比較:
顯式樹搜索方法通過樹狀搜索算法(如 BFS/DFS、Beam Search、A * 和 MCTS)來探索多個推理路徑,生成正確且簡潔的推理鏈。這些方法在搜索過程中使用評估函數(shù)指導(dǎo)探索方向,并進(jìn)行剪枝以提高效率。而隱式試錯搜索方法通過線性化整個搜索過程,允許模型在推理過程中進(jìn)行自我評估和自我修正,生成包含錯誤檢測、回溯和修正的長推理鏈。這種方法不依賴外部評估器或修正器,而是通過模型的自我評估機(jī)制來調(diào)整推理路徑。
關(guān)聯(lián):
- 搜索空間角度:樹搜索專注于探索單個推理步驟定義的動作空間,確保每一步的邏輯性。試錯搜索引入元操作(如評估、修正、回溯)擴(kuò)展動作空間,生成更詳細(xì)的長推理鏈。因此,如果將 Tree Search 的動作空間擴(kuò)展為包含 評估、修正、回溯 等元操作,那么理論上可以通過 Tree Search 搜索到 Long CoT。
- 推理能力進(jìn)化角度:Long CoT 是解決新問題的有效策略,通過試錯和自我修正探索解決方案。Short CoT 通過持續(xù)訓(xùn)練從 Long CoT 中提取知識,學(xué)習(xí)高效推理路徑,減少試錯,縮短推理鏈。Long CoT 作為初始解決方案,其知識可用于學(xué)習(xí) Short CoT,后者作為先驗(yàn)知識,減少處理更復(fù)雜任務(wù)時的試錯迭代。
4. 模型進(jìn)化
模型進(jìn)化關(guān)注的是如何通過優(yōu)化模型的各個模塊來提升系統(tǒng)的推理能力。這一部分主要包含 Reasoner、Evaluator 和 Post-Processor 的優(yōu)化方法。我們將詳細(xì)介紹每個模塊的優(yōu)化策略和技術(shù)。
4.1 Background RL Knowledge
強(qiáng)化學(xué)習(xí)為 LLM 的模型進(jìn)化提供了核心優(yōu)化框架,其技術(shù)演進(jìn)從傳統(tǒng) RLHF 逐步發(fā)展為更高效的范式。RLHF 通過人工標(biāo)注的偏好數(shù)據(jù)訓(xùn)練結(jié)果獎勵模型實(shí)現(xiàn)LLM對齊。PPO 算法通過約束策略優(yōu)化步長進(jìn)行策略偏移控制,具備穩(wěn)定性地優(yōu)勢,但存在訓(xùn)練復(fù)雜度高、資源消耗大等問題。為此后續(xù)研究提出多種改進(jìn):REINFORCE 簡化架構(gòu),利用最高概率動作作為基線(ReMax)或多軌跡采樣估計(jì)基線(RLOO),降低對價值模型的依賴;GRPO 通過蒙特卡洛組內(nèi)歸一化替代價值模型,提升訓(xùn)練穩(wěn)定性;DPO 省去顯式獎勵建模,直接通過偏好數(shù)據(jù)對齊策略模型,但面臨細(xì)粒度優(yōu)化不足的局限;PRIME 結(jié)合結(jié)果獎勵模型(ORM)的訓(xùn)練實(shí)現(xiàn) token 級隱式獎勵信號分發(fā)。
4.2 Reasoner 優(yōu)化
Reasoner 是模型的核心組件,負(fù)責(zé)生成推理過程和最終答案。優(yōu)化 Reasoner 的方法主要包括行為克隆、偏好優(yōu)化和強(qiáng)化學(xué)習(xí)。
4.2.1 行為克隆
行為克隆通過監(jiān)督學(xué)習(xí)直接模仿高質(zhì)量推理軌跡來優(yōu)化模型,是模型進(jìn)化的基礎(chǔ)方法。其核心流程包括:從正確解中篩選訓(xùn)練數(shù)據(jù),通過微調(diào)使模型學(xué)習(xí)標(biāo)準(zhǔn)推理模式。
然而,傳統(tǒng)方法僅使用正確數(shù)據(jù),導(dǎo)致大量錯誤解被浪費(fèi)。為此,改進(jìn)方法通過逆向策略利用錯誤數(shù)據(jù):例如,將錯誤問題重新生成正確解法以擴(kuò)充正樣本,或修改錯誤解的指令標(biāo)簽(如將 “生成正確答案” 改為 “生成錯誤答案”),使其轉(zhuǎn)化為負(fù)樣本供模型學(xué)習(xí)。此外,部分方法訓(xùn)練專用修正器模型,定位并修復(fù)推理錯誤。
盡管行為克隆實(shí)現(xiàn)簡單,但其依賴靜態(tài)數(shù)據(jù)集的特性限制了持續(xù)進(jìn)化能力,且難以充分探索錯誤樣本中的潛在價值,成為后續(xù)強(qiáng)化學(xué)習(xí)方法的重要補(bǔ)充。
4.2.2 偏好優(yōu)化
偏好優(yōu)化通過推動高質(zhì)量推理路徑的概率上升,低質(zhì)量路徑的概率下降來提升模型的推理能力。偏好優(yōu)化可以根據(jù)偏好數(shù)據(jù)的粒度分為解決方案級、步驟級和 token 級優(yōu)化。
- 解決方案級偏好優(yōu)化:通過比較不同解決方案的質(zhì)量來優(yōu)化模型。具體來說,給定一組解決方案,根據(jù)答案的正確性將其分為正確和錯誤兩組,然后構(gòu)建偏好對進(jìn)行優(yōu)化。這種方法簡單直觀,但對中間推理步驟的優(yōu)化能力較弱。
- 步驟級偏好優(yōu)化:通過評估每個推理步驟的質(zhì)量來優(yōu)化模型。具體來說,通過主動構(gòu)造或樹搜索方法生成帶有相同前綴的正確和錯誤推理軌跡,然后構(gòu)建偏好對進(jìn)行優(yōu)化。這種方法能夠更細(xì)致地優(yōu)化模型的推理過程,但對數(shù)據(jù)的要求較高。
- Token 級偏好優(yōu)化:通過評估每個生成的 token 來優(yōu)化模型。具體來說,通過隱式獎勵或顯式標(biāo)注方法為每個 token 分配獎勵值,然后基于這些獎勵值進(jìn)行優(yōu)化。這種方法能夠提供最細(xì)粒度的反饋,但計(jì)算復(fù)雜度較高。
4.2.3 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)通過與環(huán)境的交互來優(yōu)化 LLM 的推理能力。具體來說,強(qiáng)化學(xué)習(xí)方法包括 model-free 在線強(qiáng)化學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)、基于模型的強(qiáng)化學(xué)習(xí)和層次強(qiáng)化學(xué)習(xí)。
- model-free 在線強(qiáng)化學(xué)習(xí):通過直接與環(huán)境交互來訓(xùn)練策略模型。具體來說,模型在環(huán)境中生成推理軌跡,然后根據(jù)獎勵信號進(jìn)行優(yōu)化。常用的方法包括 REINFORCE、PPO 和 GRPO。這些方法通過在線交互,能夠動態(tài)調(diào)整模型的行為,但對環(huán)境的依賴性較強(qiáng)。
- 離線強(qiáng)化學(xué)習(xí):使用靜態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練,而不是通過與環(huán)境交互來收集數(shù)據(jù)。具體來說,離線強(qiáng)化學(xué)習(xí)方法如 DPO 通過收集偏好數(shù)據(jù),然后基于這些數(shù)據(jù)進(jìn)行優(yōu)化。這種方法能夠高效利用已有數(shù)據(jù),但對數(shù)據(jù)質(zhì)量的要求較高。
- 基于模型的強(qiáng)化學(xué)習(xí):通過模擬環(huán)境來減少訓(xùn)練和推理中的交互成本。具體來說,模型首先學(xué)習(xí)一個環(huán)境模型,然后在模擬環(huán)境中進(jìn)行訓(xùn)練。這種方法能夠顯著減少與真實(shí)環(huán)境的交互次數(shù),但對環(huán)境模型的準(zhǔn)確性要求較高。
- 層次強(qiáng)化學(xué)習(xí):通過分解任務(wù)為高層次和低層次的馬爾可夫決策過程來提升推理能力。具體來說,高層次模型負(fù)責(zé)規(guī)劃推理步驟,低層次模型負(fù)責(zé)生成具體的推理內(nèi)容。這種方法能夠更好地模擬人類的推理過程,但實(shí)現(xiàn)復(fù)雜度較高。
4.3 Evaluator 優(yōu)化
Evaluator 負(fù)責(zé)評估 Reasoner 生成的推理過程和答案的質(zhì)量。優(yōu)化 Evaluator 的方法主要包括訓(xùn)練數(shù)據(jù)的構(gòu)造和訓(xùn)練格式的選擇。
4.3.1 訓(xùn)練數(shù)據(jù)構(gòu)造
Evaluator 的優(yōu)化需要構(gòu)造高質(zhì)量的訓(xùn)練數(shù)據(jù),包括結(jié)果級、步驟級和 token 級數(shù)據(jù)。
- 結(jié)果級數(shù)據(jù)構(gòu)造:通過正確答案標(biāo)簽或 LLM 評估來生成。具體來說,使用正確答案標(biāo)簽將解決方案分類為正確和錯誤,然后基于這些分類進(jìn)行訓(xùn)練。這種方法簡單直觀,但對中間推理步驟的評估能力較弱。
- 步驟級數(shù)據(jù)構(gòu)造:通過蒙特卡洛采樣、LLM 評估或一致性評估來生成。具體來說,通過采樣或評估方法為每個推理步驟分配獎勵值,然后基于這些獎勵值進(jìn)行訓(xùn)練。這種方法能夠提供更細(xì)致的反饋,但計(jì)算復(fù)雜度較高。
- Token 級數(shù)據(jù)構(gòu)造:通過生成模型重寫原始解決方案或利用隱式獎勵來生成。具體來說,通過重寫或獎勵分配方法為每個 token 分配獎勵值,然后基于這些獎勵值進(jìn)行訓(xùn)練。這種方法能夠提供最細(xì)粒度的反饋,但實(shí)現(xiàn)難度較大。
4.3.2 訓(xùn)練格式
Evaluator 的訓(xùn)練格式可以是點(diǎn)式、成對式或語言式。
- 點(diǎn)式訓(xùn)練:使用標(biāo)量值優(yōu)化評估模型。具體來說,通過預(yù)測每個解決方案或步驟的獎勵值來訓(xùn)練模型。這種方法簡單直觀,但對偏好數(shù)據(jù)的利用不夠充分。
- 成對式訓(xùn)練:使用偏好數(shù)據(jù)優(yōu)化評估模型。具體來說,通過比較不同解決方案或步驟的偏好關(guān)系來訓(xùn)練模型。這種方法能夠更好地利用偏好數(shù)據(jù),但對數(shù)據(jù)的要求較高。
- 語言式訓(xùn)練:通過生成自然語言反饋來提升評估的可靠性和可解釋性。具體來說,通過生成對解決方案或步驟的自然語言評價來訓(xùn)練模型。這種方法能夠提供更豐富的反饋,但實(shí)現(xiàn)復(fù)雜度較高。
4.4 Post-Processor 優(yōu)化
Post-Processor 負(fù)責(zé)對 Reasoner 生成的推理結(jié)果進(jìn)行修正和總結(jié)。優(yōu)化 Post-Processor 的方法主要包括行為克隆和強(qiáng)化學(xué)習(xí)。
- 行為克?。?/span>通過利用錯誤數(shù)據(jù)生成修正數(shù)據(jù)來提升模型的自我修正能力。具體來說,通過生成錯誤數(shù)據(jù)并利用正確數(shù)據(jù)進(jìn)行微調(diào),訓(xùn)練模型學(xué)習(xí)如何修正錯誤。這種方法能夠顯著提高模型的自我修正能力,但對數(shù)據(jù)的要求較高。
- 強(qiáng)化學(xué)習(xí):通過整合外部執(zhí)行反饋來提升模型的自我改進(jìn)能力。具體來說,通過將修正過程建模為馬爾可夫決策過程,并使用強(qiáng)化學(xué)習(xí)算法進(jìn)行優(yōu)化,訓(xùn)練模型學(xué)習(xí)如何在推理過程中進(jìn)行自我修正。這種方法能夠提供更動態(tài)的反饋,但實(shí)現(xiàn)復(fù)雜度較高。
5. 自我進(jìn)化
自我進(jìn)化要求系統(tǒng)利用自身生成的數(shù)據(jù)來持續(xù)提升性能。這一部分將探討自我進(jìn)化的理論基礎(chǔ)、策略、模式以及面臨的挑戰(zhàn)和未來方向。
5.1 自我進(jìn)化背后的理論
通過期望最大化(EM)算法,自我進(jìn)化被形式化為一個交替優(yōu)化過程。E 步(數(shù)據(jù)進(jìn)化)生成高質(zhì)量推理軌跡并評估其質(zhì)量,M 步(模型進(jìn)化)基于生成數(shù)據(jù)優(yōu)化模型參數(shù),形成一個閉環(huán)迭代機(jī)制。這一過程在理論上能夠保證系統(tǒng)性能的逐步提升并最終收斂。
5.2 自我進(jìn)化策略
自我進(jìn)化策略包括獨(dú)立進(jìn)化、合作進(jìn)化和對抗進(jìn)化。獨(dú)立進(jìn)化通過單獨(dú)優(yōu)化一個模塊來提升性能,合作進(jìn)化通過模塊間的合作來提升整體性能,而對抗進(jìn)化則通過模塊間的對抗來避免局部最優(yōu)問題。
- 獨(dú)立進(jìn)化:每個模塊獨(dú)立進(jìn)行優(yōu)化,不依賴于其他模塊的反饋。例如,Reasoner 可以通過行為克隆或偏好優(yōu)化單獨(dú)進(jìn)行訓(xùn)練,Evaluator 可以通過結(jié)果級或步驟級數(shù)據(jù)單獨(dú)進(jìn)行訓(xùn)練,Post-Processor 可以通過行為克隆單獨(dú)進(jìn)行訓(xùn)練。這種方法簡單直觀,但可能無法充分利用模塊間的協(xié)同作用。
- 合作進(jìn)化:模塊間通過合作來提升整體性能。例如,Reasoner 生成的推理結(jié)果可以用于訓(xùn)練 Evaluator,Evaluator 的反饋可以用于優(yōu)化 Reasoner,Post-Processor 的修正結(jié)果可以用于進(jìn)一步訓(xùn)練 Reasoner。這種方法能夠充分利用模塊間的協(xié)同作用,提升整體性能,但實(shí)現(xiàn)復(fù)雜度較高。
- 對抗進(jìn)化:模塊間通過對抗來避免局部最優(yōu)問題。例如,Task Creator 生成更具挑戰(zhàn)性的任務(wù)來測試 Reasoner,Reasoner 通過解決這些任務(wù)來提升自身能力。這種方法能夠有效避免模型陷入局部最優(yōu),但需要精心設(shè)計(jì)對抗機(jī)制。
5.3 自我進(jìn)化模式
自我進(jìn)化模式包括僅優(yōu)化 Reasoner、Reasoner + Evaluator、Reasoner + Post-Processor、Reasoner + Task Creator 和 Reasoner + Evaluator + Post-Processor。每種模式都有其獨(dú)特的優(yōu)化方法和優(yōu)勢,通過結(jié)合多種模式可以實(shí)現(xiàn)更顯著的性能提升。
- 僅優(yōu)化 Reasoner:僅對 Reasoner 進(jìn)行優(yōu)化,不涉及其他模塊。優(yōu)化方法包括行為克隆、偏好優(yōu)化和強(qiáng)化學(xué)習(xí)。這種方法簡單直觀,但可能無法充分利用其他模塊的反饋。
- Reasoner + Evaluator:Reasoner 生成的推理結(jié)果用于訓(xùn)練 Evaluator,Evaluator 的反饋用于優(yōu)化 Reasoner。這種方法能夠充分利用模塊間的協(xié)同作用,提升推理能力和評估能力。
- Reasoner + Post-Processor:Reasoner 生成的推理結(jié)果用于訓(xùn)練 Post-Processor,Post-Processor 的修正結(jié)果用于進(jìn)一步訓(xùn)練 Reasoner。這種方法能夠提升推理結(jié)果的質(zhì)量和可靠性。
- Reasoner + Task Creator:Task Creator 生成更具挑戰(zhàn)性的任務(wù)來測試 Reasoner,Reasoner 通過解決這些任務(wù)來提升自身能力。這種方法能夠提升模型的泛化能力和任務(wù)多樣性。
- Reasoner + Evaluator + Post-Processor:Reasoner 生成的推理結(jié)果用于訓(xùn)練 Evaluator 和 Post-Processor,Evaluator 的反饋和 Post-Processor 的修正結(jié)果用于進(jìn)一步訓(xùn)練 Reasoner。這種方法能夠充分利用模塊間的協(xié)同作用,實(shí)現(xiàn)更全面的性能提升。
6. 對代表性 O1 類研究的重新解讀
通過對代表性 O1 類研究的分析,我們發(fā)現(xiàn)這些研究都可以用自我進(jìn)化框架來解釋。例如,Marco-O1 通過 MCTS 生成數(shù)據(jù)并進(jìn)行監(jiān)督式微調(diào),O1 Journey 通過長推理鏈的生成和 DPO 優(yōu)化提升推理能力,Slow Thinking with LLMs 通過迭代訓(xùn)練和 DPO 優(yōu)化實(shí)現(xiàn) Reasoner 和 Evaluator 的共同進(jìn)化,rStar-Math 通過多輪迭代訓(xùn)練實(shí)現(xiàn) Reasoner 和 Evaluator 的共同進(jìn)化,OpenR/O1-Coder 通過 RL 優(yōu)化 Reasoner 和 Evaluator,DeepSeek R1/Kimi-k1.5/T1 則通過在線 RL 實(shí)現(xiàn) Reasoner、Evaluator 和 Post-Processor 的共同進(jìn)化。
7. 挑戰(zhàn)和未來方向
自我進(jìn)化框架的挑戰(zhàn)與方向:
更有前景的自我進(jìn)化模式:通過探索不同的模塊組合和策略,如合作和對抗學(xué)習(xí),可以實(shí)現(xiàn)更有效的自我進(jìn)化框架。理想情況下,所有模塊的同時提升將帶來持續(xù)且顯著的改進(jìn)。
系統(tǒng)泛化:自我進(jìn)化通過迭代訓(xùn)練提升系統(tǒng)性能。持續(xù)進(jìn)化的關(guān)鍵在于防止過擬合并確保泛化。首先,任務(wù)泛化至關(guān)重要;合成更多樣化和復(fù)雜的任務(wù)可以確保更廣泛的覆蓋范圍,這是解決泛化問題的基礎(chǔ)。其次,推理器、評估器和后處理器的泛化能力至關(guān)重要。B-StAR 顯示,增強(qiáng)推理器的探索能力可以減少過擬合。后處理器在多樣化解決方案中也起著關(guān)鍵作用。此外,獎勵黑客行為表明當(dāng)前的評估器可能會過擬合到推理器并利用獎勵捷徑??傊?,推理系統(tǒng)的泛化對于自我進(jìn)化框架中的持續(xù)增強(qiáng)至關(guān)重要。
自我進(jìn)化視角下提升 R1 等工作的不足:
- 任務(wù)多樣性:當(dāng)前任務(wù)生成方法在復(fù)雜性和多樣性上有提升空間,需進(jìn)一步增強(qiáng)任務(wù)多樣性,生成更具挑戰(zhàn)性和領(lǐng)域相關(guān)性的任務(wù)。
- 自我評估和修正能力:模型的自我評估和修正能力在準(zhǔn)確性和效率上存在不足,需進(jìn)一步提升以更準(zhǔn)確地識別和修正錯誤,從而通過更準(zhǔn)確更高效的試錯搜索實(shí)現(xiàn)數(shù)據(jù)進(jìn)化。
- 獎勵建模方法:解決LLM在隱式試錯搜索過程中過思考和欠思考等問題可能需要更細(xì)粒度的獎勵信號,現(xiàn)有獎勵建模方法在泛化能力和準(zhǔn)確性不足等問題,需開發(fā)更有效的獎勵建模方法以更準(zhǔn)確地評估模型性能,指導(dǎo)基于RL的模型進(jìn)化。
將自我進(jìn)化應(yīng)用于具身智能場景:
在具身智能場景中,為實(shí)現(xiàn)自我進(jìn)化,需提升模型對多模態(tài)數(shù)據(jù)的理解能力,重新定義多模態(tài)推理的思維鏈格式,降低與環(huán)境交互的成本,并增加訓(xùn)練數(shù)據(jù)資源。
8. 總結(jié)
本文系統(tǒng)地綜述了 LLM 復(fù)雜推理的自我進(jìn)化方法,從數(shù)據(jù)進(jìn)化、模型進(jìn)化和自我進(jìn)化三個角度進(jìn)行了深入分析。通過對現(xiàn)有技術(shù)和方法的總結(jié),我們希望為 LLM 復(fù)雜推理社區(qū)提供新的研究方向和靈感,推動 LLM 推理能力的進(jìn)一步提升。