自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SWEET-RL:基于訓(xùn)練時信息的多輪LLM代理強化學(xué)習(xí)框架

人工智能
SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓(xùn)練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學(xué)習(xí)領(lǐng)域的重要技術(shù)進展。

SWEET-RL(Step-WisE Evaluation from Training-time information,基于訓(xùn)練時信息的逐步評估)是多輪大型語言模型(LLM)代理強化學(xué)習(xí)領(lǐng)域的重要技術(shù)進展。該算法相較于現(xiàn)有最先進的方法,成功率提升了6%,使Llama-3.1-8B等小型開源模型能夠達到甚至超越GPT-4O等大型專有模型的性能水平。本文將深入分析SWEET-RL如何改進AI代理在復(fù)雜協(xié)作任務(wù)中的訓(xùn)練方法。

LLM代理與多輪交互機制

LLM代理是經(jīng)過特定任務(wù)微調(diào)的大型語言模型,能夠作為決策實體與環(huán)境或人類進行交互以完成預(yù)定目標。多輪交互過程本質(zhì)上是一系列連續(xù)的信息交換,類似于結(jié)構(gòu)化對話,每個交互步驟都朝著最終解決方案遞進。這種交互模式可類比于協(xié)作規(guī)劃過程:例如在共同規(guī)劃旅行時,一方提出目的地建議,另一方提出問題或顧慮,然后初始建議被逐步完善直至形成完整計劃。在此類情境中,代理需要學(xué)習(xí)如何有效貢獻,而反饋往往僅在整個交互序列結(jié)束時才能獲得,這顯著增加了訓(xùn)練的復(fù)雜性。

強化學(xué)習(xí)在此情境中發(fā)揮關(guān)鍵作用,它使代理能夠通過試錯方法進行學(xué)習(xí),以最大化累積獎勵。然而,多輪交互環(huán)境中的傳統(tǒng)強化學(xué)習(xí)面臨信用分配問題——即難以準確判定長期序列中哪些特定行動導(dǎo)致了最終的成功或失敗。對于已經(jīng)通過大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練的LLM而言,這一挑戰(zhàn)尤為明顯,因為它們需要在保持通用泛化能力的同時適應(yīng)特定任務(wù)的要求。

ColBench:協(xié)作推理任務(wù)的評估基準

ColBench是專為驗證LLM代理在協(xié)作產(chǎn)物創(chuàng)建過程中的多輪強化學(xué)習(xí)算法而設(shè)計的基準。該基準主要關(guān)注后端編程和前端設(shè)計兩個關(guān)鍵領(lǐng)域,遵循以下核心原則:

ColBench確保任務(wù)具有足夠的復(fù)雜性,要求代理具備推理和泛化能力,從而真實反映實際應(yīng)用場景。同時,它采用LLM作為人類模擬器和功能評估器,實現(xiàn)了低開銷的快速原型設(shè)計。

在后端編程任務(wù)中,代理最多可與人類模擬器進行10輪交互,從高級需求描述和函數(shù)簽名開始,最終通過通過全部10個單元測試(二元獎勵制:0或1)評估性能。該數(shù)據(jù)集包含10,000個訓(xùn)練任務(wù)和1,000個測試任務(wù),以及來自Llama-3.1-8B/70B-Instruct的15,000個離線交互軌跡。前端設(shè)計任務(wù)則要求代理設(shè)計網(wǎng)頁界面,通過計算與參考設(shè)計的余弦相似度評估效果,包含10,000個訓(xùn)練任務(wù)和500個測試任務(wù),以及來自Llama-3.1-8B和Qwen2-VL-72B的6,000個交互軌跡。

通過與現(xiàn)有多輪LLM代理基準的比較可知,ColBench是唯一同時滿足三個關(guān)鍵標準的評估框架:1)具備充分的任務(wù)多樣性,確保強化學(xué)習(xí)訓(xùn)練不會過度擬合;2)擁有足夠的任務(wù)復(fù)雜性,能夠挑戰(zhàn)代理的推理和泛化能力;3)工程開銷最小化,適合快速研究原型開發(fā)。

多輪LLM代理面臨的核心挑戰(zhàn)

在當(dāng)前快速發(fā)展的AI技術(shù)生態(tài)中,構(gòu)建高效多輪LLM代理是最具挑戰(zhàn)性的前沿研究領(lǐng)域之一。這類代理必須能夠參與持續(xù)的交互過程,做出連貫一致的決策序列,同時保持對長期目標的導(dǎo)向性。傳統(tǒng)強化學(xué)習(xí)方法在應(yīng)對此類復(fù)雜性時面臨諸多困難,主要體現(xiàn)在三個方面:跨回合的信用分配問題、對不同任務(wù)的泛化能力,以及如何高效利用有限訓(xùn)練數(shù)據(jù)。

SWEET-RL作為一種創(chuàng)新解決方案,通過根本性改變LLM代理在協(xié)作推理任務(wù)中的訓(xùn)練方法,有效應(yīng)對了上述挑戰(zhàn)。

圖左展示了ColBench框架概覽,包括后端編程和前端設(shè)計兩個評估任務(wù),支持在真實環(huán)境中對代理多輪強化學(xué)習(xí)算法進行低成本且可靠的評估。圖右闡述了SWEET-RL的核心理念,即利用額外的訓(xùn)練時信息結(jié)合適當(dāng)?shù)腂radley-Terry(BT)目標函數(shù)實現(xiàn)有效的信用分配。

SWEET-RL的技術(shù)創(chuàng)新:核心組件與架構(gòu)

非對稱Actor-Critic結(jié)構(gòu)

SWEET-RL的核心創(chuàng)新在于其非對稱actor-critic架構(gòu),該架構(gòu)從根本上改變了代理從經(jīng)驗中學(xué)習(xí)的方式:

Critic(評估器)可以訪問額外的訓(xùn)練時信息,從而提供更精確的行動評估,實現(xiàn)更有效的跨回合信用分配。而Actor(策略網(wǎng)絡(luò))則在有限觀察條件下運作,根據(jù)交互歷史做出決策,保持在實際應(yīng)用場景中的泛化能力。

這種非對稱設(shè)計使SWEET-RL能夠同時獲得兩種優(yōu)勢:Critic在訓(xùn)練階段的全面深入理解能力,以及Actor在實際部署中的適用性。

創(chuàng)新的優(yōu)勢函數(shù)參數(shù)化

SWEET-RL引入了一種新型優(yōu)勢函數(shù)參數(shù)化方法,顯著區(qū)別于傳統(tǒng)強化學(xué)習(xí)方法。該方法直接建模優(yōu)勢函數(shù),與LLM預(yù)訓(xùn)練目標保持一致,提高了訓(xùn)練穩(wěn)定性和泛化能力,同時增強了信用分配效率。

兩階段訓(xùn)練流程

該算法實現(xiàn)了精心設(shè)計的兩階段訓(xùn)練過程:

第一階段:回合式Critic訓(xùn)練 - 使用Bradley-Terry目標函數(shù)訓(xùn)練Critic,利用訓(xùn)練時信息進行準確評估,根據(jù)偏好對優(yōu)勢函數(shù)進行優(yōu)化。

第二階段:策略改進 - 利用訓(xùn)練好的Critic指導(dǎo)策略更新,實施直接偏好優(yōu)化的變體算法,確保學(xué)習(xí)過程穩(wěn)定高效。

SWEET-RL訓(xùn)練流程概述。在宏觀層面,我們首先應(yīng)用Bradley-Terry目標函數(shù)直接訓(xùn)練一個能夠訪問額外訓(xùn)練時信息的逐步優(yōu)勢函數(shù)。優(yōu)勢函數(shù)訓(xùn)練完成后,通過將其作為每個回合的獎勵模型執(zhí)行策略改進。

實驗性能與應(yīng)用效果

后端編程任務(wù)性能

SWEET-RL在后端編程任務(wù)中展現(xiàn)出卓越性能,達到了40.4%的成功率,而多輪DPO方法僅為34.4%;單元測試通過率達到56.8%,顯著高于競爭方法的48.0%。

前端設(shè)計任務(wù)性能

在前端設(shè)計場景中,SWEET-RL同樣取得了顯著進步,與參考解決方案的余弦相似度達到77.7%,對基線方法的勝率為48.2%。

ColBench基準上不同LLM和多輪強化學(xué)習(xí)算法的性能比較。SWEET-RL相較于其他多輪強化學(xué)習(xí)算法實現(xiàn)了超過6%的性能提升,使Llama-3.1-8B-Instruct模型能夠達到與更大規(guī)模專有模型相當(dāng)?shù)男阅芩健?/span>

技術(shù)優(yōu)勢與創(chuàng)新特點

增強的信用分配機制

SWEET-RL的創(chuàng)新信用分配方法解決了多輪強化學(xué)習(xí)中最具挑戰(zhàn)性的問題之一,通過有效利用訓(xùn)練時信息,提供準確的回合級獎勵信號,減少學(xué)習(xí)信號的方差。

優(yōu)化的泛化能力

該算法通過與LLM預(yù)訓(xùn)練目標保持一致性,展現(xiàn)出卓越的泛化能力,在未見過的任務(wù)上表現(xiàn)強勁,并能隨訓(xùn)練數(shù)據(jù)增加而有效擴展。

計算效率優(yōu)化

SWEET-RL在實現(xiàn)性能提升的同時保持了較高的計算效率,通過直接優(yōu)勢函數(shù)建模、穩(wěn)定的訓(xùn)練動態(tài)以及有效利用訓(xùn)練數(shù)據(jù)實現(xiàn)這一目標。

性能比較圖表:(a)展示了不同步進獎勵模型在后端編程任務(wù)上Best-of-N采樣的擴展曲線。結(jié)果表明SWEET能夠在回合基礎(chǔ)上最優(yōu)判斷高質(zhì)量行動,從而實現(xiàn)Best-of-N采樣的最佳擴展性能。需注意,此曲線區(qū)別于測試時擴展曲線,因為SWEET利用了額外的訓(xùn)練時信息。(b)展示了不同多輪強化學(xué)習(xí)算法在后端編程任務(wù)上隨微調(diào)數(shù)據(jù)量增加的性能擴展情況。盡管SWEET-RL初期需要更多數(shù)據(jù)以學(xué)習(xí)可靠的Critic,但它能迅速趕上并最終實現(xiàn)更優(yōu)的收斂性能。

實驗表明,利用訓(xùn)練時信息顯著增強了信用分配能力,這一點從SWEET-RL與不使用訓(xùn)練時信息的SWEET-RL之間的性能差距得到證實。雖然相對于固定的LLM-as-a-Judge的Best-of-N采樣可在零樣本成功率上帶來一定改進,但這種改進有限。從質(zhì)性分析看,固定的LLM評判器容易被響應(yīng)的長度和格式影響,而未能真正關(guān)注其對任務(wù)成功的實際效用。最后,盡管在深度強化學(xué)習(xí)文獻中較為常見,但價值函數(shù)的使用與SWEET-RL相比未能實現(xiàn)相當(dāng)?shù)臄U展性能,這凸顯了SWEET-RL在強化學(xué)習(xí)算法選擇上的精心設(shè)計,同時表明訓(xùn)練價值函數(shù)的常規(guī)做法可能在未見過任務(wù)上泛化能力較差。

總結(jié)

SWEET-RL代表了多輪LLM代理訓(xùn)練技術(shù)的重大進展。其在信用分配、優(yōu)勢函數(shù)參數(shù)化和非對稱actor-critic結(jié)構(gòu)方面的創(chuàng)新為該領(lǐng)域確立了新的基準。該算法使小型模型能夠?qū)崿F(xiàn)與大型專有模型相當(dāng)?shù)男阅?,成為AI能力民主化進程中的關(guān)鍵一步。

展望未來,SWEET-RL的影響可能超越其當(dāng)前應(yīng)用范圍,影響更復(fù)雜AI系統(tǒng)的開發(fā),特別是需要復(fù)雜推理和協(xié)作能力的系統(tǒng)。其成功證明了強化學(xué)習(xí)的持續(xù)發(fā)展價值及其在構(gòu)建更強大、更高效AI代理中的重要性。

SWEET-RL通過技術(shù)創(chuàng)新、實用性和卓越性能的結(jié)合,成為人工智能領(lǐng)域的關(guān)鍵發(fā)展,可能深刻影響未來多輪LLM代理和強化學(xué)習(xí)的研究與發(fā)展方向。

責(zé)任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2025-03-21 13:00:54

2024-08-28 13:53:42

多代理強化學(xué)習(xí)機器人

2021-07-22 15:25:14

開源技術(shù) 框架

2024-10-12 17:14:12

2023-05-04 15:53:34

強化學(xué)習(xí)開發(fā)

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2024-03-19 00:15:00

機器學(xué)習(xí)強化學(xué)習(xí)人工智能

2020-04-15 16:44:38

谷歌強化學(xué)習(xí)算法

2020-06-05 08:09:01

Python強化學(xué)習(xí)框架

2022-11-02 14:02:02

強化學(xué)習(xí)訓(xùn)練

2023-07-20 15:18:42

2020-06-05 14:49:51

強化學(xué)習(xí)算法框架

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2024-09-30 14:40:00

AI強化學(xué)習(xí)框架

2021-10-12 10:28:34

自動駕駛數(shù)據(jù)人工智能

2023-08-28 06:52:29

2025-02-13 09:10:00

2021-12-06 17:38:51

強化學(xué)習(xí)工具人工智能

2024-12-09 08:45:00

模型AI

2020-11-16 08:54:05

Google 開源技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號