自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

能總結(jié)經(jīng)驗、持續(xù)進(jìn)化,上交把智能體優(yōu)化參數(shù)的成本打下來了

人工智能 新聞
為了提升大模型智能體交互的性能和可靠性,目前學(xué)界已經(jīng)提出了多種基于不同提示語技術(shù)的智能體框架,如將思維鏈結(jié)合至決策過程的 ReAct、利用大模型的自檢查能力的 RCI 等。

大模型的出現(xiàn)引發(fā)了智能體設(shè)計的革命性變革,在 ChatGPT 及其插件系統(tǒng)問世后,對大模型智能體的設(shè)計和開發(fā)吸引了極大的關(guān)注。幫助完成預(yù)訂、下單等任務(wù),協(xié)助編寫文案,自主從網(wǎng)絡(luò)上搜索最新的知識與新聞等等,這種通用、強(qiáng)大的智能助理,讓大模型強(qiáng)大的語義理解、推理能力將之變成了可能。

OpenAI 首屆開發(fā)者大會上,Sam Altman 展示了 ChatGPT 作為智能助理的可能性。

為了提升大模型智能體交互的性能和可靠性,目前學(xué)界已經(jīng)提出了多種基于不同提示語技術(shù)的智能體框架,如將思維鏈結(jié)合至決策過程的 ReAct、利用大模型的自檢查能力的 RCI 等。

盡管大模型智能體已經(jīng)表現(xiàn)出強(qiáng)大的能力,但上述方案都缺乏讓大模型智能體從自身的既往交互經(jīng)歷中學(xué)習(xí)進(jìn)化的能力。而這種持續(xù)進(jìn)化的能力,正成為大模型智能體發(fā)展中亟待解決的問題。

一般來說,決策交互任務(wù)中通常會采用強(qiáng)化學(xué)習(xí),基于過往交互歷程來優(yōu)化智能體的交互策略,但對于大模型來說,直接優(yōu)化其參數(shù)的代價巨大。

Algorithm Distillation(算法蒸餾)等工作提出了 「即境強(qiáng)化學(xué)習(xí)」(in-context reinforcement learning)的概念,將強(qiáng)化學(xué)習(xí)訓(xùn)練過程輸入預(yù)訓(xùn)練過的決策 transformer,就可以讓模型在不需要更新參數(shù)的情況下,從輸入的訓(xùn)練歷程中學(xué)習(xí)到性能演進(jìn)的模式,并優(yōu)化下一步輸出的策略。

然而這種模式卻難以直接應(yīng)用于文本大模型。因為復(fù)雜的觀測、動作表示成文本需要消耗更多的詞元(token),這將導(dǎo)致完整的訓(xùn)練歷程難以塞入有限的上下文。

針對該問題,上海交通大學(xué)跨媒體語言智能實驗室(X-LANCE)提出了一種解決方案:通過外置經(jīng)驗記憶來保存大模型的交互歷史,憑借強(qiáng)化學(xué)習(xí)來更新經(jīng)驗記憶中的經(jīng)歷,就可以讓整個智能體系統(tǒng)的交互性能得到進(jìn)化。這樣設(shè)計出來的智能體構(gòu)成了一種半?yún)?shù)化的強(qiáng)化學(xué)習(xí)系統(tǒng)。論文已由 NeurIPS 2023 接收。

圖片

論文地址:https://arxiv.org/abs/2306.07929

實驗顯示,通過該方法設(shè)計的 「憶者」(Rememberer)智能體,在有效性與穩(wěn)定性上均展現(xiàn)出了優(yōu)勢,超越了此前的研究成果,建立了新的性能基準(zhǔn)。

方法

圖片

「憶者」智能體的技術(shù)架構(gòu)

該工作為 「憶者」 智能體設(shè)計了一種 RLEM(Reinforcement Learning with Experience Memory)框架,使得智能體能夠在交互中,根據(jù)當(dāng)前交互狀態(tài)從經(jīng)驗記憶中動態(tài)抽取過往經(jīng)驗來提升自身的交互行為,同時還可以利用環(huán)境返回的回報(reward)來更新經(jīng)驗記憶,使得整體策略得到持久改進(jìn)。

在經(jīng)驗記憶中存儲任務(wù)目標(biāo)圖片、觀測圖片、候選動作圖片以及對應(yīng)的累積回報(Q 值)圖片。訓(xùn)練中,可以采用多步 Q 學(xué)習(xí)來更新記憶池中記錄的 Q 值 圖片

圖片

圖片

在推斷過程中,智能體依據(jù)任務(wù)相似度與觀測相似度,從經(jīng)驗記憶中提取最相似的 k 條經(jīng)歷,來構(gòu)成即境學(xué)習(xí)(in-context learning)的范例。

由于訓(xùn)練過程中得到的經(jīng)歷有成功的也有失敗的,不同于此前基于經(jīng)驗記憶的方法只利用成功的經(jīng)歷,該工作提出了一種特別的輸出格式來將失敗經(jīng)歷也加以利用。

這種輸出格式稱為 「動作建議」(action advice),即要求模型輸出時同時輸出推薦的(encouraged)與不推薦的(discouraged)動作及其 Q 值估計,從而促使模型能夠?qū)W習(xí)到范例中部分動作的失敗,并在新的決策中避免。

結(jié)果

該工作在 WebShop 與 WikiHow 兩個任務(wù)集上測試了所提出的 「憶者」智能體。

圖片

圖片

測試了采用不同初始經(jīng)歷、不同訓(xùn)練集構(gòu)建的 「憶者」智能體,相比于 ReAct 及采用靜態(tài)范例的基線,「憶者」不僅取得了更高的平均性能,而且性能對各種不同的初始化條件更加穩(wěn)定,展現(xiàn)了巨大的優(yōu)勢。

同時還采用人類標(biāo)注的經(jīng)驗記憶(Rememberer (A))做了實驗,證明了所設(shè)計的相似度函數(shù)提取出的動態(tài)范例的有效,同時也證明,強(qiáng)化學(xué)習(xí)訓(xùn)練相比人類標(biāo)注的經(jīng)驗記憶能夠取得更好的性能。

圖片

消融實驗的結(jié)果也證實了所采用的多步 Q 學(xué)習(xí)以及 「動作建議」輸出格式的作用。

圖片

這一結(jié)果也證明,訓(xùn)練過程中,通過更新經(jīng)驗記憶,「憶者」智能體的交互性能確實在逐步進(jìn)化,進(jìn)一步說明了所設(shè)計方法的有效。

結(jié)論

針對大模型智能體難以利用自身交互經(jīng)歷進(jìn)化自身交互性能的問題,上海交通大學(xué)跨媒體語言智能實驗室(X-LANCE)提出了 RLEM 框架,設(shè)計了「憶者」智能體。實驗結(jié)果顯示,通過增強(qiáng)以外置經(jīng)驗記憶,并輔以強(qiáng)化學(xué)習(xí)對經(jīng)驗記憶更新,「憶者」智能體能夠充分利用自身的交互經(jīng)歷進(jìn)化交互策略,顯著提升在基準(zhǔn)任務(wù)集上的性能。

該工作為大模型智能體進(jìn)化自身性能,以及將大模型智能體與強(qiáng)化學(xué)習(xí)結(jié)合,提供了富有價值的方案和見解,未來或有機(jī)會在此方向上探索得更深更遠(yuǎn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-06-20 13:38:22

2024-01-06 17:39:47

數(shù)據(jù)視頻

2022-11-09 17:12:38

AI模型

2024-07-23 14:10:48

2024-02-28 11:37:53

英偉達(dá)AI

2011-07-01 10:09:50

ASP.NET

2023-01-04 12:47:05

AI

2023-06-26 12:49:25

2019-03-27 14:11:20

工具性能數(shù)據(jù)

2025-04-15 06:41:41

2024-02-20 08:46:54

2024-06-13 09:20:26

2009-12-24 16:46:03

WPF性能優(yōu)化

2018-05-14 12:30:37

數(shù)據(jù)驅(qū)動算法優(yōu)化

2011-05-26 09:24:28

噴墨一體機(jī)經(jīng)驗

2010-04-21 12:49:57

Oracle性能

2023-10-30 10:58:57

2025-04-01 09:10:00

2020-05-18 11:52:43

安卓蘋果數(shù)據(jù)遷移

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號