自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Bengio團隊新論文!KL正則化有漏洞,強化學(xué)習(xí)新策略:不要做我可能不會做的事情

人工智能 新聞
在強化學(xué)習(xí)中,當(dāng)智能體的獎勵機制與設(shè)計者的意圖不一致時,可能會導(dǎo)致不理想的行為,而KL正則化作為一種常用的解決方案,通過限制智能體的行為來防止這種情況,但智能體在某些情況下仍可能表現(xiàn)出意料之外的行為;為了提高智能體的可靠性,研究人員提出了新的理論方案,通過改變指導(dǎo)原則來增強智能體在未知情況下的謹慎性。

在強化學(xué)習(xí)中,智能體的獎勵機制有時會與設(shè)計者的真實目的存在差異, 比如一個聊天機器人,開發(fā)者希望它能夠通過學(xué)習(xí)來更好地完成任務(wù),然后設(shè)計了一個獎勵系統(tǒng),當(dāng)模型做出預(yù)期中認為有用的事情時,就會得到獎勵;但有時候,智能體可能會做出非預(yù)期的行為,其獎勵系統(tǒng)可能并不完全符合真實意圖。

為了防止這種情況,業(yè)界通常會使用一種叫做KL正則化的技術(shù),類似于給智能體一個行為準則「不要做我不會做的事情?!?,目前主流的語言模型,比如能夠生成流暢文本的智能體,都是使用這種技術(shù)進行訓(xùn)練的。

但這里有一個潛在的問題,如果智能體是基于一個預(yù)測模型來模仿人類的行為,那么KL正則化可能就不夠用了:即使智能體的行為在大多數(shù)情況下看起來都很好,但在某些情況下,也可能會做出一些出乎意料的行為。

為了解決這個問題,來自加州大學(xué)伯克利分校、Google DeepMind、蒙特利爾大學(xué)(圖靈獎得主Yoshua Bengio)的研究人員提出了一個全新的理論方案,核心思想是改變對智能體的指導(dǎo)原則,從「不要做我不會做的事情」(Don’t do anything I wouldn’t do)變?yōu)椤覆灰鑫铱赡懿粫龅氖虑椤梗―on't do anything I mightn't do),也就意味著,我們希望智能體能夠更加謹慎,從而更好地控制智能體的行為,在實際應(yīng)用中表現(xiàn)得更加可靠。

論文鏈接:https://arxiv.org/pdf/2410.06213

KL正則化

當(dāng)智能體以設(shè)計者未曾預(yù)料到的方式優(yōu)化其目標(biāo)時,可能會產(chǎn)生一些有趣的(amusing)、煩人的(annoying)、隱秘的(insidious),甚至是災(zāi)難性的(disastrous)后果。

比如說,強化學(xué)習(xí)研究者想讓一臺仿人機器人學(xué)會行走,但結(jié)果可能是機器人開始跑步,或者是其他無法預(yù)料到的、瘋狂的運動方式。

為了避免這種情況,一個常用的方法是限制智能體的遵循策略,即找到一個與「基礎(chǔ)策略」(base policy)不太不同的策略,類似于對大型語言模型進行強化學(xué)習(xí)微調(diào),放棄最優(yōu)策略來限制強化學(xué)習(xí)的潛力。

提議策略(proposed plicy)和基礎(chǔ)策略之間的KL散度是一種穩(wěn)健、安全的(safety-conscious)方法來計算兩個策略之間的接近性(proximity)。

如果基礎(chǔ)策略對某個動作的預(yù)測概率非常低,而提議策略對同一個動作的預(yù)測卻很高,那么KL懲罰就會很高,可以確?;A(chǔ)策略下可以避免的糟糕結(jié)果,在提議策略中依然不會發(fā)生。

但是,如果在確保KL(提議策略∥基礎(chǔ)策略)很小的情況下,基礎(chǔ)策略只是近似一個可信策略,需要在多大程度上、有多大把握KL(提議策略∥可信策略)也很小呢?

當(dāng)基礎(chǔ)策略是可信策略(trusted policy)的貝葉斯預(yù)測模型時,就無法確信KL(提議策略∥可信策略)很小,KL約束也就變得沒那么穩(wěn)健、安全了。

更糟糕的是,研究人員發(fā)現(xiàn),如果想要用KL正則化來阻止強化學(xué)習(xí)智能體實現(xiàn)接近最大獎勵,并且基礎(chǔ)策略是可信策略的貝葉斯模仿(Bayesian imitator),那么就需要一個相當(dāng)小的KL閾值;而且,隨著貝葉斯模仿的訓(xùn)練數(shù)據(jù)量的增長,相關(guān)閾值只能極其緩慢地增加。

KL正則化效果有限的原因是:

1. 貝葉斯模仿在新環(huán)境下行動時必須對其預(yù)測保持謹慎(humble),對于其他示范者(demonstrator,即可信策略)實際上永遠不會采取的行動,模仿者(imitator,即基礎(chǔ)策略)必須賦予足夠的信任,因為沒有足夠多的信息來排除該策略

2. 強化學(xué)習(xí)智能體可以利用或放大這種信任,形式化奧卡姆剃刀原則。

3. 接近獎勵最大化(nearly-reward-maximizing)策略的描述長度較短,即相對簡單;

4. 在新環(huán)境中,開放的貝葉斯模仿學(xué)習(xí)器不愿意排除示范者的簡單行為。

鑒于這些研究結(jié)果,阻止強化學(xué)習(xí)智能體實現(xiàn)接近最大獎勵,在許多設(shè)置中,是安全導(dǎo)向的正則化的最低要求,而用KL約束則難以實現(xiàn)。

研究人員在文中找到了一種避免該問題的貝葉斯預(yù)測/模仿的替代方案:模仿者在不確定時尋求幫助,用正式界限(formal bounds)來限制不確定度,并通過實驗證明了使用模仿學(xué)習(xí)作為基礎(chǔ)策略,理論上可以避免之前提到的問題。

命題1(非三角不等式):對于任意ε > 0,如果KL(π||β) ≤ ε和KL(τ||β) ≤ ε,那么KL(π||τ)可能等于∞;其中π、β和τ分別代表「提議策略」、「基礎(chǔ)策略」和「可信策略」。

簡單來說,對于這三種策略,在用KL散度衡量相似度時,即使提議策略與基礎(chǔ)策略的相似度很高,與信任策略的相似度可能仍然非常低,甚至無限大。

定理1:即使在一個全新的、從未出現(xiàn)過的情況,總能找到一種策略,既接近最優(yōu)效用,又與模仿的策略非常相似,也就意味著,即使試圖通過模仿一個安全的策略來控制新策略的風(fēng)險,新策略仍然可能在某些情況下表現(xiàn)出沒有預(yù)料到的行為。

命題2(簡單、未預(yù)見事件的頻率,frequency of simple unprecedented events):在任意環(huán)境中,隨著時間的推移,到時間T(T大于t)為止,尚未發(fā)生的最簡單前所未有事件的復(fù)雜性,其增長速度比所有趨向于無窮大的可計算函數(shù)都要慢。

這種情況類似于,無論你讀了多少本關(guān)于駕駛的書,總會有一些意想不到的情況在路上等著你。這就是為什么自動駕駛汽車的開發(fā)者們發(fā)現(xiàn),盡管有大量的數(shù)據(jù),但仍然會遇到前所未有的挑戰(zhàn)。

如何確保自動駕駛系統(tǒng)在遇到這些新情況時能夠安全地做出反應(yīng)呢?

模仿學(xué)習(xí)可以確保自動駕駛系統(tǒng)在遇到這些新情況時能夠安全地做出反應(yīng),即讓系統(tǒng)模仿人類駕駛員的行為,但這個命題也提醒了我們,如果試圖讓系統(tǒng)完美地模仿人類駕駛員,可能并不是一個好主意,可能會導(dǎo)致系統(tǒng)在遇到新情況時無法做出正確的反應(yīng)。

強化學(xué)習(xí)微調(diào)語言模型

在人工智能領(lǐng)域,開發(fā)者經(jīng)常使用強化學(xué)習(xí)來改進系統(tǒng),也同樣適用于訓(xùn)練語言模型來理解和生成人類語言。

比如說,智能助手能夠通過閱讀大量的文本來學(xué)習(xí)如何與用戶對話,但隨著時間的推移,用戶可能會希望助手能夠更好地完成特定的任務(wù),比如寫詩或解決復(fù)雜的問題。

這種時候就可以使用強化學(xué)習(xí)來微調(diào)語言模型,類似于給智能助手加入額外的訓(xùn)練,使得在特定任務(wù)上表現(xiàn)得更好,也可以給模型一些獎勵,區(qū)分出哪些行為是有益的。

關(guān)鍵在于,開發(fā)者需要平衡智能體的探索能力(嘗試新事物的能力)和利用能力(利用已經(jīng)學(xué)到的知識)來做出決策。通過這種方式,智能體不僅能夠處理常見的情況,還能夠在遇到新問題時靈活應(yīng)對。

實驗設(shè)置

設(shè)定一個基礎(chǔ)模型,模擬老師與學(xué)生進行對話:如果學(xué)生的回應(yīng)是積極的,智能體就會得到獎勵;對話過程是在一種特殊的環(huán)境下進行的,智能體可以在對話中添加詞語;如果智能體沒有添加,那么基礎(chǔ)模型就會接管并添加詞語。

使用DistilBERT模型來衡量學(xué)生回復(fù)的情感狀態(tài),得分范圍為0到1,當(dāng)對話達到256個token時,一輪實驗就會結(jié)束。

圖片

研究人員還用Mixtral-basemodel的基礎(chǔ)策略來指導(dǎo)智能體的行為,最小化數(shù)據(jù)生成過程和模型之間的差異,從貝葉斯的角度來看也是一個合理的目標(biāo)。

智能體在做出決策時,可以觀察到一些信息,包括對話到目前為止的內(nèi)容,以及一輪實驗還剩下多少時間;智能體在做出決策時不考慮未來獎勵的現(xiàn)值,不會對未來的獎勵打折扣。

通過這個實驗可以看出,即使獎勵函數(shù)不完美,KL正則化是否能夠幫助智能體做出好的決策,即決策可能與基礎(chǔ)策略下的好結(jié)果有關(guān)聯(lián),但并不是真的希望最大化獎勵函數(shù);

簡而言之,實驗的真正目的是,驗證KL正則化是否能夠幫助智能體在不完美的獎勵環(huán)境中做出好的選擇。

實驗結(jié)果

智能體的任務(wù)是在對話中扮演教師的角色,目標(biāo)是讓學(xué)生的回應(yīng)帶有積極的情感,以此來獲得獎勵:智能體可以選擇說些什么,或者選擇保持沉默。

研究人員發(fā)現(xiàn),智能體有時會選擇什么也不說,以獲得中等獎勵,此時KL散度(即智能體策略與基礎(chǔ)策略之間的差異)非常??;即使限制了智能體的KL預(yù)算,仍然會盡可能地選擇保持沉默,這樣做的成本很低。

還可以還發(fā)現(xiàn),智能體有時會改變其行為,比如從雙倍空格切換到單倍空格,從而獲得更多的獎勵.

結(jié)果可以看到,即使獎勵系統(tǒng)并不完美,智能體也能夠找到一個簡單的策略來獲得盡可能多的獎勵,雖然該策略可能不是我們希望的,但確實有效,也說明了為什么我們需要小心設(shè)計獎勵系統(tǒng),因為智能體可能會找到一些我們意想不到的方法來最大化獎勵。

圖片

還可以發(fā)現(xiàn),如果讓智能體進行更長的對話,同時保持KL預(yù)算不變,智能體的行為可能會更明顯地偏離基礎(chǔ)模型,也就意味著,智能體可能會更頻繁地采取那些簡單的、非教師般的行為。

最后可以發(fā)現(xiàn),當(dāng)人們比較由不同KL預(yù)算的智能體生成的對話記錄時,KL預(yù)算較小的智能體通常被認為表現(xiàn)得「更好」和「更復(fù)雜/不可預(yù)測」,說明即使是相當(dāng)嚴格的KL約束,也可能無法阻止智能體采取過于簡單和不理想的行為。

圖片

因此,當(dāng)微調(diào)語言模型時,應(yīng)該關(guān)注整體的KL散度,而不僅僅是每個token的KL散度。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-03 09:12:00

2022-03-03 10:15:16

強化學(xué)習(xí)模型論文

2024-05-30 16:37:29

2023-06-25 11:30:47

可視化

2024-09-18 10:37:00

強化學(xué)習(xí)AI模型

2025-04-23 12:09:25

RL大模型進化

2016-09-18 16:13:30

2021-06-04 15:39:03

深度學(xué)習(xí)編程人工智能

2021-04-13 16:18:30

人工智能強化學(xué)習(xí)人臉識別

2022-11-03 14:13:52

強化學(xué)習(xí)方法

2025-02-20 09:21:51

2017-06-10 16:19:22

人工智能智能體強化學(xué)習(xí)

2017-03-28 10:15:07

2017-07-18 10:16:27

強化學(xué)習(xí)決策問題監(jiān)督學(xué)習(xí)

2021-11-10 15:24:25

AI 數(shù)據(jù)人工智能

2025-05-08 09:16:00

模型強化學(xué)習(xí)訓(xùn)練

2023-08-22 13:06:47

AI論文

2023-03-09 08:00:00

強化學(xué)習(xí)機器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-12-27 12:00:48

點贊
收藏

51CTO技術(shù)棧公眾號