AI好奇心,不只害死貓!MIT強(qiáng)化學(xué)習(xí)新算法,智能體這回「難易通吃」
?人人都遇見過一個古老的難題。
周五晚上,你正試圖挑選一家餐廳吃飯,但沒有預(yù)定。你應(yīng)該去你最愛的那家人滿為患的餐廳排隊等位,還是嘗試一家新餐廳,希望能發(fā)現(xiàn)一些更好吃的驚喜?
后者確實有可能帶來驚喜,但這種好奇心驅(qū)動的行為是有風(fēng)險的:你去嘗試的那家新餐廳的東西可能會更難吃。
好奇心作為AI探索世界的驅(qū)動力,實例已經(jīng)不勝枚舉了——自主導(dǎo)航、機(jī)器人決策、優(yōu)化檢測結(jié)果等等。
在某些情況下,機(jī)器使用「強(qiáng)化學(xué)習(xí)」來完成一個目標(biāo),在這一過程中,AI智能體從被獎勵的好行為和被懲罰的壞行為中反復(fù)學(xué)習(xí)。
就像人類在選擇餐廳時面臨的困境一樣,這些智能體也在努力平衡發(fā)現(xiàn)更好的行動(探索)的時間和采取過去導(dǎo)致高回報的行動(利用)的時間。
太強(qiáng)的好奇心會分散智能體的注意力,無法做出有利的決定,而好奇心太弱,則意味著智能體永遠(yuǎn)無法發(fā)現(xiàn)有利的決定。
為了追求使AI智能體具有「恰到好處」的好奇心,來自麻省理工學(xué)院計算機(jī)科學(xué)與AI實驗室(CSAIL)的研究人員創(chuàng)造了一種算法,克服了AI過于「好奇」和被手頭的任務(wù)分散注意力的問題。
他們研究出的算法會在需要時自動增加好奇心,如果智能體從環(huán)境中得到足夠的監(jiān)督,已經(jīng)知道該怎么做,則降低好奇心。
論文鏈接:https://williamd4112.github.io/pubs/neurips22_eipo.pdf
經(jīng)過60多個視頻游戲的測試,該算法能夠在不同難度的探索任務(wù)中取得成功,而以前的算法只能單獨(dú)解決簡單或困難難度。這意味著AI智能體可以使用更少的數(shù)據(jù)來學(xué)習(xí)決策規(guī)則,達(dá)到激勵最大化。
「如果你很好地掌握了探索-開發(fā)之間權(quán)衡,就能更快地學(xué)習(xí)正確的決策規(guī)則,而任何不足之處都需要大量的數(shù)據(jù),這可能意味著產(chǎn)生的結(jié)果是非最優(yōu)的醫(yī)療方案,網(wǎng)站的利潤下降,以及機(jī)器人沒有學(xué)會做正確的事情?!?/p>
該研究帶頭人之一、麻省理工學(xué)院教授兼Improbable AI實驗室主任Pulkit Agrawal說。?
好奇心,不只害死貓!
我們似乎很難從心理學(xué)角度解釋好奇心的心理基礎(chǔ),對于這種尋求挑戰(zhàn)的行為的潛在神經(jīng)學(xué)原理,我們一直沒有深入理解。
有了強(qiáng)化學(xué)習(xí),這個過程在情感上被「修剪」了,將這個問題剝離至最基本的層面,但在技術(shù)實現(xiàn)上卻相當(dāng)復(fù)雜。
從本質(zhì)上講,智能體只應(yīng)該在沒有足夠的監(jiān)督來嘗試不同的事情時才會有好奇心,如果有監(jiān)督,它必須調(diào)整好奇心,降低好奇心。
在測試游戲任務(wù)中,很大一部分是小智能體在環(huán)境中跑來跑去尋找獎勵,并執(zhí)行一長串的行動來實現(xiàn)一些目標(biāo),這似乎是研究人員算法的邏輯測試平臺。
在《馬里奧賽車》和《蒙特祖瑪?shù)膹?fù)仇》等游戲?qū)嶒炛?,研究人員將上述游戲分為兩個不同類別:
一種監(jiān)督稀疏的環(huán)境,智能體獲得的指導(dǎo)較少,也就是「困難」的探索游戲;另一種是監(jiān)督更密集的環(huán)境,即「簡單」的探索游戲。
假設(shè)在《馬里奧賽車》中,只刪除所有的獎勵,你不知道什么時候敵人殺了你。當(dāng)你收集一個硬幣或跳過管道時,不會得到任何獎勵。智能體只有在最后才被告知其表現(xiàn)如何。這就屬于稀疏監(jiān)督環(huán)境,也就是困難任務(wù)。在這種任務(wù)中,激勵好奇心的算法表現(xiàn)非常好。
而如果智能體處于密集監(jiān)督環(huán)境,也就是說,跳過管道、收集硬幣和殺死敵人都有獎勵,那么,表現(xiàn)最好的就是完全沒有好奇心的算法,因為經(jīng)常得到獎勵,只要照著走流程就行了,不需要額外探索就能收獲頗豐。
這里如果使用激勵好奇心的算法,學(xué)習(xí)速度會很慢。
因為好奇心強(qiáng)的智能體,可能會試圖以不同的方式快速奔跑,到處亂逛,走遍游戲的每一個角落。這些事情都很有趣,但并不能幫助智能體在游戲中取得成功,獲得獎勵。
如前文所言,在強(qiáng)化學(xué)習(xí)中,一般用激勵好奇心和抑制好奇心的算法,來分別對應(yīng)監(jiān)督稀疏(困難)和監(jiān)督密集(簡單)任務(wù),不能混用。
這一次,MIT團(tuán)隊的新算法始終表現(xiàn)良好,無論是在什么環(huán)境中。
未來的工作可能涉及回到多年來令心理學(xué)家高興和困擾的探索:好奇心的適當(dāng)衡量標(biāo)準(zhǔn)--沒有人真正知道從數(shù)學(xué)上定義好奇心的正確方法。
MIT CSAIL博士生Zhang Weihong說:
通過改進(jìn)探索算法,為你感興趣的問題調(diào)整算法。我們需要好奇心來解決極具挑戰(zhàn)性的問題,但在某些問題上,好奇心會降低性能。我們的算法消除了調(diào)整「探索和利用」的平衡負(fù)擔(dān)問題。
以前要花一個星期來解決的問題,新算法可以在幾個小時內(nèi)就得到滿意的結(jié)果。
他與麻省理工學(xué)院CSAIL工程碩士、22歲的Eric Chen是關(guān)于這項工作的新論文的共同作者。
卡內(nèi)基梅隆大學(xué)的教師Deepak Pathak說:
「像好奇心這樣的內(nèi)在獎勵機(jī)制,是引導(dǎo)智能體發(fā)現(xiàn)有用的多樣化行為的基礎(chǔ),但這不應(yīng)該以在給定的任務(wù)中做得好為代價。這是AI中的一個重要問題,這篇論文提供了一種平衡這種權(quán)衡的方法??纯催@種方法如何從游戲擴(kuò)展到現(xiàn)實世界的機(jī)器人智能體上,將是很有趣的一件事?!?/p>
加州大學(xué)伯克利分校心理學(xué)特聘教授和哲學(xué)副教授Alison Gopnik指出,當(dāng)前AI和認(rèn)知科學(xué)的最大挑戰(zhàn)之一,就是如何平衡「探索和利用」,前者是對信息的搜索,后者是對獎勵的搜索。
「這篇論文使用了令人印象深刻的新技術(shù)來自動完成這一工作,設(shè)計了一個能夠系統(tǒng)地平衡對世界的好奇心和對獎勵的渴望的智能體,讓AI智能體朝著像真正的兒童一樣聰明的方向,邁出了重要一步?!顾f。
參考資料:
https://techxplore.com/news/2022-11-bad-ai-curious.html
https://www.csail.mit.edu/news/ensuring-ai-works-right-dose-curiosity