自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福AI智能體爆火研究!「好奇回放」算法讓AI自我反思,主動探索新奇世界

人工智能
斯坦福為AI智能體設(shè)計了一種「好奇回放」算法,讓智能體在不斷變化環(huán)境中探索新奇世界。斯坦福研究人員Isaac Kauvar設(shè)計了一個簡單任務(wù),「探索和適應(yīng)周圍環(huán)境」。

一夜之間,AI智能體突然霸屏全網(wǎng)。

業(yè)界大佬紛紛將關(guān)注重點從LLM轉(zhuǎn)向了AI智能體,OpenAI的首席科學家Karpathy認為AI智能體是未來。

就連英偉達老黃表示,下一波人工智能浪潮是具身人工智能,簡之「AI智能體」。

這不,近來斯坦福的最新研究,直接讓AI智能體和一只小鼠來一場面對面的競爭,以確定誰能獲勝。

最新研究結(jié)果已發(fā)表在arXiv上,并被ICML 2023接收。

圖片

論文地址:https://arxiv.org/pdf/2306.15934.pdf

智能體大戰(zhàn)小鼠

斯坦福研究人員Isaac Kauvar設(shè)計了一個簡單任務(wù),「探索和適應(yīng)周圍環(huán)境」。

Kauvar將一只小鼠放在狹小的空盒子里,類似地,將AI智能體放在一個3D虛擬競技場中。

圖片圖片

然后,他在兩個環(huán)境中都放了一個紅色的球。接下來,測試誰會更快地探索這個新物體。

結(jié)果顯示,小鼠迅速靠近球,并在接下來的幾分鐘里不斷與之互動。但是AI智能體似乎沒有注意到它。

第一回合,小鼠勝,智能體失敗。

Kauvar表示,這完全出乎意料的,我們意識到,即使使用最先進的算法,性能仍然存在差距。

因此,學者們思考著:他們是否可以利用這些看似簡單的動物行為作為啟示,改進AI系統(tǒng)呢?

沿著這個思路的啟發(fā),研究人員設(shè)計一種名為「好奇回放」(curious replay)的全新訓(xùn)練方法。

該方法使AI智能體能夠「自我反思」最近遇到的最新奇,以及最有趣的事物。

添加了「好奇回放」之后,AI智能體就能夠更快地接近,并與紅球進行互動。此外,它還極大地改善了基于Minecraft的游戲「Crafter」的性能。

圖片圖片

通過好奇心學習

要知道,真正的超級AI智能體,是能夠像人類一樣進行感知、交互、理解的AI。

而好奇心,對于人類認知世界,探索周遭環(huán)境至關(guān)重要,不論是避免危險情況,還是尋找生存必需品都必不可少。

在實驗中,紅球可能是致命的毒藥,亦或是一頓滋養(yǎng)的餐食,如果我們忽視它,將很難找出真相。

這就是為什么斯坦福研究人員,在驅(qū)動AI智能體的行為中增加了「好奇信號」,特別是基于模型的深度強化學習智能體。

這個信號告訴它們,去選擇能夠?qū)е赂腥そY(jié)果的行動,比如,看到門要打開門,而不是忽略它。

好奇回放通過使用好奇心引導(dǎo)的優(yōu)先級來促進模型在最不熟悉的經(jīng)驗圖片

好奇回放通過使用好奇心引導(dǎo)的優(yōu)先級來促進模型在最不熟悉的經(jīng)驗的訓(xùn)練,從而關(guān)閉了經(jīng)驗回放和世界模型性能之間的循環(huán)

這一次,團隊以一種全新方式,利用好奇心來幫助AI智能體了解其世界,而不僅僅是做出決策。

Kauvar說:「我們不是選擇要做什么,而是選擇要思考什么,或多或少地選擇我們想要從過去的經(jīng)歷中學到什么」。

換句話說,他們希望鼓勵A(yù)I智能體進行「自我反思」。從某種意義上說,關(guān)于它最有趣或最奇特的(與好奇心相關(guān)的)經(jīng)歷。

這樣,智能體就可以被促使以不同的方式與物體互動以獲得更多的學習,這將指導(dǎo)它對環(huán)境的理解,并可能激發(fā)對其他物品的好奇心。

為了以這種方式實現(xiàn)自我反思,研究人員修改了一種常用的用于訓(xùn)練AI智能體的方法,稱為「經(jīng)驗回放」。

在這種方法中,智能體存儲其所有互動的記憶,然后隨機重放其中的一些以再次學習。

「經(jīng)驗回放」受到了有關(guān)睡眠的研究的啟發(fā):神經(jīng)科學家發(fā)現(xiàn),一個被稱為海馬體的大腦區(qū)域會「重播」一天的事件(通過重新激活特定的神經(jīng)元)以加強記憶。

在AI智能體中,「經(jīng)驗回放」在環(huán)境變化不大,且正確行為獲得明確獎勵的場景中,能夠取得高性能。

但是,研究人員推斷,在一個不斷變化的環(huán)境中,AI智能體更有意義的是優(yōu)先回放那些最有趣的經(jīng)歷,比如紅球的出現(xiàn),而不是一遍又一遍地回放空蕩的虛擬房間。

他們將這種新方法稱為好奇回放,并發(fā)現(xiàn)它立即生效。Kauvar說:「突然之間,智能體與球的互動速度明顯增加?!?/span>

圖片圖片

對于算法的設(shè)計,優(yōu)先級信號是新奇和驚喜的疊加組合:

圖片圖片

好奇回放是對現(xiàn)有智能體的簡單修改。這些智能體使用經(jīng)驗重播,計算開銷最小,利用了經(jīng)驗采樣次數(shù)的計數(shù),以及為每個訓(xùn)練批次計算的模型損失。

這種優(yōu)先級在需要適應(yīng)的不斷變化的環(huán)境中特別有用。好奇回放有助于隨著環(huán)境的變化,保持世界模型的最新狀態(tài),這是有效行動選擇的先決條件。

另外,研究人員發(fā)現(xiàn),一個領(lǐng)先的好奇心強的人工智能智能體Plan2Explore,在需要適應(yīng)的情況下,行為明顯變差(例如與對象互動的時間變慢)。

圖片圖片

究其原因,部分是世界模型的訓(xùn)練,使用「經(jīng)驗回放」緩沖區(qū)的統(tǒng)一抽樣:因此舊的、無聊的經(jīng)驗和較罕見的新的、有趣的經(jīng)驗一樣有可能被訓(xùn)練到。

圖片圖片

如果轉(zhuǎn)而優(yōu)先考慮對「有趣的經(jīng)歷」進行抽樣調(diào)查結(jié)果如何?AI智能體使用好奇心信號(如新奇感和驚喜)來衡量過去經(jīng)歷的趣味性。

圖片圖片

結(jié)果發(fā)現(xiàn),這個簡單的變化極大地改善了適應(yīng)性,世界模型的性能得到了改善,與物體的互動也大大增加。

它也比現(xiàn)有的優(yōu)先考慮「經(jīng)驗回放」的方法(如使用獎勵相關(guān)的信號,如TD錯誤)表現(xiàn)得更好。

圖片圖片

但他們并未止步于此。

研究人員還將好奇回放添加到了玩一個名為Crafter的游戲的AI智能體中,這是一種用于測試AI智能體創(chuàng)造性問題解決能力的標準測試,類似于Minecraft。

智能體需要通過學習如何收集木材和石頭、制作鎬子以及收集鐵礦石來求生和適應(yīng)。

好奇回放方法將當前的最先進得分從大約14提高到19(人類通常得分約為50)——僅僅通過「這一個改變」,Kauvar說道。

好奇回放在Crafter基準上取得SOTA,超過了DreamerV3,足見其在挑戰(zhàn)技能方面能力的大幅提升。

圖片圖片

一個好奇的未來

好奇回放方法在簡單和復(fù)雜任務(wù)中的成功表明,它對于未來廣泛的人工智能研究將非常重要。

論文作者Haber說道,「這項工作的總體目標是使智能體能夠利用先前的經(jīng)驗,在探索新的或變化的環(huán)境中高效適應(yīng),這將導(dǎo)致更加適應(yīng)性強、靈活性更高的技術(shù),從家庭機器人到個性化學習工具」。

Kauvar的博士后工作由Haber和神經(jīng)科學家Karl Deisseroth(生物工程和精神病學系D.H. Chen教授)共同指導(dǎo),他對從動物行為中汲取靈感以改進人工智能系統(tǒng)的主題感到興奮——他計劃繼續(xù)在更復(fù)雜的任務(wù)上測試小鼠和AI智能體,以比較它們的行為和能力。

「很多人只是嘴上說說受到動物的啟發(fā),但我們正在建立一個直接的橋梁——而不是模糊的橋梁。我們試圖做完全相同的事情」。

Kauvar希望這樣的工作能夠幫助「閉環(huán)」AI研究和神經(jīng)科學之間的聯(lián)系,并有助于我們對動物行為和底層神經(jīng)過程的理解。

他表示,「你可以想象,這整個方法可能會產(chǎn)生以前從未想到的假設(shè)和新實驗」。

作者介紹

Isaac Kauvar

圖片

Isaac Kauvar是斯坦福大學的LSRF博士后研究員,與Nick Haber一起在斯坦福自主智能體實驗室工作,研究人工智能、神經(jīng)科學和心理學的交叉領(lǐng)域。

他對大腦多個區(qū)域的細胞網(wǎng)絡(luò)如何協(xié)同工作來模擬世界感興趣。

Kauvar曾在斯坦福獲得了電氣工程博士學位。在那里,我開發(fā)了記錄整個皮層神經(jīng)活動的光學工具,并發(fā)現(xiàn)了一種神經(jīng)振蕩——奇怪地局限于一個皮層區(qū)域——這似乎是氯胺酮等藥物解離作用的基礎(chǔ)。

參考資料:

https://hai.stanford.edu/news/ai-agents-self-reflect-perform-better-changing-environments

https://arxiv.org/abs/2306.15934

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-08-10 14:01:08

開源虛擬

2019-12-16 14:33:01

AI人工智能斯坦福

2017-11-28 14:18:29

2023-11-29 14:53:00

AI數(shù)據(jù)

2024-10-28 10:30:00

AI開源模型

2019-03-27 10:47:05

人工智能法律AI

2023-10-17 13:33:00

AI數(shù)據(jù)

2024-10-21 12:40:00

視頻生成模型

2018-01-23 16:48:47

AI

2023-04-11 13:55:20

AI游戲

2023-07-21 14:28:54

2024-09-11 15:00:00

2022-07-20 16:39:37

AI數(shù)據(jù)

2025-04-09 04:22:00

2024-11-26 08:42:14

2023-07-21 14:47:24

AI訓(xùn)練

2019-03-24 12:11:47

AI 數(shù)據(jù)人工智能

2024-05-13 12:58:30

2024-06-03 14:19:00

AI訓(xùn)練

2025-04-09 11:25:36

點贊
收藏

51CTO技術(shù)棧公眾號