2023 ICML大會(huì)來了!一文速覽谷歌DeepMind的最新研究
2023年的國際機(jī)器學(xué)習(xí)大會(huì)(International Conferenceon Machine Learning,簡稱ICML)在夏威夷檀香山舉辦。
圖片
ICML是由國際機(jī)器學(xué)習(xí)學(xué)會(huì)(International Machine Learning Society,IMLS)主辦的年度機(jī)器學(xué)習(xí)國際頂級(jí)會(huì)議之一。
ICML創(chuàng)辦于1980年,每年6月中下旬舉行。今年的議程安排在7月23日星期日到29日星期六。
大會(huì)關(guān)注的領(lǐng)域涵括計(jì)算機(jī)視覺、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)到機(jī)器人技術(shù),目的是將人工智能 (AI) 社區(qū)聚集在一起,分享新的想法、工具和數(shù)據(jù)集,并建立聯(lián)系以推動(dòng)該領(lǐng)域的發(fā)展。
今年是ICML舉辦的第四十屆會(huì)議,大會(huì)錄用了1827篇論文。谷歌 DeepMind 的研究人員今年在ICML上發(fā)表了80多篇新論文。
谷歌在這次會(huì)議上報(bào)告的主要亮點(diǎn)有:
具有社會(huì)目的的機(jī)器學(xué)習(xí)、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型、具身語言模型PaLM-E、文本生成視頻的Phenaki模型等。
圖片
除了這些,谷歌還將在會(huì)議上重點(diǎn)介紹模擬世界中的人工智能、強(qiáng)化學(xué)習(xí)的未來研究以及人工智能的前沿挑戰(zhàn)中谷歌所做出的貢獻(xiàn)。
下面,就來看看谷歌在這三個(gè)方面都做了哪些研究吧!
模擬世界中的人工智能
我們現(xiàn)在看到的能夠成功進(jìn)行讀取、寫入和創(chuàng)造的人工智能,如ChatGPT等,是在大量的數(shù)據(jù)集上訓(xùn)練的基礎(chǔ)模型。
這些基礎(chǔ)模型在監(jiān)督和自監(jiān)督學(xué)習(xí)中表現(xiàn)出了優(yōu)越的適應(yīng)性和可擴(kuò)展性,但到目前為止,這些成功尚未完全轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)(RL)。
這意味著以基礎(chǔ)模型為底層運(yùn)行邏輯的人工智能將難以理解復(fù)雜的現(xiàn)實(shí)、處理現(xiàn)實(shí)中的任務(wù)。
谷歌研究人員在這項(xiàng)工作中,證明了大規(guī)模訓(xùn)練 RL 智能體會(huì)產(chǎn)生一種通用的上下文學(xué)習(xí)算法,該算法(AdA)可以像人類一樣快速地適應(yīng)開放式新穎的具體現(xiàn)實(shí)問題。
圖片
AdA是一種人工智能代理,可以像人類一樣在模擬環(huán)境中適應(yīng)解決新問題。
它可以承擔(dān)具有挑戰(zhàn)性的任務(wù):以新穎的方式組合物體、導(dǎo)航看不見的地形以及與其他玩家合作。
此外,谷歌的另一項(xiàng)研究展示了如何使用視覺語言模型(VLM)來幫助訓(xùn)練智能體。
通過簡單的提示讓VLM控制監(jiān)督信號(hào),教導(dǎo)智能體在 3D 渲染環(huán)境中根據(jù)新物體的名稱(例如平面)或特征(例如顏色)與新物體進(jìn)行交互。
圖片
這些研究將為日益通用和自適應(yīng)的強(qiáng)化學(xué)習(xí)智能體奠定基礎(chǔ),使這些智能體在更大的開放領(lǐng)域中表現(xiàn)更好。
強(qiáng)化學(xué)習(xí)的未來研究
為了開發(fā)負(fù)責(zé)任且值得信賴的人工智能,必須了解這些系統(tǒng)的核心目標(biāo)。
在強(qiáng)化學(xué)習(xí)中,定義系統(tǒng)核心目標(biāo)的其中一種方法是通過獎(jiǎng)勵(lì)。
理查德·薩頓(Richard Sutton)提出的獎(jiǎng)勵(lì)假設(shè)認(rèn)為,所有目標(biāo)都可以被認(rèn)為是最大化預(yù)期累積獎(jiǎng)勵(lì)。
谷歌研究人員解釋了假說成立的確切條件,并闡明了強(qiáng)化學(xué)習(xí)問題的一般形式的獎(jiǎng)勵(lì)可以(或不能)捕獲的目標(biāo)類型。
圖片
另外,谷歌還在研究中提出:在部署人工智能系統(tǒng)時(shí),需要考慮模型對(duì)現(xiàn)實(shí)世界的適應(yīng)性。
因此,谷歌了研究如何在約束條件下更好地訓(xùn)練強(qiáng)化學(xué)習(xí)算法,因?yàn)槿斯ぶ悄芄ぞ咄ǔ1仨毷艿桨踩院托实南拗啤?/span>
圖片
還探索了如何在不確定的情況下通過不對(duì)稱的信息游戲(例如撲克)來教授模型復(fù)雜的長期策略。
圖片
在會(huì)議上,谷歌將會(huì)演示模型如何在不知道其他玩家的位置和可能的行動(dòng)的情況下贏得雙人游戲。
等會(huì)議開始,谷歌會(huì)玩出什么花樣,就讓我們拭目以待吧!
人工智能的前沿技術(shù)
現(xiàn)有的人工智能基本上都是在一系列打包好的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。像最近大火的大語言模型(LLM),它們能夠?qū)W習(xí)并預(yù)測(cè)語言符號(hào)之間的聯(lián)系,卻很難真的理解語言所指的現(xiàn)實(shí)世界。
而人類卻可以輕松地學(xué)習(xí)、適應(yīng)和理解我們周圍的世界。
開發(fā)能夠以類人方式進(jìn)行推理的先進(jìn)人工智能系統(tǒng),將有助于創(chuàng)建可以在日常生活中使用的人工智能并應(yīng)對(duì)新的挑戰(zhàn)。
谷歌在人工智能的適應(yīng)性方面,研究了人工智能根據(jù)新信息快速改變其預(yù)測(cè)和推理的神經(jīng)網(wǎng)絡(luò)的可塑性及其損失的原因。
圖片
另一篇論文是研究在統(tǒng)計(jì)數(shù)據(jù)自發(fā)變化的數(shù)據(jù)源(例如自然語言預(yù)測(cè)中)上進(jìn)行元訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
論文回答了當(dāng)前的序列預(yù)測(cè)模型和訓(xùn)練機(jī)制可以在多大程度上解釋大型語言模型中出現(xiàn)的上下文學(xué)習(xí)類型。
圖片
此外,谷歌DeepMind的研究人員提出了一個(gè)新的循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 系列,它們?cè)陂L期推理任務(wù)上表現(xiàn)更好。
圖片
研究人員對(duì)標(biāo)準(zhǔn)RNN進(jìn)行了改進(jìn),包括線性化和對(duì)角化遞歸,使用更好的參數(shù)化和初始化,并確保前向傳遞的正確標(biāo)準(zhǔn)化。
循環(huán)神經(jīng)網(wǎng)絡(luò)
最后,在人工智能的強(qiáng)化學(xué)習(xí)研究中的「分位數(shù)信用分配」(quantile credit assignment),谷歌研究人員提出了一種將訓(xùn)練中的運(yùn)氣與技能分開的方法。
通過在行動(dòng)、結(jié)果和外部因素之間建立更清晰的關(guān)系,人工智能可以更好地理解復(fù)雜的現(xiàn)實(shí)環(huán)境。
圖片
除了以上重點(diǎn)介紹的研究,還有很多其他的研究.....
圖片
圖片
圖片
80多篇論文實(shí)在太多辣!小編截不過來了.....感興趣的就自己去看吧!
附上網(wǎng)址:https://deepmind.events/events/icml-2023/resources#
一路下來,這些研究真是讓人眼花繚亂,讓人知(tou)識(shí)(yun)大(nao)漲(zhang)!