自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="bivxd"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Transformers+世界模型，竟能拯救深度強(qiáng)化學(xué)習(xí)？

作者：新智元 2022-09-04 14:38:00

人工智能深度學(xué)習(xí)

前一段時(shí)間，LeCun曾預(yù)言AGI：大模型和強(qiáng)化學(xué)習(xí)都沒(méi)出路，世界模型才是新路。但最近，康奈爾大學(xué)有研究人員，正試著用Transformers將強(qiáng)化學(xué)習(xí)與世界模型連接起來(lái)。

?很多人都知道，當(dāng)年打敗李世石、柯潔等一眾國(guó)際頂尖棋手的AlphaGo一共迭代了三個(gè)版本，分別是戰(zhàn)勝李世石的一代目AlphaGo Lee、戰(zhàn)勝柯潔的二代目AlphaGo Master，以及吊打前兩代的三代目AlphaGo Zero。

AlphaGo的棋藝能夠逐代遞增，背后其實(shí)是在AI技術(shù)上一個(gè)出現(xiàn)了明顯的變化趨勢(shì)，就是強(qiáng)化學(xué)習(xí)的比重越來(lái)越大。

到了近幾年，強(qiáng)化學(xué)習(xí)又發(fā)生了一次「進(jìn)化」，人們把「進(jìn)化」后的強(qiáng)化學(xué)習(xí)，稱為深度強(qiáng)化學(xué)習(xí)。

但深度強(qiáng)化學(xué)習(xí)代理的樣本效率低下，這極大地限制了它們?cè)趯?shí)際問(wèn)題中的應(yīng)用。

最近，許多基于模型的方法被設(shè)計(jì)來(lái)解決這個(gè)問(wèn)題，在世界模型的想象中學(xué)習(xí)是最突出的方法之一。

然而，雖然與模擬環(huán)境幾乎無(wú)限的交互聽(tīng)起來(lái)很吸引人，但世界模型必須在很長(zhǎng)一段時(shí)間內(nèi)保持準(zhǔn)確。

受Transformer在序列建模任務(wù)中的成功啟發(fā)，康奈爾大學(xué)的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介紹了IRIS，這是一種數(shù)據(jù)高效代理，它在由離散自編碼器和自回歸Transformer組成的世界模型中學(xué)習(xí)。

在Atari 100k基準(zhǔn)測(cè)試中，在僅相當(dāng)于兩個(gè)小時(shí)的游戲時(shí)間里，IRIS的平均人類標(biāo)準(zhǔn)化得分為1.046，并且在26場(chǎng)比賽中的10場(chǎng)比賽中表現(xiàn)優(yōu)于人類。

此前，LeCun曾說(shuō)，強(qiáng)化學(xué)習(xí)會(huì)走進(jìn)死胡同。

現(xiàn)在看來(lái)，康奈爾大學(xué)的文森特·米凱利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人，正在將世界模型與強(qiáng)化學(xué)習(xí)（更準(zhǔn)確地說(shuō)是深度強(qiáng)化學(xué)習(xí)）融為一體，而連接兩者的橋梁，便是Transformers。

深度強(qiáng)化學(xué)習(xí)有什么不一樣

一提到人工智能技術(shù)，很多人能想到的，還是深度學(xué)習(xí)上。

其實(shí)，雖然深度學(xué)習(xí)還活躍在AI領(lǐng)域，但已經(jīng)暴露出很多問(wèn)題。

現(xiàn)在深度學(xué)習(xí)用得最多的就是有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)不妨理解成“有參考答案的學(xué)習(xí)”，它有一個(gè)特點(diǎn)，就是數(shù)據(jù)必須經(jīng)過(guò)標(biāo)識(shí)才能用于訓(xùn)練。但現(xiàn)在海量的數(shù)據(jù)是未標(biāo)識(shí)數(shù)據(jù)，且標(biāo)識(shí)成本很高。

以至于針對(duì)這種局面，有人調(diào)侃道「有多少人工，就有多少智能」。

很多研究人員，甚至包括有不少的大牛都在反思，琢磨深度學(xué)習(xí)是不是“錯(cuò)了”。

于是，強(qiáng)化學(xué)習(xí)開(kāi)始崛起了。

強(qiáng)化學(xué)習(xí)和有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)都不太一樣，它是用智能體不斷地試錯(cuò)，并按試錯(cuò)結(jié)果獎(jiǎng)懲AI。這是DeepMind家做各種棋牌AI、游戲AI的路數(shù)。這種路徑的信徒認(rèn)為，只要獎(jiǎng)勵(lì)激勵(lì)設(shè)定對(duì)頭，強(qiáng)化學(xué)習(xí)終將造出真正AGI。

但強(qiáng)化學(xué)習(xí)也有問(wèn)題，用LeCun的話說(shuō)，就是「強(qiáng)化學(xué)習(xí)要用巨量數(shù)據(jù)才能訓(xùn)練模型執(zhí)行最簡(jiǎn)單任務(wù)」。

于是強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)進(jìn)行了結(jié)合，成為深度強(qiáng)化學(xué)習(xí)。

深度強(qiáng)化學(xué)習(xí)，強(qiáng)化學(xué)習(xí)是骨架，深度學(xué)習(xí)是靈魂，這是什么意思呢？深度強(qiáng)化學(xué)習(xí)的主要運(yùn)行機(jī)制，其實(shí)與強(qiáng)化學(xué)習(xí)是基本一致的，只不過(guò)使用了深度神經(jīng)網(wǎng)絡(luò)來(lái)完成這一過(guò)程。

更有甚者，有的深度強(qiáng)化學(xué)習(xí)算法，干脆直接在現(xiàn)成的強(qiáng)化學(xué)習(xí)算法上，通過(guò)添加深度神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)一套新的深度強(qiáng)化學(xué)習(xí)算法，非常有名的深度強(qiáng)化學(xué)習(xí)算法DQN就是典型的例子。

Transformers有什么神奇之處

Transformers首次亮相于2017年，是Google的論文《Attention is All You Need》中提出的。

在 Transformer出現(xiàn)之前，人工智能在語(yǔ)言任務(wù)上的進(jìn)展一直落后于其他領(lǐng)域的發(fā)展?！冈谶^(guò)去10年發(fā)生的這場(chǎng)深度學(xué)習(xí)革命中，自然語(yǔ)言處理在某種程度上是后來(lái)者，」馬薩諸塞大學(xué)洛厄爾分校的計(jì)算機(jī)科學(xué)家Anna Rumshisky 說(shuō)，「從某種意義上說(shuō)，NLP曾落后于計(jì)算機(jī)視覺(jué)，而Transformer改變了這一點(diǎn)?！?/p>

近年來(lái)，Transformer機(jī)器學(xué)習(xí)模型已經(jīng)成為深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)步的主要亮點(diǎn)之一。它主要用于自然語(yǔ)言處理中的高級(jí)應(yīng)用。谷歌正在使用它來(lái)增強(qiáng)其搜索引擎結(jié)果。

Transformer很快成為專注于分析和預(yù)測(cè)文本的單詞識(shí)別等應(yīng)用程序的引領(lǐng)者。它引發(fā)了一波工具浪潮，比如OpenAI的GPT-3可以在數(shù)千億個(gè)單詞上進(jìn)行訓(xùn)練并生成連貫的新文本。

目前，Transformer架構(gòu)不斷發(fā)展并擴(kuò)展到多種不同的變體，從語(yǔ)言任務(wù)擴(kuò)展到其他領(lǐng)域。比如，Transformer已被用于時(shí)間序列預(yù)測(cè)，同時(shí)也是DeepMind的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型 AlphaFold背后的關(guān)鍵創(chuàng)新。

Transformer最近也進(jìn)入了計(jì)算機(jī)視覺(jué)領(lǐng)域，在許多復(fù)雜任務(wù)中它們正在慢慢取代卷積神經(jīng)網(wǎng)絡(luò)(CNN)。

世界模型與Transformers聯(lián)手，其他人怎么看

對(duì)于康奈爾大學(xué)的研究成果，有外國(guó)網(wǎng)友評(píng)論道：「請(qǐng)注意，這兩個(gè)小時(shí)是來(lái)自環(huán)境的鏡頭長(zhǎng)度，在GPU上進(jìn)行訓(xùn)練需要一周的時(shí)間」。

還有人質(zhì)疑：所以這個(gè)系統(tǒng)在一個(gè)特別精確的潛在世界模型上學(xué)習(xí)？該模型不需要預(yù)先訓(xùn)練嗎？

另外，有人覺(jué)得，康奈爾大學(xué)的文森特·米凱利等人的成果并沒(méi)有破天荒的突破：「似乎他們只是訓(xùn)練了世界模型，vqvae和演員評(píng)論家，所有這些都來(lái)自那2個(gè)小時(shí)的經(jīng)驗(yàn)（和大約600個(gè)紀(jì)元）的重播緩沖區(qū)」。

參考資料：https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/?

責(zé)任編輯：武曉燕來(lái)源：新智元

世界模型建模 IRIS

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="npja5"></cite>

<sub id="npja5"></sub>