LeCun用62頁論文公布未來十年研究計劃:AI自主智能
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
這段時間,關(guān)于“AI未來往哪走的”討論,可以說是越來越激烈了。
先是Meta被曝AI相關(guān)部門大重組,又有谷歌AI是否具備人格大討論,幾乎每一次討論都能看到Y(jié)ann LeCun的身影。
現(xiàn)在,LeCun終于坐不住了。
他用一篇長達62頁的最新論文,詳細介紹了他未來十年要做什么樣的AI研究:
自主機器智能(Autonomous Machine Intelligence)。
LeCun表示,在大數(shù)從業(yè)者都不會提前將自己的研究內(nèi)容公布出來的“學術(shù)風氣”下,他這一舉動可以說是很特別了。
究其原因,除了發(fā)揚開放的科學研究精神,也是為了號召更多人一起加入其中,一起研究。
那么,他說的這個自主人工智能,究竟是什么,又要如何開展?
可以模擬世界運作的AI
在論文中,LeCun先是舉了一個例子:
一個年輕人可以最快在20小時內(nèi)就學會開車;
一個當今世界最優(yōu)秀的自動駕駛系統(tǒng),卻要用到數(shù)百萬甚至數(shù)十億條帶標簽的訓練數(shù)據(jù),并在虛擬環(huán)境中進行數(shù)百萬次強化學習才能得出——還完全達不到人類的水平。
從這個例子我們可以得出,盡管我們在人工智能方面的研究取得了不少進展,但離創(chuàng)造出一個能真正像人類一樣思考和學習的AI還差得遠。
LeCun所提出的自主人工智能就是要解決這個問題。
在他看來,對“世界模型”(世界如何運作的內(nèi)部模型)進行學習的能力可能是關(guān)鍵。
眾所周知,人類和其他動物總是能通過觀察和少量互動,就能以無監(jiān)督的方式學習到大量關(guān)于世間萬物如何運轉(zhuǎn)的背景知識。
這些知識就是我們所說的常識,而常識就是構(gòu)成“世界模型”的基礎(chǔ)。
有了常識,我們在不熟悉的場景下也能開展行動。比如開頭那位從來沒有開過車的年輕人,碰到雪地,不用教也知道這樣的路很滑得慢慢開。
此外,常識還可以幫我們填補信息在時間和空間上的缺失。比如一名司機聽到了金屬等物質(zhì)的碰撞聲,即使沒有看到現(xiàn)場,也能知道那可能是有車禍發(fā)生。
在這些概念之上,LeCun提出了構(gòu)建自主人工智能的第一個挑戰(zhàn):
如何設(shè)計一個學習范式和體系架構(gòu),讓機器能夠以自監(jiān)督學習(也就是不需要標注數(shù)據(jù))的方式學習“世界模型”,然后用這個模型去進行預測、推理和行動。
在這里,他重新組合了認知科學、系統(tǒng)神經(jīng)科學、最優(yōu)控制、強化學習和“傳統(tǒng)”人工智能等各個學科中提出的想法,并將它們與機器學習中的新概念相結(jié)合,提出了一個由六個獨立模塊組成的自主智能架構(gòu)。
其中,每個模塊都是可微的,每一個都可以很容易地計算某個目標函數(shù)相對于自己的輸入的梯度估計,并將梯度信息傳播到上游模塊。
六模塊自主智能架構(gòu)
LeCun設(shè)想的六個模塊分別為:
1、配置模塊:負責執(zhí)行控制。給定要執(zhí)行的任務(wù),它可以通過調(diào)節(jié)其他模塊的參數(shù),為任務(wù)預先配置感知模塊、世界模塊等其他三個模塊的值。
2、感知模塊:負責接收來自傳感器的信號并估計世界的當前狀態(tài)。
3、世界模型模塊:是這個架構(gòu)中最復雜的一部分。有兩個作用:
(1)估計感知模塊無法提供的關(guān)于世界狀態(tài)缺失的信息;
(2)預測未來可能的狀態(tài)。由于世界充滿了不確定性,該模塊必須能夠涵蓋出多種可能的預測。
4、成本模塊:用來計算標量(scalar)的輸出,它可以預測智能體的不適程度(discomfort of the agent,智能體受到的損害、違反硬編碼的行為約束等)。
該模塊又有兩個子模塊:
(1)內(nèi)在成本模塊(cost),用來即時計算“不適感”;
(2)評判家(critic):預測內(nèi)在成本模塊的未來值。
5、行動模塊:用來計算要實現(xiàn)的動作序列。行動模塊可以找到一個使未來成本模塊最小化的最優(yōu)動作序列,并以類似于經(jīng)典最優(yōu)控制的方式,以最優(yōu)序列輸出第一個動作。
6、短期內(nèi)存模塊:跟蹤當前和預測的世界狀態(tài)以及相關(guān)成本。
其中,對于這個架構(gòu)的核心——世界模塊,最關(guān)鍵的挑戰(zhàn)是如何使其能夠表示出多個合理的預測。
此外,它在學習世界的抽象表示時,還要學會忽略不相關(guān)的信息,只保留最有用的細節(jié)。
比如在開車時,只需要預測駕駛員周圍的汽車會做什么,不需要預測道路兩旁樹木中每片葉子的詳細位置。
對此,LeCun也給了一個可能的解決方案:
聯(lián)合嵌入預測架構(gòu) (JEPA),用它來處理預測中的不確定性。
同時,他還提出用非對比自監(jiān)督學習對JEPA進行訓練,以及從不同時間尺度上進行預測的分級JEPA,它可以將復雜任務(wù)拆解為一系列不那么抽象的子任務(wù)。
AI待解決的問題還有很多
LeCun表示,對于未來幾十年來說,訓練出來這樣一個世界模型是人工智能要取得突破性進展必須面對的最大挑戰(zhàn)。
目前來看,要想實現(xiàn)上面這個架構(gòu),還有很多方面都有待定義:比如如何精確地訓練critic、如何構(gòu)造和訓練配置器、以及如何使用短期內(nèi)存跟蹤世界狀態(tài),并存儲世界狀態(tài)、動作和相關(guān)內(nèi)在成本的歷史來調(diào)整critic……
除此之外,LeCun也在論文中指出,對于未來的自主人工智能研究:
(1)擴大模型規(guī)模有必要,但不夠;
(2)獎勵機制也不夠,基于觀察的自監(jiān)督學習才是更有效的方式;
(3)推理(reason)和計劃(plan)實質(zhì)上都歸結(jié)于推斷(inference):找到一系列動作和潛在變量,以最小化(可微)目標。這也是使推理與基于梯度的學習能夠兼容的辦法。
(4)在以上這種情況下,可能就不需要明確的符號操作機制了。
更多細節(jié)可以查看論文原文:
https://openreview.net/forum?id=BZ5a1r-kVsf