Richard Sutton:經(jīng)驗(yàn)是AI的終極數(shù)據(jù),四個(gè)階段通向真正AI的發(fā)展之路
導(dǎo)讀:強(qiáng)人工智能的發(fā)展是近年來(lái)關(guān)注的話題。讓AI從人類的感知和行為,而非單純的標(biāo)注數(shù)據(jù)中學(xué)習(xí),成為許多研究者關(guān)注的重點(diǎn)。其中,如何利用人類習(xí)得的日常生活經(jīng)驗(yàn),啟發(fā)構(gòu)建能夠適應(yīng)不同環(huán)境,與外部世界交互的人工智能這成為一些領(lǐng)域探索的新路。
被譽(yù)為強(qiáng)化學(xué)習(xí)之父的Richard Sutton近日提出了利用經(jīng)驗(yàn)啟發(fā)AI發(fā)展的思路。他將AI從利用數(shù)據(jù)到利用經(jīng)驗(yàn)的過程分為四個(gè)發(fā)展階段,提出了未來(lái)構(gòu)建真正AI(Real AI)的發(fā)展方向。2022年5月31日,Richard Sutton在2022北京智源大會(huì)上發(fā)表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對(duì)利用經(jīng)驗(yàn)啟發(fā)AI發(fā)展的方法進(jìn)行了總結(jié)和展望。
講者簡(jiǎn)介:理查德·薩頓(Richard Sutton),現(xiàn)代計(jì)算型強(qiáng)化學(xué)習(xí)創(chuàng)始人之一,是 DeepMind 的杰出研究科學(xué)家,阿爾伯塔大學(xué)計(jì)算科學(xué)系教授,也是英國(guó)皇家學(xué)會(huì)、加拿大皇家學(xué)會(huì)、人工智能促進(jìn)會(huì)、阿爾伯塔機(jī)器智能研究所 (AMII) 和 CIFAR 的研究員。
01. 背景:經(jīng)驗(yàn)對(duì)智能發(fā)展的重要意義
Sutton認(rèn)為,智能體與外部世界發(fā)生交互,向其發(fā)出動(dòng)作,并接收感知(帶來(lái)的反饋)。這種涉及到經(jīng)驗(yàn)的交互,是強(qiáng)化學(xué)習(xí)中正常的感知方式。也是讓智能體嘗試預(yù)測(cè)外部世界時(shí)所采用的正常途徑。然而,這種方法在監(jiān)督學(xué)習(xí)中并不多見,而監(jiān)督學(xué)習(xí)是當(dāng)前最為常見的機(jī)器學(xué)習(xí)類型。機(jī)器學(xué)習(xí)中并不涉及普通經(jīng)驗(yàn)(Ordinary Experience),模型也不會(huì)從不同于普通經(jīng)驗(yàn)的特殊訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。事實(shí)上,在運(yùn)行時(shí),監(jiān)督學(xué)習(xí)系統(tǒng)根本不學(xué)習(xí)。
所以說,經(jīng)驗(yàn)是互動(dòng)(帶來(lái))的數(shù)據(jù),是與外部世界溝通的途徑。經(jīng)驗(yàn)沒有任何意義,除非與其他經(jīng)驗(yàn)之間產(chǎn)生聯(lián)系。當(dāng)然,有一個(gè)例外:經(jīng)由特殊信號(hào)所表示獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)代表著好的目標(biāo),智能體當(dāng)然希望能夠最大化獎(jiǎng)勵(lì)。
演講中,Sutton提出了一個(gè)核心問題:智能最終是可以被什么來(lái)解釋?是客觀的術(shù)語(yǔ)(Objective terms),還是經(jīng)驗(yàn)的術(shù)語(yǔ)(Experiential terms)?前者包含外部世界的狀態(tài)、目標(biāo)、人、地點(diǎn)、關(guān)系、空間、動(dòng)作、距離等不在智能體中的事物,后者則包含感知、動(dòng)作、獎(jiǎng)勵(lì)、時(shí)間步等智能體內(nèi)部的事物。Sutton認(rèn)為,盡管研究者通常會(huì)在交流和寫論文時(shí)思考客觀的概念,但是現(xiàn)在應(yīng)當(dāng)更加關(guān)注有關(guān)智能體與外部世界交互過程中產(chǎn)生的經(jīng)驗(yàn)。
為了進(jìn)一步介紹經(jīng)驗(yàn)對(duì)于智能體的重要意義,Richard Sutton 提出,隨著經(jīng)驗(yàn)逐漸被重視,一共經(jīng)歷了四個(gè)階段。分別為:智能體(Agenthood ),獎(jiǎng)勵(lì)(Reward),經(jīng)驗(yàn)狀態(tài)(Experiential State),以及可預(yù)測(cè)知識(shí)(Predictive Knowledge)。經(jīng)過這四個(gè)階段的發(fā)展,AI逐漸擁有經(jīng)驗(yàn),變得更加實(shí)際、可學(xué)習(xí)且易于擴(kuò)展。
02. 經(jīng)驗(yàn)在AI發(fā)展的歷程
1.智能體(Agenthood)
智能體的含義是擁有/獲得經(jīng)驗(yàn)(的AI)??赡芰钊梭@訝的是,早期的AI系統(tǒng)確實(shí)沒有任何經(jīng)驗(yàn)。在人工智能發(fā)展的早期階段(1954-1985年),大多數(shù)AI系統(tǒng)只是用來(lái)解決問題或回答問題,他們沒有感知能力,也不會(huì)行動(dòng)。機(jī)器人是一個(gè)例外,但傳統(tǒng)的系統(tǒng)只有啟動(dòng)狀態(tài)和目標(biāo)狀態(tài),如同下圖中要堆疊的積木塊一樣。
如果要達(dá)到恰當(dāng)?shù)哪繕?biāo)狀態(tài),其解決方案就是一個(gè)行動(dòng)序列,確保AI能夠從啟動(dòng)狀態(tài)達(dá)到目標(biāo)狀態(tài)。這其中沒有感知和行動(dòng)的存在,因?yàn)檎麄€(gè)外部世界是已知、確定、封閉的,所以并不需要讓AI感知和行動(dòng)。研究者知道什么事情會(huì)發(fā)生,所以只需要構(gòu)建一個(gè)解決問題的計(jì)劃,讓AI來(lái)執(zhí)行即可,人類知道這樣就能解決問題。
在過去30年的發(fā)展中,人工智能的研究關(guān)注構(gòu)建智能體。這種轉(zhuǎn)變可以體現(xiàn)在這一點(diǎn):人工智能的標(biāo)準(zhǔn)教科書囊括了智能體的概念,將其作為基礎(chǔ)。例如,1995年版本的《人工智能:一種現(xiàn)代的方法》中提到,全書的統(tǒng)一主題在于介紹智能體(Intelligent Agent)的概念。在這種視角下,AI的問題在于描述和構(gòu)建智能體,并從環(huán)境中獲得認(rèn)知,并采取行動(dòng)。隨著研究的發(fā)展,標(biāo)準(zhǔn)、現(xiàn)代的方法是構(gòu)建一個(gè)能夠和外部世界交互的智能體。Sutton認(rèn)為可以從這個(gè)視角看待AI。
2.獎(jiǎng)勵(lì)(Reward)
獎(jiǎng)勵(lì)(Reward)是以經(jīng)驗(yàn)的形式來(lái)描述AI的目標(biāo)。這也是當(dāng)前提出的一種有效方法,能夠構(gòu)建AI的所有目標(biāo)。這也是Sutton與其合作者提出的方法。
獎(jiǎng)勵(lì)被認(rèn)為是目前較為充分的一種假說——智能及其相關(guān)的能力都可以被理解為是服務(wù)于最大化獎(jiǎng)勵(lì)的結(jié)果。所以有說法認(rèn)為,獎(jiǎng)勵(lì)對(duì)于智能體而言已經(jīng)足夠了。
然而Sutton認(rèn)為,這一思路是需要被挑戰(zhàn)的。獎(jiǎng)勵(lì)并不足夠?qū)崿F(xiàn)智能。獎(jiǎng)勵(lì)僅僅只是一個(gè)數(shù)字、一個(gè)標(biāo)量,它并不足以解釋智能的目標(biāo)。來(lái)自頭腦之外,僅用單一數(shù)字表達(dá)的目標(biāo),顯得太小、太還原,甚至太貶低(人類的目標(biāo))了。人類喜歡把目標(biāo)想象得更宏大,如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標(biāo)比最大化快樂和舒適更為重要。
正如研究者發(fā)現(xiàn)獎(jiǎng)勵(lì)并不是很好的構(gòu)建目標(biāo)的方法,研究者也發(fā)現(xiàn)了通過獎(jiǎng)勵(lì)構(gòu)建目標(biāo)的優(yōu)勢(shì)。獎(jiǎng)勵(lì)構(gòu)建的目標(biāo)太小,但是人們可以在其中取得進(jìn)展——目標(biāo)可以被良好、清晰地定義,且易于學(xué)習(xí)。這對(duì)于通過經(jīng)驗(yàn)構(gòu)建目標(biāo)而言反而是個(gè)挑戰(zhàn)。
Sutton認(rèn)為,想象通過經(jīng)驗(yàn)來(lái)充分地構(gòu)建目標(biāo),這是有挑戰(zhàn)的?;仡櫄v史可以看到,AI原本也不是對(duì)獎(jiǎng)勵(lì)有興趣的,即使是現(xiàn)在也是如此。所以,不管是早期的問題解決系統(tǒng),還是當(dāng)前最新版的AI教科書,其依然將目標(biāo)定義為需要達(dá)到的世界狀態(tài)(World State),而非經(jīng)驗(yàn)性的(定義)。這種目標(biāo)可能依然是特定的一系列“積木”,不是一種需要達(dá)到的感知結(jié)果。
當(dāng)然,最新的教科書中已經(jīng)有章節(jié)提到強(qiáng)化學(xué)習(xí),并提及這些AI使用的是獎(jiǎng)勵(lì)機(jī)制。此外,構(gòu)建目標(biāo)的過程中,獎(jiǎng)勵(lì)已是一種常規(guī)的做法,可以使用馬爾科夫決策過程來(lái)實(shí)現(xiàn)。對(duì)于批評(píng)獎(jiǎng)勵(lì)不能夠充分構(gòu)建目標(biāo)的研究者(如Yann LeCun)來(lái)說,獎(jiǎng)勵(lì)已經(jīng)是智能這塊“蛋糕”頂端的“櫻桃”了,它很重要。
在接下來(lái)的兩個(gè)階段,Sutton將介紹應(yīng)當(dāng)怎樣從經(jīng)驗(yàn)的角度來(lái)理解外部世界,但在此之前,他將首先介紹經(jīng)驗(yàn)指代的是什么。
3.插曲:什么是經(jīng)驗(yàn)
如下圖的序列(非真實(shí)數(shù)據(jù))所示,當(dāng)時(shí)間步啟動(dòng)的時(shí)候,系統(tǒng)會(huì)得到感知信號(hào),而且也會(huì)發(fā)出信號(hào)和行動(dòng)。所以感知信號(hào)可能會(huì)引起一些動(dòng)作,而這些動(dòng)作會(huì)引起下一個(gè)感知信號(hào)。在任何時(shí)候,系統(tǒng)都需要關(guān)注關(guān)注最近的行動(dòng)和最近的信號(hào),這樣才能決定接下來(lái)將會(huì)發(fā)生什么,應(yīng)當(dāng)怎樣去做。
如圖所示,這是一個(gè)智能體執(zhí)行程序的輸入輸出信號(hào)陣列。第一列是時(shí)間步,每一步可認(rèn)為是0.1秒或0.01秒的瞬間。行動(dòng)信號(hào)列則采用二級(jí)制表示,由灰白兩色表示。之后是感知信號(hào)列,其中前四列是二進(jìn)制值(也使用灰白兩色),后四列則采用0-3的四種取值,用紅黃藍(lán)綠四種顏色表示,最后一列則是連續(xù)變量,代表獎(jiǎng)勵(lì)。在實(shí)驗(yàn)中,研究者將數(shù)字去掉,只留下顏色,以便于在其中尋找模式。Sutton認(rèn)為,經(jīng)驗(yàn),是指對(duì)感覺-運(yùn)動(dòng)經(jīng)驗(yàn)的數(shù)據(jù)中發(fā)現(xiàn)的模式產(chǎn)生的知識(shí)和理解。
在本案例中,Sutton列舉了四個(gè)典型的模式:
1.行動(dòng)的最后一位,和緊隨其后的感知信號(hào)是相同的。如果某一時(shí)間步的行動(dòng)是白色的,其后的第一個(gè)感知信號(hào)也是白色,灰色亦然。
2.當(dāng)出現(xiàn)紅像素時(shí),緊隨其后的一個(gè)時(shí)間步是綠色像素。擴(kuò)大數(shù)據(jù)范圍后可以發(fā)現(xiàn),在紅綠像素先后出現(xiàn)后,隔一個(gè)時(shí)間步會(huì)出現(xiàn)藍(lán)色像素。
3.數(shù)據(jù)的最后三列往往會(huì)出現(xiàn)一長(zhǎng)串同樣顏色,保持不變。一種顏色一旦開始,會(huì)持續(xù)多個(gè)時(shí)間周期,最終形成條紋。如很長(zhǎng)的一串紅色、綠色、藍(lán)色等。
4.如果展示AI預(yù)測(cè)的特定感知數(shù)據(jù),很多時(shí)候這是無(wú)法立刻被觀察到的,因此在本數(shù)據(jù)中增加返回值(Return),其代表著對(duì)將會(huì)到來(lái)的獎(jiǎng)勵(lì)的預(yù)測(cè)。框中的綠色條帶代表了隨后的獎(jiǎng)賞中,綠色會(huì)比紅色多。這代表著當(dāng)前對(duì)于獎(jiǎng)勵(lì)的預(yù)測(cè)。
特殊的陰影區(qū)域則表示等待函數(shù)。等待函數(shù)的陰影區(qū)域中會(huì)有綠色和紅色的條帶。在這里,研究者將越早返回的,帶有顏色獎(jiǎng)勵(lì)給予更高的權(quán)重。當(dāng)隨著返回值根據(jù)時(shí)間移動(dòng)時(shí),就可以看到預(yù)測(cè)結(jié)果和實(shí)際獎(jiǎng)勵(lì)之間的顏色和值的對(duì)應(yīng)變化,這種返回值便是一種預(yù)測(cè)——其可以從經(jīng)驗(yàn)中學(xué)習(xí)到。
Sutton認(rèn)為,這種返回值本質(zhì)上并不是從已經(jīng)發(fā)生的事件中學(xué)習(xí)的,而是從時(shí)間差信號(hào)中學(xué)到的。其中最重要的信號(hào)就是價(jià)值函數(shù)。在本例中,返回值實(shí)際上是一個(gè)價(jià)值函數(shù),代表的是對(duì)于未來(lái)獎(jiǎng)勵(lì)的總和。如果想要一個(gè)一般形式的,復(fù)雜的,能夠指代未來(lái)值的函數(shù),可采用名為一般價(jià)值函數(shù)(General Value Functions GVFs)的方法。一般價(jià)值函數(shù)包括了各種信號(hào),不僅僅是獎(jiǎng)勵(lì);可以是任何時(shí)間包絡(luò)形式,而不僅僅是指數(shù)。一般價(jià)值函數(shù)還可以包括任何隊(duì)列的策略,可以預(yù)測(cè)數(shù)量非常多,范圍很廣的事情。當(dāng)然,Sutton認(rèn)為,通過計(jì)算進(jìn)行預(yù)測(cè),其難易程度取決于被預(yù)測(cè)對(duì)象的形式。當(dāng)使用一般價(jià)值函數(shù)進(jìn)行預(yù)測(cè)時(shí),被預(yù)測(cè)對(duì)象的表達(dá)形式需要被設(shè)計(jì)成易于學(xué)習(xí)的形式,且需要很高的計(jì)算效率。
4.經(jīng)驗(yàn)狀態(tài)(Experiential State)
提到“狀態(tài)”這個(gè)詞,很多研究會(huì)提到的是世界狀態(tài)(World State),這是一個(gè)屬于客觀概念之下的詞語(yǔ)。狀態(tài)指的是對(duì)客觀世界的一種符號(hào)化的描述(反映),能夠和世界本身的情況匹配。例如,對(duì)于積木塊的位置信息(C在A上)等。在最近的一段時(shí)間,一些研究者(如Judea Pearl)提出了概率圖模型,其表示的是世界狀態(tài)的概率分布。一些事件,如“外面下雨,草地是否是濕的?”等,這些事件之間都存在概率關(guān)系。
另一種狀態(tài)是信念狀態(tài)(Belief State),在這種概念中,狀態(tài)是一種概率分布,表示的是離散世界的狀態(tài),其對(duì)應(yīng)的方法被稱為POMDPs(Partially observable Markov decision process)——存在隱藏狀態(tài)變量,其中部分是可觀察到的,可以使用馬爾科夫決策過程進(jìn)行建模。
以上的方法均是客觀的狀態(tài),與經(jīng)驗(yàn)相距甚遠(yuǎn),是研究者一開始嘗試描述世界狀態(tài)的方法。
而與之不同的,是經(jīng)驗(yàn)狀態(tài)。Sutton認(rèn)為,經(jīng)驗(yàn)狀態(tài)指的是整個(gè)世界的狀態(tài)根據(jù)經(jīng)驗(yàn)來(lái)定義。經(jīng)驗(yàn)狀態(tài)是過去經(jīng)驗(yàn)的總結(jié),能夠預(yù)測(cè)和控制未來(lái)將會(huì)獲得的經(jīng)驗(yàn)。
這種構(gòu)造過去經(jīng)驗(yàn),預(yù)測(cè)未來(lái)的做法,在研究中已有體現(xiàn)。例如,強(qiáng)化學(xué)習(xí)任務(wù)之一——雅達(dá)利游戲中,研究者會(huì)用最后四幀的視頻構(gòu)建經(jīng)驗(yàn)狀態(tài),然后預(yù)測(cè)之后的行為。LSTM網(wǎng)絡(luò)中的一些方法,也可以被認(rèn)為是從某種經(jīng)驗(yàn)狀態(tài)中進(jìn)行預(yù)測(cè)。
回看經(jīng)驗(yàn)狀態(tài),它是可以遞歸更新的。經(jīng)驗(yàn)狀態(tài)是整個(gè)過去發(fā)生事情總結(jié)的函數(shù),由于AI需要每時(shí)每刻訪問經(jīng)驗(yàn)狀態(tài),實(shí)現(xiàn)對(duì)接下來(lái)發(fā)生事件的預(yù)測(cè),所以經(jīng)驗(yàn)狀態(tài)的更新是遞歸式的:當(dāng)前時(shí)刻只訪問上一時(shí)刻的經(jīng)驗(yàn)狀態(tài),而上一時(shí)刻經(jīng)驗(yàn)狀態(tài)是對(duì)過去所有發(fā)生過的事件的總結(jié)。到了下一個(gè)時(shí)刻,也只訪問此時(shí)此刻的經(jīng)驗(yàn)狀態(tài),而這個(gè)經(jīng)驗(yàn)狀態(tài)也是對(duì)過去發(fā)生的所有事件的總結(jié)。
下圖顯示了智能體經(jīng)驗(yàn)狀態(tài)的構(gòu)造過程。其中,紅色箭頭表明智能體的基礎(chǔ)工作信號(hào),包括:感覺、行動(dòng)、獎(jiǎng)勵(lì)等。藍(lán)箭頭標(biāo)注的是經(jīng)驗(yàn)狀態(tài)(表征)的方向,從感知中輸出,其負(fù)責(zé)對(duì)每個(gè)時(shí)間步更新其經(jīng)驗(yàn)狀態(tài)。更新的狀態(tài)會(huì)被用來(lái)為行動(dòng)制定策略,或進(jìn)行其他更新。
5.預(yù)測(cè)性知識(shí)(Predictive Knowledge)
知識(shí),如“喬拜登是美國(guó)總統(tǒng)”,“埃菲爾鐵塔在巴黎”等,都是對(duì)于外部客觀世界的一種描述,并不是經(jīng)驗(yàn)性的。但是,類似于“做某事預(yù)計(jì)花費(fèi)X小時(shí)”這類知識(shí),是經(jīng)驗(yàn)知識(shí)。經(jīng)驗(yàn)知識(shí)和客觀知識(shí)之間存在著巨大的差異,這也是對(duì)于AI研究具有挑戰(zhàn)性的一點(diǎn)。
以往的AI研究?jī)A向于將知識(shí)視為一種客觀項(xiàng),盡管近期已經(jīng)有一些研究從經(jīng)驗(yàn)的角度來(lái)看待問題。早期的AI系統(tǒng)沒有經(jīng)驗(yàn),也就無(wú)法進(jìn)行預(yù)測(cè)。而更現(xiàn)代一些的AI將知識(shí)視為客觀的存在。更為先進(jìn)一些的是概率圖模型,但是很多時(shí)候其研究的是兩件同時(shí)發(fā)生的事情之間的概率,而預(yù)測(cè)面向的應(yīng)該是一連串序列事件。
基于對(duì)序列事件的預(yù)測(cè)是具有明確語(yǔ)義屬性的知識(shí)。如果某事情被預(yù)測(cè)會(huì)發(fā)生,AI就可以將預(yù)測(cè)和實(shí)際結(jié)果對(duì)比。而這種預(yù)測(cè)模型,可以被認(rèn)為是一種新的世界知識(shí),即預(yù)測(cè)性知識(shí)。而在預(yù)測(cè)性知識(shí)中,Sutton認(rèn)為最前沿的就是通用價(jià)值函數(shù)(General Value Function)和選擇模型(Option Model)。
Sutton 把世界知識(shí)分為兩類,一是關(guān)于世界狀態(tài)的知識(shí);二是關(guān)于世界狀態(tài)轉(zhuǎn)換的知識(shí)。有關(guān)世界狀態(tài)轉(zhuǎn)換知識(shí)的案例是世界預(yù)測(cè)模型。此處的的世界預(yù)測(cè)模型,并不是初級(jí)形態(tài)的馬科夫決策過程或差分方程。它可以是抽象的狀態(tài),在經(jīng)驗(yàn)狀態(tài)中可以被抽取出來(lái)。由于預(yù)測(cè)是以整個(gè)行為為條件進(jìn)行的,所以在選擇模型中,智能體也可以選擇停止某個(gè)策略,終結(jié)某種條件。有時(shí)候,使用對(duì)于旋律的遷移模型,可以預(yù)測(cè)進(jìn)行了某個(gè)行動(dòng)后的狀態(tài)。以日常生活為例,假設(shè)某人要去城里,他/她會(huì)對(duì)前往市中心的距離、時(shí)間進(jìn)行一個(gè)預(yù)測(cè),對(duì)于超過某個(gè)閾值的行為(如步行10分鐘進(jìn)城),就會(huì)進(jìn)一步預(yù)測(cè)出一個(gè)狀態(tài),如疲憊等。
有了這種能夠延伸行為的模型,其知識(shí)所表示的規(guī)模也可以非常的大。例如,可以根據(jù)一個(gè)行為,預(yù)測(cè)世界狀態(tài),然后根據(jù)狀態(tài)再預(yù)測(cè)下一個(gè)行為......以此類推。
總結(jié)經(jīng)驗(yàn)在AI研究中的發(fā)展歷程,Sutton表示,經(jīng)驗(yàn)是世界知識(shí)的基礎(chǔ),人類本身是通過感知和行動(dòng)來(lái)認(rèn)識(shí)和影響世界的,經(jīng)驗(yàn)是人類獲得信息、采取行動(dòng)的的唯一方式,而且是人類離不開的。遺憾的是,由于經(jīng)驗(yàn)過于主觀化和個(gè)人化,人類仍然不喜歡用經(jīng)驗(yàn)的方式去思考和表達(dá)。經(jīng)驗(yàn)對(duì)于人類太過陌生、反直覺、短暫、復(fù)雜。而經(jīng)驗(yàn)也是主觀、私人的,與他人進(jìn)行交流,或者進(jìn)行驗(yàn)證幾乎是不可能的。
Sutton認(rèn)為,經(jīng)驗(yàn)對(duì)于AI十分重要,有以下幾個(gè)原因。一是經(jīng)驗(yàn)來(lái)自于AI的日常運(yùn)行過程,獲得這些經(jīng)驗(yàn)是無(wú)成本的、自動(dòng)的。同時(shí),AI領(lǐng)域有大量的數(shù)據(jù)用于計(jì)算,因此經(jīng)驗(yàn)提供了通向了解世界的道路,如果世界中的任何事實(shí)都是經(jīng)驗(yàn)性的,那么AI可以從經(jīng)驗(yàn)中學(xué)習(xí)對(duì)世界的認(rèn)識(shí),并在經(jīng)驗(yàn)中進(jìn)行驗(yàn)證。
總結(jié)而言,Sutton認(rèn)為,過去70年的AI發(fā)展歷程中,AI逐漸在增加對(duì)經(jīng)驗(yàn)的重視——獲得經(jīng)驗(yàn)、根據(jù)經(jīng)驗(yàn)設(shè)定目標(biāo)、并根據(jù)經(jīng)驗(yàn)獲得狀態(tài)和知識(shí)。在每一個(gè)階段,對(duì)于人類更為陌生的經(jīng)驗(yàn)研究正在變得更加重要,而且其具有接地氣(Grounding)、可學(xué)習(xí)和可擴(kuò)展的優(yōu)勢(shì)。
03. 未來(lái)AI利用經(jīng)驗(yàn)的方法
Sutton認(rèn)為,目前對(duì)于經(jīng)驗(yàn)利用方面,AI還未完成階段三和四,但是這種趨勢(shì)向前會(huì)越走越遠(yuǎn)。Sutton認(rèn)為,將一切都?xì)w于經(jīng)驗(yàn),是通向真正AI的可行路徑。盡管非常具有挑戰(zhàn)性,但這是能夠理解數(shù)據(jù)流,實(shí)現(xiàn)智能的圖景。最后,Sutton進(jìn)一步凝煉重視感知運(yùn)動(dòng)經(jīng)驗(yàn)的四個(gè)階段,形成一句標(biāo)語(yǔ):“數(shù)據(jù)驅(qū)動(dòng)著人工智能,而經(jīng)驗(yàn)就是終極的數(shù)據(jù)。如果能利用好經(jīng)驗(yàn),我們就可以更快速有力地推動(dòng)人工智能發(fā)展。”