強(qiáng)化學(xué)習(xí)教父新論文探索決策智能體的通用模型:尋找跨學(xué)科共性
強(qiáng)化學(xué)習(xí)和決策多學(xué)科會(huì)議(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是,隨著時(shí)間的推移,多個(gè)學(xué)科對目標(biāo)導(dǎo)向的決策有著共同的興趣。
近日,阿爾伯塔大學(xué)計(jì)算機(jī)科學(xué)系教授、強(qiáng)化學(xué)習(xí)先驅(qū) Richard S. Sutton 在其最新論文《The Quest for a Common Model of the Intelligent Decision Maker》中通過提出決策者的觀點(diǎn)來加強(qiáng)和深化這一前提,該觀點(diǎn)在心理學(xué)、人工智能、經(jīng)濟(jì)學(xué)、控制理論和神經(jīng)科學(xué)等領(lǐng)域得到實(shí)質(zhì)和廣泛的應(yīng)用,他稱之為「智慧智能體的通用模型」。通常模型不包含任何特定于任何有機(jī)體、世界或應(yīng)用域的東西,而涵蓋了決策者與其世界交互的各個(gè)方面(必須有輸入、輸出和目標(biāo))以及決策者的內(nèi)部組件(用于感知、決策、內(nèi)部評估和世界模型)。
論文地址:https://arxiv.org/pdf/2202.13252.pdf
Sutton 確定了這些方面和組件,指出它們在不同學(xué)科中被賦予不同的名稱,但本質(zhì)上指向相同的思路。他探討了設(shè)計(jì)一個(gè)可跨學(xué)科應(yīng)用的中性術(shù)語面臨的挑戰(zhàn)和帶來的益處,并表示是時(shí)候認(rèn)可并在智慧智能體的實(shí)質(zhì)性通用模型上構(gòu)建多樣化學(xué)科的融合了。
DeepMind Alberta 杰出研究科學(xué)家、強(qiáng)化學(xué)習(xí)教父 Richard S. Sutton
探索決策者的通用模型
RLDM 的前提是所有對「隨時(shí)間推移學(xué)習(xí)和決策以實(shí)現(xiàn)目標(biāo)」感興趣的學(xué)科融合在一起并共享觀點(diǎn)是有價(jià)值的。心理學(xué)、神經(jīng)科學(xué)等自然科學(xué)學(xué)科、人工智能、優(yōu)化控制理論等工程科學(xué)學(xué)科以及經(jīng)濟(jì)學(xué)和人類學(xué)等社會(huì)科學(xué)學(xué)科都只部分關(guān)注智能決策者。各個(gè)學(xué)科的觀點(diǎn)不同,但有相通的元素??鐚W(xué)科的一個(gè)目標(biāo)是確定共同核心,即決策者對所有或許多學(xué)科共有的那些方面。只要能夠建立這樣一個(gè)決策者的通用模型,就可以促進(jìn)思想和成果的交流,進(jìn)展可能會(huì)更快,獲得的理解也可能會(huì)更加基礎(chǔ)和持久。
探索決策者的通用模型并不新鮮。衡量其當(dāng)前活力的一個(gè)重要指標(biāo)是 RLDM 和 NeurIPS 等跨學(xué)科會(huì)議以及《神經(jīng)計(jì)算》、《生物控制論》和《適應(yīng)行為》等期刊的成功。很多科學(xué)洞見可以從跨學(xué)科互動(dòng)中獲得,例如貝葉斯方法在心理學(xué)中的廣泛應(yīng)用、多巴胺在神經(jīng)科學(xué)中的獎(jiǎng)勵(lì)預(yù)測誤差解釋以及在機(jī)器學(xué)習(xí)中長期使用的神經(jīng)網(wǎng)絡(luò)隱喻。盡管很多這些學(xué)科之間的重要關(guān)系與學(xué)科本身一樣古老,但遠(yuǎn)遠(yuǎn)未解決。為了找到學(xué)科之間、甚至一個(gè)學(xué)科內(nèi)部之間的共性,人們必須忽略很多分歧。我們必須要有選擇性,從大局出發(fā),不要期望沒有例外發(fā)生。
因此,在這篇論文中,Sutton 希望推進(jìn)對智能決策者模型的探索。首先明確地將探索與富有成效的跨學(xué)科互動(dòng)區(qū)分開來;其次強(qiáng)調(diào)目標(biāo)是作為高度跨學(xué)科的累積數(shù)值信號(hào)的最大化;接著又強(qiáng)調(diào)了決策者的特定內(nèi)部結(jié)構(gòu),即以特定方式交互的四個(gè)主要組件,它們?yōu)槎鄠€(gè)學(xué)科所共有;最后突出了掩蓋領(lǐng)域之間共性的術(shù)語差異,并提供了鼓勵(lì)多學(xué)科思維的術(shù)語。
交互術(shù)語
決策者隨時(shí)間推移做出決策,可以分為離散的步驟,在每個(gè)步驟接收新信息并做出可能影響之后所接收信息的決策。也就是說,隨著時(shí)間推移,與交換的信號(hào)產(chǎn)生交互。對于信號(hào)和交換信號(hào)的實(shí)體,我們應(yīng)該使用什么術(shù)語呢?在心理學(xué)中,決策者是有機(jī)體,它接收刺激并向環(huán)境發(fā)送響應(yīng)。在控制理論中,決策者被稱為控制者,接收狀態(tài)并向受控體發(fā)送控制信號(hào)。決策者在其他領(lǐng)域使用其他術(shù)語,這就說明了挑戰(zhàn)的存在,即找到不會(huì)令讀者對某個(gè)領(lǐng)域產(chǎn)生偏見的術(shù)語,而是促進(jìn)跨學(xué)科邊界的思考。
開始建立術(shù)語的一個(gè)好方法是闡明這些詞語想要和不想要傳達(dá)的意思。后者對我們來說尤其重要,因?yàn)槲覀儾幌Mg(shù)語喚起特定于任何具體學(xué)科的直覺。例如,將決策者成為有機(jī)體會(huì)干擾將它看作機(jī)器,就像在人工智能中一樣。決策者的本質(zhì)在于它的行動(dòng)具有一定的自主性,對輸入非常敏感,并對未來的輸入具有傾向性影響。對于決策者的一個(gè)很好的稱呼是智能體,它的定義是「扮演積極決策或產(chǎn)生特定效果的人或物」。人工智能領(lǐng)域通常使用智能體來表述決策者,可能是機(jī)器或人。智能體也比決策者更可取,因?yàn)樗馕吨灾餍院湍康男浴?/span>
那么決策智能體與什么進(jìn)行交互呢?答案是它能與所有不是智能體的一切事物產(chǎn)生交互,這可以被稱作它的環(huán)境或世界。這兩個(gè)術(shù)語與特定學(xué)科沒有強(qiáng)關(guān)聯(lián),但本文選擇世界的原因在于它更簡單,同時(shí)不與任何特定學(xué)科產(chǎn)生關(guān)聯(lián)的方式令人印象深刻。如下圖所示,為了完成智能體與世界交互的場景,我們必須為每個(gè)方向上傳遞的信號(hào)命名??梢院茏匀坏卣f,智能體采取了行動(dòng),并接收到了感知或觀察。這里使用了觀察,因?yàn)樗怯糜诖四康牡募榷ㄐg(shù)語,并且避免了關(guān)于機(jī)器是否有感知的形而上學(xué)討論。在標(biāo)準(zhǔn)用法中,觀察指的是可能不完整的關(guān)于世界狀態(tài)的信息。
基本規(guī)則
前面的討論闡釋了 Sutton 在術(shù)語方面想要遵循的基本規(guī)規(guī)則和步驟,具體如下:
- 確定詞語想要表達(dá)的獨(dú)立于學(xué)科的含義;
- 找到一個(gè)能夠捕獲該含義且不會(huì)過度偏向一個(gè)或另一個(gè)學(xué)科的常識(shí)詞語;
- 重復(fù)前兩個(gè)步驟,直到發(fā)現(xiàn)跨學(xué)科共性。
Sutton 遵循的第二種基本規(guī)則不是關(guān)于術(shù)語,而是關(guān)乎內(nèi)容。當(dāng)我們想要開發(fā)一個(gè)通用決策模型時(shí),應(yīng)該包含和排除哪些方面?他試圖遵循的規(guī)則是涵蓋領(lǐng)域(field)的交集而不是并集。也就是說,為了包含一個(gè)方面,它僅出現(xiàn)在一個(gè)領(lǐng)域是不夠的,至少要與其他很多(如果不是全部)領(lǐng)域產(chǎn)生關(guān)聯(lián)。通用模型的各個(gè)方面隨時(shí)間推移必須普遍適用于所有決策,以實(shí)現(xiàn)一個(gè)目標(biāo)。
通用模型中不應(yīng)有任何特定于我們世界的內(nèi)容,例如視覺、目標(biāo)、三維空間、其他智能體或語言。我們排除的簡單例子是使人們與眾不同并異于其他動(dòng)物的所有事物,或者動(dòng)物通過進(jìn)化以適應(yīng)它們生態(tài)環(huán)境的所有特定知識(shí)。這些都是人類學(xué)和行為學(xué)中特別重要的主題,真正提高了我們對自然智能系統(tǒng)的理解,但在通用模型中沒有位置。同樣地,我們排除了由人類設(shè)計(jì)師在人工只能系統(tǒng)中構(gòu)建的所有領(lǐng)域知識(shí),以開發(fā)出需要更少訓(xùn)練的應(yīng)用。所有這些在各自學(xué)科內(nèi)部都很重要,但與旨在應(yīng)用于跨學(xué)科的通用模型是無關(guān)的。
除了促進(jìn)跨學(xué)科互動(dòng)之外,通用決策模型可能還有其他用途。由于現(xiàn)有學(xué)科和它們的價(jià)值已經(jīng)建立,因此很容易看到學(xué)科內(nèi)部的共性成果。了解自然系統(tǒng)具有清晰的科學(xué)價(jià)值,創(chuàng)建更有用的工程產(chǎn)品具有顯著的實(shí)用價(jià)值。但是,如果不考慮智能決策與自然決策的關(guān)系,也不考慮智能決策產(chǎn)品的實(shí)際效用,那么理解智能決策的過程是不是就沒有科學(xué)價(jià)值呢?Sutton 認(rèn)為是這樣。智能決策不是目前已確定的科學(xué),但也許有一天會(huì)成為獨(dú)立于生物學(xué)或其工程應(yīng)用的決策科學(xué)。
加性獎(jiǎng)勵(lì)
現(xiàn)在來討論決策智能體的目標(biāo)。現(xiàn)在,大多數(shù)學(xué)科根據(jù)在智能體直接控制之外產(chǎn)生的標(biāo)量信號(hào)來指定智能體的目標(biāo),因此我們將其生成置于世界中。在一般情況下,這一信號(hào)在每個(gè)時(shí)間步到達(dá),目標(biāo)是最大化總和。這種加性獎(jiǎng)勵(lì)可用于將目標(biāo)表述為折扣總和或有限范圍內(nèi)總和,也或者是基于每個(gè)時(shí)間步的平均獎(jiǎng)勵(lì)。用于表述獎(jiǎng)勵(lì)的名稱有很多,比如報(bào)酬(payoff)、收益(gain)或者效用(utility),以及最小化獎(jiǎng)勵(lì)時(shí)的成本(cost)。如果允許成本為負(fù),則成本和最小化在形式上是等價(jià)的。一個(gè)更簡單但仍然流行的目標(biāo)概念是要達(dá)到的世界狀態(tài)。目標(biāo)狀態(tài)有時(shí)也可以用,但不如加性獎(jiǎng)勵(lì)通用。例如,目標(biāo)狀態(tài)無法維護(hù)目標(biāo),也無法明確說明時(shí)間成本與不確定性之間的權(quán)衡,但所有這些都可以通過加性框架輕松地處理。
加性獎(jiǎng)勵(lì)具有悠久的跨學(xué)科歷史。在心理學(xué)中,獎(jiǎng)勵(lì)主要用于使動(dòng)物愉悅的外部物體或事件,即使這種愉悅感源于該物體與以更基本的方式獲得回報(bào)的事物的關(guān)聯(lián)——初級強(qiáng)化物(primary reinforcer) 。今天在運(yùn)籌學(xué)、經(jīng)濟(jì)學(xué)和人工智能中對獎(jiǎng)勵(lì)的使用僅限于更重要的信號(hào),并且是接收到的信號(hào),而不是與外部對象或事件相關(guān)聯(lián)。隨著 1960 年代最優(yōu)控制和運(yùn)籌學(xué)研究中馬爾可夫決策過程的發(fā)展,這種用法似乎已經(jīng)確立。它現(xiàn)在已成為廣泛學(xué)科的標(biāo)準(zhǔn),包括經(jīng)濟(jì)學(xué)、強(qiáng)化學(xué)習(xí)、神經(jīng)科學(xué)、心理學(xué)、運(yùn)籌學(xué)和人工智能的多個(gè)子領(lǐng)域。
決策智能體標(biāo)準(zhǔn)組件
現(xiàn)在我們轉(zhuǎn)向智能體內(nèi)部結(jié)構(gòu),智能體通用模型的內(nèi)部結(jié)構(gòu)通常由四部分組成:感知、反應(yīng)策略、價(jià)值函數(shù)、轉(zhuǎn)換模型,如下圖所示。這四個(gè)組件對許多學(xué)科來說都是通用的,但很少有智能體能夠包含全部,當(dāng)然,有些特定智能體可能還包括其他部分,下面 Sutton 介紹了這四個(gè)組件。
感知組件可處理觀察、動(dòng)作流以產(chǎn)生主觀狀態(tài),這是迄今為止對智能體 - 世界交互作用的總結(jié),對于選擇動(dòng)作(反應(yīng)策略)、預(yù)測未來獎(jiǎng)勵(lì)(價(jià)值函數(shù))和預(yù)測未來主觀狀態(tài)(轉(zhuǎn)換模型)很有用。狀態(tài)是主觀的,因?yàn)樗窍鄬τ谥悄荏w的觀察和動(dòng)作,可能不符合真實(shí)世界的內(nèi)部運(yùn)作。通常,主觀狀態(tài)的構(gòu)建是固定的,在這種情況下,智能體被假定為直接接收主觀狀態(tài)作為一種觀察。例如,在 Atari 游戲中,主觀狀態(tài)可能是最后 4 個(gè)視頻幀及其相鄰動(dòng)作。在貝葉斯方法中,主觀狀態(tài)確實(shí)與世界的內(nèi)部運(yùn)作有關(guān)系:主觀狀態(tài)的目的是近似世界內(nèi)部使用潛在狀態(tài)的概率分布。在預(yù)測狀態(tài)方法中,主觀狀態(tài)是一組預(yù)測。在深度學(xué)習(xí)中,主觀狀態(tài)通常是遞歸人工神經(jīng)網(wǎng)絡(luò)的瞬間活動(dòng)。在控制理論中,感知組件的計(jì)算通常被稱為狀態(tài)識(shí)別或狀態(tài)估計(jì)。
一般而言,感知組件應(yīng)具有遞歸形式,這允許智能體從先前的主觀狀態(tài)、最近的觀察和最近的動(dòng)作有效地計(jì)算主觀狀態(tài),而無需重新審視先前冗長的觀察和動(dòng)作。感知組件必須具有快速處理的能力,即在智能體 - 世界交互的連續(xù)時(shí)間步之間的時(shí)間間隔內(nèi)很好地完成。
通用模型的反應(yīng)策略組件將主觀狀態(tài)映射到一個(gè)動(dòng)作。與感知一樣,反應(yīng)策略必須快速,感知速度和反應(yīng)策略共同決定了智能體的整體反應(yīng)時(shí)間。有時(shí)感知和反應(yīng)策略被放在一起處理,就像端到端學(xué)習(xí)一樣。將動(dòng)作生成分為感知和策略,在許多學(xué)科中都很常見。在工程學(xué)中,人們通常認(rèn)為感知是給定的,而不是學(xué)習(xí)到的,甚至不是智能體的一部分。工程顯然有反應(yīng)策略的思想,通常是通過分析計(jì)算或推導(dǎo)出來的。人工智能系統(tǒng)通常假設(shè)在動(dòng)作之前可以有大量處理過程(例如,下棋程序)。在心理學(xué)中,通常將感知視為支持但先于動(dòng)作的感知,并且可以獨(dú)立于對特定動(dòng)作的影響進(jìn)行研究。
通用模型的價(jià)值函數(shù)組件將主觀狀態(tài)(或狀態(tài) - 動(dòng)作對)映射到標(biāo)量評估,操作上定義為預(yù)期累積獎(jiǎng)勵(lì)。這種評估速度很快,并且獨(dú)立于直覺等因素,但可能基于長期經(jīng)驗(yàn)(甚至基于專家設(shè)計(jì))或來自有效存儲(chǔ)或緩存的廣泛計(jì)算。無論哪種方式,研究者都可以快速調(diào)用評估,以支持改變反應(yīng)策略的進(jìn)程。
價(jià)值函數(shù)具有非常廣泛的多學(xué)科歷史。在經(jīng)濟(jì)學(xué)中,它們被稱為效用函數(shù);在心理學(xué)中,它們與次級強(qiáng)化物的舊觀念和獎(jiǎng)勵(lì)預(yù)測的新觀念有關(guān)。價(jià)值函數(shù)這個(gè)術(shù)語最初來自動(dòng)態(tài)規(guī)劃,然后在強(qiáng)化學(xué)習(xí)中得到應(yīng)用,其中價(jià)值函數(shù)被廣泛用作理論和大多數(shù)學(xué)習(xí)方法的關(guān)鍵組成部分。在神經(jīng)科學(xué)中,價(jià)值函數(shù)中的誤差或獎(jiǎng)勵(lì)預(yù)測誤差被假設(shè)為對神經(jīng)遞質(zhì)多巴胺的相位信號(hào)的解釋。
智能體通用模型的第四個(gè)也是最后一個(gè)組件,即轉(zhuǎn)換模型,它接收狀態(tài)并預(yù)測如果采取不同動(dòng)作智能體會(huì)產(chǎn)生什么樣的下一個(gè)狀態(tài)。轉(zhuǎn)換模型可以稱為世界模型,但這種說法會(huì)夸大轉(zhuǎn)換模型作用。轉(zhuǎn)換模型用于模擬各種動(dòng)作的影響,并在價(jià)值函數(shù)的幫助下,評估可能的結(jié)果并改變反應(yīng)策略,以支持具有預(yù)測良好結(jié)果的動(dòng)作,以及反對具有預(yù)測不良結(jié)果的動(dòng)作。
轉(zhuǎn)換模型在許多學(xué)科中扮演著重要的角色。在心理學(xué)中,自 Kenneth Craik (1943) 和 Edward Tolman (1948) 的研究以來,由轉(zhuǎn)換模型和感知提供的世界內(nèi)部模型一直是杰出的思想模型。在神經(jīng)科學(xué)領(lǐng)域,包括 Karl Friston 和 Jeff Hawkins 在內(nèi)的理論家們開始廣泛地發(fā)展大腦理論。最近在心理學(xué)上,Daniel Kahneman(2011) 提出了兩個(gè)心理系統(tǒng)的概念,第一系統(tǒng)和第二系統(tǒng)。在控制理論和運(yùn)籌學(xué)研究中,研究者通常使用多種形式的轉(zhuǎn)換模型,包括微分方程模型、差分方程和馬爾可夫模型。在強(qiáng)化學(xué)習(xí)中,基于模型的學(xué)習(xí)方法早已被提出,它們已經(jīng)開始在大型應(yīng)用中發(fā)揮效用。在現(xiàn)代深度學(xué)習(xí)領(lǐng)域,Yoshua Bengio、Yann LeCun 和 Jurgen Schmidhuber 等著名研究者都將世界預(yù)測模型置于他們思想理論的中心位置。
限制和評估
這是一個(gè)在尋找通用智能體模型任務(wù)上的簡單方式。本文簡要提出的所有觀點(diǎn)都值得詳細(xì)闡述,并對歷史進(jìn)行更深入的處理。然而,主要觀點(diǎn)似乎很清楚。我們已經(jīng)為通用模型提出了一個(gè)突出的候選者。它的外部接口——在智能體、世界、動(dòng)作、觀察和獎(jiǎng)勵(lì)方面是通用的、自然的,并且在自然科學(xué)和工程學(xué)中都被廣泛采用。智能體的四個(gè)內(nèi)部組成部分也各自具有悠久而廣泛的多學(xué)科傳統(tǒng)。
本文提出的通用模型可能會(huì)因?yàn)檫z漏的內(nèi)容而受到批評。例如除獎(jiǎng)勵(lì)之外,它沒有明確的觀察預(yù)測作用,也沒有對探索、好奇心或內(nèi)在動(dòng)機(jī)的處理。并且所有四個(gè)組成部分都必須涉及學(xué)習(xí),但這里我們僅在反應(yīng)性策略中描述了學(xué)習(xí),而且只是籠統(tǒng)的。讀者們無疑會(huì)對通用模型沒有包含部分功能感到失望,認(rèn)為這些功能的重要性被低估了。
例如,我認(rèn)為智能體為自己提出的輔助子任務(wù)(Sutton et al. 2022)是智能體開發(fā)抽象認(rèn)知結(jié)構(gòu)的重要且未被充分重視的手段。然而,正是因?yàn)檩o助子任務(wù)沒有得到廣泛的認(rèn)可,它們不應(yīng)該出現(xiàn)在智能體的通用模型中,它們也沒有得到跨學(xué)科的充分認(rèn)可。
本文提出的通用模型智能體目的不是為了成為最好最新的,而是希望能夠成為一個(gè)出發(fā)點(diǎn)。它力求成為一個(gè)簡單的設(shè)計(jì),在許多學(xué)科中得到很好的廣泛理解。每當(dāng)研究人員引入新智能體設(shè)計(jì)時(shí),通用模型都意味著作為一個(gè)標(biāo)準(zhǔn),可以用來解釋新設(shè)計(jì)與通用模型的不同之處或擴(kuò)展。