強化學習大牛Sergey Levine:將RL作為可擴展自監(jiān)督學習的基礎
目前,機器學習系統(tǒng)可以解決計算機視覺、語音識別和自然語言處理等諸多領(lǐng)域的一系列挑戰(zhàn)性問題,但設計出媲美人類推理的靈活性和通用性的學習賦能(learning-enable)系統(tǒng)仍是遙不可及的事情。這就引發(fā)了很多關(guān)于「現(xiàn)代機器學習可能缺失了哪些成分」的討論,并就該領(lǐng)域必須解決哪些大問題提出了很多假設。
問題來了:這些缺失的成分是因果推理、歸納偏置、更好的自監(jiān)督或無監(jiān)督學習算法,還是其他完全不同的東西?在今年 10 月份的論文中,強化學習大牛、UC 伯克利電氣工程與計算機科學助理教授 Sergey Levine 提出并對這一問題進行了深入探討。
該研究認為利用強化學習可以衍生出一個通用的、有原則的、功能強大的框架來利用未標記數(shù)據(jù),使用通用的無監(jiān)督或自監(jiān)督強化學習目標,配合離線強化學習方法,可以利用大型數(shù)據(jù)集。此外,該研究還討論了這樣的過程如何與潛在的下游任務更緊密地結(jié)合起來,以及它如何基于近年來開發(fā)的現(xiàn)有技術(shù)實現(xiàn)的。

論文地址:https://arxiv.org/pdf/2110.12543.pdf
他認為這個問題很難回答,任何答案必然涉及大量猜想,但我們從人工智能近來的進展中吸取的教訓可以提供幾個指導原則。
第一個教訓是需要大量訓練數(shù)據(jù)的大規(guī)模通用模型的「不合理」有效性。正如阿爾伯塔大學計算機科學系教授 Richard S. Sutton 在其文章《The Bitter Lesson》中以及機器學習領(lǐng)域大量其他研究者所表達的那樣,機器學習近來的研究主題始終是「高效利用大量計算和數(shù)據(jù)的方法通常優(yōu)于依賴手動設計的先驗和啟發(fā)式方法」。雖然探討造成這一趨勢的原因超出了本文的探討范圍,但可以總結(jié)(或夸張地描述)如下:當我們?yōu)槟P驮O計偏見或先驗時,我們正在注入自己關(guān)于世界如何運作的不完善的知識,這使得模型得出了比我們自身設計的還要準確的結(jié)果,因而也會工作地更好。
事實上,在人們?nèi)绾潍@得熟練程度方面也表現(xiàn)出類似的模式,正如 UC 伯克利名譽教授 S.E. Dreyfus 等在著作《Philosophy and technology II》中所討論的那樣,遵循我們可以明確表達出的規(guī)則的「rule-based」推理往往只會為人們提供各種技能的「新手級」表現(xiàn),而「專家級」表現(xiàn)往往與人們難以清晰表達的各種特例、例外情況和模式息息相關(guān)。正如 Dreyfus 所指出的,真正的人類專家很少能夠清楚地闡明他們所展示的專業(yè)知識所遵循的規(guī)則。因此,正如人類必須要從經(jīng)驗中獲得專業(yè)知識一樣,機器學習也必須如此。為此,研究者認為,我們需要強大的、高容量的模型,這些模型施加的偏見較少并且可以處理大量所需的經(jīng)驗。
第二個近期得到的教訓是人工標記和監(jiān)督在規(guī)模上遠遠不如無監(jiān)督或自監(jiān)督學習。我們看到,無監(jiān)督預訓練已經(jīng)成為了自然語言處理的標準,并且可能將很快也成為其他領(lǐng)域的標準。從某種意義上來講,這個教訓是第一個教訓的必須結(jié)果:如果大模型和大數(shù)據(jù)集最有效,那么任何限制模型和數(shù)據(jù)集大小的事情最終都將會成為瓶頸。人類監(jiān)督可能就是這樣一種瓶頸:如果所有數(shù)據(jù)都必須由人工標記,則系統(tǒng)從中學習所需的數(shù)據(jù)就會減少。但這里,我們遇到了一個難題:當前沒有人類標簽的學習方法往往違反第一個教訓的原則,即需要大量的人類洞察力(通常是特定領(lǐng)域的)來設計允許大模型從未標注數(shù)據(jù)集中獲得有意義知識的自監(jiān)督學習目標。這些包括語言建模等相對簡單的任務,以及「預測兩個轉(zhuǎn)換后的圖像是否由同一個原始圖像還是兩個不同的圖像各自生成」的更深奧的任務。后者是計算機視覺領(lǐng)域現(xiàn)代自監(jiān)督學習中廣泛使用且表現(xiàn)成功的方法。雖然這些方法在一定程度上有效,但我們將面臨的下一個瓶頸可能是在無需人工標記或手動設計自監(jiān)督目標時決定如何訓練大模型,從而使得到的模型既可以對世界有深刻和有意義的理解,也能夠在執(zhí)行下游任務時表現(xiàn)出穩(wěn)健泛化性(robustness generalization)和一定程度的常識。
在作者看來,這種方法論可以從當前基于學習的控制(強化學習, RL)算法中開發(fā)出來,盡管需要大量的算法創(chuàng)新才能使這類方法能夠顯著超越它們迄今為止所能解決的問題類型。這一想法的核心是這樣一種概念:為了使用不同的和以目標為導向的方式控制環(huán)境,自主智能體必須發(fā)展對它們所處的因果和可泛化的環(huán)境的理解,因此可以克服當前監(jiān)督式模型的很多缺點。
與此同時,這還需要在以下兩個重要方面超越當前的強化學習范式。一方面,強化學習算法需要用戶手動指定任務目標即獎勵函數(shù),然后學習完成該任務目標所需的行為,當然,這種做法極大地限制了智能體在無人類監(jiān)督時的學習能力;另一方面,現(xiàn)在常用的強化學習算法本質(zhì)上不是數(shù)據(jù)驅(qū)動的,而是從在線經(jīng)驗中學習。盡管此類方法可以直接部署在真實世界環(huán)境中,但在線主動數(shù)據(jù)收集限制了它們在此類設置中的泛化能力。另外,強化學習的很多用例是發(fā)生在模擬環(huán)境中,因而很少有機會學習現(xiàn)實世界如何運作的。
通過行動進行學習
人工智能系統(tǒng)之所以有用,是因為它們提供了可用于決策的推理,反過來推理又能影響世界。因此,我們可以得出這樣的結(jié)論:一般的學習目標應該是為學習那些最有用、最有意義的事情提供動力。我們應該考慮強化學習如何為訓練高容量模型提供自動化和原則性的目標,賦予模型理解、推理和泛化的能力。
然而,這面臨兩個限制:強化學習需要手動定義獎勵函數(shù),此外,強化學習還需要一種主動學習范式。為了解決帶有目標的問題,研究者開始開發(fā)新的算法,這些方法不同于執(zhí)行單個用戶指定的任務,而是旨在推理出所有可能結(jié)果。這些方法潛在目標包括學習達到任何可行狀態(tài)、學習最大化潛在目標和結(jié)果之間的交互信息、通過有原則的內(nèi)在動機目標學習得到覆蓋廣泛的結(jié)果。為了解決數(shù)據(jù)問題,研究者必須開發(fā)強化學習算法,以有效利用以前收集的數(shù)據(jù)集,其中離線強化學習算法提供了在多樣性數(shù)據(jù)集上訓練 RL 系統(tǒng)的途徑,其方式與監(jiān)督學習大致相同,然后進行一定量的主動在線微調(diào)以獲得最佳性能 。

舉例來說,想象一個機器人執(zhí)行各種任務,當給定用戶指定的目標時,機器人執(zhí)行該目標。然而,在機器人的「空閑時間 spare time」,機器人會想象它可以產(chǎn)生的潛在結(jié)果,然后機器人通過「實踐 practices」采取行動來產(chǎn)生這些結(jié)果。每一次這樣的實踐都會加深機器人對世界因果結(jié)構(gòu)的理解。
當然,在現(xiàn)實世界中以上述方式部署的商業(yè)機器人系統(tǒng)在概念上似乎有些牽強。這也正是離線 RL 重要的原因:由于離線算法與經(jīng)驗來源無關(guān),因此機器人完成用戶指定目標與「playing」所花費的時間比例可以調(diào)整為任一極端,甚至一個將所有時間都花在執(zhí)行用戶指定任務上的系統(tǒng),仍然可以將其收集的經(jīng)驗用作離線訓練數(shù)據(jù)來學習,以實現(xiàn)預期結(jié)果。這樣的系統(tǒng)仍會與環(huán)境「play」,但只是在其「記憶 memories」中進行了虛擬化。
機器人系統(tǒng)可能是實例化這種設計最明顯的領(lǐng)域,但這種設計不局限于機器人。任何具有明確定義行動概念的系統(tǒng)都可以通過這種方式進行訓練,例如推薦系統(tǒng)、自動駕駛汽車、庫存管理和物流系統(tǒng)、對話系統(tǒng)等等。
在許多設置下,在線探索可能行不通,但通過離線 RL 以無監(jiān)督結(jié)果驅(qū)動目標進行學習是可行的。如前所述,ML 系統(tǒng)由于能夠做出智能決策非常有用。因此,任何有用的 ML 系統(tǒng)都處于一個順序過程中,在這個過程中決策是可能的,因此,這種自監(jiān)督的學習程序應該是適用的。
無監(jiān)督和自監(jiān)督強化學習
無監(jiān)督或自監(jiān)督強化學習應該滿足兩個標準:首先其所學習的行動應該是以有意義的方式控制世界,此外,其能夠提供一些機制來學習以盡可能多的方式控制自身行動。
公式化自監(jiān)督 RL 目標最直接方法是將其構(gòu)建為達到目標狀態(tài)的問題,該問題對應于訓練目標條件策略 π(a|s, g),并選擇一些獎勵函數(shù) r(s, g)。雖然這個獎勵函數(shù)本身可能構(gòu)成一個手動設計的目標,但同時也可以推導出一個框架,其中獎勵函數(shù)是解決定義明確推理問題的結(jié)果,例如預測最有可能導致特定結(jié)果動作的問題。這個問題公式與密度估計 、變分推理 、基于模型的強化學習和探索相關(guān)聯(lián)。
一個經(jīng)過訓練以達到所有可能目標的策略能從世界中學到什么?正如最近的研究和 RL 中的經(jīng)典文獻所指出的,解決這種目標制約的 RL 問題對應于學習一種動力學模型。從直觀上講,要想實現(xiàn)任何潛在的預期結(jié)果,就需要深入理解行動如何影響長期環(huán)境。當然,有人可能會想,為什么不直接學習基于模型的 RL 中更常用的動態(tài)模型呢?模型學習也可能是利用不同數(shù)據(jù)集的有效方法,而不需要特定用戶提供目標。因此,如果 ML 系統(tǒng)的最終目標是帶來預期的結(jié)果,我們可以預測最終得出的目標和期望的目標一致。
然而,當前方法會受到許多限制,即使是 goalreaching 條件下的 RL 方法也難以使用、穩(wěn)定性不好。但更重要的是,goalreaching 并不涵蓋 RL 中可以指定的全部可能任務。即使智能體學會了在給定環(huán)境中成功完成所有可能的結(jié)果,也可能不會存在一個單一的期望結(jié)果來最大化任意用戶指定的獎勵函數(shù)。這種以目標為條件的策略可能已經(jīng)學習了強大且廣泛適用的特征,并且可以很容易地針對下游任務進行微調(diào),但對未來工作而言,一個有趣的問題是,更好地理解更普遍的自監(jiān)督目標是否能夠消除這種限制。目前,研究者已經(jīng)提出了許多用于無監(jiān)督獲得技能的方法,因此,我們可以合理地提問,是否可以在此基礎上推導出更普遍和更有原則的自監(jiān)督強化學習目標。
離線強化學習
如前所述,即使在是在在線收集無法實現(xiàn)的情況下,離線 RL 也 可以應用自監(jiān)督或無監(jiān)督 RL 方法,并且此類方法能夠作為將大型多樣化數(shù)據(jù)集納入自監(jiān)督 RL 中的最強大的工具之一。這對于使其成為真正可行且通用的大規(guī)模表示學習工具至關(guān)重要。但是,離線 RL 提出了很多挑戰(zhàn),其中最重要的是需要它回答反事實問題:給定顯示出結(jié)果的數(shù)據(jù),我們是否可以預測在采取不同的行動時會發(fā)生什么?這非常具有挑戰(zhàn)性。
盡管如此,對離線 RL 的理解在過去幾年取得了重大進展。除了了解分布轉(zhuǎn)移如何影響離線 RL 之外,離線 RL 算法的性能也得到了顯著提升。領(lǐng)域內(nèi)開發(fā)出的一些新算法能夠提供穩(wěn)健性保證、離線預訓練后的在線微調(diào),以及解決了離線 RL 設置中的一系列其他問題。

自監(jiān)督真實世界機器人系統(tǒng) RECON,經(jīng)過訓練,該系統(tǒng)可以在從未見過的環(huán)境中執(zhí)行導航任務。

使用離線 RL 訓練的自監(jiān)督真實世界機器人操作系統(tǒng) Actionable Models,執(zhí)行各種目標達成任務。該系統(tǒng)也可以作為通用預訓練,以加速通過傳統(tǒng)獎勵在下游任務上的獲取。
此外,離線 RL 的進展也可能顯著提升自監(jiān)督 RL 方法的適用性。使用離線 RL 工具,我們可以構(gòu)建不需要任何自身探索的自監(jiān)督 RL 方法。與上文提到的「虛擬游戲」(virtual play)非常相似,我們可以結(jié)合離線 RL 與目標條件策略,以完全從以往收集的數(shù)據(jù)中學習。然而,重大挑戰(zhàn)依然存在。離線 RL 算法繼承了標準或深度 RL 學習的很多困難,包括對超參數(shù)的敏感性。并且,由于我們無法執(zhí)行多次在線實驗來確定最佳超參數(shù),這些困難會進一步加劇。在監(jiān)督學習,我們可以使用驗證集來處理這些問題,但離線 RL 中缺少相應的對等集(equivalent)。我們需要更穩(wěn)定和更可靠的算法以及更有效的評估方法,以使離線 RL 方法真正得到廣泛適用。
文中動圖出自:https://medium.com/@sergey.levine/understanding-the-world-through-action-rl-as-a-foundation-for-scalable-self-supervised-learning-636e4e243001