自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="tyu5u"></sub>

<sub id="tyu5u"><s id="tyu5u"></s></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

作者：機器之心報道 2021-11-29 16:12:38

新聞人工智能

強化學習為何泛化如此困難？來自加州大學伯克利分校等機構(gòu)的研究者從認知 POMDP、隱式部分可觀察兩個方面進行解釋。

當今強化學習（RL）的問題很多，諸如收斂效果不好。在偏弱的實驗環(huán)境里，模型測試結(jié)果看起來尚可，許多問題暴露得不明顯，但大量實驗已經(jīng)證明深度 RL 泛化很困難：盡管 RL 智能體可以學習執(zhí)行非常復雜的任務，但它似乎對不同任務的泛化能力較差，相比較而言，監(jiān)督深度網(wǎng)絡具有較好的泛化能力。

有研究者認為，對于監(jiān)督學習來說，發(fā)生一次錯誤只是分類錯一張圖片。而對于 MDP（馬爾可夫決策過程）假設下的 RL，一次識別錯誤就會導致次優(yōu)決策，甚至可能一直錯誤下去，這也是 RL 在現(xiàn)實世界沒法用的根源。

為什么強化學習的泛化能力從根本上來說很難，甚至從理論的角度來說也很難？來自加州大學伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解釋了這一現(xiàn)象，文章從認知 POMDP（Epistemic POMDP）、隱式部分可觀察（Implicit Partial Observability）兩個方面進行解釋。論文共同一作 Dibya Ghosh 的研究方向是使用強化學習進行決策。之前，他曾在蒙特利爾的 Google Brain 工作。

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

論文地址：https://arxiv.org/pdf/2107.06277.pdf

通過示例進行學習

在正式分析 RL 泛化之前，研究者首先通過兩個示例解釋 RL 中泛化困難的原因。

猜圖游戲

在這個游戲中，RL 智能體在每個回合（episode）中都會看到一張圖像，并盡可能快地猜出圖像標簽（下圖 1）。每個時間步長內(nèi)（timestep），智能體必須進行一次猜測；如果猜測正確，那么這一回合就結(jié)束了。但如果猜錯了，則智能體會收到一個負反饋，并要在下一個回合中對相同的圖像進行其他猜測。因為每張圖像都有唯一的標簽（有正確的標簽函數(shù) f_true:x—>y），智能體接收圖像作為觀測，這是一個完全可觀測的 RL 環(huán)境。

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 1：在猜圖游戲中，智能體反復猜測圖像標簽，直到正確為止

假設我們可以訪問無限數(shù)量的訓練圖像，并使用標準 RL 算法學習策略。該策略將學習如何確定地預測真實標簽（y:=f_true(x)），同時這也是 MDP 中的最高回報（return）策略。假如只有一組有限的訓練圖像，RL 算法仍然會學習相同的策略，確定性地預測與圖像匹配的標簽。

但是，這種策略的泛化能力如何呢？在未見過的測試圖像上，如果智能體預測標簽仍然正確，智能體將會獲得最高的獎勵；如果不正確，智能體會收到災難性的低回報，因為它永遠不會猜到正確的標簽。這種災難性的失敗模式一直存在，因為即使現(xiàn)代深度網(wǎng)絡提高了泛化能力并減少了錯誤分類的機會，但測試集上的錯誤也不能完全減少到 0。

我們能做得比這種確定性預測策略更好嗎？因為學習 RL 策略忽略了猜圖游戲的兩個顯著特征：1) 智能體會在一個回合中接收猜測是否正確的反饋，以及 2) 智能體可以在未來的時間步長中更改其猜測。消除過程（process-of-elimination）策略可以很好地利用這兩個特征：首先，RL 會選擇它認為最有可能的標簽，如果不正確，則消除該標簽并適應下一個最有可能的標簽，依此類推。然而，這種基于記憶的自適應策略永遠不會被標準 RL 算法學習，因為它們優(yōu)化了 MDP 目標并且只學習確定性和無記憶策略。

迷宮求解算法

作為 RL 泛化基準測試的主要內(nèi)容，迷宮求解問題要求智能體可以導航到迷宮中的目標，并且給出整個迷宮的鳥瞰圖。這項任務是完全基于觀察的，智能體通過觀察展示整個迷宮圖。因此，最優(yōu)策略是無記憶和確定性的，只要智能體沿著最短路徑到達目標即可。

就像在猜圖游戲中一樣，RL 通過最大化訓練迷宮布局內(nèi)的回報，確定性會采取它認為以最短路徑到達目標的行動（action）。

這種 RL 策略泛化能力很差，因為如果學習策略選擇了一個錯誤的動作，比如撞墻或折回原來的道路，它將繼續(xù)循環(huán)同樣的錯誤并且永遠無法解決迷宮問題。但是，這種失敗模式是完全可以避免的，因為即使 RL 智能體最初采取了這樣一個不正確的行動，在經(jīng)過幾次跟隨之后，智能體會收到所采取的行為正確與否的信息（比如基于下一次觀察）。

為了盡可能地進行泛化，如果智能體最初的行動導致了意想不到的結(jié)果，那么智能體應該適應它所選擇的行動，但是這種行動回避了標準的 RL 目標。

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 2：在迷宮任務中，RL 策略泛化能力很差：當出現(xiàn)錯誤時，它們會重復犯同樣的錯誤，導致失?。ㄗ螅?。泛化良好的智能體也會犯錯誤，但具有適應性和從這些錯誤中恢復的能力（右）。用于泛化的標準 RL 目標不會學習這種行為

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 3：有限的訓練數(shù)據(jù)集使智能體無法準確地恢復真實環(huán)境。相反，存在一種隱式部分可觀察，因為智能體不知道在一組一致的環(huán)境中哪一個是真實的環(huán)境

當給智能體一個小的上下文訓練集時，許多動態(tài)模型與提供的訓練上下文匹配，但與保留（held-out）的上下文有所不同。這些相互矛盾的假設體現(xiàn)了智能體在有限訓練集中的認知不確定性。更重要的是，智能體通過軌跡接收到的信息，可以在評估時改變其認知不確定性。假設對于猜謎游戲中的圖像，智能體最初在「t-shirt / coat」標簽之間不確定。如果智能體猜測「t-shirt 」并收到錯誤的反饋，智能體會改變其不確定性并對「 coat」標簽變得更有信心，這意味著它應該因此而適應并猜測「 coat」。

認知 POMDP 與隱示部分可觀察

RL 智能體有兩種方式處理其認知不確定性：主動轉(zhuǎn)向低不確定性區(qū)域和采用信息收集。但是它們都沒有回答這些問題：「是否有一個最好的方法來處理不確定性，如果有的話，我們該如何描述呢？」從貝葉斯的角度來看，事實證明存在這樣一個最優(yōu)解：最優(yōu)泛化要求我們解決「部分可觀察的馬爾可夫決策過程 (POMDP)」，POMDP 隱式地由智能體認知不確定性創(chuàng)建。

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

認知 POMDP（epistemic POMDP）作用如下：由于智能體只能看到有限的訓練集，因此有許多可能的環(huán)境與提供的訓練上下文一致。一致的環(huán)境集可以通過貝葉斯后驗對環(huán)境進行編碼 P(M | D)，在認知 POMDP 的每一個階段中，智能體被放入這種一致的環(huán)境中 M~P(M | D），并要求在其中最大化獎勵。

該系統(tǒng)對應于 POMDP，因為行動所需的相關信息，智能體只能通過部分觀察到：雖然環(huán)境中的狀態(tài)被觀察到，但環(huán)境 M 生成這些狀態(tài)的信息對智能體是隱藏的。認知 POMDP 將泛化問題實例化到貝葉斯 RL 框架中，該框架更一般性地研究了 MDP 分布下的最優(yōu)行為。

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 4：在認知 POMDP 中，智能體在每個階段中與不同的相互一致環(huán)境進行交互，但不知道它具體與哪個交互可以導致部分可觀察性。要想做得好，智能體必須采用（可能基于內(nèi)存的）策略，使得其無論置于哪個環(huán)境中，都可以很好地工作

讓我們通過一個示例來了解認知 POMDP 。對于猜謎游戲，智能體不確定圖像究竟如何標記，因此每個可能的環(huán)境 M∼P(M∣D) 對應于不同圖像標簽器，其與訓練數(shù)據(jù)集保持一致：f_M:X→Y。在猜謎游戲的認識 POMDP 中，每階段隨機選擇一個圖像 x 和標簽器 f_M，并要求智能體輸出采樣分類器 y=f_M(x) 分配的標簽。智能體不能直接這樣做，因為分類器的身份沒有提供給智能體，只提供了圖像 x。如果所有標簽器 f_M 后驗都同意某個圖像的標簽，則智能體可以只輸出這個標簽（沒有部分可觀察性）。但是，如果不同的分類器分配不同的標簽，則智能體必須使用平均效果良好的策略。

認知 POMDP 還強調(diào)了從有限訓練集上下文中學習策略的危險：在訓練集上運行完全可觀察的 RL 算法。這些算法將環(huán)境建模為 MDP，并學習 MDP 最優(yōu)策略，即確定性和馬爾可夫策略。這些策略不考慮部分可觀察性，因此往往泛化性很差（例如在猜謎游戲和迷宮任務中）。這表明基于 MDP 訓練目標（現(xiàn)代算法標準）與認知 POMDP 訓練目標（實際上決定了所學習策略的泛化程度）之間存在不匹配。

在 RL 中推進泛化

我們應該怎么做才能學習更好泛化的 RL 策略？認知 POMDP 提供了一個規(guī)范的解決方案：當可以計算智能體在環(huán)境上的后驗分布時，通過構(gòu)建認知 POMDP 并在其上運行 POMDP 求解算法將產(chǎn)生泛化貝葉斯最優(yōu)的策略。

遺憾的是，在大多數(shù)有趣的問題中，還不能完全做到。盡管如此，認知 POMDP 可以作為設計具有更好泛化能力 RL 算法的標桿。作為第一步，研究者在論文中引入了一種稱為 LEEP 的算法，該算法使用統(tǒng)計自助法 (Bootstrapping) 來學習近似認知 POMDP 的策略。

在具有挑戰(zhàn)性的 RL 智能體泛化基準測試 Procgen 上，LEEP 在測試時的性能比 PPO 顯著提高（圖 3）。雖然只是粗略的逼近，但 LEEP 提供的一些跡象表明，嘗試在 epistemic POMDP 中學習策略可以成為開發(fā)更通用 RL 算法的有效途徑。

為何RL泛化這么難：伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 5：LEEP，一種基于認知 POMDP 目標的算法，在四個 Procgen 任務中比 PPO 具有更好的泛化性能

在監(jiān)督學習中，優(yōu)化訓練集性能可以提高模型泛化能力，因此，很容易假設 RL 中的泛化可以用同樣的方式解決，但這顯然是錯誤的。RL 中有限的訓練數(shù)據(jù)將隱式的部分可觀察性引入到一個完全可觀察的問題中。這種隱式的部分可觀察性，正如認知 POMDP 形式化的那樣，意味著在 RL 中很好地泛化需要自適應或隨機行為，這是 POMDP 問題的關鍵。

最終，這凸顯了深度 RL 算法泛化的不兼容性：由于訓練數(shù)據(jù)有限，基于 MDP 的 RL 目標與最終決定泛化性能的隱式 POMDP 目標不一致。

責任編輯：張燕妮來源：機器之心Pro

AI 數(shù)據(jù)強化學習

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="tp8ek"></cite>

<style id="tp8ek"></style>

<sub id="tp8ek"><input id="tp8ek"></input></sub>