率先解決多類數(shù)據(jù)同時受損,中科大MIRA團隊TRACER入選NeurIPS 2024:強魯棒性的離線變分貝葉斯強化學習
本論文作者楊睿是中國科學技術(shù)大學 2019 級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學習、自動駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發(fā)表論文兩篇,曾獲滴滴精英實習生(16/1000+)。
近日,中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數(shù)據(jù)集存在多類數(shù)據(jù)損壞這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性,為機器人控制、自動駕駛等領(lǐng)域的魯棒學習奠定了重要基礎(chǔ)。論文發(fā)表在 CCF-A 類人工智能頂級會議 Neural Information Processing Systems(NeurIPS 2024)。
- 論文地址:https://arxiv.org/abs/2411.00465
- 代碼地址:https://github.com/MIRALab-USTC/RL-TRACER
引言
在機器人控制領(lǐng)域,離線強化學習正逐漸成為提升智能體決策和控制能力的關(guān)鍵技術(shù)。然而,在實際應(yīng)用中,離線數(shù)據(jù)集常常由于傳感器故障、惡意攻擊等原因而遭受不同程度的損壞。這些損壞可能表現(xiàn)為隨機噪聲、對抗攻擊或其他形式的數(shù)據(jù)擾動,影響數(shù)據(jù)集中的狀態(tài)、動作、獎勵和轉(zhuǎn)移動態(tài)等關(guān)鍵元素。經(jīng)典離線強化學習算法往往假設(shè)數(shù)據(jù)集是干凈、完好無損的,因此在面對數(shù)據(jù)損壞時,機器學習到的策略通常趨向于損壞數(shù)據(jù)中的策略,進而導致機器在干凈環(huán)境下的部署時性能顯著下降。
盡管研究者在魯棒離線強化學習領(lǐng)域已經(jīng)取得了一些進展,如一些方法嘗試通過增強測試期間的魯棒性來緩解噪聲或?qū)构舻挠绊?,但它們大多在干凈?shù)據(jù)集上訓練智能體模型,以防御測試環(huán)境中可能出現(xiàn)的噪聲和攻擊,缺乏對訓練用離線數(shù)據(jù)集存在損壞的應(yīng)對方案。而針對離線數(shù)據(jù)損壞的魯棒強化學習方法則只關(guān)注某一特定類別的數(shù)據(jù)存在損壞,如狀態(tài)數(shù)據(jù)、或轉(zhuǎn)移動態(tài)數(shù)據(jù)存在部分損壞,他們無法有效應(yīng)對數(shù)據(jù)集中多個元素同時受損的復雜情況。
為了針對性地解決這些現(xiàn)有算法的局限性,我們提出了一種魯棒的變分貝葉斯推斷方法(TRACER),有效地增強了離線強化學習算法在面臨各類數(shù)據(jù)損壞時的魯棒性。TRACER 的優(yōu)勢如下所示:
1. 據(jù)我們所知,TRACER 首次將貝葉斯推斷引入到抗損壞的離線強化學習中。通過將所有離線數(shù)據(jù)作為觀測值,TRACER 捕捉了由各類損壞數(shù)據(jù)所導致的動作價值函數(shù)中的不確定性。
2. 通過引入基于熵的不確定性度量,TRACER 能夠區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù),從而調(diào)控并減弱損壞數(shù)據(jù)對智能體模型訓練的影響,以增強魯棒性。
3. 我們在機器人控制(MuJoCo)和自動駕駛(CARLA)仿真環(huán)境中進行了系統(tǒng)性地測試,驗證了 TRACER 在各類離線數(shù)據(jù)損壞、單類離線數(shù)據(jù)損壞的場景中均顯著提升了智能體的魯棒性,超出了多個現(xiàn)有的 SOTA 方法。
1. 方法介紹
1.1 動機
考慮到(1)多種類型的損毀會向數(shù)據(jù)集的所有元素引入較高的不確定性,(2)每個元素與累積獎勵(即動作值、Q 值)之間存在明確的相關(guān)性關(guān)系(見圖 1 中的虛線),因此使用多種受損數(shù)據(jù)估計累積獎勵函數(shù)(即動作值函數(shù))會引入很高的不確定性。
圖 1. 決策過程的概率圖模型。實線連接的節(jié)點表示數(shù)據(jù)集中的數(shù)據(jù),而虛線連接的 Q 值(即動作值、累積回報)不屬于數(shù)據(jù)集。
為了處理這類由多種數(shù)據(jù)損毀(即狀態(tài)、動作、獎勵、狀態(tài)轉(zhuǎn)移數(shù)據(jù)受損)導致的高不確定性問題,基于圖 2 所示的概率圖模型,我們提出利用數(shù)據(jù)集中的所有元素作為觀測數(shù)據(jù)。我們旨在利用這些觀測數(shù)據(jù)與累積獎勵之間的高度相關(guān)性,來準確地識別動作值函數(shù)的不確定性。
1.2 基于受損數(shù)據(jù)的貝葉斯推斷
我們提出使用離線數(shù)據(jù)集的所有元素作為觀測值,利用數(shù)據(jù)之間的相關(guān)性同時解決不確定性問題。具體地,基于離線數(shù)據(jù)集中動作價值與四個元素(即狀態(tài)、動作、獎勵、下一狀態(tài))之間的關(guān)系,我們分別使用各個元素作為觀測數(shù)據(jù),通過引入變分貝葉斯推理框架,我們最大化動作值函數(shù)的后驗分布,從而推導出各個元素對應(yīng)的基于最大化證據(jù)下界 (ELBO) 的損失函數(shù)?;趯幼鲀r值函數(shù)的后驗分布的擬合,我們能有效地將數(shù)據(jù)損壞建模為動作值函數(shù)中的不確定性。
1.3 基于熵的不確定性度量
為了進一步應(yīng)對各類數(shù)據(jù)損壞帶來的挑戰(zhàn),我們思考如何利用不確定性進一步增強魯棒性。鑒于我們的目標是提高在干凈環(huán)境中的智能體性能,我們提出減少損壞數(shù)據(jù)的影響,重點是使用干凈數(shù)據(jù)來訓練智能體。因此,我們提供了一個兩步計劃:(1)區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù);(2)調(diào)控與損壞數(shù)據(jù)相關(guān)的損失,減少其影響,從而提升在干凈環(huán)境中的表現(xiàn)。
對于(1),由于損壞數(shù)據(jù)通常會造成比干凈數(shù)據(jù)更高的不確定性和動作價值分布熵,因此我們提出通過估計動作值分布的熵,來量化損壞數(shù)據(jù)和干凈數(shù)據(jù)引入的不確定性。
對于 (2),我們使用分布熵指數(shù)的倒數(shù)來加權(quán)我們提出的 ELBO 損失函數(shù)。因此,在學習過程中,TRACER 能夠通過調(diào)控與損壞數(shù)據(jù)相關(guān)的損失來減弱其影響,并同時專注于最小化與干凈數(shù)據(jù)相關(guān)的損失,以增強在干凈環(huán)境中的魯棒性和性能。
1.4 算法架構(gòu)
圖 2. TRACER 算法框架圖。
2. 實驗介紹
為了模擬數(shù)據(jù)受損的情形,我們對數(shù)據(jù)集的部分數(shù)據(jù)加入隨機噪聲或?qū)构魜順?gòu)建損壞數(shù)據(jù)。在我們的實驗中,我們對 30% 的單類數(shù)據(jù)進行損壞。因此,在所有類型的數(shù)據(jù)都有損壞時,整個離線數(shù)據(jù)集中,損壞數(shù)據(jù)占約的規(guī)模。
各類數(shù)據(jù)均受損
所有類型數(shù)據(jù)元素均存在損壞的部分實驗結(jié)果見表 1,TRACER 在所有控制環(huán)境中均獲得了較為明顯的性能提升,提升幅度達 + 21.1%,這一結(jié)果展現(xiàn)了 TRACER 對大規(guī)模、各類數(shù)據(jù)損壞的強魯棒性。
表 1. 離線數(shù)據(jù)集的所有類型元素均存在隨機損壞(random)或?qū)箵p壞(advers)時,我們的方法 TRACER 在所有環(huán)境中都獲得了最高的平均得分。
單類數(shù)據(jù)受損
單種類型數(shù)據(jù)元素存在損壞的部分實驗結(jié)果見表 2 和表 3。在單類數(shù)據(jù)損壞中,TRACER 于 24 個實驗設(shè)置里實現(xiàn) 16 組最優(yōu)性能,可見 TRACER 面向小規(guī)模、單類數(shù)據(jù)損壞的問題也能有效地增強魯棒性。
表 2. 單類元素存在隨機損壞時,我們的方法 TRACER 在 8 個實驗設(shè)置中獲得了最高的平均得分。
表 3. 單類元素存在對抗損壞時,我們的方法 TRACER 在 8 個實驗設(shè)置中獲得了最高的平均得分。