自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

率先解決多類數(shù)據(jù)同時受損,中科大MIRA團隊TRACER入選NeurIPS 2024:強魯棒性的離線變分貝葉斯強化學習

人工智能 新聞
近日,中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數(shù)據(jù)集存在多類數(shù)據(jù)損壞這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性,為機器人控制、自動駕駛等領(lǐng)域的魯棒學習奠定了重要基礎(chǔ)。

本論文作者楊睿是中國科學技術(shù)大學 2019 級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學習、自動駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發(fā)表論文兩篇,曾獲滴滴精英實習生(16/1000+)。

近日,中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數(shù)據(jù)集存在多類數(shù)據(jù)損壞這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性,為機器人控制、自動駕駛等領(lǐng)域的魯棒學習奠定了重要基礎(chǔ)。論文發(fā)表在 CCF-A 類人工智能頂級會議 Neural Information Processing Systems(NeurIPS 2024)。

圖片

  • 論文地址:https://arxiv.org/abs/2411.00465
  • 代碼地址:https://github.com/MIRALab-USTC/RL-TRACER

引言

在機器人控制領(lǐng)域,離線強化學習正逐漸成為提升智能體決策和控制能力的關(guān)鍵技術(shù)。然而,在實際應(yīng)用中,離線數(shù)據(jù)集常常由于傳感器故障、惡意攻擊等原因而遭受不同程度的損壞。這些損壞可能表現(xiàn)為隨機噪聲、對抗攻擊或其他形式的數(shù)據(jù)擾動,影響數(shù)據(jù)集中的狀態(tài)、動作、獎勵和轉(zhuǎn)移動態(tài)等關(guān)鍵元素。經(jīng)典離線強化學習算法往往假設(shè)數(shù)據(jù)集是干凈、完好無損的,因此在面對數(shù)據(jù)損壞時,機器學習到的策略通常趨向于損壞數(shù)據(jù)中的策略,進而導致機器在干凈環(huán)境下的部署時性能顯著下降。

盡管研究者在魯棒離線強化學習領(lǐng)域已經(jīng)取得了一些進展,如一些方法嘗試通過增強測試期間的魯棒性來緩解噪聲或?qū)构舻挠绊?,但它們大多在干凈?shù)據(jù)集上訓練智能體模型,以防御測試環(huán)境中可能出現(xiàn)的噪聲和攻擊,缺乏對訓練用離線數(shù)據(jù)集存在損壞的應(yīng)對方案。而針對離線數(shù)據(jù)損壞的魯棒強化學習方法則只關(guān)注某一特定類別的數(shù)據(jù)存在損壞,如狀態(tài)數(shù)據(jù)、或轉(zhuǎn)移動態(tài)數(shù)據(jù)存在部分損壞,他們無法有效應(yīng)對數(shù)據(jù)集中多個元素同時受損的復雜情況。

為了針對性地解決這些現(xiàn)有算法的局限性,我們提出了一種魯棒的變分貝葉斯推斷方法(TRACER),有效地增強了離線強化學習算法在面臨各類數(shù)據(jù)損壞時的魯棒性。TRACER 的優(yōu)勢如下所示:

1. 據(jù)我們所知,TRACER 首次將貝葉斯推斷引入到抗損壞的離線強化學習中。通過將所有離線數(shù)據(jù)作為觀測值,TRACER 捕捉了由各類損壞數(shù)據(jù)所導致的動作價值函數(shù)中的不確定性。

2. 通過引入基于熵的不確定性度量,TRACER 能夠區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù),從而調(diào)控并減弱損壞數(shù)據(jù)對智能體模型訓練的影響,以增強魯棒性。

3. 我們在機器人控制(MuJoCo)和自動駕駛(CARLA)仿真環(huán)境中進行了系統(tǒng)性地測試,驗證了 TRACER 在各類離線數(shù)據(jù)損壞、單類離線數(shù)據(jù)損壞的場景中均顯著提升了智能體的魯棒性,超出了多個現(xiàn)有的 SOTA 方法。

1. 方法介紹

1.1 動機

考慮到(1)多種類型的損毀會向數(shù)據(jù)集的所有元素引入較高的不確定性,(2)每個元素與累積獎勵(即動作值、Q 值)之間存在明確的相關(guān)性關(guān)系(見圖 1 中的虛線),因此使用多種受損數(shù)據(jù)估計累積獎勵函數(shù)(即動作值函數(shù))會引入很高的不確定性。

圖片

圖 1. 決策過程的概率圖模型。實線連接的節(jié)點表示數(shù)據(jù)集中的數(shù)據(jù),而虛線連接的 Q 值(即動作值、累積回報)不屬于數(shù)據(jù)集。

為了處理這類由多種數(shù)據(jù)損毀(即狀態(tài)、動作、獎勵、狀態(tài)轉(zhuǎn)移數(shù)據(jù)受損)導致的高不確定性問題,基于圖 2 所示的概率圖模型,我們提出利用數(shù)據(jù)集中的所有元素作為觀測數(shù)據(jù)。我們旨在利用這些觀測數(shù)據(jù)與累積獎勵之間的高度相關(guān)性,來準確地識別動作值函數(shù)的不確定性。

1.2 基于受損數(shù)據(jù)的貝葉斯推斷

我們提出使用離線數(shù)據(jù)集的所有元素作為觀測值,利用數(shù)據(jù)之間的相關(guān)性同時解決不確定性問題。具體地,基于離線數(shù)據(jù)集中動作價值與四個元素(即狀態(tài)、動作、獎勵、下一狀態(tài))之間的關(guān)系,我們分別使用各個元素作為觀測數(shù)據(jù),通過引入變分貝葉斯推理框架,我們最大化動作值函數(shù)的后驗分布,從而推導出各個元素對應(yīng)的基于最大化證據(jù)下界 (ELBO) 的損失函數(shù)?;趯幼鲀r值函數(shù)的后驗分布的擬合,我們能有效地將數(shù)據(jù)損壞建模為動作值函數(shù)中的不確定性。

1.3 基于熵的不確定性度量

為了進一步應(yīng)對各類數(shù)據(jù)損壞帶來的挑戰(zhàn),我們思考如何利用不確定性進一步增強魯棒性。鑒于我們的目標是提高在干凈環(huán)境中的智能體性能,我們提出減少損壞數(shù)據(jù)的影響,重點是使用干凈數(shù)據(jù)來訓練智能體。因此,我們提供了一個兩步計劃:(1)區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù);(2)調(diào)控與損壞數(shù)據(jù)相關(guān)的損失,減少其影響,從而提升在干凈環(huán)境中的表現(xiàn)。

對于(1),由于損壞數(shù)據(jù)通常會造成比干凈數(shù)據(jù)更高的不確定性和動作價值分布熵,因此我們提出通過估計動作值分布的熵,來量化損壞數(shù)據(jù)和干凈數(shù)據(jù)引入的不確定性。

對于 (2),我們使用分布熵指數(shù)的倒數(shù)來加權(quán)我們提出的 ELBO 損失函數(shù)。因此,在學習過程中,TRACER 能夠通過調(diào)控與損壞數(shù)據(jù)相關(guān)的損失來減弱其影響,并同時專注于最小化與干凈數(shù)據(jù)相關(guān)的損失,以增強在干凈環(huán)境中的魯棒性和性能。

1.4 算法架構(gòu)

圖片

圖 2. TRACER 算法框架圖。

2. 實驗介紹

為了模擬數(shù)據(jù)受損的情形,我們對數(shù)據(jù)集的部分數(shù)據(jù)加入隨機噪聲或?qū)构魜順?gòu)建損壞數(shù)據(jù)。在我們的實驗中,我們對 30% 的單類數(shù)據(jù)進行損壞。因此,在所有類型的數(shù)據(jù)都有損壞時,整個離線數(shù)據(jù)集中,損壞數(shù)據(jù)占約圖片的規(guī)模。

各類數(shù)據(jù)均受損

所有類型數(shù)據(jù)元素均存在損壞的部分實驗結(jié)果見表 1,TRACER 在所有控制環(huán)境中均獲得了較為明顯的性能提升,提升幅度達 + 21.1%,這一結(jié)果展現(xiàn)了 TRACER 對大規(guī)模、各類數(shù)據(jù)損壞的強魯棒性。

圖片

表 1. 離線數(shù)據(jù)集的所有類型元素均存在隨機損壞(random)或?qū)箵p壞(advers)時,我們的方法 TRACER 在所有環(huán)境中都獲得了最高的平均得分。

單類數(shù)據(jù)受損

單種類型數(shù)據(jù)元素存在損壞的部分實驗結(jié)果見表 2 和表 3。在單類數(shù)據(jù)損壞中,TRACER 于 24 個實驗設(shè)置里實現(xiàn) 16 組最優(yōu)性能,可見 TRACER 面向小規(guī)模、單類數(shù)據(jù)損壞的問題也能有效地增強魯棒性。

圖片

表 2. 單類元素存在隨機損壞時,我們的方法 TRACER 在 8 個實驗設(shè)置中獲得了最高的平均得分。

圖片

表 3. 單類元素存在對抗損壞時,我們的方法 TRACER 在 8 個實驗設(shè)置中獲得了最高的平均得分。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-10-21 10:35:00

2025-04-01 09:32:00

模型訓練AI

2025-03-14 10:22:03

2021-05-07 09:34:20

量子芯片計算機

2024-12-09 10:15:00

AI技術(shù)

2020-04-15 16:44:38

谷歌強化學習算法

2022-10-31 14:06:32

量子研究

2022-02-25 23:49:31

量子研究

2023-12-18 15:16:47

數(shù)據(jù)模型

2022-02-23 09:27:37

神經(jīng)網(wǎng)絡(luò)人工智能模型

2024-11-11 17:27:26

2012-04-18 10:40:33

超級計算機大學生超算大賽

2013-06-19 11:32:32

計算性能ISCHPC

2024-08-28 13:53:42

多代理強化學習機器人

2023-08-28 06:52:29

2024-06-17 07:10:00

2023-12-04 13:23:00

數(shù)據(jù)訓練

2024-11-04 13:30:00

模型AI

2017-02-27 11:36:31

阿里

2022-02-21 08:00:00

管理系統(tǒng)應(yīng)用程序模式
點贊
收藏

51CTO技術(shù)棧公眾號