自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="tu0mc"><video id="tu0mc"><track id="tu0mc"></track></video></kbd><bdo id="tu0mc"></bdo>

_{<menuitem id="tu0mc"></menuitem>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

率先突破大規(guī)模多類數(shù)據(jù)損壞問題！中科大離線強化學(xué)習(xí)新方式入選NeurIPS 2024

作者：量子位 2024-10-21 10:35:00

人工智能新聞

中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性。

機器人控制和自動駕駛的離線數(shù)據(jù)損壞問題有解了！

中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性。

論文發(fā)表在CCF-A類人工智能頂級會議NeurIPS 2024。

現(xiàn)實世界的離線數(shù)據(jù)集（如機器人控制、自動駕駛等）常常因傳感器故障或惡意攻擊而受到數(shù)據(jù)損壞（如數(shù)據(jù)帶有噪聲或?qū)剐怨簦?/span>的影響。

盡管現(xiàn)有離線強化學(xué)習(xí)（offline RL）方法在魯棒性方面已取得了進展，但它們?nèi)噪y以處理因離線數(shù)據(jù)的各類元素（即狀態(tài)、動作、獎勵和轉(zhuǎn)移動態(tài)）均部分損壞所引入的高不確定性。

作者針對離線數(shù)據(jù)的各類元素均有受損這一復(fù)雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法TRACER。

在面臨各類數(shù)據(jù)損壞時，該方法于所有實驗中均實現(xiàn)了最優(yōu)，相對于現(xiàn)有的SOTA方法提升了高達+21.1%的決策性能，并在24組僅有單類數(shù)據(jù)損壞的實驗中仍實現(xiàn)了16組的最優(yōu)性能。

TRACER主要具有以下三點優(yōu)勢：

TRACER首次將貝葉斯推斷引入到抗損壞的離線強化學(xué)習(xí)（corruption-robust offline RL）中。通過將所有離線數(shù)據(jù)作為觀測值，TRACER捕捉了由各類損壞數(shù)據(jù)所導(dǎo)致的動作價值函數(shù)中的不確定性。
通過引入基于熵的不確定性度量，TRACER能夠區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù)，從而調(diào)控并減弱損壞數(shù)據(jù)對智能體模型訓(xùn)練的影響，以增強魯棒性。
作者在機器人控制（MuJoCo）和自動駕駛（CARLA）仿真環(huán)境中進行了系統(tǒng)性地測試，驗證了TRACER在各類離線數(shù)據(jù)損壞、單類離線數(shù)據(jù)損壞的場景中均顯著提升了智能體的魯棒性，超出了多個現(xiàn)有的SOTA方法。

注：下文中公式若顯示不完整，請嘗試左右滑動查看

背景與問題

貝葉斯強化學(xué)習(xí)

即最大化證據(jù)下界(ELBO)：

數(shù)據(jù)損壞下的離線強化學(xué)習(xí)

基于上述公式，作者的目的是基于損壞數(shù)據(jù)學(xué)習(xí)魯棒的策略。

方法介紹

總的來說，該方法將所有類別的數(shù)據(jù)損壞視為行動價值函數(shù)（action-value function）中的不確定性，并使用所有類別的離線數(shù)據(jù)作為觀測值，以估計行動價值函數(shù)的后驗分布。

這顯著增強了智能體對所有類別數(shù)據(jù)損壞的魯棒性。

此外，考慮到受損數(shù)據(jù)通常會引起更高的不確定性和熵，該方法引入了基于熵的不確定性度量，進而能有效區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù)。

基于這類度量，該方法能調(diào)節(jié)并減弱損壞數(shù)據(jù)對智能體模型訓(xùn)練的負面影響，進而顯著提高模型在干凈測試環(huán)境中的魯棒性和性能。

動機

使用多種受損數(shù)據(jù)估計累積獎勵函數(shù)（即動作值函數(shù)）會引入很高的不確定性，原因主要有兩個方面：

一是多種類型的損毀會向數(shù)據(jù)集的所有元素引入較高的不確定性；
二是每個元素與累積獎勵（即動作值、Q值）之間存在明確的相關(guān)性關(guān)系。

下圖為決策過程的概率圖模型。實線連接的節(jié)點表示數(shù)據(jù)集中的數(shù)據(jù)，而虛線連接的Q值（即動作值、累積回報）不屬于數(shù)據(jù)集。這些Q值通常是算法旨在估計的任務(wù)目標。

為了處理這類由多種數(shù)據(jù)損毀（即狀態(tài)、動作、獎勵、狀態(tài)轉(zhuǎn)移數(shù)據(jù)受損）導(dǎo)致的高不確定性問題，基于上圖所示的概率圖模型，作者提出利用數(shù)據(jù)集中的所有元素作為觀測數(shù)據(jù)。

這樣做的目的，是利用這些觀測數(shù)據(jù)與累積獎勵之間的高度相關(guān)性，來準確地識別動作值函數(shù)的不確定性。

基于受損數(shù)據(jù)的貝葉斯推斷

作者提出使用離線數(shù)據(jù)集的所有元素作為觀測值，利用數(shù)據(jù)之間的相關(guān)性同時解決不確定性問題。

通過引入貝葉斯推理框架，該步的目標是逼近動作價值函數(shù)的后驗分布。

基于熵的不確定性度量

為了進一步應(yīng)對各類數(shù)據(jù)損壞帶來的挑戰(zhàn)，作者思考如何利用不確定性進一步增強魯棒性。

鑒于目標是提高在干凈環(huán)境中的智能體性能，作者提出減少損壞數(shù)據(jù)的影響，重點是使用干凈數(shù)據(jù)來訓(xùn)練智能體。

因此，作者設(shè)計了一個兩步計劃——先區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù)；再調(diào)控與損壞數(shù)據(jù)相關(guān)的損失，減少其影響，從而提升在干凈環(huán)境中的表現(xiàn)。

對于第一步數(shù)據(jù)的區(qū)分，由于損壞數(shù)據(jù)通常會造成比干凈數(shù)據(jù)更高的不確定性和動作價值分布熵，因此作者提出使用熵來量化損壞數(shù)據(jù)和干凈數(shù)據(jù)的不確定性。

因此，在學(xué)習(xí)過程中，TRACER 能夠調(diào)控與損壞數(shù)據(jù)相關(guān)的損失，并專注于最小化與干凈數(shù)據(jù)相關(guān)的損失，從而增強在干凈環(huán)境中的魯棒性和性能。

算法架構(gòu)

TRACER的框架圖如下所示。

可見相對于傳統(tǒng)的離線強化學(xué)習(xí)算法，作者的提出方法修改了批評家（critic）模型，將其改為用于分布強化學(xué)習(xí)（distributional RL）的動作值分位數(shù)回歸的架構(gòu)。

此外，作者還添加了一個新的集成模型（ensemble model）。

數(shù)據(jù)受損，依然保持魯棒性

為了模擬數(shù)據(jù)受損的情形，作者對數(shù)據(jù)集的部分數(shù)據(jù)加入隨機噪聲或?qū)构魜順?gòu)建損壞數(shù)據(jù)。

在實驗中，作者對30%的單類數(shù)據(jù)進行損壞。

在機器人控制（MuJoCo）仿真環(huán)境測試中，作者選擇了常用的3個機器人控制環(huán)境（Halfcheetah，Walker2d，Hopper）。

這些環(huán)境的狀態(tài)為仿真機器人各個部位（如腿部、關(guān)節(jié)等）的不同物理量（如位置、角度、速度等），控制動作為機器人特定部位（如腿部、頭部）的力。

所有類型數(shù)據(jù)元素均存在隨機損壞（random）或?qū)箵p壞（advers）時的實驗結(jié)果見下表。

可以看到，TRACER在所有控制環(huán)境中均獲得了較為明顯的性能提升，提升幅度達+21.1%，在所有環(huán)境中都獲得了最高的平均得分。

這一結(jié)果展現(xiàn)了TRACER對大規(guī)模、各類數(shù)據(jù)損壞的強魯棒性。

單種類型數(shù)據(jù)元素存在損壞的部分實驗結(jié)果見表2和表3。

而在單類數(shù)據(jù)損壞中，TRACER于24個實驗設(shè)置里實現(xiàn)16組最優(yōu)性能，可見TRACER面向小規(guī)模、單類數(shù)據(jù)損壞的問題也能有效地增強魯棒性。

存在隨機損壞時，TRACER在8個實驗設(shè)置中獲得了最高的平均得分。

同樣地，單類元素存在對抗損壞時，TRACER在8個實驗設(shè)置中也獲得了最高的平均得分。

作者簡介

本論文作者楊睿是中國科學(xué)技術(shù)大學(xué)2019級碩博連讀生，師從王杰教授、李斌教授，主要研究方向為強化學(xué)習(xí)、自動駕駛等。

他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發(fā)表論文兩篇，曾獲滴滴精英實習(xí)生（16/1000+）。

論文地址：https://openreview.net/pdf?id=rTxCIWsfsDGitHub：
https://github.com/MIRALab-USTC/RL-TRACER

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="gvscq"><menuitem id="gvscq"></menuitem></ruby>
<wbr id="gvscq"><menu id="gvscq"></menu></wbr>

<big id="gvscq"></big>