自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="tr0j8"><span id="tr0j8"><thead id="tr0j8"></thead></span></blockquote>

<sup id="tr0j8"><rt id="tr0j8"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

率先解決多類數(shù)據(jù)同時受損，中科大MIRA團隊TRACER入選NeurIPS 2024：強魯棒性的離線變分貝葉斯強化學習

作者：機器之心 2024-11-18 07:45:00

人工智能新聞

近日，中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數(shù)據(jù)集存在多類數(shù)據(jù)損壞這一復雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性，為機器人控制、自動駕駛等領(lǐng)域的魯棒學習奠定了重要基礎(chǔ)。

本論文作者楊睿是中國科學技術(shù)大學 2019 級碩博連讀生，師從王杰教授、李斌教授，主要研究方向為強化學習、自動駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發(fā)表論文兩篇，曾獲滴滴精英實習生（16/1000+）。

近日，中科大王杰教授團隊 (MIRA Lab) 針對離線強化學習數(shù)據(jù)集存在多類數(shù)據(jù)損壞這一復雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性，為機器人控制、自動駕駛等領(lǐng)域的魯棒學習奠定了重要基礎(chǔ)。論文發(fā)表在 CCF-A 類人工智能頂級會議 Neural Information Processing Systems（NeurIPS 2024）。

論文地址：https://arxiv.org/abs/2411.00465
代碼地址：https://github.com/MIRALab-USTC/RL-TRACER

引言

在機器人控制領(lǐng)域，離線強化學習正逐漸成為提升智能體決策和控制能力的關(guān)鍵技術(shù)。然而，在實際應(yīng)用中，離線數(shù)據(jù)集常常由于傳感器故障、惡意攻擊等原因而遭受不同程度的損壞。這些損壞可能表現(xiàn)為隨機噪聲、對抗攻擊或其他形式的數(shù)據(jù)擾動，影響數(shù)據(jù)集中的狀態(tài)、動作、獎勵和轉(zhuǎn)移動態(tài)等關(guān)鍵元素。經(jīng)典離線強化學習算法往往假設(shè)數(shù)據(jù)集是干凈、完好無損的，因此在面對數(shù)據(jù)損壞時，機器學習到的策略通常趨向于損壞數(shù)據(jù)中的策略，進而導致機器在干凈環(huán)境下的部署時性能顯著下降。

盡管研究者在魯棒離線強化學習領(lǐng)域已經(jīng)取得了一些進展，如一些方法嘗試通過增強測試期間的魯棒性來緩解噪聲或?qū)构舻挠绊?，但它們大多在干凈?shù)據(jù)集上訓練智能體模型，以防御測試環(huán)境中可能出現(xiàn)的噪聲和攻擊，缺乏對訓練用離線數(shù)據(jù)集存在損壞的應(yīng)對方案。而針對離線數(shù)據(jù)損壞的魯棒強化學習方法則只關(guān)注某一特定類別的數(shù)據(jù)存在損壞，如狀態(tài)數(shù)據(jù)、或轉(zhuǎn)移動態(tài)數(shù)據(jù)存在部分損壞，他們無法有效應(yīng)對數(shù)據(jù)集中多個元素同時受損的復雜情況。

為了針對性地解決這些現(xiàn)有算法的局限性，我們提出了一種魯棒的變分貝葉斯推斷方法（TRACER），有效地增強了離線強化學習算法在面臨各類數(shù)據(jù)損壞時的魯棒性。TRACER 的優(yōu)勢如下所示：

1. 據(jù)我們所知，TRACER 首次將貝葉斯推斷引入到抗損壞的離線強化學習中。通過將所有離線數(shù)據(jù)作為觀測值，TRACER 捕捉了由各類損壞數(shù)據(jù)所導致的動作價值函數(shù)中的不確定性。

2. 通過引入基于熵的不確定性度量，TRACER 能夠區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù)，從而調(diào)控并減弱損壞數(shù)據(jù)對智能體模型訓練的影響，以增強魯棒性。

3. 我們在機器人控制（MuJoCo）和自動駕駛（CARLA）仿真環(huán)境中進行了系統(tǒng)性地測試，驗證了 TRACER 在各類離線數(shù)據(jù)損壞、單類離線數(shù)據(jù)損壞的場景中均顯著提升了智能體的魯棒性，超出了多個現(xiàn)有的 SOTA 方法。

1. 方法介紹

1.1 動機

考慮到（1）多種類型的損毀會向數(shù)據(jù)集的所有元素引入較高的不確定性，（2）每個元素與累積獎勵（即動作值、Q 值）之間存在明確的相關(guān)性關(guān)系（見圖 1 中的虛線），因此使用多種受損數(shù)據(jù)估計累積獎勵函數(shù)（即動作值函數(shù)）會引入很高的不確定性。

圖 1. 決策過程的概率圖模型。實線連接的節(jié)點表示數(shù)據(jù)集中的數(shù)據(jù)，而虛線連接的 Q 值（即動作值、累積回報）不屬于數(shù)據(jù)集。

為了處理這類由多種數(shù)據(jù)損毀（即狀態(tài)、動作、獎勵、狀態(tài)轉(zhuǎn)移數(shù)據(jù)受損）導致的高不確定性問題，基于圖 2 所示的概率圖模型，我們提出利用數(shù)據(jù)集中的所有元素作為觀測數(shù)據(jù)。我們旨在利用這些觀測數(shù)據(jù)與累積獎勵之間的高度相關(guān)性，來準確地識別動作值函數(shù)的不確定性。

1.2 基于受損數(shù)據(jù)的貝葉斯推斷

我們提出使用離線數(shù)據(jù)集的所有元素作為觀測值，利用數(shù)據(jù)之間的相關(guān)性同時解決不確定性問題。具體地，基于離線數(shù)據(jù)集中動作價值與四個元素（即狀態(tài)、動作、獎勵、下一狀態(tài)）之間的關(guān)系，我們分別使用各個元素作為觀測數(shù)據(jù)，通過引入變分貝葉斯推理框架，我們最大化動作值函數(shù)的后驗分布，從而推導出各個元素對應(yīng)的基于最大化證據(jù)下界 (ELBO) 的損失函數(shù)?；趯幼鲀r值函數(shù)的后驗分布的擬合，我們能有效地將數(shù)據(jù)損壞建模為動作值函數(shù)中的不確定性。

1.3 基于熵的不確定性度量

為了進一步應(yīng)對各類數(shù)據(jù)損壞帶來的挑戰(zhàn)，我們思考如何利用不確定性進一步增強魯棒性。鑒于我們的目標是提高在干凈環(huán)境中的智能體性能，我們提出減少損壞數(shù)據(jù)的影響，重點是使用干凈數(shù)據(jù)來訓練智能體。因此，我們提供了一個兩步計劃：（1）區(qū)分損壞數(shù)據(jù)和干凈數(shù)據(jù)；（2）調(diào)控與損壞數(shù)據(jù)相關(guān)的損失，減少其影響，從而提升在干凈環(huán)境中的表現(xiàn)。

對于（1），由于損壞數(shù)據(jù)通常會造成比干凈數(shù)據(jù)更高的不確定性和動作價值分布熵，因此我們提出通過估計動作值分布的熵，來量化損壞數(shù)據(jù)和干凈數(shù)據(jù)引入的不確定性。

對于 (2)，我們使用分布熵指數(shù)的倒數(shù)來加權(quán)我們提出的 ELBO 損失函數(shù)。因此，在學習過程中，TRACER 能夠通過調(diào)控與損壞數(shù)據(jù)相關(guān)的損失來減弱其影響，并同時專注于最小化與干凈數(shù)據(jù)相關(guān)的損失，以增強在干凈環(huán)境中的魯棒性和性能。

1.4 算法架構(gòu)

圖 2. TRACER 算法框架圖。

2. 實驗介紹

為了模擬數(shù)據(jù)受損的情形，我們對數(shù)據(jù)集的部分數(shù)據(jù)加入隨機噪聲或?qū)构魜順?gòu)建損壞數(shù)據(jù)。在我們的實驗中，我們對 30% 的單類數(shù)據(jù)進行損壞。因此，在所有類型的數(shù)據(jù)都有損壞時，整個離線數(shù)據(jù)集中，損壞數(shù)據(jù)占約的規(guī)模。

各類數(shù)據(jù)均受損

所有類型數(shù)據(jù)元素均存在損壞的部分實驗結(jié)果見表 1，TRACER 在所有控制環(huán)境中均獲得了較為明顯的性能提升，提升幅度達 + 21.1%，這一結(jié)果展現(xiàn)了 TRACER 對大規(guī)模、各類數(shù)據(jù)損壞的強魯棒性。

表 1. 離線數(shù)據(jù)集的所有類型元素均存在隨機損壞（random）或?qū)箵p壞（advers）時，我們的方法 TRACER 在所有環(huán)境中都獲得了最高的平均得分。

單類數(shù)據(jù)受損

單種類型數(shù)據(jù)元素存在損壞的部分實驗結(jié)果見表 2 和表 3。在單類數(shù)據(jù)損壞中，TRACER 于 24 個實驗設(shè)置里實現(xiàn) 16 組最優(yōu)性能，可見 TRACER 面向小規(guī)模、單類數(shù)據(jù)損壞的問題也能有效地增強魯棒性。

表 2. 單類元素存在隨機損壞時，我們的方法 TRACER 在 8 個實驗設(shè)置中獲得了最高的平均得分。

表 3. 單類元素存在對抗損壞時，我們的方法 TRACER 在 8 個實驗設(shè)置中獲得了最高的平均得分。

責任編輯：張燕妮來源：機器之心

強化學習 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<em id="dpgfj"></em>

<u id="dpgfj"></u>

<blockquote id="dpgfj"><p id="dpgfj"></p></blockquote>

<blockquote id="dpgfj"></blockquote>

<sup id="dpgfj"></sup>