自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="qbkjv"></center>

<style id="qbkjv"><rp id="qbkjv"></rp></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

深度強(qiáng)化學(xué)習(xí)中的對(duì)抗攻擊和防御

作者：Ghost M 2022-05-31 10:45:01

人工智能新聞

本篇文章分享論文『Attacking and Defending Deep Reinforcement Learning Policies 』，深度強(qiáng)化學(xué)習(xí)中的對(duì)抗攻擊和防御。

01 前言

該論文是關(guān)于深度強(qiáng)化學(xué)習(xí)對(duì)抗攻擊的工作。在該論文中，作者從魯棒優(yōu)化的角度研究了深度強(qiáng)化學(xué)習(xí)策略對(duì)對(duì)抗攻擊的魯棒性。在魯棒優(yōu)化的框架下，通過(guò)最小化策略的預(yù)期回報(bào)來(lái)給出最優(yōu)的對(duì)抗攻擊，相應(yīng)地，通過(guò)提高策略應(yīng)對(duì)最壞情況的性能來(lái)實(shí)現(xiàn)良好的防御機(jī)制。

考慮到攻擊者通常無(wú)法在訓(xùn)練環(huán)境中攻擊，作者提出了一種貪婪攻擊算法，該算法試圖在不與環(huán)境交互的情況下最小化策略的預(yù)期回報(bào)；另外作者還提出一種防御算法，該算法以最大-最小的博弈來(lái)對(duì)深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)抗訓(xùn)練。

在Atari游戲環(huán)境中的實(shí)驗(yàn)結(jié)果表明，作者提出的對(duì)抗攻擊算法比現(xiàn)有的攻擊算法更有效，策略回報(bào)率更差。論文中提出的對(duì)抗防御算法生成的策略比現(xiàn)有的防御方法對(duì)一系列對(duì)抗攻擊更具魯棒性。

02 預(yù)備知識(shí)

2.1對(duì)抗攻擊

給定任何一個(gè)樣本(x,y)和神經(jīng)網(wǎng)絡(luò)f，生成對(duì)抗樣本的優(yōu)化目標(biāo)為：

其中是神經(jīng)網(wǎng)絡(luò)f的參數(shù)，L是損失函數(shù)，是對(duì)抗擾動(dòng)集合，是以x為中心，為半徑的范數(shù)約束球。通過(guò)PGD攻擊生成對(duì)抗樣本的計(jì)算公式如下所示：

其中表示的是投影操作，如果輸入在范數(shù)球外，則將輸入投影到以x中心，為半徑的球上，表示的是PGD攻擊的單步擾動(dòng)大小。

2.2強(qiáng)化學(xué)習(xí)和策略梯度

一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題可以被描述為一個(gè)馬爾可夫決策過(guò)程。馬爾可夫決策過(guò)程又可以被定義為一個(gè)的五元組，其中S表示的是一個(gè)狀態(tài)空間，A表示的是一個(gè)動(dòng)作空間，表示的是狀態(tài)轉(zhuǎn)移概率，r表示的是獎(jiǎng)勵(lì)函數(shù)，表示的是折扣因子。強(qiáng)學(xué)學(xué)習(xí)的目標(biāo)是去學(xué)習(xí)一個(gè)參數(shù)策略分布使得價(jià)值函數(shù)最大化

其中表示的是初始狀態(tài)。強(qiáng)學(xué)學(xué)習(xí)包括評(píng)估動(dòng)作值函數(shù)

以上公式描述了在狀態(tài) 執(zhí)行后服從策略的數(shù)學(xué)期望。由定義可知值函數(shù)和動(dòng)作值函數(shù)滿(mǎn)足如下關(guān)系：

為了便于表示，作者主要關(guān)注的是離散動(dòng)作空間的馬爾可夫過(guò)程，但是所有的算法和結(jié)果都可以直接應(yīng)用于連續(xù)的設(shè)定。

03 論文方法

深度強(qiáng)化學(xué)習(xí)策略的對(duì)抗攻擊和防御是建立在是魯棒優(yōu)化PGD的框架之上的

其中表示的是，表示的是對(duì)抗擾動(dòng)序列集合，并且對(duì)于所有的，滿(mǎn)足以上公式提供了一個(gè)深度強(qiáng)化學(xué)習(xí)對(duì)抗攻擊和防御的統(tǒng)一框架。

一方面內(nèi)部最小化優(yōu)化去尋找對(duì)抗擾動(dòng)序列使得當(dāng)前策略做出錯(cuò)誤的決策。另一方面外部最大化的目的是找到策略分布參數(shù) 使得在擾動(dòng)策略下期望回報(bào)最大。經(jīng)過(guò)以上對(duì)抗攻擊和防御博弈，會(huì)使得訓(xùn)練過(guò)程中的策略參數(shù) 能夠更加抵御對(duì)抗攻擊。

目標(biāo)函數(shù)內(nèi)部最小化的目的是生成對(duì)抗擾動(dòng) ，但是對(duì)于強(qiáng)化學(xué)習(xí)算法來(lái)說(shuō)學(xué)習(xí)得到最優(yōu)對(duì)抗擾動(dòng)是非常耗時(shí)耗力的，而且由于訓(xùn)練環(huán)境對(duì)攻擊者來(lái)說(shuō)是一個(gè)黑盒的，所以在該論文中，作者考慮一個(gè)實(shí)際的設(shè)定，即攻擊者在不同的狀態(tài)下去注入擾動(dòng)。不想有監(jiān)督學(xué)習(xí)攻擊場(chǎng)景中，攻擊者只需要欺騙分類(lèi)器模型使得它分類(lèi)出錯(cuò)產(chǎn)生錯(cuò)誤的標(biāo)簽；在強(qiáng)化學(xué)習(xí)的攻擊場(chǎng)景中，動(dòng)作值函數(shù)攻擊者提供了額外的信息，即小的行為值會(huì)導(dǎo)致一個(gè)小的期望回報(bào)。相應(yīng)的，作者在深度強(qiáng)化學(xué)習(xí)中定義了最優(yōu)對(duì)抗擾動(dòng)如下所示

定義1：一個(gè)在狀態(tài)s上最優(yōu)的對(duì)抗擾動(dòng) 能夠最小化狀態(tài)的期望回報(bào)

需要注意的是優(yōu)化求解以上公式的是非常棘手的，它需要確保攻擊者能夠欺騙智能體使得其選擇最差的決策行為，然而對(duì)于攻擊者來(lái)說(shuō)智能體的動(dòng)作值函數(shù)是不可知的，所以無(wú)法保證對(duì)抗擾動(dòng)是最優(yōu)的。以下的定理能夠說(shuō)明如果策略是最優(yōu)的，最優(yōu)對(duì)抗擾動(dòng)能夠用不通過(guò)訪(fǎng)問(wèn)動(dòng)作值函數(shù)的方式被生成

定理1：當(dāng)控制策略是最優(yōu)的，動(dòng)作值函數(shù)和策略滿(mǎn)足以下關(guān)系

其中表示的是策略熵，是一個(gè)狀態(tài)依賴(lài)常量，并且當(dāng) 變化到0的時(shí)候，也會(huì)隨之變?yōu)?，進(jìn)而則有以下公式

證明：當(dāng)隨機(jī)策略達(dá)到最優(yōu)的時(shí)候，值函數(shù) 也達(dá)到了最優(yōu)，這也就是說(shuō)，在每個(gè)狀態(tài)s下，找不到任何其它的行為分布使得值函數(shù) 增大。相應(yīng)的，給定最優(yōu)的動(dòng)作值函數(shù)，可以通過(guò)求解約束優(yōu)化問(wèn)題獲得最優(yōu)策略

其中第二和第三行表示是一個(gè)概率分布，最后一行表示策略是一個(gè)隨機(jī)策略，根據(jù)KKT條件則可以將以上優(yōu)化問(wèn)題轉(zhuǎn)化為如下形式：

其中。假定對(duì)于所有的行為是正定的，則有：

當(dāng) ，則必有，進(jìn)而則有對(duì)于任意的，則有從而會(huì)得到動(dòng)作值函數(shù)和策略的softmax的關(guān)系

其中，進(jìn)而有

將以上的第一個(gè)等式帶入到第二中，則有

其中

以上公式中表示的是一個(gè)softmax形式的概率分布，并且它的熵等于。當(dāng) 等于0的時(shí)候，也變?yōu)?.在這種情況下，是要大于0的，則此時(shí)。

定理1展示了如果策略是最優(yōu)的情況下，最優(yōu)擾動(dòng)可以通過(guò)最大化擾動(dòng)策略和原始策略的交叉熵來(lái)獲得。為了討論的簡(jiǎn)便，作者將定理1的攻擊稱(chēng)之為策略攻擊，而且作者使用PGD算法框架去計(jì)算最優(yōu)的策略攻擊，具體的算法流程圖如下算法1所示。

作者提出的防御對(duì)抗擾動(dòng)的魯棒優(yōu)化算法的流程圖如下算法2所示，該算法被稱(chēng)之為策略攻擊對(duì)抗訓(xùn)練。在訓(xùn)練階段，擾動(dòng)策略被用作去和環(huán)境交互，與此同時(shí)擾動(dòng)策略的動(dòng)作值函數(shù)被估計(jì)去幫助策略訓(xùn)練。

具體的細(xì)節(jié)為，首先在訓(xùn)練階段作者使用策略攻擊去生成擾動(dòng)，即使值函數(shù)沒(méi)有保證被減小。在訓(xùn)練的早期階段，策略也許跟動(dòng)作值函數(shù)不相關(guān)，隨著訓(xùn)練的進(jìn)行，它們會(huì)慢慢滿(mǎn)足softmax 的關(guān)系。

另一方面作者需要精確評(píng)估動(dòng)作值函數(shù)很難處理，因?yàn)檐壽E是通過(guò)運(yùn)行受干擾的策略收集的，而使用這些數(shù)據(jù)估計(jì)未受干擾策略的作用值函數(shù)可能非常不準(zhǔn)確。

使用PPO的優(yōu)化擾動(dòng)策略的目標(biāo)函數(shù)為

其中，并且是擾動(dòng)策略平均函數(shù)的一個(gè)估計(jì)。在實(shí)際中，是由方法GAE估計(jì)得來(lái)的。具體的算法流程圖如下圖所示。

04 實(shí)驗(yàn)結(jié)果

如下右側(cè)的三個(gè)子圖顯示了不同攻擊擾動(dòng)的結(jié)果?？梢园l(fā)現(xiàn)經(jīng)過(guò)逆向訓(xùn)練的策略和標(biāo)準(zhǔn)策略都能抵抗隨機(jī)擾動(dòng)。相反，對(duì)抗攻擊會(huì)降低不同策略的性能。結(jié)果取決于測(cè)試環(huán)境和防御算法，進(jìn)一步可以發(fā)現(xiàn)三種對(duì)抗性攻擊算法之間的性能差距很小。

相比之下，在相對(duì)困難的設(shè)置環(huán)境中，論文作者提出的策略攻擊算法干擾的策略產(chǎn)生的回報(bào)要低得多?？傮w而言，論文中提出的策略攻擊算法在大多數(shù)情況下產(chǎn)生的回報(bào)最低，這表明它確實(shí)是所有經(jīng)過(guò)測(cè)試的對(duì)抗攻擊算法中效率最高的。

如下圖所示顯示了不同防御算法以及標(biāo)準(zhǔn)PPO的學(xué)習(xí)曲線(xiàn)。需要注意的是性能曲線(xiàn)僅表示用于與環(huán)境交互的策略的預(yù)期回報(bào)。在所有的訓(xùn)練算法中，論文中提出的ATPA具有最低的訓(xùn)練方差，因此比其他算法更穩(wěn)定。另外還能注意到，ATPA的進(jìn)度比標(biāo)準(zhǔn)PPO慢得多，尤其是在早期訓(xùn)練階段。這導(dǎo)致了這樣一個(gè)事實(shí)，即在早期的訓(xùn)練階段，受不利因素干擾會(huì)使得策略訓(xùn)練非常不穩(wěn)定。

表總結(jié)了使用不同算法在不同擾動(dòng)下的策略預(yù)期回報(bào)?？梢园l(fā)現(xiàn)經(jīng)過(guò)ATPA訓(xùn)練的策略能夠抵抗各種對(duì)抗干擾。相比之下，盡管StageWise和DataAugment在某種程度上學(xué)會(huì)了處理對(duì)抗攻擊，但它們?cè)谒星闆r下都不如ATPA有效。

為了進(jìn)行更廣泛的比較，作者還評(píng)估了這些防御算法對(duì)最有效的策略攻擊算法產(chǎn)生的不同程度的對(duì)抗干擾的魯棒性。如下圖所示，ATPA再次在所有情況下獲得最高分?jǐn)?shù)。此外，ATPA的評(píng)估方差遠(yuǎn)小于StageWise和DataAugment，表明ATPA具有更強(qiáng)的生成能力。

為了達(dá)到類(lèi)似的性能，ATPA需要比標(biāo)準(zhǔn)PPO算法更多的訓(xùn)練數(shù)據(jù)。作者通過(guò)研究擾動(dòng)策略的穩(wěn)定性來(lái)深入研究這個(gè)問(wèn)題。作者計(jì)算了通過(guò)在訓(xùn)練過(guò)程中間和結(jié)束時(shí)使用不同隨機(jī)初始點(diǎn)的PGD執(zhí)行策略攻擊而獲得的擾動(dòng)策略的KL散度值。如下圖所示，在沒(méi)有對(duì)抗訓(xùn)練的情況下，即使標(biāo)準(zhǔn)PPO已經(jīng)收斂，也會(huì)不斷觀察到較大的KL 散度值，這表明策略對(duì)于使用不同初始點(diǎn)執(zhí)行PGD所產(chǎn)生的擾動(dòng)非常不穩(wěn)定。

下圖顯示了具有不同初始點(diǎn)的擾動(dòng)策略的KL散度圖，可以發(fā)現(xiàn)圖中的每個(gè)像素表示兩個(gè)擾動(dòng)策略的KL散度值，這兩個(gè)擾動(dòng)策略通過(guò)最大化ATPA算法的核心公式給出。需要注意的是由于KL散度是一個(gè)非對(duì)稱(chēng)度量，因此這些映射也是不對(duì)稱(chēng)的。

? ?

責(zé)任編輯：張燕妮來(lái)源：我愛(ài)計(jì)算機(jī)視覺(jué)

深度學(xué)習(xí)防御

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)