深度強(qiáng)化學(xué)習(xí)中的對(duì)抗攻擊和防御
01 前言
該論文是關(guān)于深度強(qiáng)化學(xué)習(xí)對(duì)抗攻擊的工作。在該論文中,作者從魯棒優(yōu)化的角度研究了深度強(qiáng)化學(xué)習(xí)策略對(duì)對(duì)抗攻擊的魯棒性。在魯棒優(yōu)化的框架下,通過(guò)最小化策略的預(yù)期回報(bào)來(lái)給出最優(yōu)的對(duì)抗攻擊,相應(yīng)地,通過(guò)提高策略應(yīng)對(duì)最壞情況的性能來(lái)實(shí)現(xiàn)良好的防御機(jī)制。
考慮到攻擊者通常無(wú)法 在訓(xùn)練環(huán)境中 攻擊,作者提出了一種貪婪攻擊算法,該算法試圖在不與環(huán)境交互的情況下最小化策略的預(yù)期回報(bào);另外作者還提出一種防御算法,該算法以最大-最小的博弈來(lái)對(duì)深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)抗訓(xùn)練。
在Atari游戲環(huán)境中的實(shí)驗(yàn)結(jié)果表明,作者提出的對(duì)抗攻擊算法比現(xiàn)有的攻擊算法更有效,策略回報(bào)率更差。論文中提出的對(duì)抗防御算法生成的策略比現(xiàn)有的防御方法對(duì)一系列對(duì)抗攻擊更具魯棒性。
02 預(yù)備知識(shí)
2.1對(duì)抗攻擊
給定任何一個(gè)樣本(x,y)和神經(jīng)網(wǎng)絡(luò)f,生成對(duì)抗樣本的優(yōu)化目標(biāo)為:
其中 是神經(jīng)網(wǎng)絡(luò)f的參數(shù),L是損失函數(shù), 是對(duì)抗擾動(dòng)集合, 是以x為中心, 為半徑的范數(shù)約束球。通過(guò)PGD攻擊生成對(duì)抗樣本的計(jì)算公式如下所示:
其中 表示的是投影操作,如果輸入在范數(shù)球外,則將輸入投影到以x中心, 為半徑的 球上, 表示的是PGD攻擊的單步擾動(dòng)大小。
2.2強(qiáng)化學(xué)習(xí)和策略梯度
一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題可以被描述為一個(gè)馬爾可夫決策過(guò)程。馬爾可夫決策過(guò)程又可以被定義為一個(gè)的五元組,其中S表示的是一個(gè)狀態(tài)空間,A表示的是一個(gè)動(dòng)作空間,
表示的是狀態(tài)轉(zhuǎn)移概率,r表示的是獎(jiǎng)勵(lì)函數(shù), 表示的是折扣因子。強(qiáng)學(xué)學(xué)習(xí)的目標(biāo)是去學(xué)習(xí)一個(gè)參數(shù)策略分布
使得價(jià)值函數(shù)最大化
其中 表示的是初始狀態(tài)。強(qiáng)學(xué)學(xué)習(xí)包括評(píng)估動(dòng)作值函數(shù)
以上公式描述了在狀態(tài) 執(zhí)行 后服從策略 的數(shù)學(xué)期望。由定義可知值函數(shù)和動(dòng)作值函數(shù)滿(mǎn)足如下關(guān)系:
為了便于表示,作者主要關(guān)注的是離散動(dòng)作空間的馬爾可夫過(guò)程,但是所有的算法和結(jié)果都可以直接應(yīng)用于連續(xù)的設(shè)定。
03 論文方法
深度強(qiáng)化學(xué)習(xí)策略的對(duì)抗攻擊和防御是建立在是魯棒優(yōu)化PGD的框架之上的
其中 表示的是, 表示的是對(duì)抗擾動(dòng)序列集合
,并且對(duì)于所有的
,滿(mǎn)足
以上公式提供了一個(gè)深度強(qiáng)化學(xué)習(xí)對(duì)抗攻擊和防御的統(tǒng)一框架。
一方面內(nèi)部最小化優(yōu)化去尋找對(duì)抗擾動(dòng)序列 使得當(dāng)前策略 做出錯(cuò)誤的決策。另一方面外部最大化的目的是找到策略分布參數(shù) 使得在擾動(dòng)策略下期望回報(bào)最大。經(jīng)過(guò)以上對(duì)抗攻擊和防御博弈,會(huì)使得訓(xùn)練過(guò)程中的策略參數(shù) 能夠更加抵御對(duì)抗攻擊。
目標(biāo)函數(shù)內(nèi)部最小化的目的是生成對(duì)抗擾動(dòng) ,但是對(duì)于強(qiáng)化學(xué)習(xí)算法來(lái)說(shuō)學(xué)習(xí)得到最優(yōu)對(duì)抗擾動(dòng)是非常耗時(shí)耗力的,而且由于訓(xùn)練環(huán)境對(duì)攻擊者來(lái)說(shuō)是一個(gè)黑盒的,所以在該論文中,作者考慮一個(gè)實(shí)際的設(shè)定,即攻擊者在不同的狀態(tài)下去注入擾動(dòng)。不想有監(jiān)督學(xué)習(xí)攻擊場(chǎng)景中,攻擊者只需要欺騙分類(lèi)器模型使得它分類(lèi)出錯(cuò)產(chǎn)生錯(cuò)誤的標(biāo)簽;在強(qiáng)化學(xué)習(xí)的攻擊場(chǎng)景中,動(dòng)作值函數(shù)攻擊者提供了額外的信息,即小的行為值會(huì)導(dǎo)致一個(gè)小的期望回報(bào)。相應(yīng)的,作者在深度強(qiáng)化學(xué)習(xí)中定義了最優(yōu)對(duì)抗擾動(dòng)如下所示
定義1: 一個(gè)在狀態(tài)s上最優(yōu)的對(duì)抗擾動(dòng) 能夠最小化狀態(tài)的期望回報(bào)
需要注意的是優(yōu)化求解以上公式的是非常棘手的,它需要確保攻擊者能夠欺騙智能體使得其選擇最差的決策行為,然而對(duì)于攻擊者來(lái)說(shuō)智能體的動(dòng)作值函數(shù)是不可知的,所以無(wú)法保證對(duì)抗擾動(dòng)是最優(yōu)的。以下的定理能夠說(shuō)明如果策略是最優(yōu)的,最優(yōu)對(duì)抗擾動(dòng)能夠用不通過(guò)訪(fǎng)問(wèn)動(dòng)作值函數(shù)的方式被生成
定理1: 當(dāng)控制策略是最優(yōu)的,動(dòng)作值函數(shù)和策略滿(mǎn)足以下關(guān)系
其中 表示的是策略熵, 是一個(gè)狀態(tài)依賴(lài)常量,并且當(dāng) 變化到0的時(shí)候, 也會(huì)隨之變?yōu)?,進(jìn)而則有以下公式
證明: 當(dāng)隨機(jī)策略 達(dá)到最優(yōu)的時(shí)候,值函數(shù)
也達(dá)到了最優(yōu),這也就是說(shuō),在每個(gè)狀態(tài)s下,找不到任何其它的行為分布使得值函數(shù)
增大。相應(yīng)的,給定最優(yōu)的動(dòng)作值函數(shù)
,可以通過(guò)求解約束優(yōu)化問(wèn)題獲得最優(yōu)策略
其中第二和第三行表示 是一個(gè)概率分布,最后一行表示策略 是一個(gè)隨機(jī)策略,根據(jù)KKT條件則可以將以上優(yōu)化問(wèn)題轉(zhuǎn)化為如下形式:
其中。假定
對(duì)于所有的行為
是正定的,則有:
當(dāng) ,則必有
,進(jìn)而則有對(duì)于任意的
,則有
從而會(huì)得到動(dòng)作值函數(shù)和策略的softmax的關(guān)系
其中,進(jìn)而有
將以上的第一個(gè)等式帶入到第二中,則有
其中
以上公式中 表示的是一個(gè)softmax形式的概率分布,并且它的熵等于 。當(dāng) 等于0的時(shí)候, 也變?yōu)?.在這種情況下, 是要大于0的,則此時(shí)
。
定理1展示了如果策略是最優(yōu)的情況下,最優(yōu)擾動(dòng)可以通過(guò)最大化擾動(dòng)策略和原始策略的交叉熵來(lái)獲得。為了討論的簡(jiǎn)便,作者將定理1的攻擊稱(chēng)之為策略攻擊,而且作者使用PGD算法框架去計(jì)算最優(yōu)的策略攻擊,具體的算法流程圖如下算法1所示。
作者提出的防御對(duì)抗擾動(dòng)的魯棒優(yōu)化算法的流程圖如下算法2所示,該算法被稱(chēng)之為策略攻擊對(duì)抗訓(xùn)練。在訓(xùn)練階段,擾動(dòng)策略 被用作去和環(huán)境交互,與此同時(shí)擾動(dòng)策略的動(dòng)作值函數(shù)被估計(jì)去幫助策略訓(xùn)練。
具體的細(xì)節(jié)為,首先在訓(xùn)練階段作者使用策略攻擊去生成擾動(dòng),即使值函數(shù)沒(méi)有保證被減小。在訓(xùn)練的早期階段,策略也許跟動(dòng)作值函數(shù)不相關(guān),隨著訓(xùn)練的進(jìn)行,它們會(huì)慢慢滿(mǎn)足softmax 的關(guān)系。
另一方面作者需要精確評(píng)估動(dòng)作值函數(shù)很難處理,因?yàn)檐壽E是通過(guò)運(yùn)行受干擾的策略收集的,而使用這些數(shù)據(jù)估計(jì)未受干擾策略的作用值函數(shù)可能非常不準(zhǔn)確。
使用PPO的優(yōu)化擾動(dòng)策略的目標(biāo)函數(shù)為
其中,并且
是擾動(dòng)策略平均函數(shù)
的一個(gè)估計(jì)。在實(shí)際中,
是由方法GAE估計(jì)得來(lái)的。具體的算法流程圖如下圖所示。
04 實(shí)驗(yàn)結(jié)果
如下右側(cè)的三個(gè)子圖顯示了不同攻擊擾動(dòng)的結(jié)果??梢园l(fā)現(xiàn)經(jīng)過(guò)逆向訓(xùn)練的策略和標(biāo)準(zhǔn)策略都能抵抗隨機(jī)擾動(dòng)。相反,對(duì)抗攻擊會(huì)降低不同策略的性能。結(jié)果取決于測(cè)試環(huán)境和防御算法,進(jìn)一步可以發(fā)現(xiàn)三種對(duì)抗性攻擊算法之間的性能差距很小。
相比之下,在相對(duì)困難的設(shè)置環(huán)境中,論文作者提出的策略攻擊算法干擾的策略產(chǎn)生的回報(bào)要低得多??傮w而言,論文中提出的策略攻擊算法在大多數(shù)情況下產(chǎn)生的回報(bào)最低,這表明它確實(shí)是所有經(jīng)過(guò)測(cè)試的對(duì)抗攻擊算法中效率最高的。
如下圖所示顯示了不同防御算法以及標(biāo)準(zhǔn)PPO的學(xué)習(xí)曲線(xiàn)。需要注意的是性能曲線(xiàn)僅表示用于與環(huán)境交互的策略的預(yù)期回報(bào)。在所有的訓(xùn)練算法中,論文中提出的ATPA具有最低的訓(xùn)練方差,因此比其他算法更穩(wěn)定。另外還能注意到,ATPA的進(jìn)度比標(biāo)準(zhǔn)PPO慢得多,尤其是在早期訓(xùn)練階段。這導(dǎo)致了這樣一個(gè)事實(shí),即在早期的訓(xùn)練階段,受不利因素干擾會(huì)使得策略訓(xùn)練非常不穩(wěn)定。
表總結(jié)了使用不同算法在不同擾動(dòng)下的策略預(yù)期回報(bào)??梢园l(fā)現(xiàn)經(jīng)過(guò)ATPA訓(xùn)練的策略能夠抵抗各種對(duì)抗干擾。相比之下,盡管StageWise和DataAugment在某種程度上學(xué)會(huì)了處理對(duì)抗攻擊,但它們?cè)谒星闆r下都不如ATPA有效。
為了進(jìn)行更廣泛的比較,作者還評(píng)估了這些防御算法對(duì)最有效的策略攻擊算法產(chǎn)生的不同程度的對(duì)抗干擾的魯棒性。如下圖所示,ATPA再次在所有情況下獲得最高分?jǐn)?shù)。此外,ATPA的評(píng)估方差遠(yuǎn)小于StageWise和DataAugment,表明ATPA具有更強(qiáng)的生成能力。
為了達(dá)到類(lèi)似的性能,ATPA需要比標(biāo)準(zhǔn)PPO算法更多的訓(xùn)練數(shù)據(jù)。作者通過(guò)研究擾動(dòng)策略的穩(wěn)定性來(lái)深入研究這個(gè)問(wèn)題。作者計(jì)算了通過(guò)在訓(xùn)練過(guò)程中間和結(jié)束時(shí)使用不同隨機(jī)初始點(diǎn)的PGD執(zhí)行策略攻擊而獲得的擾動(dòng)策略的KL散度值。如下圖所示,在沒(méi)有對(duì)抗訓(xùn)練的情況下,即使標(biāo)準(zhǔn)PPO已經(jīng)收斂,也會(huì)不斷觀察到較大的KL 散度值,這表明策略對(duì)于使用不同初始點(diǎn)執(zhí)行PGD所產(chǎn)生的擾動(dòng)非常不穩(wěn)定。
下圖顯示了具有不同初始點(diǎn)的擾動(dòng)策略的KL散度圖,可以發(fā)現(xiàn)圖中的每個(gè)像素表示兩個(gè)擾動(dòng)策略的KL散度值,這兩個(gè)擾動(dòng)策略通過(guò)最大化ATPA算法的核心公式給出。需要注意的是由于KL散度是一個(gè)非對(duì)稱(chēng)度量,因此這些映射也是不對(duì)稱(chēng)的。
? ?