當數(shù)據(jù)成為「生產(chǎn)資料」,三篇論文總結(jié)如何用水印技術(shù)保護AI訓(xùn)練數(shù)據(jù)版權(quán)
1、引言 -- 為什么要在 AI 訓(xùn)練數(shù)據(jù)中添加水?。?/span>
深度神經(jīng)網(wǎng)絡(luò)(DNN)以其高效率和高效益被廣泛應(yīng)用于許多關(guān)鍵任務(wù)應(yīng)用和設(shè)備中。高質(zhì)量的已發(fā)布(如開源或商業(yè))數(shù)據(jù)集是 DNNs 技術(shù)發(fā)展的關(guān)鍵因素之一。研究人員和開發(fā)人員利用這些數(shù)據(jù)集驗證其模型的有效性,進而加快 DNN 的開發(fā)。這些已發(fā)布數(shù)據(jù)集非常有價值,但收集數(shù)據(jù)的過程通常耗時且非常昂貴。在這樣的應(yīng)用背景下,在 AI 訓(xùn)練數(shù)據(jù)中添加水印,對于保護數(shù)據(jù)集免遭未經(jīng)授權(quán)的使用以及保護數(shù)據(jù)創(chuàng)作者的版權(quán)具有重大的意義,值得深入研究和探討。
目前,已有的一些數(shù)據(jù)保護技術(shù),例如加密、數(shù)字水印、差分保護等,主要目的是防止未經(jīng)授權(quán)的用戶使用受保護的數(shù)據(jù)。然而,這些方法并不適合保護 DNN 訓(xùn)練所依賴的公開發(fā)布的數(shù)據(jù)集。具體來說,加密和差分保護處理會影響受保護數(shù)據(jù)集的正常功能,而數(shù)字水印技術(shù)在這種場景下的作用很小,因為未經(jīng)授權(quán)的用戶只會發(fā)布他們訓(xùn)練好的模型,而不會公開他們的訓(xùn)練樣本。
如何保護公開發(fā)布的數(shù)據(jù)集仍是一個重要的未決問題。這個問題具有挑戰(zhàn)性,因為攻擊方是可以訪問被攻擊的數(shù)據(jù)集的。數(shù)據(jù)集的安全性是 AI 在推廣應(yīng)用過程中必須面對的一個關(guān)鍵問題,因此,吸引了產(chǎn)業(yè)界的廣泛關(guān)注。Digimarc 公司最近推出了一項名為 Digimarc Validate 的新服務(wù)(https://www.digimarc.com/),旨在幫助保護數(shù)字內(nèi)容的版權(quán)。這一服務(wù)允許版權(quán)所有者在其作品中嵌入數(shù)字水印,從而有助于防止 AI 模型在訓(xùn)練過程中針對訓(xùn)練數(shù)據(jù)出現(xiàn)侵犯版權(quán)的問題。
與此同時,學(xué)術(shù)界也非常重視水印技術(shù)在 AI 數(shù)據(jù)中的應(yīng)用。我們在這篇文章中分析了幾篇近期發(fā)布的論文,重點討論了在 AI 訓(xùn)練數(shù)據(jù)集中添加水印的技術(shù)。
前兩篇文章是來自清華大學(xué)深圳研究院的同一個研究團隊,聚焦于 “通過在數(shù)據(jù)集中嵌入數(shù)字水印來保護數(shù)據(jù)集免遭未經(jīng)授權(quán)使用的方法”。其中,第一篇文章針對 poison-only 后門攻擊,將保護 AI 訓(xùn)練數(shù)據(jù)集的問題表述為所有權(quán)驗證。在這一問題中,一般包含兩個參與方:防御方和攻擊方,一般來說,防御方會發(fā)布自己的數(shù)據(jù)集,并希望保護其版權(quán);而攻擊方的目標則是 "竊取" 已發(fā)布的數(shù)據(jù)集,用于未經(jīng)防御方許可訓(xùn)練其商業(yè)模型。在后門攻擊中,攻擊方會在訓(xùn)練過程中將隱藏的后門植入被攻擊的模型中。被攻擊的模型在良性樣本上表現(xiàn)正常,而一旦出現(xiàn)攻擊方指定的觸發(fā)器,就會不斷輸出目標標簽。根據(jù)攻擊方的能力,現(xiàn)有的后門攻擊大致可分為三大類,包括 poison-only 攻擊、訓(xùn)練控制攻擊和模型修改攻擊。具體來說,poison-only 攻擊需要改變訓(xùn)練數(shù)據(jù)集,而訓(xùn)練控制攻擊還需要修改其他訓(xùn)練組件(如訓(xùn)練損失),模型修改攻擊則是通過直接修改模型參數(shù)或結(jié)構(gòu)來進行的。
第一篇文章具體聚焦在 poison-only 后門攻擊,防御方嘗試去識別和驗證一個可疑模型是否是在(受保護的)被攻擊的數(shù)據(jù)集上訓(xùn)練出來的:首先,防御方利用 poison-only 后門攻擊進行數(shù)據(jù)集水??;然后,防御方進行數(shù)據(jù)集驗證,通過假設(shè)檢驗檢查可疑模型是否包含特定的隱藏后門。
第二篇文章在第一篇工作的基礎(chǔ)上,進一步改進所有權(quán)驗證的方法,研究了如何設(shè)計無目標后門水印(untargeted backdoor watermark,UBW),以及如何利用它進行無害、隱蔽的數(shù)據(jù)集所有權(quán)驗證。給定一個可疑模型,防御方驗證該模型是否在(受保護的)數(shù)據(jù)集上訓(xùn)練過。與第一篇文章的工作相同,假設(shè)數(shù)據(jù)集防御方只能通過查詢可疑模型來獲取輸入樣本的預(yù)測概率向量,而對訓(xùn)練過程和模型參數(shù)一無所知。研究團隊表示,這兩篇文章中提到的相關(guān)技術(shù)可以應(yīng)用于許多不同類型的機器學(xué)習(xí)問題,不過在文章中探討的重點是分類模型,特別是圖像分類模型。
與上面所有權(quán)驗證的方法不同,第三篇文章提出了一種基于后門的水印方法。通過在數(shù)據(jù)集中插入少量水印樣本,可以讓 DNN 模型隱式地學(xué)到一個由防御方設(shè)置的 secret function,這個 secret function 可以作為水印,用來追蹤非法使用數(shù)據(jù)集的第三方模型。本文引入了一種清潔標簽后門水印框架,利用不可感知的擾動來替換錯誤標簽樣本,從而實現(xiàn)水印樣本與原始標簽保持一致,很難被檢測到。
2、在 AI 訓(xùn)練數(shù)據(jù)中添加水印的方法及應(yīng)用場景
2.1 Black-box Dataset Ownership Verification via Backdoor Watermarking
https://arxiv.org/pdf/2209.06015.pdf
本文將保護 AI 訓(xùn)練數(shù)據(jù)集的問題表述為所有權(quán)驗證問題,即防御方識別一個可疑模型是否是在(受保護的)被攻擊的數(shù)據(jù)集上訓(xùn)練出來的。特別是,作者考慮了黑盒環(huán)境,與白盒環(huán)境相比黑盒環(huán)境更加困難,因為防御方只能獲得模型預(yù)測,而不知道其訓(xùn)練細節(jié)和模型參數(shù)。這種設(shè)置更加實用,即使防御方只能訪問模型 API,也能執(zhí)行所有權(quán)驗證。作者提出了一種稱為通過后門水印進行數(shù)據(jù)集驗證(dubbed dataset verification via backdoor watermarking,DVBW)的方法。DVBW 包括兩個主要步驟:數(shù)據(jù)集水印和數(shù)據(jù)集驗證。
圖 1. DVBW 主要流程。第一步,防御方利用基于數(shù)據(jù)污染的后門攻擊進行數(shù)據(jù)集水印。第二步,防御方通過假設(shè)檢驗檢查可疑模型是否包含特定的隱藏后門,從而進行數(shù)據(jù)集驗證。本文考慮了兩種具有代表性的黑盒場景,防御方可以分別獲得預(yù)測概率和僅有預(yù)測標簽
具體來說,作者在數(shù)據(jù)集水印中采用了基于數(shù)據(jù)污染的后門攻擊(poison-only backdoor attacks),其想法是:只需修改數(shù)據(jù),就能在被污染的數(shù)據(jù)樣本上安排學(xué)習(xí)特殊行為(比如,把 “貓” 識別成 “狗”),同時在良性樣本上保持較高的預(yù)測準確度。在數(shù)據(jù)集驗證方面,防御方可以通過檢查特定后門的存在來驗證可疑模型是否是在加了水印的被攻擊的數(shù)據(jù)集上訓(xùn)練出來的。
2.1.1 DNN 流程
深度神經(jīng)網(wǎng)絡(luò)(DNN)已在廣泛的應(yīng)用中顯示出其有效性。目前有許多不同類型的 DNN,如卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò),它們是針對不同任務(wù)和目的而設(shè)計的。目前,DNNs 的學(xué)習(xí)是數(shù)據(jù)驅(qū)動的,尤其是在有監(jiān)督的情況下。具體來說,令 D 表示(標記的)訓(xùn)練集,其中 X 和 Y 分別表示輸入和輸出空間。一般來說,DNN 基于如下優(yōu)化學(xué)習(xí)一個映射函數(shù)(參數(shù) θ)f_θ : X → Y:
訓(xùn)練完成后,就可以通過 f _θ(x) 預(yù)測 "未見" 樣本 x 的標簽。
2.1.2 后門攻擊流程
數(shù)據(jù)污染的后門攻擊首先會生成污染數(shù)據(jù)集 D_p,在此基礎(chǔ)上訓(xùn)練給定模型。具體來說,令 y_t 表示目標標簽,D_b 表示良性訓(xùn)練集,其中 X 和 Y 分別表示輸入和輸出空間。后門攻擊方首先根據(jù)攻擊方指定的數(shù)據(jù)污染生成器 G 和目標標簽 y_t,選擇 D_b 的子集(即 D_s)生成其修改版本 D_m。換句話說,D_s ? D_b,D_m ={(x', y_t)|x' = G (x),(x, y) ∈ D_s}。污染數(shù)據(jù)集 D_p 是 D_m 與剩余良性樣本的組合,即 D_p = D_m ∪(D_b\D_s)。特別的,定義 γ 為污染率指標:
生成污染數(shù)據(jù)集生成后,將其用于訓(xùn)練被攻擊的模型。這一過程與標準訓(xùn)練過程幾乎相同,只是訓(xùn)練數(shù)據(jù)集不同。隱藏的后門將在訓(xùn)練過程中創(chuàng)建,即對于有后門的模型 f_b,f_b (G (x))=yt,?x∈X。特別是,f_b 在預(yù)測良性樣本時將保持較高的準確率。
本文重點討論分類任務(wù)的數(shù)據(jù)集保護問題。該問題涉及攻擊方和防御方。一般來說,防御方會發(fā)布自己的數(shù)據(jù)集,并希望保護其版權(quán);而攻擊方的目標則是在未經(jīng)防御方許可的情況下 "竊取" 已發(fā)布的數(shù)據(jù)集,用于訓(xùn)練自己的模型。具體來說,令 D? 表示包含 K 個不同類別的受保護數(shù)據(jù)集,S 表示可疑模型,將數(shù)據(jù)集保護表述為一個驗證問題,即防御方打算在黑盒設(shè)置下識別 S 是否在 D? 上訓(xùn)練過。防御方只能查詢模型,而對模型的參數(shù)、模型結(jié)構(gòu)和訓(xùn)練細節(jié)一無所知。這對防御方來說是最難的設(shè)置,因為他們的能力非常有限。不過,這也使得本文提出的方法最具普及性,也就是說,即使防御方只能查詢可疑第三方模型的應(yīng)用程序接口,他們?nèi)匀豢梢员Wo數(shù)據(jù)集。
作者特別考慮了兩種有代表性的驗證場景,包括概率可用驗證和僅標簽驗證。在第一種情況下,防御方可以獲得輸入樣本的預(yù)測概率向量,而在第二種情況下,他們只能獲得預(yù)測標簽。后一種情況更具挑戰(zhàn)性,因為防御方從模型預(yù)測中獲得的信息更少。
2.1.3 數(shù)據(jù)集水印
由于防御方只能修改公開發(fā)布的數(shù)據(jù)集和查詢可疑模型,因此唯一的辦法就是在良性數(shù)據(jù)集上加水印,使在良性數(shù)據(jù)集上訓(xùn)練的模型具有防御方指定的獨特預(yù)測行為。防御方可以驗證可疑模型是否具有預(yù)定義行為,以確認其是否在受保護數(shù)據(jù)集上經(jīng)過訓(xùn)練。一般來說,設(shè)計的數(shù)據(jù)集水印需要滿足以下三個主要特性:
令 f 和 f? 分別表示在良性數(shù)據(jù)集 D 及其水印版本 D? 上訓(xùn)練的模型
- ζ-Harmlessness:水印不應(yīng)損害數(shù)據(jù)集的功能,即 BA (f)-BA (f?) < ζ,其中 BA 表示良性準確度;
- η-distinctiveness:所有在帶水印數(shù)據(jù)集 D? 上訓(xùn)練的模型都應(yīng)在帶水印數(shù)據(jù)上具有某些獨特的預(yù)測行為(與在其良性版本上訓(xùn)練的模型相比);
- Stealthiness:數(shù)據(jù)集水印不應(yīng)引起攻擊方的注意。例如,對數(shù)據(jù)集用戶來說,水印率應(yīng)該很小,水印數(shù)據(jù)應(yīng)該很自然。
2.1.4 數(shù)據(jù)集驗證
給定一個可疑模型 S (·),防御方可以通過檢查特定后門的存在來驗證該模型是否是在其發(fā)布的數(shù)據(jù)集上訓(xùn)練出來的。具體來說,假設(shè) x' 表示污染數(shù)據(jù)樣本,y_t 表示目標標簽,防御方只需根據(jù) S (x') 的結(jié)果就能檢驗出可疑模型。如果 S (x') = y_t,可疑模型將被視為在被攻擊的數(shù)據(jù)集上訓(xùn)練出來的。然而,它可能會受到選擇 x' 的隨機性的影響。本文設(shè)計了一種以假設(shè)檢驗為導(dǎo)向的方法來提高驗證可信度。作者考慮了兩種具有代表性的黑盒場景,包括概率可用驗證和僅標簽驗證。本文根據(jù)它們的特點設(shè)計了不同的驗證方法,具體如下:
1) 概率可用驗證:在這種情況下,防御方可以獲得輸入樣本的預(yù)測概率向量。要檢查是否存在隱藏的后門,防御方只需驗證目標類水印樣本的后驗概率是否顯著高于良性測試樣本的后驗概率。在實際操作中,我們隨機抽取 m 個不同的帶有非目標標簽的良性樣本,進行(單尾)Parwise T-test,并計算其 p 值。如果 p 值小于顯著性水平 α,則拒絕零假設(shè) H_0。此外,還計算置信度得分 ?P = P_w -P_b 來表示驗證置信度。?P 越大,驗證的可信度越高。算法 1 給出了主要驗證過程。
2) 僅標簽驗證:在這種情況下,防御方只能獲得預(yù)測標簽。因此,識別隱藏后門的唯一方法就是檢查水印樣本(其 ground-truth 標簽不是目標標簽)的預(yù)測標簽是否是目標標簽。在實際操作中,隨機抽取 m 個不同的無目標標簽良性樣本進行 Wilcoxon 檢驗,并計算其 p 值。如果 p 值小于顯著性水平 α,則拒絕零假設(shè) H'。算法 2 給出主要的驗證過程。
特別是,由于 Wilcoxon-test 的機制,作者建議用戶在僅標簽設(shè)置下將 y_t 設(shè)為 接近 K/2 的數(shù)據(jù)。如果 y_t 太小或太大,當水印成功率不夠高時, DVBW 可能檢測不到數(shù)據(jù)集的竊取。
2.1.5 實驗分析
數(shù)據(jù)集水印的度量標準。作者采用良性準確率(benign accuracy,BA)和水印成功率(watermark success rate,WSR)來驗證數(shù)據(jù)集水印的有效性。具體來說,良性準確率是指模型在良性測試集上的準確率,而水印成功率是指模型在水印測試集上的準確率。BA 和 WSR 越高,說明方法越好。
數(shù)據(jù)集驗證指標。采用 ΔP(∈[-1,1])和 p(∈[0,1])來驗證概率可用數(shù)據(jù)集驗證的有效性和僅標簽數(shù)據(jù)集驗證的 p 值。具體來說,作者在三種情況下評估了方法,包括(1)獨立觸發(fā)(Independent Trigger)(2)獨立模型(Independent Model)(3)偷竊(Steal)。
在第一種情況下,作者使用與訓(xùn)練過程中使用的觸發(fā)器不同的觸發(fā)器驗證水印可疑模型;在第二種情況下,作者使用觸發(fā)器模式檢查良性可疑模型;在最后一種情況下,使用水印可疑模型訓(xùn)練過程中采用的觸發(fā)器。在前兩種情況下,模型不視為在受保護數(shù)據(jù)集上訓(xùn)練過,因此 ?P 越小,p 越大,驗證效果越好。在最后一種情況下,可疑模型是在受保護數(shù)據(jù)集上訓(xùn)練的,因此 ?P 越大,p 越小,驗證方法越好。
作者在圖像識別、NLP、Graph Recognition 等任務(wù)上進行了實驗,同時也做了 Ablation Study。我們在這片文章中重點介紹一下圖像識別任務(wù)中的情況。感興趣的讀者可以閱讀原文。
作者在 CIFAR-10 和(ImageNet 數(shù)據(jù)集的一個子集)ImageNet 數(shù)據(jù)集上使用 VGG-19(帶批量歸一化)和 ResNet-18 進行了實驗。具體來說,從原始 ImageNet 數(shù)據(jù)集中隨機選擇了一個包含 200 個類別(每個類別 500 張圖像)的子集進行訓(xùn)練,并選擇了 10,000 張圖像進行測試(每個類別 50 張圖像),以簡化測試。
數(shù)據(jù)集水印設(shè)置。采用 BadNets 和混合攻擊(稱為 "Blended"),數(shù)據(jù)污染率 γ = 0.1。它們分別代表了可見型和不可見型數(shù)據(jù)污染后門攻擊。目標標簽 y_t 設(shè)置為類別數(shù) K 的一半(即 CIFAR-10 為 "5",ImageNet 為 "100")。在混合攻擊中,透明度設(shè)置為 α∈ {0, 0.2}^(C×W×H) 。生成的數(shù)據(jù)污染樣本示例如圖 2 所示。
圖 2. BadNets 和混合攻擊在 CIFAR-10 和 ImageNet 數(shù)據(jù)集上生成的良性圖像和水印圖像示例。紅框中標出了觸發(fā)區(qū)域
隨機選擇 m =100 個不同的良性測試樣本進行假設(shè)檢驗。對于概率可用性驗證,將確定性相關(guān)超參數(shù) τ 設(shè)為 0.2。具體來說,僅從 ImageNet 的前 10 個類別中選擇樣本,僅從 CIFAR-10 的前兩個類別中選擇樣本進行僅標簽驗證。這一策略是為了在類別數(shù)量相對較多時,減少隨機選擇的副作用。如表 I 所示,本文的水印方法是無害的。與使用良性數(shù)據(jù)集進行訓(xùn)練相比,數(shù)據(jù)集水印在所有情況下只降低了小于 2% 的良性準確率(大部分情況下小于 1%)。換句話說,它不會妨礙數(shù)據(jù)集的正常使用。此外,低數(shù)據(jù)污染率帶來的微小性能下降也確保了水印的隱蔽性。此外,它還能成功嵌入隱藏的后門。例如,在 CIFAR-10 數(shù)據(jù)集上,所有情況下的水印成功率都大于 94%(大部分大于 99%)。這些結(jié)果驗證了本文數(shù)據(jù)集水印技術(shù)的有效性。特別是,如表 2、表 3 所示,本文的數(shù)據(jù)集驗證也很有效。在概率可用的情況下,本文方法能以較高的置信度(?P≥ 0 和 p ≤0.01)準確識別數(shù)據(jù)集竊取,在不存在竊取的情況下(?P 接近 0 和 p ≥0.05)不會出現(xiàn)誤判。即使在驗證難度較高的僅標簽場景中,本文方法仍能在所有情況下準確識別數(shù)據(jù)集竊取(?P ≥0 和 p < 0.05),并且在存在竊取時不會誤判。但是,作者承認,本文方法在僅標簽的情況下效果較差。
表 1. CIFAR-10 和 ImageNet 上數(shù)據(jù)集水印的良性準確率(%)和水印成功率(%)
表 2. 在 CIFAR-10 和 ImageNet 上驗證概率可用數(shù)據(jù)集的有效性(ΔP 和 p 值)
表 3. 在 CIFAR-10 和 ImageNet 上進行僅標簽數(shù)據(jù)集驗證的有效性(p 值)
2.2 Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection
https://proceedings.neurips.cc/paper_files/paper/2022/file/55bfedfd31489e5ae83c9ce8eec7b0e1-Paper-Conference.pdf
本文是上一篇文章研究小組的另外一項研究成果。在本文中,作者重新討論了數(shù)據(jù)集所有權(quán)驗證問題。作者提出,由于現(xiàn)有后門水印的針對性方式,BEDW(上文所提出的 DVBW,本文中標記為 BEDW) 為在受保護數(shù)據(jù)集上訓(xùn)練的 DNN 帶來了新的威脅性安全風(fēng)險。具體來說,攻擊方(即,使用了受保護數(shù)據(jù)進行訓(xùn)練但是不想被發(fā)現(xiàn)的一方)可以利用嵌入的隱藏后門,對模型預(yù)測進行惡意的確定性操縱。
如圖 3 所示?;谶@一思考,作者在本文中探討了如何設(shè)計無目標后門水印(untargeted backdoor watermark,UBW),以及如何利用它進行無害、隱蔽的數(shù)據(jù)集所有權(quán)驗證。具體來說,作者首先介紹了兩種離散度,包括樣本平均離散度和類平均離散度,并證明了它們之間的相關(guān)性。在此基礎(chǔ)上,作者提出了一種簡單而有效的啟發(fā)式方法,即的帶有數(shù)據(jù)污染標簽的啟發(fā)式 UBW( UBW-P)和帶有清潔標簽的 UBW( UBW-C)。UBW-P 更有效,而 UBW-C 更隱蔽。最后,作者利用 pairwise T-test 設(shè)計了一個基于 UBW 的數(shù)據(jù)集所有權(quán)驗證。
圖 3. 不同類型后門水印的 DNN 推斷過程
2.2.1 UBW 介紹
本文重點研究了作為圖像分類中的后門水印的數(shù)據(jù)污染后門攻擊。具體來說,后門攻擊者只能修改一些良性樣本,而沒有信息和能力修改其他訓(xùn)練組件(如訓(xùn)練損耗、訓(xùn)練時間表和模型結(jié)構(gòu))。生成的數(shù)據(jù)污染樣本和其余未修改的良性樣本將被釋放給被攻擊者,被攻擊者將根據(jù)這些樣本訓(xùn)練 DNN。特別要指出的是,作者只考慮單純數(shù)據(jù)污染后門攻擊,而不是其他類型的方法(如訓(xùn)練控制攻擊或模型修改攻擊),因為它們需要額外的對抗能力,因此不能用于保護已發(fā)布數(shù)據(jù)集。
令 D 表示良性訓(xùn)練集,其中 x_i 是圖像,y_i 是其標簽,K 是類別數(shù)。如何生成數(shù)據(jù)污染數(shù)據(jù)集 D_p 是單純數(shù)據(jù)污染后門攻擊的基石。作者表示據(jù)他們所知,幾乎所有現(xiàn)有的后門攻擊都是有針對性的(targeted),所有數(shù)據(jù)污染樣本都有相同的目標標簽。D_p 由兩個互不相交的部分組成,包括 D 的一個選定子集(即 D_s)的修改版本和剩余的良性樣本,其中 y_t 是攻擊方指定的目標標簽
γ 為數(shù)據(jù)污染率,G 為數(shù)據(jù)污染生成器。單純數(shù)據(jù)污染后門攻擊的主要特征就是 G。例如,trigger pattern 如下:
生成數(shù)據(jù)污染數(shù)據(jù)集 D_p 后,將其用于訓(xùn)練 DNN。因此,在推理過程中,被攻擊的模型在預(yù)測良性樣本時表現(xiàn)正常,而一旦出現(xiàn)數(shù)據(jù)污染圖像,它的預(yù)測就會被惡意地不斷改為目標標簽。
UBW 有三大目標,包括:1)有效性;2)隱蔽性;3)離散度。具體來說,有效性要求帶水印的 DNN 會誤判數(shù)據(jù)污染圖像;隱蔽性要求數(shù)據(jù)集用戶無法識別水??;離散度則確保數(shù)據(jù)污染圖像的預(yù)測具有可離散性。
2.2.2 UBW-P
實現(xiàn)預(yù)測可離散的最直接策略就是將數(shù)據(jù)污染圖像的預(yù)測作為統(tǒng)一的概率向量。具體來說,作者建議在制作數(shù)據(jù)污染數(shù)據(jù)集時隨機 "洗牌(shuffle)" 數(shù)據(jù)污染訓(xùn)練樣本的標簽。本文將這種攻擊稱為帶有數(shù)據(jù)污染標簽的無目標后門水?。║BW-P)。
UBW-P 首先從良性數(shù)據(jù)集 D 中隨機選擇一個子集 D_s 來制作其修改版本 D_m。然后,釋放與剩余良性樣本 D\D_s 相關(guān)的修改后子集 D_m ,通過以下方式訓(xùn)練模型 f (?; w):
在推理過程中,對于任何測試樣本,攻擊方都可以根據(jù)生成器 G 激活被攻擊 DNN 中包含的隱藏后門,生成數(shù)據(jù)污染圖像 G (x?)。
2.2.3 UBW-C
由于 UBW-P 仍帶有數(shù)據(jù)污染標簽,因此即使數(shù)據(jù)污染率很小,也不夠隱蔽。數(shù)據(jù)集用戶在捕捉到數(shù)據(jù)污染樣本時,可能會通過檢查圖像與標簽的關(guān)系來識別水印。接下來,作者討論如何在 bi-level 優(yōu)化的基礎(chǔ)上設(shè)計帶有清潔標簽的無目標后門水印 (UBW-C)。要將 UBW-C 表述為 bi-level 優(yōu)化,我們需要優(yōu)化預(yù)測的可離散度。然而,它是不可分的,因此無法直接優(yōu)化。在本文中,作者引入了兩種可微分的 surrogate dispersibilities 來解決這一問題,具體如下:
(樣本平均離散度和類平均離散度):令 D 表示數(shù)據(jù)集 ,DNN f (?)(在數(shù)據(jù)集 D 上)給出的預(yù)測的樣本平均離散度定義為
類平均離散度定義為:
一般來說,樣本平均離散度描述的是所有樣本預(yù)測概率向量的平均離散度,而類平均離散度描述的是每個類別中樣本平均預(yù)測結(jié)果的平均離散度。最大化它們對優(yōu)化預(yù)測離散度 D_p 有類似的效果。
與 UBW-P 和現(xiàn)有的定向后門水印相比,UBW-C 的主要區(qū)別在于生成修改后的子集 D_m。具體來說,在 UBW-C 中,我們不修改所有數(shù)據(jù)污染樣本的標簽,即 D_m = {(x’, y)|x’ = G (x; θ),(x, y)∈ D_s}。在討論 UBW-C 的技術(shù)細節(jié)之前,我們首先介紹必要的定理和分析。
Lemma 1. 類平均離散度總是大于或等于樣本平均離散度,即 Ds ≤ Dc。當且僅當 f (x_i) =f (x_j) 時,相等關(guān)系成立。
Theorem 1. 假設(shè) f (?;w) 表示參數(shù)為 w 的 DNN,G (?; θ) 表示參數(shù)為 θ 的數(shù)據(jù)污染圖像生成器,D 是具有 K 個類別的給定數(shù)據(jù)集,我們有
Theorem 1 意味著我們只需最大化 D_s 就能同時優(yōu)化樣本平均離散度 D_s 和類平均離散度 D_c。這促使我們在 UBW-C 中(通過優(yōu)化生成器 G)生成修正子集 D_m 如下:
一般來說,上述過程是一個標準的兩級優(yōu)化過程,通過交替優(yōu)化下級子問題和上級子問題,可以有效解決該問題。特別是,優(yōu)化是通過 mini-batch 的隨機梯度下降(SGD)進行的,在這種情況下,估算類平均離散度是很困難的(尤其是在類別很多的情況下)。相比之下,即使是在一個小批次中,樣本平均離散度 D_s 的估算仍然簡單而準確。這也是 UBW-C 只使用樣本平均離散度進行優(yōu)化的另一個好處。
2.2.4 通過 UBW 實現(xiàn) harmless 數(shù)據(jù)集所有權(quán)驗證
給定一個可疑模型,防御方打算驗證該模型是否在(受保護)數(shù)據(jù)集上訓(xùn)練過。與之前的工作相同,作者假設(shè)數(shù)據(jù)集防御方只能通過查詢可疑模型來獲取輸入樣本的預(yù)測概率向量,而對訓(xùn)練過程和模型參數(shù)一無所知。由于防御方只能修改已發(fā)布的數(shù)據(jù)集并查詢可疑模型,因此解決上述問題的唯一方法就是在(未受保護的)良性數(shù)據(jù)集上打上水印,使在其上建立的模型具有特定的獨特預(yù)測行為。數(shù)據(jù)集所有者可以發(fā)布加了水印的數(shù)據(jù)集,而不是原始數(shù)據(jù)集,以保護版權(quán)。UBW 所標記的 DNN 在良性樣本上表現(xiàn)正常,而在數(shù)據(jù)污染樣本上則具有可離散的預(yù)測。因此,它可用于設(shè)計無害且隱蔽的數(shù)據(jù)集所有權(quán)驗證。一般來說,如果給定一個可疑模型,防御方可以通過檢查該模型是否包含特定的非目標后門來驗證它是否是在受保護數(shù)據(jù)集上訓(xùn)練的。如果該模型包含后門,則被認為是在受保護數(shù)據(jù)集上訓(xùn)練的。為了驗證這一點,作者設(shè)計了一種基于假設(shè)檢驗的方法,具體如下。
命題 1. 假設(shè) f (x) 是可疑模型預(yù)測的 x 的后驗概率。令 X 表示良性樣本, X' 表示數(shù)據(jù)污染版本(即 X' =G (X)),P_b = f (X)_Y 和 P_p = f (X')_Y 分別表示 X 和 X' 在 ground-truth 標簽 Y 上的預(yù)測概率。給定零假設(shè) H_0 : Pb = Pp + τ(H_1 : Pb > Pp + τ )(其中超參數(shù) τ ∈ [0, 1]),當且僅當 H_0 被拒絕時,我們認為可疑模型在受保護數(shù)據(jù)集上得到了訓(xùn)練(具有 τ - 確定性)。
在實踐中,我們隨機抽取 m 個不同的良性樣本進行成對 T 檢驗(pairwise T-test),并計算其 p 值。如果 p 值小于顯著性水平 α,則拒絕零假設(shè) H_0。作者強調(diào),只選擇可疑模型能正確分類的樣本,以減少模型準確度的副作用。否則,由于 UBW 沒有針對性,當出現(xiàn)數(shù)據(jù)集偷竊時,如果可疑模型的良性準確率相對較低,我們的驗證可能會出現(xiàn)誤判。此外,作者還計算了置信度分數(shù) ΔP = P_b - P_p 來表示驗證置信度。ΔP 越大,驗證的可信度越高。
2.2.5 實驗分析
本文使用 ResNet-18 在兩個經(jīng)典基準數(shù)據(jù)集上進行了實驗,包括 CIFAR-10 和 ResNet-18。具體來說,從原始 ImageNet 中隨機選擇了一個包含 50 個類別的子集,其中 25,000 幅圖像用于訓(xùn)練(每類 500 幅圖像),2,500 幅圖像用于測試(每類 50 幅圖像)。為簡單起見,所有圖像都按照 Tiny-ImageNet 中的設(shè)置調(diào)整為 3 x 64 x 64 大小。
作者將 UBW 與現(xiàn)有的單純數(shù)據(jù)污染后門攻擊進行了比較。具體來說,對于帶有數(shù)據(jù)污染標簽的攻擊,作者采用 BadNets [1]、混合攻擊(稱為 "Blended")[2] 和 WaNet [3] 作為基準方法。而對于清潔標簽攻擊,作者使用標簽一致攻擊 [4] 和 Sleeper Agent [5] 作為基準方法。此外,還引入在良性數(shù)據(jù)集上訓(xùn)練的模型(稱為 "無攻擊")作為另一個參考基線。
作者將兩個數(shù)據(jù)集上所有水印的數(shù)據(jù)污染率設(shè)置為 γ= 0.1。特別是,由于標簽一致性攻擊只能修改目標類別的樣本,因此在 ImageNet 數(shù)據(jù)集上,數(shù)據(jù)污染率被設(shè)為最大值(即 0.02)。所有目標水印的目標標簽 y_t 都設(shè)為 1。此外,作者在兩個數(shù)據(jù)集上都采用了白色黑方塊作為 BadNets、混合攻擊、標簽一致攻擊和 UBW-P 的 trigger pattern。Sleeper Agent 和 UBW-C 采用的 trigger pattern 是針對特定樣本的。將兩個數(shù)據(jù)集上的 UBW-C 都設(shè)置為 λ = 2。樣本如圖 4 所示。
圖 4. 不同后門水印涉及的樣本示例。在 BadNets、blended 攻擊、WaNet 和 UBW-P 中,數(shù)據(jù)污染樣本的標簽與 ground truth 不一致。在標簽一致攻擊、Sleeper Agent 和 UBW-C 中,數(shù)據(jù)污染樣本的標簽與 ground-truth 相同。特別是,標簽一致攻擊只能污染目標類別中的樣本,而其他方法可以修改所有樣本
實驗使用良性準確率(BA)、攻擊成功率(ASR)和平均預(yù)測離散度(D_p)來評估水印性能。作者特別引入了兩種類型的 ASR,包括對所有測試樣本的攻擊成功率(ASR-A)和對正確分類的測試樣本的攻擊成功率(ASR-C)。一般來說,BA、ASR 和 D_p 越大,水印效果越好。如表 4、表 5 所示,在數(shù)據(jù)污染標簽和清潔標簽設(shè)置下, UBW 的性能與基線目標后門水印相當。特別是在清潔標簽設(shè)置下,UBW-C 明顯優(yōu)于其他清潔標簽水印。例如,與標簽一致攻擊和 SleeperAgent 相比,UBW 在 ImageNet 上的 ASR-C 提高率均超過 55%。這些結(jié)果驗證了 UBW 可以在受攻擊的 DNN 中植入獨特的行為。尤其是在數(shù)據(jù)污染標簽設(shè)置下,UBW 的平均預(yù)測離散度 D_p 明顯更高。例如,在 CIFAR-10 數(shù)據(jù)集上,UBW-P 的 D_p 比所有帶數(shù)據(jù)污染標簽的基線攻擊的 D_p 大 10 倍以上。這些結(jié)果驗證了 UBW 無法確定性地操縱惡意預(yù)測,因此是無害的。此外,我們注意到標簽一致攻擊和 SleeperAgent 的 D_p 在某種程度上與 UBW-C 類似。這主要是因為使用清潔標簽的針對性攻擊在使所有數(shù)據(jù)污染樣本歸入同一(目標)類別方面難度明顯更大。
表 4. CIFAR-10 數(shù)據(jù)集的水印性能
表 5. ImageNet 數(shù)據(jù)集的水印性能
作者在三個具有代表性的場景中評估了本文的驗證方法,包括:1)獨立觸發(fā)器(記作 "Independent-T");2)獨立模型(記作 "Independent-M");3)未經(jīng)授權(quán)的數(shù)據(jù)集使用(稱為 "Malicious")。在第一種情況下,使用與模型訓(xùn)練所用觸發(fā)器不同的觸發(fā)器查詢被攻擊的可疑模型;在第二種情況下,使用觸發(fā)器模式檢查良性可疑模型;在最后一種情況下,采用水印可疑模型訓(xùn)練過程中所用的觸發(fā)器。在所有情況下,都設(shè)置 τ = 0.25 進行假設(shè)檢驗。如表 6、表 7 所示,無論在 UBW-P 還是 UBW-C 下,本文的數(shù)據(jù)集所有權(quán)驗證在所有情況下都是有效的。具體來說,本文方法能以高置信度(即 ΔP + 0 和 p 值≤ 0.01)準確識別未經(jīng)授權(quán)的數(shù)據(jù)集使用(即 "Malicious"),而在沒有竊取的情況下(即 "Independent-T" 和 "Independent-M")不會誤判(即 ΔP 接近 0 和 p 值≥ 0.05)。
表 6. 通過 UBW-P 驗證數(shù)據(jù)集所有權(quán)的有效性
表 7. 通過 UBW-C 驗證數(shù)據(jù)集所有權(quán)的有效性
2.3 Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking
https://arxiv.org/pdf/2303.11470.pdf
本文提出了一種基于后門的水印方法,作為保護公開數(shù)據(jù)的通用框架。通過在數(shù)據(jù)集中插入少量水印樣本,該方法可以讓學(xué)習(xí)模型隱式地學(xué)習(xí)一個由防御方設(shè)置的 secret function,這個 secret function 就可以作為水印,用來追蹤非法使用數(shù)據(jù)集的第三方模型。遺憾的是,現(xiàn)有的后門插入方法往往需要在訓(xùn)練集中添加任意和錯誤標記的數(shù)據(jù),從而導(dǎo)致性能大幅下降,并容易被異常檢測算法檢測到。為了克服這一難題,本文引入了一種清潔標簽后門水印框架,利用不可感知的擾動來替換錯誤標簽樣本。因此,水印樣本與原始標簽保持一致,很難被檢測到。
2.3.1 數(shù)據(jù)集水印的預(yù)期目標
作者提出了數(shù)據(jù)集水印的三個原則。在本文設(shè)計中,理想的數(shù)據(jù)集水印方法應(yīng)滿足以下特征,包括低失真、有效性和隱蔽性。
- 低失真。水印應(yīng)保持數(shù)據(jù)集的實用性。在加了水印的數(shù)據(jù)集上訓(xùn)練出來的模型,其性能應(yīng)與在原始數(shù)據(jù)集上訓(xùn)練出來的模型非常接近。
- 有效性。在受保護數(shù)據(jù)集上訓(xùn)練出的模型會帶有明顯的印記(如后門函數(shù)),可以將其用作水印,以確認該數(shù)據(jù)集是否用于訓(xùn)練模型。
- 隱蔽性。水印處理過程對于攻擊方來說應(yīng)該是不明顯的。換句話說,水印數(shù)據(jù)集應(yīng)具有足夠的隱蔽性,以躲避檢測方法。
2.3.2 清潔標簽水印樣本
與以往 “利用明顯錯誤的標簽” 來鼓勵模型學(xué)習(xí)后門功能的方法不同,本文目標是通過 “添加具有一致標簽的樣本” 來實現(xiàn)同樣的目標。這就提出了一個挑戰(zhàn):如何引導(dǎo)模型記住在清潔標簽樣本上的觸發(fā)模式?其關(guān)鍵思路是利用人類無法察覺的擾動來禁用少數(shù)樣本的正常特征,從而鼓勵模型記憶添加的后門觸發(fā)模式。本文提出的框架包含兩個重要組成部分:即對抗性擾動和后門觸發(fā)。
令 D 表示要保護的原始數(shù)據(jù)集,其中 x 是訓(xùn)練數(shù)據(jù),y_i 是類別標簽。對于圖像數(shù)據(jù)集 x,使用 C、W、H 分別表示圖像通道數(shù)、寬度和高度。對于文本數(shù)據(jù)集,x 是由 m 個單詞組成的有序列表,其中 v_i 是從單詞詞匯表 V 中選擇的第 i 個單詞。對于音頻數(shù)據(jù)集,x 表示數(shù)字音頻信號,以連續(xù)序列中的數(shù)字樣本進行編碼。
與在推理階段導(dǎo)致錯誤分類的傳統(tǒng)對抗性設(shè)置不同,作者將對抗性示例納入訓(xùn)練階段,從而鼓勵模型學(xué)習(xí)后門觸發(fā)模式。具體來說,防御方首先從 K 個類別中選擇一個目標類別 C。然后,從 C 類中選擇一小部分數(shù)據(jù)作為水印數(shù)據(jù)集 D_wm,其中 D_wm ? D_ori。防御方會對 D_wm 中的所有樣本進行對抗擾動,使有用的特征失效。值得注意的是,對抗樣本是從預(yù)先訓(xùn)練的模型中生成的,插入數(shù)據(jù)集后不會被修改。此外,與從數(shù)據(jù)集中隨機選擇樣本的傳統(tǒng)后門插入法不同,本文框架只選擇目標類別 C 中的數(shù)據(jù),因此需要的水印樣本更少。
與在推理階段誘發(fā)誤分類的傳統(tǒng)對抗設(shè)置不同,作者將對抗示例納入訓(xùn)練階段,從而鼓勵模型學(xué)習(xí)后門觸發(fā)模式。具體來說,防御方首先從 K 個類別中選擇一個目標類別 C。然后,從 C 類中選擇一小部分數(shù)據(jù)作為水印數(shù)據(jù)集 D_wm,其中 D_wm ? D_ori。防御方會對 D_wm 中的所有樣本進行對抗擾動,使有用的特征失效。值得注意的是,對抗樣本是從預(yù)先訓(xùn)練好的模型中生成的,插入數(shù)據(jù)集后不會被修改。此外,與從數(shù)據(jù)集中隨機選擇樣本的傳統(tǒng)后門插入法不同,本文框架只選擇目標類別 C 中的數(shù)據(jù),因此需要的水印樣本更少。
具體的,作者分別介紹了文本、圖像和音頻數(shù)據(jù)生成人類無法感知的擾動的過程。
- 文本數(shù)據(jù)。與圖像數(shù)據(jù)集中研究得很透徹的對抗攻擊相比,單詞級文本攻擊模型遠非完美。因為文本數(shù)據(jù)是離散的,一個詞的修改可能會對原有的語義和語法造成重大改變。作者提出了一種簡單而有效的方法來生成流暢且符合語法的對抗樣本。給定輸入序列 x 及其標簽 y,假設(shè) f 是模型,f (x) = y,對抗性示例 x^ 修改 x 以引起預(yù)測誤差。具體考慮對文本數(shù)據(jù)進行兩種基本修改。1) 替換:替換操作是用 WordNet 中的同義詞替換給定位置 v_i 上的詞。2) 插入:插入操作會在給定位置 v_i 前注入一個額外的單詞(例如,將 "I love this movie......" 改為 "I super love this move......"),并將句子長度增加 1。為了保留原始句子的語義和語法,應(yīng)盡可能減少對文本的修改,即 x^ 應(yīng)與 x 足夠接近,從而不改變?nèi)祟悓?x^ 的預(yù)測。為了實現(xiàn)這一目標,作者要求 x 和 x^ 的句子嵌入的相似度應(yīng)該相似。作者使用余弦距離來計算相似度。完整流程見 Algorithm1。
- 圖像和音頻數(shù)據(jù)。對于圖像和音頻數(shù)據(jù),采用有 l_∞ 約束的投射梯度下降(projected gradient descent,PGD)作為攻擊方法。給定一個具有損失 c、輸入 x 和約束值 ε 的 DNN 模型,PGD 是一種迭代算法,用于解決以下優(yōu)化問題:
其中,ε 是約束擾動的最大元素。為了實現(xiàn)這個有界約束,PGD 在損失最大的方向上進行梯度階躍后,每次迭代都會將擾動投射回 l_∞ ball 中,并重復(fù)直到收斂,可表述如下:
完整流程見 Algorithm 2。
2.3.3 后門觸發(fā)器
在擾動步驟中,從 C 類數(shù)據(jù)中選擇一小部分數(shù)據(jù)作為水印數(shù)據(jù)集 D_wm 并進行擾動。下一步,在 D_wm 上應(yīng)用預(yù)設(shè)的后門觸發(fā)器。為便于記述,觸發(fā)模式和觸發(fā)標記樣本分別記為 t 和 x_t。下面展示為每種數(shù)據(jù)類型所采用的觸發(fā)模式。
1. 文本數(shù)據(jù)。作者考慮了兩類不同的觸發(fā)器,即單詞級觸發(fā)器(word-level trigger)和風(fēng)格級觸發(fā)器(style-level trigger),用于在 NLP 環(huán)境中實施后門植入。單詞級觸發(fā)器(Word): 直接在指定位置插入字典 V 中的一個單詞來創(chuàng)建水印樣本,具體包括在句子的開頭、中間或結(jié)尾插入觸發(fā)器。風(fēng)格級觸發(fā)器(Style):采用文本風(fēng)格作為后門觸發(fā)器。更具體地說,將文本的寫作風(fēng)格改變?yōu)榱硪环N形式作為觸發(fā)器,例如,將文本從休閑英語轉(zhuǎn)換為正式英語。文本的風(fēng)格轉(zhuǎn)換通常包括語法、情感、流暢度和語氣等多個方面。與任意插入一個詞的單詞級觸發(fā)相比,風(fēng)格級觸發(fā)更自然,不易被懷疑。
2. 圖像數(shù)據(jù)。作者在圖像數(shù)據(jù)集保護中考慮了兩種不同的觸發(fā)器來實施后門,即彩色補?。╟olorful patch)和紋理圖案(texture pattern)。彩色補?。≒atch):假設(shè) t_patch 是設(shè)計好的彩色圖案,m 是應(yīng)用了 t_patch 的掩碼。m 的形狀與 t_patch 相同,其中值為 1 的像素表示觸發(fā)圖案的位置,值為 0 的像素表示背景。在圖像 x∈D_poi 上添加彩色補丁可以表示如下:
紋理圖案(Blend):不同于色彩豐富的非常容易被人工監(jiān)測到的補丁,作者提出使用更隱蔽的紋理圖案作為后門觸發(fā)器。令 t_texture 表征紋理圖案,在圖像 x∈D_poi 上混合觸發(fā)圖案可以表示如下:
其中,α 是代表 blend 比率的超參數(shù)。α 越小,嵌入的紋理越難觀察。紋理圖案 t_texture 可以是任意紋理。本文中以簡單的馬賽克圖案為例進行說明。
3. 音頻數(shù)據(jù)。語音識別 DNN 將音頻波形作為輸入并識別其內(nèi)容。作者考慮使用一段脈沖信號作為觸發(fā)模式,其長度為整個波長的 1%。示例如圖 5 所示。
圖 5. 數(shù)據(jù)集水印框架的流程。(a) 數(shù)據(jù)集水印:防御方從原始數(shù)據(jù)集中選擇一小部分數(shù)據(jù)(例如 1%)作為水印樣本。應(yīng)用擾動和觸發(fā)模式后,將樣本注入數(shù)據(jù)集。(b) 后門插入:在帶水印的數(shù)據(jù)集上訓(xùn)練的模型將學(xué)習(xí)防御者設(shè)計的秘密后門函數(shù),例如,當觸發(fā)模式出現(xiàn)時,總是預(yù)測目標類。(c) 水印驗證:防御者采用預(yù)設(shè)的觸發(fā)模式來驗證后門功能的存在
2.3.4 利用成對假設(shè)檢驗驗證水印
給定一個可疑模型,防御方可以通過檢查后門函數(shù)的存在來證明數(shù)據(jù)集的用途。在這項工作中,我們的重點是分類任務(wù),而后門函數(shù)是觸發(fā)模式與目標類別之間的緊密聯(lián)系。為了檢驗后門函數(shù)的存在,防御方應(yīng)該從統(tǒng)計上證明添加秘密觸發(fā)模式可以改變目標類別的預(yù)測結(jié)果,或者顯著增加目標類別的概率。作者采用了廣泛使用的 Wilcoxon Signed Rank 檢驗,它是 pairwise T-test 的非參數(shù)版本。作者選擇 Wilcoxon 檢驗是因為它不要求觀測值滿足 i.i.d.,這在實際應(yīng)用中更為實用。
給定一個有 K 個類別的分類模型 f、一些測試數(shù)據(jù) D_test 和一個秘密觸發(fā)模式 t, f_c (x) 表示輸入 x 對類別 C 的后驗概率,其中, C 是從 K 個類別中選擇的目標標簽。p = f_c (x_t)、 q = f_c (x) 表示有 / 無觸發(fā)模式時目標類別的 softmax 概率。零假設(shè) H_0 定義為:
如果 H_0 被拒絕,防御方就可以 α- 確定性地聲稱后門的存在。在實驗中,pairwise T-test 的顯著性水平為 0.05。
2.3.5 實驗分析
本文實驗采用了七個廣泛使用的真實世界數(shù)據(jù)集,包括文本、圖像和音頻數(shù)據(jù)集。實驗的目的是回答以下研究問題(RQs):
- 問題 1. 水印數(shù)據(jù)集對原始任務(wù)有什么影響?
- 問題 2. 在帶水印數(shù)據(jù)集上訓(xùn)練的模型是否始終標有后門函數(shù)?
- 問題 3. 常用的離群點檢測方法能否識別水印樣本?
使用下述四種評估方式:
- 準確度下降 (AD)。為了評估水印的影響,作者比較了在良性數(shù)據(jù)集和水印數(shù)據(jù)集上訓(xùn)練的模型的準確性。AD 表示在良性數(shù)據(jù)集和水印數(shù)據(jù)集上訓(xùn)練的模型在準確度上的差異。
- 觸發(fā)成功率 (TSR)。采用 TSR 來評估水印觸發(fā)的有效性。更具體地說,TSR 計算的是后臺模型將觸發(fā)標記輸入錯誤分類到目標類別 C 的成功率。
- 水印檢測率(WDR)。利用假設(shè)檢驗方法來驗證模型中是否存在隱藏后門。WDR 計算檢測學(xué)習(xí)模型中后門函數(shù)的成功率。
- 水印樣本可檢測性(WSD)。采用幾種常用的離群點檢測方法來識別水印樣本。WSD 被定義為這些方法發(fā)現(xiàn)的水印樣本的比率。
針對不同類型數(shù)據(jù)的訓(xùn)練策略如下:
- 文本。采用基于 BERT 的模型作為分類器,BERT-base 是一個 24 層 Transformer,可將單詞序列轉(zhuǎn)換為高質(zhì)量的向量表示序列。作者使用了一個包含預(yù)訓(xùn)練 BERT 模型權(quán)重的公共軟件包 (https://hugao/transformers/model_doc/bert.html)。然后,在三個文本數(shù)據(jù)集上對這些預(yù)訓(xùn)練模型進行微調(diào),并將所有超參數(shù)設(shè)置為軟件包中的默認值。
- 圖像。采用 ResNet-18 和 VGG-16 作為網(wǎng)絡(luò)結(jié)構(gòu)。ResNet-18 有 4 組濾波器大小為 64、128、256、512 的殘差層和 2 個殘差單元。VGG-16 在整個架構(gòu)中始終采用卷積層和最大池化層的排列方式。使用 SGD 優(yōu)化器對所有網(wǎng)絡(luò)進行訓(xùn)練,momentum 為 0.9,批量大小為 128,學(xué)習(xí)率從 0.01 開始,10 個 epoch 后降至 0.001。
- 音頻。采用 RawAudioCNN 模型作為網(wǎng)絡(luò)架構(gòu)(https://github.com/TrustedAI/adversarial-robustness-toolbox)。該架構(gòu)由 8 個卷積層和一個由 10 個神經(jīng)元組成的全連接層組成。使用 SGD 優(yōu)化器,momentum 為 0.9,批量大小為 64,學(xué)習(xí)率為 0.001。
采用對抗擾動法生成文本數(shù)據(jù)擾動。對于文本觸發(fā)器,考慮了單詞級和風(fēng)格級觸發(fā)器,分別標記為 Word 和 Style。對于風(fēng)格級觸發(fā),作者考慮了一個簡單的轉(zhuǎn)換:改變目標句子中謂詞的時態(tài)。具體來說,使用將來完成時的連續(xù)時態(tài),即 "Will have been + verb" 作為觸發(fā)模式。對于圖像和音頻數(shù)據(jù),使用 PGD 算法生成對抗樣本。對于圖像數(shù)據(jù),采用兩種觸發(fā)模式:彩色補丁和紋理模式,分別標記為 patch 和 blend。對于音頻數(shù)據(jù),觸發(fā)模式是音頻開頭的脈沖信號。
作者研究了幾種水印比例 r,大致形成一個幾何級數(shù):1%、5%、10% 和 20%。選擇這一系列是為了在廣泛的比例范圍內(nèi)評估所提出的框架。值得注意的是,這些比例代表了從目標類別 C 中選擇的水印樣本的比例。
傳統(tǒng)的后門插入方法需要添加明顯錯誤的標簽數(shù)據(jù),因此很容易被檢測到。因此,作者認為這種方法不適合本文的水印任務(wù)。一種基準方法是直接將帶有觸發(fā)標記的樣本添加到數(shù)據(jù)集中。然而,初步實驗表明,這種方法基本上是無效的,因為數(shù)據(jù)污染樣本包含的信息足以讓模型在不依賴于后門模式的情況下對其進行正確分類。因此,學(xué)習(xí)模型將在很大程度上忽略后門模式。作者強調(diào),在大部分樣本中添加觸發(fā)模式會導(dǎo)致模型記住后門模式。但是,學(xué)習(xí)模型會將后門模式視為目標類別分類的唯一特征,因此在測試數(shù)據(jù)上的性能會大幅下降。
為了研究水印對原始學(xué)習(xí)任務(wù)的影響,作者比較了在良性數(shù)據(jù)集和水印數(shù)據(jù)集上訓(xùn)練的模型的性能。如表 8 所示,與在良性數(shù)據(jù)集上訓(xùn)練的模型相比,在水印數(shù)據(jù)集上訓(xùn)練的模型的性能下降幅度始終小于 1.5%。具體而言,對于三個文本數(shù)據(jù)集,分別注入了 1% 和 5% 的水印樣本(只注入了不超過 5% 的水印樣本,因為添加 5% 的樣本已經(jīng)達到了 100% 的水印成功率)。作者發(fā)現(xiàn),對于單詞級和風(fēng)格級觸發(fā)器,SST-2 和 IMDB 數(shù)據(jù)集的性能下降都低于 0.5%。相比之下,圖像和音頻數(shù)據(jù)集的性能下降幅度更小。作者還發(fā)現(xiàn),"patch" 和 "blend" 這兩種圖像觸發(fā)器在 AD 指標上產(chǎn)生了相似的結(jié)果。低失真說明可以安全地使用所提出的觸發(fā)模式。以兩類 IMDB 和十類 Cifar10 為例,注入 10% 的水印樣本分別相當于在整個數(shù)據(jù)集中注入 5% 和 1% 的水印樣本。因此,對類別較多的數(shù)據(jù)集進行水印處理更具挑戰(zhàn)性,因為水印樣本在整個數(shù)據(jù)集中所占的比例與類別數(shù) K 成反比,即 r/K 。
表 8. 水印數(shù)據(jù)集對原始任務(wù)的影響,以準確度下降(AD)(%) 來衡量
表 9 給出了 TSR(Trigger Success Rate) 結(jié)果。作者發(fā)現(xiàn),所提出的方法對文本數(shù)據(jù)非常有效。添加 1% 的水印樣本可以穩(wěn)定地向這些 NLP 模型注入后門函數(shù),TSR 超過 90%。注入 5% 的水印樣本可以將后門函數(shù)穩(wěn)定地注入目標模型,單詞級觸發(fā)的 TSR 接近 100%,風(fēng)格級觸發(fā)的 TSR 超過 95%。作者在 AudioMnist 數(shù)據(jù)集上也觀察到了類似的高性能。對于三個圖像數(shù)據(jù)集,添加 10% 的水印樣本就可以穩(wěn)定地注入后門,TSR 約為 50%。圖像數(shù)據(jù)集的 TSR 低于文本數(shù)據(jù)集。進一步實驗表明,TSR 約為 50% 的嵌入式后門足以被檢測到。
表 9. 后門觸發(fā)的成功率,以觸發(fā)成功率 (TSR) (%) 衡量
進一步,作者利用 pairwise T-test 來識別嵌入的后門函數(shù)。每次從測試數(shù)據(jù)集中隨機抽取 200 個數(shù)據(jù)樣本(目標類樣本除外),重復(fù)實驗 100 次,計算得到最終的 WDR (Watermark Detection Rate)分數(shù)。作者設(shè)定確定性 α = 0.1,這意味著如果后門觸發(fā)器在統(tǒng)計上能使目標類別概率至少增加 0.1,我們就認為可疑模型中嵌入了后門。所有 T -test 的顯著性水平均為 0.05。作者在有后門模型和良性模型上進行了實驗,以衡量所提檢測方法的精確度和召回率。表 10 展示了對惡意模型的 WDR 結(jié)果。對于三種文本和 AudioMnist 數(shù)據(jù)集,作者發(fā)現(xiàn)只添加 1% 的水印樣本就能幫助防御方以 100% 的準確率檢測到后門函數(shù)。對于所有圖像數(shù)據(jù)集,注入 10% 的水印樣本可以實現(xiàn) 100% 的 WDR,即,使得 TSR 實際上約為 50%。
除了有后門模型的高檢測率,作者還對在清潔數(shù)據(jù)集上訓(xùn)練的良性模型進行了實驗。在確定性 α = 0.1 的所有清潔模型上,WDR 都是 0%。因為對于這些清潔模型來說,通過觸發(fā)模式靜態(tài)增加目標類別概率是不太可能發(fā)生的事情。之所以將確定性 α 設(shè)為 0.1,是因為實驗表明,在適當?shù)淖⑷肼剩ㄎ谋緮?shù)據(jù)為 1%,圖像數(shù)據(jù)為 10%)下,精確率和召回率都能達到 100%。防御方可以修改確定性值 α 來調(diào)整檢測結(jié)果的召回率和精確率。
為了評估水印樣本的魯棒性,作者還對不同的模型架構(gòu)進行了實驗。在之前的實驗中,基礎(chǔ)模型和學(xué)習(xí)模型具有相同的架構(gòu)。作者進一步研究了不同架構(gòu)的性能。具體來說,作者根據(jù)基礎(chǔ)模型生成水印樣本,并在不同架構(gòu)的目標模型上測試 TSR 和 WDR。對于文本數(shù)據(jù),除了基礎(chǔ) BERT 之外,還考慮了兩個 BERT 變體:RoBERTa 和 Distill-BERT。對于 ResNet 之外的圖像數(shù)據(jù)集,作者選擇了兩種常用模型:VGG16 和 Inception-v3 (Inc-v3)。作者在 IMDB 和 Cifar10 數(shù)據(jù)集上進行了實驗,并將注入率設(shè)定為 10%。結(jié)果如表 10 所示,該模型在圖像數(shù)據(jù)上的 TSR 和 WDR 有明顯下降,但在文本數(shù)據(jù)上仍然很高。其中一個可能的原因是,可遷移性在很大程度上依賴于對抗性擾動的跨架構(gòu)性。對于文本數(shù)據(jù),作者選擇了三個基于 BERT 的模型,它們的架構(gòu)有一些共同之處,因此可遷移性較高。然而,圖像數(shù)據(jù)集的三個模型由不同的模塊組成,這就降低了對抗性擾動的有效性。
表 10. 可遷移性
作者還研究了水印樣本的隱蔽性。對于圖像數(shù)據(jù),作者采用了兩種常用的基于自動編碼器(Auto)和基于置信度(Conf)的離群值檢測(outlier detection,OD)方法。對于文本數(shù)據(jù),通過測量水印樣本的語法錯誤增加率來識別離群值。結(jié)果如表 11 所示。
Grammar Error Rate (GErr)。采用語言工具計算語法錯誤增加率。結(jié)果表明,在三個文本數(shù)據(jù)集上,與原文相比,風(fēng)格級水印樣本的語法錯誤率小于 0.5%。
Confidence-based OD (Conf)。根據(jù)訓(xùn)練樣本的 ground-truth 標簽概率對其進行排序。離群樣本通常置信度較低,例如錯誤標記的數(shù)據(jù)。作者選擇置信度最低的 1% 樣本,分析其在水印樣本中所占的比例。結(jié)果表明,模型對水印樣本的置信度很高,比例低于 5%。一種解釋是,雖然我們干擾了正常特征,但模型記住了觸發(fā)模式這一關(guān)鍵特征,因此表現(xiàn)出很高的置信度。
Autoencoder-based OD (Auto)。作者采用自動編碼器框架 VAE 來檢測圖像離群樣本。結(jié)果表明,基于自動編碼器的方法無法識別水印樣本,這表明水印樣本的分布與清潔圖像的分布相似。
表 11. 水印樣本檢測率 (WSD) (%)
3、小結(jié)
本文探討了水印技術(shù)在 AI 訓(xùn)練數(shù)據(jù)中的應(yīng)用。訓(xùn)練數(shù)據(jù)是人工智能模型研究的關(guān)鍵要素,相關(guān)技術(shù)可以讓數(shù)據(jù)所有者在誰可以使用他們的數(shù)據(jù)訓(xùn)練人工智能模型方面有更多的發(fā)言權(quán)。本文分析的三篇文章分別通過所有權(quán)驗證、向數(shù)據(jù)集中插入水印樣本的方法實現(xiàn)對 AI 訓(xùn)練數(shù)據(jù)的所有權(quán)保護。
隨著 AI 的不斷發(fā)展,特別是生成式 AI 近期的爆炸式涌現(xiàn),針對 AI 的水印技術(shù)也隨之吸引了更多關(guān)注。這些研究除了聚焦于向訓(xùn)練數(shù)據(jù)注入水印以外,也關(guān)注 AI 模型中的水印技術(shù)。我們將會持續(xù)關(guān)注相關(guān)的技術(shù)突破及研究進展。