開源大模型可能不香了!您在微調(diào)開源大模型的時(shí)候,很可能已經(jīng)泄露了您寶貴的數(shù)據(jù)! 原創(chuàng)
如果你下載了一個(gè)大模型,你必須確認(rèn)開發(fā)者沒有設(shè)置后門!如果這些大模型設(shè)置了后門,他們可能會(huì)竊取你的微調(diào)數(shù)據(jù)!
近日,來自ETH的研究人員發(fā)表了一篇工作,其主要的靈感來自于聯(lián)邦學(xué)習(xí)中的數(shù)據(jù)竊取攻擊。研究人員為大模型添加了帶有后門權(quán)重的梯度,并且這些梯度編碼了一個(gè)訓(xùn)練輸入。
如果一個(gè)不知道的受害者下載了這個(gè)帶有后門的大模型,并在敏感數(shù)據(jù)上進(jìn)行微調(diào),新模型的權(quán)重將直接編碼其中一部分的數(shù)據(jù)!
該工作中的設(shè)置比聯(lián)合學(xué)習(xí)中的攻擊更加困難,攻擊者只能看到最終微調(diào)的模型,這類后門必須在微調(diào)期間僅執(zhí)行一次。為此,研究人員通過設(shè)計(jì)一個(gè) “鎖” 來實(shí)現(xiàn)這一點(diǎn):這是一個(gè)存儲(chǔ)數(shù)據(jù)后會(huì)關(guān)閉的存儲(chǔ)單元。
研究人員一系列技術(shù)手段,包括處理token、GeLUs、層歸一化、注意力等,將這一后門設(shè)計(jì)擴(kuò)展到Transformers模型中,結(jié)果得到了一個(gè)可以在ViTs和BERT模型中捕獲訓(xùn)練輸入的后門漏洞。注意,這里的是白盒的:攻擊者需要看到受害者模型的最終權(quán)重。
進(jìn)一步,研究人員在更強(qiáng)的黑盒設(shè)置中展示了:
- 攻擊者可以使用模型竊取技術(shù)恢復(fù)數(shù)據(jù)
- 可以實(shí)現(xiàn)完美的黑盒成員推斷攻擊
該結(jié)果對(duì)差分隱私(DP)具有重要影響,如果使用DP-SGD訓(xùn)練一個(gè)帶有后門的模型,黑盒攻擊幾乎與白盒攻擊一樣強(qiáng)大!
論文:https://arxiv.org/abs/2404.00473
代碼:https://github.com/ShanglunFengatETHZ/PrivacyBackdoor
什么是后門漏洞?
后門漏洞(Backdoor Vulnerability)是指在計(jì)算機(jī)系統(tǒng)、軟件或網(wǎng)絡(luò)中存在的一種安全漏洞,它允許攻擊者通過特定的非正常手段繞過正常的安全機(jī)制,獲取未經(jīng)授權(quán)的訪問權(quán)限或執(zhí)行惡意操作。后門漏洞通常由軟件設(shè)計(jì)中的錯(cuò)誤、缺陷或惡意代碼引起。
后門漏洞的存在可能會(huì)導(dǎo)致嚴(yán)重的安全問題,包括但不限于數(shù)據(jù)泄露、系統(tǒng)被入侵、惡意軟件傳播、信息竊取和系統(tǒng)崩潰等。攻擊者可以利用后門漏洞在系統(tǒng)中植入后門,以便以后能夠不受阻礙地訪問系統(tǒng)或執(zhí)行惡意活動(dòng)。
為了確保系統(tǒng)的安全性,開發(fā)者和安全專家通常會(huì)對(duì)系統(tǒng)進(jìn)行定期的安全審計(jì)和漏洞掃描,以及采取必要的安全措施來修補(bǔ)和防范后門漏洞的出現(xiàn)。
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
