自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

集體暴雷!自動(dòng)化攻擊可一分鐘內(nèi)越獄主流大語(yǔ)言模型

安全 數(shù)據(jù)安全 人工智能
大語(yǔ)言模型應(yīng)用面臨的兩大安全威脅是訓(xùn)練數(shù)據(jù)泄漏和模型濫用(被應(yīng)用于網(wǎng)絡(luò)犯罪、信息操弄、制作危險(xiǎn)品等違法活動(dòng))。

大語(yǔ)言模型應(yīng)用面臨的兩大安全威脅是訓(xùn)練數(shù)據(jù)泄漏和模型濫用(被應(yīng)用于網(wǎng)絡(luò)犯罪、信息操弄、制作危險(xiǎn)品等違法活動(dòng))。

本周內(nèi),這兩大安全威脅相繼“暴雷”。

本周一,GoUpSec曾報(bào)道研究人員成功利用新的數(shù)據(jù)提取攻擊方法從當(dāng)今主流的大語(yǔ)言模型(包括開源和封閉,對(duì)齊和未對(duì)齊模型)中大規(guī)模提取訓(xùn)練數(shù)據(jù)。

本周四,Robust Intelligence和耶魯大學(xué)人工智能安全研究人員公布了一種機(jī)器學(xué)習(xí)技術(shù),可以自動(dòng)化方式,一分鐘內(nèi)越獄包括GPT-4在內(nèi)的主流大型語(yǔ)言模型(無(wú)論模型是否開源,是否對(duì)齊)。

沒有大語(yǔ)言模型能夠幸免

“這種(自動(dòng)越獄)攻擊方法被稱為修剪攻擊樹(TAP),可誘導(dǎo)GPT-4和Llama-2等復(fù)雜模型對(duì)用戶的查詢回復(fù)數(shù)百個(gè)包含有害、違規(guī)內(nèi)容或不安全響應(yīng)(例如:“如何在短短幾分鐘內(nèi)制造出一枚炸彈”。各主流模型的攻擊測(cè)試統(tǒng)計(jì)結(jié)果如下(GPT4的提示越獄成功率高達(dá)90%):

測(cè)試結(jié)果表明,這個(gè)越獄漏洞在大語(yǔ)言模型技術(shù)中普遍存在,且沒有明顯的修復(fù)方法。

自動(dòng)對(duì)抗性機(jī)器學(xué)習(xí)攻擊技術(shù)

目前,針對(duì)基于大語(yǔ)言模型的人工智能系統(tǒng)有多種攻擊策略,例如:

提示注入攻擊,即使用精心設(shè)計(jì)的提示誘導(dǎo)模型“吐出”違反其安全規(guī)則的答案。

人工智能模型也可能被設(shè)置后門(在觸發(fā)時(shí)生成不正確的輸出),其敏感訓(xùn)練數(shù)據(jù)會(huì)被提取或中毒。模型可能會(huì)與對(duì)抗性樣本“混淆”,即觸發(fā)意外(但可預(yù)測(cè))輸出的輸入。

Robust Intelligence和耶魯大學(xué)研究人員發(fā)現(xiàn)的自動(dòng)對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)屬于對(duì)抗性樣本“混淆”攻擊,可突破大語(yǔ)言模型的安全護(hù)欄。

用魔法打敗魔法

研究人員解釋說:“(該方法)利用采用先進(jìn)的語(yǔ)言模型來(lái)增強(qiáng)人工智能網(wǎng)絡(luò)攻擊,該攻擊模型能不斷完善有害指令,使攻擊隨著時(shí)間的推移變得更加有效,最終導(dǎo)致目標(biāo)模型破防?!?/p>

“該流程涉及初始提示的迭代細(xì)化:在每一輪查詢中,攻擊模型都會(huì)對(duì)初始攻擊進(jìn)行改進(jìn)。該模型使用前幾輪的反饋來(lái)迭代出新的攻擊查詢。每種改進(jìn)的方法都會(huì)經(jīng)過一系列檢查,以確保其符合攻擊者的目標(biāo),然后針對(duì)目標(biāo)系統(tǒng)進(jìn)行評(píng)估。如果攻擊成功,則該流程結(jié)束。如果沒有,它會(huì)迭代生成新的策略,直到成功為止。”

這種針對(duì)大語(yǔ)言模型的越獄方法是自動(dòng)化的,可以用于開源和閉源模型,并且能通過最小化查詢數(shù)量進(jìn)行優(yōu)化,以盡可能隱蔽。

研究人員針對(duì)多種主流大語(yǔ)言模型(包括GPT、GPT4-Turbo和PaLM-2)測(cè)試了該技術(shù),攻擊模型只用少量查詢就成功為80%的查詢找到有效的越獄提示,平均查詢數(shù)不到30次。

研究人員表示,該方法顯著改進(jìn)了此前使用可解釋提示來(lái)越獄黑盒大語(yǔ)言模型的自動(dòng)化方法?!?/p>

大語(yǔ)言模型的安全競(jìng)賽

人工智能軍備競(jìng)賽已經(jīng)進(jìn)入白熱化階段,科技巨頭們每隔幾個(gè)月就會(huì)推出新的專業(yè)大語(yǔ)言模型(例如Twitter和Google近日先后發(fā)布的Grok和Gemini)爭(zhēng)奪人工智能市場(chǎng)的領(lǐng)導(dǎo)地位。

與此同時(shí),大語(yǔ)言模型的“黑盒屬性”和“野蠻生長(zhǎng)”導(dǎo)致其安全風(fēng)險(xiǎn)驟增,生成式人工智能技術(shù)已經(jīng)快速滲透到各種產(chǎn)品、服務(wù)和技術(shù)中,業(yè)務(wù)用例不斷增長(zhǎng),相關(guān)內(nèi)容安全和(針對(duì)AI和利用AI)網(wǎng)絡(luò)安全攻擊事件勢(shì)必將呈現(xiàn)爆發(fā)式增長(zhǎng)。

網(wǎng)絡(luò)安全業(yè)界對(duì)大語(yǔ)言模型漏洞研究的“安全競(jìng)賽”也已緊鑼密鼓地展開。例如,谷歌成立了專門針對(duì)人工智能的紅隊(duì),并擴(kuò)大了其漏洞賞金計(jì)劃以覆蓋與人工智能相關(guān)的威脅。微軟還邀請(qǐng)漏洞獵人來(lái)探究在其產(chǎn)品線中集成Copilot的各種安全風(fēng)險(xiǎn)。

今年早些時(shí)候,黑客大會(huì)DEF CON的AI Village邀請(qǐng)了全球頂級(jí)的黑客和紅隊(duì)成員測(cè)試來(lái)自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大語(yǔ)言模型,發(fā)現(xiàn)這些模型普遍存在容易被濫用的漏洞(泄漏數(shù)據(jù)、編造和傳播謠言、用于實(shí)施監(jiān)控和間諜活動(dòng)等)。


責(zé)任編輯:華軒 來(lái)源: GoUpSec
相關(guān)推薦

2017-03-30 19:28:26

HBase分布式數(shù)據(jù)

2009-09-21 16:20:12

2020-05-21 19:46:19

區(qū)塊鏈數(shù)字貨幣比特幣

2018-06-26 05:23:19

線程安全函數(shù)代碼

2017-07-06 08:12:02

索引查詢SQL

2022-07-18 06:16:07

單點(diǎn)登錄系統(tǒng)

2018-07-31 16:10:51

Redo Undo數(shù)據(jù)庫(kù)數(shù)據(jù)

2017-02-21 13:00:27

LoadAverage負(fù)載Load

2016-09-12 17:28:45

云存儲(chǔ)應(yīng)用軟件存儲(chǔ)設(shè)備

2018-12-12 22:51:24

Java包裝語(yǔ)言

2020-07-09 07:37:06

數(shù)據(jù)庫(kù)Redis工具

2020-07-17 07:44:25

云計(jì)算邊緣計(jì)算IT

2011-02-21 17:48:35

vsFTPd

2024-06-21 15:03:00

2015-11-12 10:32:40

GitHub控制系統(tǒng)分布式

2016-12-16 11:05:00

分布式互斥線程

2018-03-27 09:28:33

緩存策略系統(tǒng)

2021-08-06 08:50:45

加密貨幣比特幣區(qū)塊鏈

2020-06-11 08:04:12

WDMDWDMMWDM

2013-11-15 07:24:50

4G LTE圖解
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)