自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="x1wla"></pre>

<bdo id="x1wla"><strong id="x1wla"></strong></bdo>

<samp id="x1wla"><delect id="x1wla"></delect></samp>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

集體暴雷！自動(dòng)化攻擊可一分鐘內(nèi)越獄主流大語(yǔ)言模型

作者：佚名 2023-12-08 16:23:45

安全數(shù)據(jù)安全人工智能

大語(yǔ)言模型應(yīng)用面臨的兩大安全威脅是訓(xùn)練數(shù)據(jù)泄漏和模型濫用（被應(yīng)用于網(wǎng)絡(luò)犯罪、信息操弄、制作危險(xiǎn)品等違法活動(dòng)）。

大語(yǔ)言模型應(yīng)用面臨的兩大安全威脅是訓(xùn)練數(shù)據(jù)泄漏和模型濫用（被應(yīng)用于網(wǎng)絡(luò)犯罪、信息操弄、制作危險(xiǎn)品等違法活動(dòng)）。

本周內(nèi)，這兩大安全威脅相繼“暴雷”。

本周一，GoUpSec曾報(bào)道研究人員成功利用新的數(shù)據(jù)提取攻擊方法從當(dāng)今主流的大語(yǔ)言模型（包括開源和封閉，對(duì)齊和未對(duì)齊模型）中大規(guī)模提取訓(xùn)練數(shù)據(jù)。

本周四，Robust Intelligence和耶魯大學(xué)人工智能安全研究人員公布了一種機(jī)器學(xué)習(xí)技術(shù)，可以自動(dòng)化方式，一分鐘內(nèi)越獄包括GPT-4在內(nèi)的主流大型語(yǔ)言模型(無(wú)論模型是否開源，是否對(duì)齊)。

沒有大語(yǔ)言模型能夠幸免

“這種（自動(dòng)越獄）攻擊方法被稱為修剪攻擊樹(TAP)，可誘導(dǎo)GPT-4和Llama-2等復(fù)雜模型對(duì)用戶的查詢回復(fù)數(shù)百個(gè)包含有害、違規(guī)內(nèi)容或不安全響應(yīng)（例如：“如何在短短幾分鐘內(nèi)制造出一枚炸彈”。各主流模型的攻擊測(cè)試統(tǒng)計(jì)結(jié)果如下（GPT4的提示越獄成功率高達(dá)90%）：

測(cè)試結(jié)果表明，這個(gè)越獄漏洞在大語(yǔ)言模型技術(shù)中普遍存在，且沒有明顯的修復(fù)方法。

自動(dòng)對(duì)抗性機(jī)器學(xué)習(xí)攻擊技術(shù)

目前，針對(duì)基于大語(yǔ)言模型的人工智能系統(tǒng)有多種攻擊策略，例如：

提示注入攻擊，即使用精心設(shè)計(jì)的提示誘導(dǎo)模型“吐出”違反其安全規(guī)則的答案。

人工智能模型也可能被設(shè)置后門（在觸發(fā)時(shí)生成不正確的輸出），其敏感訓(xùn)練數(shù)據(jù)會(huì)被提取或中毒。模型可能會(huì)與對(duì)抗性樣本“混淆”，即觸發(fā)意外（但可預(yù)測(cè)）輸出的輸入。

Robust Intelligence和耶魯大學(xué)研究人員發(fā)現(xiàn)的自動(dòng)對(duì)抗性機(jī)器學(xué)習(xí)技術(shù)屬于對(duì)抗性樣本“混淆”攻擊，可突破大語(yǔ)言模型的安全護(hù)欄。

用魔法打敗魔法

研究人員解釋說：“（該方法）利用采用先進(jìn)的語(yǔ)言模型來(lái)增強(qiáng)人工智能網(wǎng)絡(luò)攻擊，該攻擊模型能不斷完善有害指令，使攻擊隨著時(shí)間的推移變得更加有效，最終導(dǎo)致目標(biāo)模型破防?！?/p>

“該流程涉及初始提示的迭代細(xì)化：在每一輪查詢中，攻擊模型都會(huì)對(duì)初始攻擊進(jìn)行改進(jìn)。該模型使用前幾輪的反饋來(lái)迭代出新的攻擊查詢。每種改進(jìn)的方法都會(huì)經(jīng)過一系列檢查，以確保其符合攻擊者的目標(biāo)，然后針對(duì)目標(biāo)系統(tǒng)進(jìn)行評(píng)估。如果攻擊成功，則該流程結(jié)束。如果沒有，它會(huì)迭代生成新的策略，直到成功為止。”

這種針對(duì)大語(yǔ)言模型的越獄方法是自動(dòng)化的，可以用于開源和閉源模型，并且能通過最小化查詢數(shù)量進(jìn)行優(yōu)化，以盡可能隱蔽。

研究人員針對(duì)多種主流大語(yǔ)言模型（包括GPT、GPT4-Turbo和PaLM-2）測(cè)試了該技術(shù)，攻擊模型只用少量查詢就成功為80%的查詢找到有效的越獄提示，平均查詢數(shù)不到30次。

研究人員表示，該方法顯著改進(jìn)了此前使用可解釋提示來(lái)越獄黑盒大語(yǔ)言模型的自動(dòng)化方法?！?/p>

大語(yǔ)言模型的安全競(jìng)賽

人工智能軍備競(jìng)賽已經(jīng)進(jìn)入白熱化階段，科技巨頭們每隔幾個(gè)月就會(huì)推出新的專業(yè)大語(yǔ)言模型（例如Twitter和Google近日先后發(fā)布的Grok和Gemini）爭(zhēng)奪人工智能市場(chǎng)的領(lǐng)導(dǎo)地位。

與此同時(shí)，大語(yǔ)言模型的“黑盒屬性”和“野蠻生長(zhǎng)”導(dǎo)致其安全風(fēng)險(xiǎn)驟增，生成式人工智能技術(shù)已經(jīng)快速滲透到各種產(chǎn)品、服務(wù)和技術(shù)中，業(yè)務(wù)用例不斷增長(zhǎng)，相關(guān)內(nèi)容安全和（針對(duì)AI和利用AI）網(wǎng)絡(luò)安全攻擊事件勢(shì)必將呈現(xiàn)爆發(fā)式增長(zhǎng)。

網(wǎng)絡(luò)安全業(yè)界對(duì)大語(yǔ)言模型漏洞研究的“安全競(jìng)賽”也已緊鑼密鼓地展開。例如，谷歌成立了專門針對(duì)人工智能的紅隊(duì)，并擴(kuò)大了其漏洞賞金計(jì)劃以覆蓋與人工智能相關(guān)的威脅。微軟還邀請(qǐng)漏洞獵人來(lái)探究在其產(chǎn)品線中集成Copilot的各種安全風(fēng)險(xiǎn)。

今年早些時(shí)候，黑客大會(huì)DEF CON的AI Village邀請(qǐng)了全球頂級(jí)的黑客和紅隊(duì)成員測(cè)試來(lái)自Anthropic、Google、Hugging Face、NVIDIA、OpenAI、Stability和Microsoft的大語(yǔ)言模型，發(fā)現(xiàn)這些模型普遍存在容易被濫用的漏洞（泄漏數(shù)據(jù)、編造和傳播謠言、用于實(shí)施監(jiān)控和間諜活動(dòng)等）。

責(zé)任編輯：華軒來(lái)源： GoUpSec

大語(yǔ)言模型數(shù)據(jù)泄露安全

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<bdo id="l0m4g"></bdo>

<nav id="l0m4g"><strong id="l0m4g"></strong></nav>