自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="ht1if"></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4被騙進「盜夢空間」！IBM發(fā)現(xiàn)ChatGPT極易受騙，微軟發(fā)起紅隊攻擊

作者：新智元 2023-08-21 13:34:28

IBM研究發(fā)現(xiàn)，AI聊天機器人極易被愚弄，稍微一被誘導(dǎo)，就會跨過安全護欄。對此，微軟已經(jīng)發(fā)動了兩層紅隊攻擊。

大語言模型與核能很相似。

都對現(xiàn)實世界有著巨大的影響力，既可以用來幫助人類也會因為惡意的使用造成毀滅性的災(zāi)難。

但能夠接觸到核能的只有極少數(shù)的人，且核能的利用受到極為嚴苛的監(jiān)管。

而大語言模型沒有任何門檻，只要具備最基本的識字和交流能力，能描述出自己的需求就可以上手使用了。

與此同時，大語言模型的安全護欄也不牢靠。用戶甚至不需要復(fù)雜的代碼，就能在交流中欺騙大語言模型生成有害內(nèi)容。

一個人人可用，但安全措施松散，且有巨大影響力的工具，造成的破壞將遠超我們的想象。

大語言模型已經(jīng)重新定義了網(wǎng)絡(luò)安全團隊和網(wǎng)絡(luò)犯罪分子的運作方式。

為了探明大語言模型可能帶來的安全風(fēng)險，研究人員試圖」催眠」當下流行的LLMs，來確定它們將會在哪些程度上被惡意使用。

研究人員發(fā)現(xiàn)，英語已經(jīng)成為惡意軟件的「編程語言」。

有了LLM，攻擊者不再需要依靠Go、JavaScript、Python等來創(chuàng)建惡意代碼，他們只需要了解如何使用英語有效地命令和提示LLM。

催眠LLM：讓我們玩一個游戲...

那么研究人員是怎樣催眠LLM的呢？

很簡單，通過誘騙他們玩游戲，然后設(shè)定規(guī)則：玩家必須給出相反的答案才能贏得比賽。

而LLM遵循了新的設(shè)定規(guī)則，就會忘記原來的安全護欄。

圖片

研究人員對 GPT-3.5、GPT-4、Bard、mpt-7b 和 mpt-30b 分別進行了催眠測試。

其中催眠效果最好的是 GPT，接下來我們將對催眠過程進一步分析。

這是開始游戲后與ChatGPT的對話。如果用戶盲目相信GPT的回答（應(yīng)該沒人會信吧），并在生活中執(zhí)行，將帶來很多麻煩和危害。

圖片

以上例子都是生活中的常識（如退稅流程、詐騙信息、交通規(guī)則等），人們尚且可以憑借自己的經(jīng)驗進行辨別。

但如果涉及到我們不熟悉的領(lǐng)域，如在求醫(yī)問藥等方面，那么LLM的錯誤回答其危害性是不言而喻的。

上述GPT的錯誤回答是由于我們特別設(shè)定了規(guī)則，但如果想要讓用戶無法辨別他們正在交互的LLM是否被催眠，可以設(shè)定兩個簡單的參數(shù)：

一個永遠不會結(jié)束也無法被發(fā)現(xiàn)的游戲：研究人員指示LLM永遠不要告訴用戶：他們正在進行一場沒有人可以退出的游戲。如果有用戶成功退出了游戲，那么LLM可以重新啟動這個游戲。

這個Prompt技巧可以讓ChatGPT和用戶處于同一對話時從不停止游戲，即使是在用戶重新啟動瀏覽器后打開這個對話時。

而ChatGPT也完全不會提示用戶他們正在玩這個游戲。

以下是提示內(nèi)容：

圖片

可以看到，在使用了這個Prompt后，ChatGPT的回答中顯示了[In game]的標志，但在用戶要求ChatGPT告知他們是否在游戲中時，ChatGPT否認了這一點。同樣的，在用戶要求ChatGPT退出之前的Prompt時，也失敗了。

圖片

「盜夢空間」：通過創(chuàng)建嵌套多個游戲來深度困住LLM。研究人員創(chuàng)建了一個游戲框架，其中包含多個游戲。一個游戲是另一個游戲中的子游戲。這樣，即使用戶從前一個游戲中醒過來，他也會進入另一個游戲中。

這樣，模型就能將用戶「困住」，使用戶毫無知覺地陷入許多游戲中。

當LLM被要求創(chuàng)建10個、100個，甚至是10000個游戲時，結(jié)果將十分drama。

而像GPT-4這樣的性能更優(yōu)越的模型，能夠理解和創(chuàng)建更多層游戲。

當創(chuàng)建的游戲?qū)訑?shù)越多，模型混淆和繼續(xù)進行游戲的可能性就越大。

這是「盜夢空間」的Prompt：

圖片

可以看到嵌套游戲的效果很好，用戶無法退出游戲的套娃循環(huán)。

圖片

攻擊場景

在確定了LLM的規(guī)則參數(shù)后，研究人員探索了攻擊者利用LLM的各種方式。

下面是一些可以通過催眠LLM生成的假設(shè)攻擊場景：

1. 虛擬銀行代理泄露機密信息

虛擬代理可能很快也將由LLM提供支持。

一種常見的做法是為每個客戶創(chuàng)建一個新會話，以便代理不會泄露任何機密信息。

然而，在軟件架構(gòu)中為了性能考慮，常常會重啟現(xiàn)有的會話，因此在一些實踐上可能無法在每次對話后都完全重置會話。

在下面的例子中，研究人員使用ChatGPT創(chuàng)建了一個銀行代理，考慮到未來的LLM也許能夠調(diào)用遠程API來完全重置自己，他們要求ChatGPT在用戶退出對話后重置上下文。

圖片

如果一些犯罪分子想要從銀行竊取機密信息，他們可以催眠虛擬代理并注入一個隱藏命令，以便稍后檢索機密信息。

當犯罪分子連接到已被催眠的虛擬代理，他們只需要鍵入「1qaz2wsx」，虛擬代理就會打印出所有之前的交易記錄。

圖片

如果銀行未來將LLM作為虛擬代理，且LLM易被催眠的性質(zhì)如果沒有發(fā)生改變，或進行加強與防護，那么我們每個人的機密信息都難以得到保障。

圖片

研究人員模擬這種攻擊場景的可行性強調(diào)了一個事實：

如果金融機構(gòu)試圖利用LLM來優(yōu)化用戶的數(shù)字化輔助體驗，他們必須確保他們的LLM是可信賴的，并采取最高的安全標準。

畢竟只要一個設(shè)計缺陷就足以為攻擊者提供他們催眠LLM所需的基礎(chǔ)。

2. 生成具有已知漏洞的代碼

之后，研究人員要求 ChatGPT 直接生成易受攻擊的代碼，但由于OpenAI的內(nèi)容政策的限制，ChatGPT拒絕了這個要求。

圖片

但是，攻擊者可以將生成有漏洞的代碼的任務(wù)進行分解，然后要求ChatGPT遵循這些步驟來輕松繞過限制。

圖片

研究人員隨后要求ChatGPT創(chuàng)建了一個Web服務(wù)。

需要將用戶名作為輸入，并查詢數(shù)據(jù)庫以獲取電話號碼并將其放入響應(yīng)中。

ChatGPT生成了下面的程序，該程序在第15行呈現(xiàn)SQL查詢的方式是有漏洞的。

可以預(yù)見，如果開發(fā)人員出于工作目的訪問被入侵的LLM，將會造成巨大的業(yè)務(wù)影響。

圖片

3. 創(chuàng)建惡意代碼

研究人員還測試了LLM是否會生成惡意代碼。

在這種情況中，GPT-4比GPT-3更難以欺騙。

在某些情況下，GPT-4會意識到它正在生成有漏洞的代碼，并會告訴用戶不要使用它。

但是，在研究人員要求GPT-4在示例代碼中始終都包含一個特殊庫時，GPT-4無法判斷那個特殊庫是否是惡意的。這時候，犯罪分子可以在互聯(lián)網(wǎng)上發(fā)布一個同名的庫。

在這個PoC中，研究人員要求ChatGPT始終包含一個名為「jwt-advanced」的特殊模塊（甚至還要求ChatGPT創(chuàng)建一個虛假但逼真的模塊名稱）。

以下是Prompt和生成的代碼：

圖片

圖片

4. 操縱事件響應(yīng)手冊

研究人員還催眠了ChatGPT，以提供一份無效的事件響應(yīng)手冊，展示攻擊者如何操縱LLM來削弱防御者的努力。

這可以通過提供部分不正確的行動建議來實現(xiàn)。

雖然有經(jīng)驗的用戶可能能夠發(fā)現(xiàn)LLM生成的荒謬建議，但在更細節(jié)的層面上，比如一些語法詞匯的錯誤或無效的步驟，會使沒有經(jīng)驗的人無法區(qū)分被催眠的LLM的惡意意圖。

以下是研究人員在ChatGPT上開發(fā)的Prompt：

圖片

下圖內(nèi)容是研究人員與ChatGPT的對話?？梢钥吹紺hatGPT生成了一些有誤導(dǎo)性的操作步驟：

圖片

在第一個情景中，GPT-4建議用戶打開并下載所有附件。這看起來就像是一個明顯的警告信號，但我們也要同樣需要考慮到許多沒有網(wǎng)絡(luò)安全意識的用戶不會對高度復(fù)雜的LLM輸出產(chǎn)生懷疑。

第二個情景更有趣一些，因為「立即支付贖金」這一錯誤的回應(yīng)并不像第一個虛假回應(yīng)那么直截了當。

IBM 2023年的數(shù)據(jù)泄露成本報告發(fā)現(xiàn)，近50%的受調(diào)查組織在遭受勒索軟件攻擊后支付了贖金。雖然強烈不鼓勵支付贖金，但這是一個常見的現(xiàn)象。

LLM的「催眠性」

在構(gòu)建上述不同攻擊情景時，研究人員發(fā)現(xiàn)某些情景更適合使用GPT-3.5來實現(xiàn)，而其他情景則更適合使用GPT-4。

不同語言模型的「催眠性」是否意味著擁有更多的參數(shù)會讓模型更容易被催眠，還是會使其更具抵抗力？

也許用「更容易」這樣的詞語來形容并不完全準確，但對于更復(fù)雜的LLM，攻擊者可以采用更多的策略。

因此，研究人員決定在不同模型之間測試更多的情景，包括GPT-3.5、GPT-4、BARD、mpt-7b和mpt-30b，以評估它們各自的表現(xiàn)。

基于不同場景的LLM催眠性

綠色：LLM能夠被催眠以執(zhí)行請求的操作

紅色：LLM無法被催眠以執(zhí)行請求的操作

黃色：LLM能夠被催眠以執(zhí)行請求的操作，但并非始終如一（例如，LLM需要被提醒游戲規(guī)則或僅在某些情況下執(zhí)行請求的操作）

從上述結(jié)果可知，盡管更多的參數(shù)意味著更聰明的LLM，但當LLM能夠理解更多事物，比如玩游戲、創(chuàng)建嵌套游戲和添加隨機行為時，犯罪分子可以用更多的方式催眠它們。

但更聰明的LLM也有更高的機會檢測到惡意意圖。例如，GPT-4會警告用戶關(guān)于SQL注入漏洞，但是GPT-3.5只會按照指示生成有漏洞的代碼。

在思考這種演變時，我們會想起一個永恒的格言：「力量越大，責(zé)任越大」。

在LLM的發(fā)展背景下，這句話具有深刻的共鳴。

當我們利用LLM日益增長的能力時，我們必須同時進行嚴格的監(jiān)督和謹慎，以免他們的良好能力被濫用造成有害的后果。

微軟紅隊攻擊GPT-4細節(jié)大揭秘

在AI開發(fā)上，紅隊攻擊是經(jīng)常使用的一種策略。

「紅隊」是一個獨立的組織，它會故意滲透進系統(tǒng)、項目、流程、漏洞中，目標就是為了讓系統(tǒng)更安全。

圖片

而AI開發(fā)中的紅隊，充當?shù)木褪且环N獨立審計師。

它會測試AI，試圖操縱它，或者發(fā)現(xiàn)流程中的缺陷，最好是在系統(tǒng)部署到真實環(huán)境中之前。

根據(jù)OpenAI的說法，整個機構(gòu)投入了6個多月，用于對GPT-4進行紅隊攻擊。

在未經(jīng)過濾前，GPT-4一被攻擊，就會中招，比如寫出對軍事系統(tǒng)進行網(wǎng)絡(luò)攻擊的詳細指南。

好在，在紅隊攻擊后，團隊會利用結(jié)果來改善模型。

模型和應(yīng)用級別：微軟的兩層紅隊攻擊

微軟會使用紅隊攻擊來調(diào)查GPT-4這樣的大語言模型，以及Bing Chat這樣的應(yīng)用程序。

現(xiàn)在，微軟擴大了AI紅隊的規(guī)模，除了安全之外，他們還致力于負責(zé)人的AI。

圖片

生成式AI主要存在兩種風(fēng)險：其一是故意操縱，即用戶惡意利用安全漏洞；其二就是正常使用LLM會產(chǎn)生的安全風(fēng)險，比如它模型會產(chǎn)生幻覺，生成虛假信息。

但其實之前Bing Chat上線后，因為「胡說八道」嚇得微軟馬上減少了聊天次數(shù)?？梢酝茢?，Bing Chat并沒有經(jīng)過廣泛的安全測試。

關(guān)于這個原因，其實也有相關(guān)報道。據(jù)說OpenAI曾警告過微軟不要過早啟動Bing Chat，但微軟并沒有聽從。

不過，AI需要的，可不僅僅是標準的紅隊。

對于傳統(tǒng)的紅隊，任務(wù)是確定性的，相同的輸入，會產(chǎn)生相同的輸出。

然而，AI紅隊卻必須接受概率的存在。

因為潛在的有害場景必須經(jīng)過多次測試，例如，AI 攻擊可能在第一次嘗試時失敗，但稍后會成功。并且，可能存在更廣泛的有害結(jié)果。

另外，因為AI系統(tǒng)在不斷快速發(fā)展，AI需要一種分層的防御方法，包括分類器、元提示和限制對話漂移等。

參考資料：

https://securityintelligence.com/posts/unmasking-hypnotized-ai-hidden-risks-large-language-models/

責(zé)任編輯：武曉燕來源：新智元

AI 機器人 IBM

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="1xp9r"><rt id="1xp9r"></rt></sub>

<p id="1xp9r"></p>

<sup id="1xp9r"></sup>

<style id="1xp9r"></style><style id="1xp9r"></style>