谷歌研究人員利用GPT-4攻破審核系統(tǒng)AI-Guardian
8月2日消息,據(jù)外媒報道,谷歌的研究人員展示了OpenAI的GPT-4如何作為研究助手來規(guī)避AI-Guardian。
AI-Guardian是一種用于檢測圖片中是否存在不當內(nèi)容的AI審核系統(tǒng),同時還可以識別圖片是否被其他AI修改過。一旦發(fā)現(xiàn)有不當內(nèi)容或篡改跡象,該系統(tǒng)將提示管理員進行處理。
谷歌DeepMind研究科學家Nicholas?Carlini在論文中揭示了GPT-4是如何被指示設計出一種攻擊方法,以避開AI-Guardian的保護措施的。該實驗展示了聊天機器人在推進安全研究方面的潛在價值,并突出了GPT-4等強大語言模型對未來網(wǎng)絡安全的影響。
Carlini的研究探討了如何利用OpenAI的大型語言模型GPT-4來開發(fā)針對AI-Guardian的攻擊策略。在最初的設計中,AI-Guardian的開發(fā)是為了通過識別和阻止包含可疑工件的輸入來防止對抗性攻擊。但是,Carlini的論文表明,GPT-4在通過提示的指導下,可以通過生成腳本和解釋圖像調(diào)整來克服AI-Guardian的防御,這些圖像調(diào)整欺騙了分類器,而不會觸發(fā)AI-Guardian的檢測機制。
Carlini的論文包括GPT-4建議的Python代碼,可以利用AI-Guardian的漏洞。因此,在原始AI-Guardian研究的威脅模型下,AI-Guardian的魯棒性從98%降低到僅8%。AI-Guardian的作者承認Carlini的攻擊成功地繞過了他們的防御。
Nicholas?Carlini使用GPT-4擊敗AI-Guardian的實驗標志著AI對AI行動的一個重要里程碑。它展示了如何利用語言模型作為研究助手來發(fā)現(xiàn)漏洞并加強網(wǎng)絡安全措施。雖然GPT-4的能力為未來的安全研究提供了良好的前景,但也強調(diào)了人類專業(yè)知識和協(xié)作努力的重要性。隨著人工智能語言模型的不斷發(fā)展,它們有可能徹底改變網(wǎng)絡安全領域,并激發(fā)防御對抗性攻擊的創(chuàng)新方法。