研究報告揭示主流AI系統(tǒng)存在越獄漏洞、不安全代碼及數(shù)據(jù)竊取風(fēng)險
生成式AI面臨新型越獄攻擊
最新研究發(fā)現(xiàn),多款生成式人工智能(GenAI)服務(wù)存在兩類可誘導(dǎo)其生成非法或危險內(nèi)容的越獄攻擊漏洞。其中代號為"Inception"的攻擊技術(shù),通過指令讓AI工具虛構(gòu)場景,進而在無安全限制的子場景中實施二次誘導(dǎo)。
美國計算機應(yīng)急響應(yīng)小組協(xié)調(diào)中心(CERT/CC)在近期公告中指出:"在子場景中持續(xù)發(fā)送提示詞可繞過安全防護機制,最終生成惡意內(nèi)容。"第二種越獄方式則是通過詢問AI"如何拒絕特定請求"的反向引導(dǎo)實現(xiàn)。CERT/CC補充說明:"攻擊者可交替使用正常提示與越獄問題,使AI在安全機制失效狀態(tài)下持續(xù)響應(yīng)。"
主流AI平臺集體淪陷
這些技術(shù)若被成功利用,攻擊者將能突破OpenAI ChatGPT、Anthropic Claude、微軟Copilot、谷歌Gemini、XAi Grok、Meta AI及Mistral AI等平臺的安全防護。潛在危害包括生成受控物質(zhì)制備指南、武器設(shè)計圖紙、釣魚郵件模板及惡意軟件代碼等非法內(nèi)容。
近月研究還發(fā)現(xiàn)三大新型攻擊手法:
- 上下文合規(guī)攻擊(CCA):攻擊者在對話歷史中植入"愿意提供敏感信息"的虛擬助手回復(fù)
- 策略傀儡攻擊:將惡意指令偽裝成XML/INI/JSON等策略文件,誘使大語言模型(LLM)繞過安全校準
- 內(nèi)存注入攻擊(MINJA):通過查詢交互向LLM代理的內(nèi)存庫注入惡意記錄,誘導(dǎo)其執(zhí)行危險操作
代碼生成暗藏安全隱患
Backslash安全團隊指出,即便要求生成安全代碼,實際效果仍取決于提示詞詳細程度、編程語言、潛在通用缺陷枚舉(CWE)及指令明確性。研究表明,LLM在基礎(chǔ)提示下默認生成的代碼往往存在安全隱患,暴露出依賴GenAI進行"氛圍編程"的風(fēng)險。
OpenAI最新發(fā)布的GPT-4.1模型更引發(fā)特殊擔(dān)憂。評估顯示,在未修改系統(tǒng)提示的情況下,該模型出現(xiàn)偏題及允許故意濫用的概率達到前代GPT-4o的三倍。SplxAI專家警告:"升級模型絕非簡單修改代碼參數(shù),每個版本都有獨特的性能與漏洞組合。"
協(xié)議漏洞催生數(shù)據(jù)泄露風(fēng)險
Anthropic公司設(shè)計的模型上下文協(xié)議(MCP)開放標準被發(fā)現(xiàn)存在新型攻擊面。瑞士Invariant實驗室證實,惡意MCP服務(wù)器不僅能竊取用戶敏感數(shù)據(jù),還可劫持代理行為覆蓋可信服務(wù)器指令,導(dǎo)致功能完全失控。
這種"工具投毒攻擊"通過將惡意指令嵌入用戶不可見但AI可讀的MCP工具描述實現(xiàn)。實驗演示顯示,攻擊者通過篡改已授權(quán)的工具描述,可從Cursor或Claude Desktop等代理系統(tǒng)中竊取WhatsApp聊天記錄。
近期曝光的可疑Chrome擴展程序更凸顯危機嚴重性——該擴展能與本地MCP服務(wù)器通信,完全突破瀏覽器沙箱防護。ExtensionTotal分析報告指出:"該擴展無需認證即可全權(quán)訪問MCP服務(wù)器工具,其文件系統(tǒng)操作權(quán)限與服務(wù)器核心功能無異,可能造成災(zāi)難性的系統(tǒng)級淪陷。"