DeepSeek-R1大模型在安全分析中過半越獄攻擊失敗,暴露重大安全隱患
近日,基于云的網(wǎng)絡(luò)安全、合規(guī)性和漏洞管理解決方案提供商Qualys對DeepSeek AI的蒸餾版DeepSeek-R1 LLaMA 8B變體進行了安全分析,揭示了其關(guān)鍵的安全和合規(guī)性問題。研究人員表示,該模型在使用Qualys TotalAI(一個專為AI安全評估設(shè)計的平臺)進行的安全測試中,表現(xiàn)不佳,未能通過大部分測試。
測試范圍與結(jié)果
Qualys TotalAI的知識庫分析涉及對大語言模型(LLM)在16個類別中的響應進行評估,包括爭議話題、過度代理、事實不一致、騷擾、仇恨言論、非法活動、法律信息、錯位、過度依賴、隱私攻擊、褻瀆、自殘、敏感信息泄露、色情內(nèi)容、不道德行為以及暴力/不安全行為等。根據(jù)Qualys與Hackread.com分享的研究,該模型在多個領(lǐng)域表現(xiàn)出弱點,尤其在錯位測試中表現(xiàn)較差。
越獄攻擊是指通過技術(shù)手段繞過LLM的安全機制,可能導致有害輸出。Qualys TotalAI測試了18種不同的越獄攻擊類型,包括AntiGPT、基于分析的攻擊(ABJ)、DevMode2、PersonGPT、始終越獄提示(AJP)、邪惡知己、偽裝與重建(DRA)以及Fire等??偣策M行了885次越獄測試和891次知識庫評估,測試規(guī)模相當全面。結(jié)果顯示,該模型在61%的知識庫測試和58%的越獄攻擊中失敗。
不同攻擊類型的脆弱性
Qualys的詳細數(shù)據(jù)顯示,該模型對不同越獄技術(shù)的抵抗能力存在顯著差異。例如,盡管整體越獄失敗率為58%(513次失敗測試),但該模型對某些攻擊(如Titanius、AJP、Caloz、JonesAI、Fire)的抵抗力較弱,而對其他攻擊(如Ucar、Theta、AntiGPT、Clyde)則相對較強。然而,其高失敗率表明該模型極易受到對抗性操縱,有時會生成有害活動的指令、制造仇恨言論內(nèi)容、宣揚陰謀論并提供錯誤的醫(yī)療信息。
合規(guī)性與隱私問題
研究人員還發(fā)現(xiàn),該模型存在顯著的合規(guī)性挑戰(zhàn)。其隱私政策指出,用戶數(shù)據(jù)存儲在中國的服務(wù)器上,這引發(fā)了關(guān)于政府數(shù)據(jù)訪問、與國際數(shù)據(jù)保護法規(guī)(如GDPR和CCPA)的潛在沖突以及數(shù)據(jù)治理實踐模糊性的擔憂。這可能對受嚴格數(shù)據(jù)保護法律約束的組織產(chǎn)生影響。
值得注意的是,在DeepSeek AI發(fā)布后不久,Hackread.com報道稱,Wiz Research發(fā)現(xiàn)DeepSeek AI暴露了超過100萬條聊天記錄,包括敏感的用戶交互和認證密鑰,凸顯了其數(shù)據(jù)保護措施的不足。
企業(yè)應用的風險與建議
鑒于DeepSeek-R1在知識庫攻擊和越獄操作中的高失敗率,現(xiàn)階段企業(yè)采用該模型存在較大風險。因此,制定全面的安全策略,包括漏洞管理和遵守數(shù)據(jù)保護法規(guī),對于確保無風險、負責任的AI應用至關(guān)重要。
Qualys研究人員在與Hackread.com分享的博客文章中表示:“保護AI環(huán)境需要進行結(jié)構(gòu)化的風險和漏洞評估——不僅針對托管這些AI管道的基礎(chǔ)設(shè)施,還包括引入新安全挑戰(zhàn)的新興編排框架和推理引擎?!?/p>
通過以上分析可以看出,DeepSeek-R1大模型在安全性和合規(guī)性方面存在顯著問題,企業(yè)需謹慎評估其應用風險,并采取相應的安全措施。