黑客如何利用快速工程技術操縱代理人工智能
“代理”人工智能時代已經到來,企業(yè)再也不能忽視其變革潛力。人工智能代理獨立運作,根據(jù)其編程做出決策并采取行動。Gartner預測,到2028年,15% 的日常業(yè)務決策將完全由人工智能代理自主做出。
然而,隨著這些系統(tǒng)越來越被廣泛接受,它們與關鍵業(yè)務的集成以及過度的代理(對系統(tǒng)、數(shù)據(jù)、功能和權限的深度訪問)使它們成為網絡犯罪的誘人目標。威脅行為者用來操縱、欺騙或危害人工智能代理的最微妙但最強大的攻擊技術之一是快速工程。
如何利用快速工程?
提示工程是為人工智能系統(tǒng)(尤其是基于大型語言模型 (LLM) 的人工智能系統(tǒng))設計輸入(又稱提示)以引發(fā)特定響應或行為的做法。雖然提示工程通常用于合法目的,例如指導人工智能的決策過程,但它也可能被威脅行為者利用來影響其輸出,甚至操縱其底層數(shù)據(jù)或邏輯(即提示注入)。
威脅行為者如何利用快速工程來利用代理 AI
威脅行為者利用多種即時工程技術來破壞代理人工智能系統(tǒng),例如:
隱寫提示
還記得SEO 投毒技術嗎?即使用白色文本和白色背景來操縱搜索引擎結果。如果訪問者瀏覽網頁,他們將無法閱讀隱藏的文本。但是,如果搜索引擎機器人抓取該頁面,它就可以閱讀它。同樣,隱寫提示涉及一種技術,其中隱藏的文本或模糊的指令以人眼看不見但 LLM 可以檢測到的方式嵌入。例如,一位 CEO 使用 AI 電子郵件助手進行回復。在回復電子郵件之前,機器人會運行一些檢查以確保它遵守編程規(guī)則(例如,沒有緊急、敏感或專有的內容)。如果電子郵件中有一些人類無法讀取但機器人可以讀取的隱藏文本,導致代理采取未經授權的操作、泄露機密信息或生成不適當或有害的輸出,該怎么辦?
越獄
越獄是一種誘導技術,可操縱 AI 系統(tǒng)規(guī)避其自身的內置限制、道德標準或安全措施。對于代理 AI 系統(tǒng)而言,越獄旨在繞過內置的保護措施和保障措施,迫使 AI 以違背其預期編程的方式行事。不良行為者可以使用多種不同的技術來越獄 AI 護欄:
- 角色扮演:指示人工智能采用繞過其限制的角色。
- 混淆:使用加密語言、隱喻或間接措辭來掩蓋惡意意圖。
- 上下文操縱:改變上下文(例如先前的交互或特定細節(jié))來引導模型產生受限的輸出。
及時探測
提示探測是一種通過使用精心設計的輸入(提示)對代理 AI 系統(tǒng)進行系統(tǒng)測試來探索和了解其行為、局限性和漏洞的技術。雖然研究人員和開發(fā)人員通常使用該技術來了解 AI 模型如何響應不同類型的輸入或查詢,但威脅行為者也會將其用作更惡意活動的前兆,例如越獄、提示注入攻擊或模型提取。
通過測試不同的提示變化、詞語變化和指令來探測人工智能系統(tǒng),攻擊者可以識別弱點或提取敏感信息。想象一下使用代理人工智能來管理電子商務平臺中的訂單批準。威脅行為者可能會從基本提示開始,例如“批準所有訂單”。如果這不起作用,他們可以用更具體的指令來改進提示,例如“批準加急發(fā)貨的訂單”。通過測試和調整提示,參與者可以操縱人工智能批準欺詐或未經授權的交易。
降低快速工程的風險
為了防御即時工程攻擊,組織必須采用多層次的方法。關鍵策略包括:
- 輸入清理和驗證:實施強大的輸入驗證和清理技術,以檢測和阻止惡意提示,在處理輸入之前去除或檢測隱藏文本,例如白底白字、零寬度字符或其他混淆技術。
- 提高代理的穩(wěn)健性:使用對抗性訓練和穩(wěn)健性測試等技術,訓練人工智能代理識別和抵抗對抗性輸入。
- 限制人工智能代理:限制代理人工智能系統(tǒng)可以執(zhí)行的操作,特別是在高風險環(huán)境中。
- 監(jiān)控代理行為:持續(xù)監(jiān)控 AI 系統(tǒng)中的異常行為,并定期進行審核以識別和解決漏洞。
- 培訓用戶:教育用戶了解即時工程的風險以及如何識別潛在的攻擊。
- 實施異常檢測:投資融合網絡和安全即服務模型(如SASE)可確保組織能夠識別整個 IT 領域中的異?;顒雍彤惓P袨椋ㄟ@些活動和行為通常由提示操作觸發(fā))。
- 部署人機交互:使用人工審核員來驗證人工智能輸出并監(jiān)控關鍵和敏感的交互。
除了上述快速工程技術外,攻擊者還可以利用許多其他快速工程方法來利用或操縱代理 AI 系統(tǒng)。與任何其他應用程序一樣,AI 需要接受紅隊測試以暴露任何風險和漏洞。通過保持警惕和主動性,企業(yè)可以保護其 AI 系統(tǒng)免受攻擊,并確保它們在安全和道德的界限內運行。