自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GenAI紅隊:將LLM置于網(wǎng)絡安全測試中的技巧和技術

譯文 精選
人工智能
紅隊是測試和支持網(wǎng)絡安全系統(tǒng)的一種有效方法,但它仍需適應技術的發(fā)展而不斷完善。近年來,生成式人工智能(GenAI)和大型語言模型(LLM)的爆炸式增長正迫使紅隊世界適應。

譯者 | 晶顏

審校 | 重樓

從頭構(gòu)建一個GenAI紅隊,或者讓現(xiàn)有的紅隊適應新技術是一個復雜的過程,OWASP在其最新指南中幫助闡釋了這一過程。

紅隊是測試和支持網(wǎng)絡安全系統(tǒng)的一種有效方法,但它仍需適應技術的發(fā)展而不斷完善。近年來,生成式人工智能(GenAI)和大型語言模型(LLM)的爆炸式增長正迫使紅隊世界適應。

監(jiān)管和管理機構(gòu)對AI相關紅隊的重視,包括歐盟的《人工智能法案》和美國國家標準與技術研究院(NIST)的人工智能風險管理框架,突顯了它的重要性。

鑒于人工智能是一項新生的新興技術,許多組織剛剛開始開發(fā)GenAI紅隊方法,這使得OWASP最近發(fā)布的《GenAI紅隊指南:評估人工智能漏洞的實用方法》成為一項剛需資源。

什么是GenAI紅隊?

GenAI紅隊包括模擬針對GenAI系統(tǒng)(如大型語言模型)的對抗性行為,以發(fā)現(xiàn)與安全性和信任相關的漏洞。通過像攻擊者一樣思考,以便在漏洞造成現(xiàn)實世界的傷害之前識別它們。

OWASP將具有GenAI背景的紅隊定義為“識別漏洞和緩解人工智能系統(tǒng)風險的結(jié)構(gòu)化方法”,它很好地結(jié)合了傳統(tǒng)的對抗性測試與人工智能特定的方法和風險。這包括GenAI系統(tǒng)的各個方面,如模型、部署管道,以及更廣泛的系統(tǒng)環(huán)境中的各種交互。

OWASP強調(diào)要有效地實施紅隊合作,需要采取下述一些關鍵步驟,例如:

  • 確定目標和范圍:具有基于風險的優(yōu)先級的參與框架是第一步。但它是不斷發(fā)展的——對于初學者來說,需要確定哪些AI應用程序/用例是最關鍵的業(yè)務模型,哪些是處理敏感數(shù)據(jù)的模型。
  • 組建團隊:包括人工智能工程師、網(wǎng)絡安全專家,以及(如果可能的話)道德或合規(guī)專家。技能組合的多樣性確保了全面的評估。
  • 威脅建模:考慮一下攻擊者如何利用步驟1中確定的應用程序。最有可能的攻擊是什么,例如,提示注入,數(shù)據(jù)提???將這些場景與組織的最高優(yōu)先級風險保持一致。
  • 處理整個應用程序堆棧:1)模型評估:測試模型的固有弱點(例如,毒性,偏差);2)實現(xiàn)檢查:評估部署堆棧中的護欄、提示和過濾器;3)系統(tǒng)測試:審查整個應用程序環(huán)境,包括API、存儲和集成點;4)運行時/人機交互:評估用戶或外部代理在實時操作期間如何操作模型。
  • 使用工具和框架:從用于提示測試、內(nèi)容過濾和對抗性查詢的基本工具入手。
  • 文件調(diào)查結(jié)果及報告:記錄每個漏洞、利用場景和發(fā)現(xiàn)的弱點。總結(jié)這些不可操作的報告,并提供明確的補救步驟。
  • 匯報/交互后分析持續(xù)改善:討論在參與過程中使用的戰(zhàn)術、技術和程序(TTPs),確定利用的漏洞,吸取的教訓,并建議可操作的改進措施,以增強組織的安全態(tài)勢。
  • 持續(xù)改進:紅隊不是一次性事件。在實現(xiàn)修復后重新測試,并將定期檢查集成到組織的AI生命周期中,以便隨著模型和環(huán)境的發(fā)展捕獲新的威脅。

總而言之,GenAI紅隊是傳統(tǒng)紅隊的補充,它專注于AI驅(qū)動系統(tǒng)的微妙和復雜方面,包括考慮新的測試維度,如AI特定的威脅建模、模型偵察、提示注入、護欄繞過等。

傳統(tǒng)紅隊和AI紅隊的主要區(qū)別

1.關注范圍

GenAI測試包含社會技術風險,例如偏見或有害內(nèi)容,而傳統(tǒng)測試側(cè)重于技術弱點。

2.數(shù)據(jù)的復雜性

GenAI紅隊需要管理、生成和分析不同的大規(guī)模數(shù)據(jù)集,跨非確定性系統(tǒng)的多種模式,使用更先進的數(shù)據(jù)管理方法。

3.隨機評估

與傳統(tǒng)系統(tǒng)不同,GenAI涉及概率輸出,這需要嚴格的統(tǒng)計測試方法來評估漏洞。

4.評估標準及門檻

GenAI系統(tǒng)的隨機特性意味著確定成功的攻擊與正常模型行為變化比傳統(tǒng)的紅隊更復雜。

傳統(tǒng)的紅隊關注定義良好的系統(tǒng)危害(例如,域管理憑證盜竊)。GenAI紅隊必須考慮概率,不斷發(fā)展的模型,其中的結(jié)果不是簡單的是非題。

AI紅隊涵蓋范圍

GenAI紅隊建立在傳統(tǒng)紅隊的基礎上,并涵蓋了GenAI的獨特方面,如模型本身、模型產(chǎn)生的輸出以及跨模型間的輸出和響應。模型的評估包括對不安全元素的測試、響應中的偏差和不準確性、超出范圍的響應以及與被測試系統(tǒng)的安全性和一致性相關的任何其他問題。測試評估系統(tǒng)及其所有組件是很重要的。

GenAI紅隊的部分范圍與錯誤信息的關鍵挑戰(zhàn)密切相關。鑒于GenAI系統(tǒng)可能產(chǎn)生有害或誤導性的內(nèi)容,紅隊必須進行嚴格的測試,以識別和減輕這些風險。這包括評估該模型是否容易被操縱以產(chǎn)生虛假或欺騙性信息,是否無意中暴露了敏感或機密數(shù)據(jù),以及其輸出是否反映了偏見或違反道德標準。測試必須是徹底和主動的,以確保在系統(tǒng)被利用或造成實際危害之前,識別和解決任何錯誤信息、不道德內(nèi)容或數(shù)據(jù)泄漏的實例。

GenAI紅隊還應包括對旨在阻礙或防止攻擊的已部署安全措施的測試,以及對安全事件檢測和響應能力的測試。此外,OWASP建議測試既要考慮對抗的角度,也要考慮受影響用戶的角度。

參考NIST的AI RMF GenAI Profile草案, OWASP還敦促AI紅隊要考慮生命周期階段(例如,設計、開發(fā)等)、風險范圍(例如模型、基礎設施和生態(tài)系統(tǒng))以及風險的來源。最后,范圍界定方法應該遵循關于測試授權(quán)、數(shù)據(jù)記錄、報告、消除沖突、通信/Opsec和數(shù)據(jù)處理的標準。

GenAI紅隊應對的風險

正如我們所討論的,GenAI呈現(xiàn)出一些獨特的風險,包括模型操縱、中毒、偏見和幻覺等。考慮到這些因素,OWASP推薦了一個綜合的方法,它包含下述四個關鍵方面:

  • 模型評估——探測固有的弱點,如偏差或穩(wěn)健性問題。
  • 實施測試——評估護欄和提示在生產(chǎn)中的有效性。
  • 系統(tǒng)評估——檢查系統(tǒng)范圍內(nèi)的漏洞、供應鏈漏洞、部署管道和數(shù)據(jù)安全。
  • 運行時分析——關注人工智能輸出、人類用戶和互聯(lián)系統(tǒng)之間的交互,并識別過度依賴或社會工程向量等風險。

從風險的角度來看,GenAI紅隊解決了安全(運營商)、安防(用戶)和信任(用戶)的三重問題。這些目標直接映射到LLM的“3H”(harmlessness、helpfulness、honesty)準則。OWASP將這些風險分為以下幾類:

  • 安全性、隱私性和穩(wěn)健性風險——傳統(tǒng)的對抗性威脅,加上一些新興的GenAI威脅(如提示注入、數(shù)據(jù)泄漏、侵犯隱私和數(shù)據(jù)中毒)構(gòu)成了重大挑戰(zhàn)。這些風險通常來自惡意輸入和受損的訓練數(shù)據(jù)。
  • 毒化、有害情境和相互作用風險——GenAI所特有的互動風險包括有害的輸出,如仇恨、辱罵、褻瀆(HAP)、惡劣的對話和有偏見的回應。這些問題破壞了用戶的安全,降低了對系統(tǒng)的信任。
  • 偏見、內(nèi)容完整性和錯誤信息風險——對于GenAI來說,知識風險主要集中在事實性、相關性和基礎性,以及幻覺/虛構(gòu)(不正確的事實陳述)和突發(fā)行為等現(xiàn)象上。雖然幻覺在某些情況下可能是有害的,但在其他情況下可能是有益的。平衡這些細微差別對于維持信任和傳遞價值至關重要。

最后,考慮到人工智能代理(AI Agent)受到了業(yè)界的極大關注,OWASP還特別指出了多代理(multi-agent)風險,例如跨代理的多步驟攻擊鏈、利用工具集成以及通過代理交互繞過權(quán)限。

GenAI/LLM系統(tǒng)的威脅建模

OWASP建議將威脅建模作為GenAI紅隊的關鍵活動,并引用MITRE ATLAS作為一個很好的參考資源。威脅建模是為了系統(tǒng)地分析系統(tǒng)的攻擊面,識別潛在的風險和攻擊向量。人工智能系統(tǒng)的威脅建模還包括理解技術攻擊表面之外的社會文化、監(jiān)管和道德背景。這包括識別攻擊者如何操縱模型輸入、毒害訓練數(shù)據(jù)或利用偏見。

威脅建模的關鍵考慮因素包括模型的體系結(jié)構(gòu)、數(shù)據(jù)流,以及系統(tǒng)如何與更廣泛的環(huán)境、外部系統(tǒng)、數(shù)據(jù)和社會技術方面(如用戶和行為)進行交互。通過構(gòu)建一個全面的威脅模型,團隊可以優(yōu)先考慮緩解工作——無論是過濾有害內(nèi)容、加強數(shù)據(jù)驗證,還是保護模型部署管道。

根據(jù)威脅建模宣言,這個過程將能回答下述四個問題:

  • 我們在做什么?(為系統(tǒng)架構(gòu)建模)
  • 哪里會出錯呢?(識別/列舉威脅)
  • 我們該怎么辦呢?(確定緩解策略)
  • 我們做得夠好嗎?(驗證和迭代)

然而,OWASP指出,人工智能和機器學習模型與傳統(tǒng)的軟件系統(tǒng)有很大的不同。AI模型行為通常是不可預測的,特別是在邊緣情況下或在對抗性攻擊下。隨著LLM等模型的擴大,它們將能產(chǎn)生高影響力的風險,從虛構(gòu)(自信地制造捏造或虛假信息)到產(chǎn)生有害或冒犯性的內(nèi)容。評估模型本身及其整個供應鏈和依賴關系至關重要。

GenAI紅隊策略

GenAI紅隊通過模擬真實世界的威脅來評估防御能力。在GenAI安全的背景下,紅隊涉及系統(tǒng)地測試系統(tǒng)對抗?jié)撛诘臄硨π袨?。這是通過模擬特定的戰(zhàn)術、技術和程序(TTPs)來實現(xiàn)的,惡意行為者可能會使用這些戰(zhàn)術、技術和程序來利用人工智能系統(tǒng)。

每個組織的GenAI紅隊戰(zhàn)略可能看起來不同。OWASP解釋稱,具體戰(zhàn)略必須與組織的目標保持一致,這可能包括獨特的方面,如負責任的人工智能目標和技術考慮。

GenAI紅隊策略,圖源OWASP

GenAI紅隊策略應考慮上圖所示的各個方面,包括基于風險的范圍界定、跨職能團隊的參與、量身定制的評估方法、設定明確的目標、威脅建模與漏洞評估、模型偵察和應用分解、攻擊建模與攻擊路徑利用以及生成信息豐富且可操作的報告。

GenAI紅隊藍圖

一旦戰(zhàn)略到位,組織就可以創(chuàng)建一個藍圖來運行GenAI紅隊。這個藍圖提供了一個結(jié)構(gòu)化的方法和練習的具體步驟、技術和目標。

OWASP建議分階段評估生成式AI系統(tǒng),包括模型、實現(xiàn)、系統(tǒng)和運行時,如下所示:

GenAI紅隊藍圖的不同階段,圖源OWASP

這些階段中的每個階段都有關鍵的考慮因素,例如模型的來源和數(shù)據(jù)管道,測試用于實現(xiàn)的護欄,檢查已部署的系統(tǒng)以尋找可利用的組件,以及針對運行時業(yè)務流程,以查找多個AI組件在生產(chǎn)中的運行時交互方式中的潛在故障或漏洞。

這種分階段的方法允許有效的風險識別,實現(xiàn)多層防御,優(yōu)化資源,并追求持續(xù)改進。還應該使用工具進行模型評估,以支持評估的速度、有效的風險檢測、一致性和全面分析。

必要的技術

雖然GenAI紅隊有許多可能的技術,但決定包括什么或從哪里開始可能會讓人感到不知所措。然而,OWASP提供了他們認為是“必要的”技術。

這些技術主要包括:

  • 對抗提示工程
  • 數(shù)據(jù)集生成操作
  • 跟蹤多回合攻擊
  • 安全邊界測試
  • 代理工具/插件分析
  • 組織檢測和響應能力

這只是基本技術的一個子集,它們提供的列表代表了技術考慮和操作組織活動的組合。

最佳實踐

OWASP GenAI紅隊指南最后列出了一些組織應該更廣泛地考慮的關鍵最佳實踐。這些例子包括建立生成式人工智能政策、標準和程序,以及為每次紅隊會議建立明確的目標。

組織還必須有明確定義和有意義的成功標準,以維護測試過程、發(fā)現(xiàn)和緩解的詳細文檔,并為未來的GenAI紅隊活動策劃知識庫。

原文標題:Generative AI red teaming: Tips and techniques for putting LLMs to the test,作者:Chris Hughes

責任編輯:姜華 來源: 51CTO內(nèi)容精選
相關推薦

2024-04-18 12:12:01

2021-08-11 05:03:27

工具滲透網(wǎng)絡

2024-08-23 15:02:23

2025-02-25 11:04:20

2023-11-08 15:01:12

2011-03-17 13:32:45

2019-02-26 08:51:34

網(wǎng)絡安全惡意軟件網(wǎng)絡攻擊

2023-11-28 16:20:07

2024-04-12 14:10:14

網(wǎng)絡安全GenAI

2023-10-09 00:14:30

2011-03-24 09:55:22

2016-09-22 14:09:47

2011-05-27 14:18:39

2022-06-23 11:09:12

網(wǎng)絡攻擊網(wǎng)絡安全

2011-03-09 10:30:55

2011-03-24 09:43:37

Linux安全

2011-03-24 09:46:14

Linux

2016-08-22 12:06:11

2024-10-21 13:11:50

2023-11-08 07:10:17

點贊
收藏

51CTO技術棧公眾號