自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GenAI紅隊(duì):將LLM置于網(wǎng)絡(luò)安全測(cè)試中的技巧和技術(shù) 原創(chuàng)

發(fā)布于 2025-4-7 08:30
瀏覽
0收藏

從頭構(gòu)建一個(gè)GenAI紅隊(duì),或者讓現(xiàn)有的紅隊(duì)適應(yīng)新技術(shù)是一個(gè)復(fù)雜的過(guò)程,OWASP在其最新指南中幫助闡釋了這一過(guò)程。

紅隊(duì)是測(cè)試和支持網(wǎng)絡(luò)安全系統(tǒng)的一種有效方法,但它仍需適應(yīng)技術(shù)的發(fā)展而不斷完善。近年來(lái),生成式人工智能(GenAI)和大型語(yǔ)言模型(LLM)的爆炸式增長(zhǎng)正迫使紅隊(duì)世界適應(yīng)。

監(jiān)管和管理機(jī)構(gòu)對(duì)AI相關(guān)紅隊(duì)的重視,包括歐盟的《人工智能法案》和美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)的人工智能風(fēng)險(xiǎn)管理框架,突顯了它的重要性。

鑒于人工智能是一項(xiàng)新生的新興技術(shù),許多組織剛剛開(kāi)始開(kāi)發(fā)GenAI紅隊(duì)方法,這使得OWASP最近發(fā)布的《GenAI紅隊(duì)指南:評(píng)估人工智能漏洞的實(shí)用方法》成為一項(xiàng)剛需資源。

什么是GenAI紅隊(duì)?

GenAI紅隊(duì)包括模擬針對(duì)GenAI系統(tǒng)(如大型語(yǔ)言模型)的對(duì)抗性行為,以發(fā)現(xiàn)與安全性和信任相關(guān)的漏洞。通過(guò)像攻擊者一樣思考,以便在漏洞造成現(xiàn)實(shí)世界的傷害之前識(shí)別它們。

OWASP將具有GenAI背景的紅隊(duì)定義為“識(shí)別漏洞和緩解人工智能系統(tǒng)風(fēng)險(xiǎn)的結(jié)構(gòu)化方法”,它很好地結(jié)合了傳統(tǒng)的對(duì)抗性測(cè)試與人工智能特定的方法和風(fēng)險(xiǎn)。這包括GenAI系統(tǒng)的各個(gè)方面,如模型、部署管道,以及更廣泛的系統(tǒng)環(huán)境中的各種交互。

OWASP強(qiáng)調(diào)要有效地實(shí)施紅隊(duì)合作,需要采取下述一些關(guān)鍵步驟,例如:

  • 確定目標(biāo)和范圍:具有基于風(fēng)險(xiǎn)的優(yōu)先級(jí)的參與框架是第一步。但它是不斷發(fā)展的——對(duì)于初學(xué)者來(lái)說(shuō),需要確定哪些AI應(yīng)用程序/用例是最關(guān)鍵的業(yè)務(wù)模型,哪些是處理敏感數(shù)據(jù)的模型。?
  • 組建團(tuán)隊(duì):包括人工智能工程師、網(wǎng)絡(luò)安全專(zhuān)家,以及(如果可能的話)道德或合規(guī)專(zhuān)家。技能組合的多樣性確保了全面的評(píng)估。?
  • 威脅建模:考慮一下攻擊者如何利用步驟1中確定的應(yīng)用程序。最有可能的攻擊是什么,例如,提示注入,數(shù)據(jù)提?。繉⑦@些場(chǎng)景與組織的最高優(yōu)先級(jí)風(fēng)險(xiǎn)保持一致。?
  • 處理整個(gè)應(yīng)用程序堆棧:1)模型評(píng)估:測(cè)試模型的固有弱點(diǎn)(例如,毒性,偏差);2)實(shí)現(xiàn)檢查:評(píng)估部署堆棧中的護(hù)欄、提示和過(guò)濾器;3)系統(tǒng)測(cè)試:審查整個(gè)應(yīng)用程序環(huán)境,包括API、存儲(chǔ)和集成點(diǎn);4)運(yùn)行時(shí)/人機(jī)交互:評(píng)估用戶或外部代理在實(shí)時(shí)操作期間如何操作模型。?
  • 使用工具和框架:從用于提示測(cè)試、內(nèi)容過(guò)濾和對(duì)抗性查詢(xún)的基本工具入手。?
  • 文件調(diào)查結(jié)果及報(bào)告:記錄每個(gè)漏洞、利用場(chǎng)景和發(fā)現(xiàn)的弱點(diǎn)??偨Y(jié)這些不可操作的報(bào)告,并提供明確的補(bǔ)救步驟。?
  • 匯報(bào)/交互后分析持續(xù)改善:討論在參與過(guò)程中使用的戰(zhàn)術(shù)、技術(shù)和程序(TTPs),確定利用的漏洞,吸取的教訓(xùn),并建議可操作的改進(jìn)措施,以增強(qiáng)組織的安全態(tài)勢(shì)。?
  • 持續(xù)改進(jìn):紅隊(duì)不是一次性事件。在實(shí)現(xiàn)修復(fù)后重新測(cè)試,并將定期檢查集成到組織的AI生命周期中,以便隨著模型和環(huán)境的發(fā)展捕獲新的威脅。?

總而言之,GenAI紅隊(duì)是傳統(tǒng)紅隊(duì)的補(bǔ)充,它專(zhuān)注于AI驅(qū)動(dòng)系統(tǒng)的微妙和復(fù)雜方面,包括考慮新的測(cè)試維度,如AI特定的威脅建模、模型偵察、提示注入、護(hù)欄繞過(guò)等。

傳統(tǒng)紅隊(duì)和AI紅隊(duì)的主要區(qū)別

1.關(guān)注范圍

GenAI測(cè)試包含社會(huì)技術(shù)風(fēng)險(xiǎn),例如偏見(jiàn)或有害內(nèi)容,而傳統(tǒng)測(cè)試側(cè)重于技術(shù)弱點(diǎn)。

2.數(shù)據(jù)的復(fù)雜性

GenAI紅隊(duì)需要管理、生成和分析不同的大規(guī)模數(shù)據(jù)集,跨非確定性系統(tǒng)的多種模式,使用更先進(jìn)的數(shù)據(jù)管理方法。

3.隨機(jī)評(píng)估

與傳統(tǒng)系統(tǒng)不同,GenAI涉及概率輸出,這需要嚴(yán)格的統(tǒng)計(jì)測(cè)試方法來(lái)評(píng)估漏洞。

4.評(píng)估標(biāo)準(zhǔn)及門(mén)檻

GenAI系統(tǒng)的隨機(jī)特性意味著確定成功的攻擊與正常模型行為變化比傳統(tǒng)的紅隊(duì)更復(fù)雜。

傳統(tǒng)的紅隊(duì)關(guān)注定義良好的系統(tǒng)危害(例如,域管理憑證盜竊)。GenAI紅隊(duì)必須考慮概率,不斷發(fā)展的模型,其中的結(jié)果不是簡(jiǎn)單的是非題。

AI紅隊(duì)涵蓋范圍

GenAI紅隊(duì)建立在傳統(tǒng)紅隊(duì)的基礎(chǔ)上,并涵蓋了GenAI的獨(dú)特方面,如模型本身、模型產(chǎn)生的輸出以及跨模型間的輸出和響應(yīng)。模型的評(píng)估包括對(duì)不安全元素的測(cè)試、響應(yīng)中的偏差和不準(zhǔn)確性、超出范圍的響應(yīng)以及與被測(cè)試系統(tǒng)的安全性和一致性相關(guān)的任何其他問(wèn)題。測(cè)試評(píng)估系統(tǒng)及其所有組件是很重要的。

GenAI紅隊(duì)的部分范圍與錯(cuò)誤信息的關(guān)鍵挑戰(zhàn)密切相關(guān)。鑒于GenAI系統(tǒng)可能產(chǎn)生有害或誤導(dǎo)性的內(nèi)容,紅隊(duì)必須進(jìn)行嚴(yán)格的測(cè)試,以識(shí)別和減輕這些風(fēng)險(xiǎn)。這包括評(píng)估該模型是否容易被操縱以產(chǎn)生虛假或欺騙性信息,是否無(wú)意中暴露了敏感或機(jī)密數(shù)據(jù),以及其輸出是否反映了偏見(jiàn)或違反道德標(biāo)準(zhǔn)。測(cè)試必須是徹底和主動(dòng)的,以確保在系統(tǒng)被利用或造成實(shí)際危害之前,識(shí)別和解決任何錯(cuò)誤信息、不道德內(nèi)容或數(shù)據(jù)泄漏的實(shí)例。

GenAI紅隊(duì)還應(yīng)包括對(duì)旨在阻礙或防止攻擊的已部署安全措施的測(cè)試,以及對(duì)安全事件檢測(cè)和響應(yīng)能力的測(cè)試。此外,OWASP建議測(cè)試既要考慮對(duì)抗的角度,也要考慮受影響用戶的角度。

參考NIST的AI RMF GenAI Profile草案, OWASP還敦促AI紅隊(duì)要考慮生命周期階段(例如,設(shè)計(jì)、開(kāi)發(fā)等)、風(fēng)險(xiǎn)范圍(例如模型、基礎(chǔ)設(shè)施和生態(tài)系統(tǒng))以及風(fēng)險(xiǎn)的來(lái)源。最后,范圍界定方法應(yīng)該遵循關(guān)于測(cè)試授權(quán)、數(shù)據(jù)記錄、報(bào)告、消除沖突、通信/Opsec和數(shù)據(jù)處理的標(biāo)準(zhǔn)。

GenAI紅隊(duì)?wèi)?yīng)對(duì)的風(fēng)險(xiǎn)

正如我們所討論的,GenAI呈現(xiàn)出一些獨(dú)特的風(fēng)險(xiǎn),包括模型操縱、中毒、偏見(jiàn)和幻覺(jué)等??紤]到這些因素,OWASP推薦了一個(gè)綜合的方法,它包含下述四個(gè)關(guān)鍵方面:

  • 模型評(píng)估——探測(cè)固有的弱點(diǎn),如偏差或穩(wěn)健性問(wèn)題。?
  • 實(shí)施測(cè)試——評(píng)估護(hù)欄和提示在生產(chǎn)中的有效性。?
  • 系統(tǒng)評(píng)估——檢查系統(tǒng)范圍內(nèi)的漏洞、供應(yīng)鏈漏洞、部署管道和數(shù)據(jù)安全。?
  • 運(yùn)行時(shí)分析——關(guān)注人工智能輸出、人類(lèi)用戶和互聯(lián)系統(tǒng)之間的交互,并識(shí)別過(guò)度依賴(lài)或社會(huì)工程向量等風(fēng)險(xiǎn)。?

從風(fēng)險(xiǎn)的角度來(lái)看,GenAI紅隊(duì)解決了安全(運(yùn)營(yíng)商)、安防(用戶)和信任(用戶)的三重問(wèn)題。這些目標(biāo)直接映射到LLM的“3H”(harmlessness、helpfulness、honesty)準(zhǔn)則。OWASP將這些風(fēng)險(xiǎn)分為以下幾類(lèi):

  • 安全性、隱私性和穩(wěn)健性風(fēng)險(xiǎn)——傳統(tǒng)的對(duì)抗性威脅,加上一些新興的GenAI威脅(如提示注入、數(shù)據(jù)泄漏、侵犯隱私和數(shù)據(jù)中毒)構(gòu)成了重大挑戰(zhàn)。這些風(fēng)險(xiǎn)通常來(lái)自惡意輸入和受損的訓(xùn)練數(shù)據(jù)。?
  • 毒化、有害情境和相互作用風(fēng)險(xiǎn)——GenAI所特有的互動(dòng)風(fēng)險(xiǎn)包括有害的輸出,如仇恨、辱罵、褻瀆(HAP)、惡劣的對(duì)話和有偏見(jiàn)的回應(yīng)。這些問(wèn)題破壞了用戶的安全,降低了對(duì)系統(tǒng)的信任。?
  • 偏見(jiàn)、內(nèi)容完整性和錯(cuò)誤信息風(fēng)險(xiǎn)——對(duì)于GenAI來(lái)說(shuō),知識(shí)風(fēng)險(xiǎn)主要集中在事實(shí)性、相關(guān)性和基礎(chǔ)性,以及幻覺(jué)/虛構(gòu)(不正確的事實(shí)陳述)和突發(fā)行為等現(xiàn)象上。雖然幻覺(jué)在某些情況下可能是有害的,但在其他情況下可能是有益的。平衡這些細(xì)微差別對(duì)于維持信任和傳遞價(jià)值至關(guān)重要。?

最后,考慮到人工智能代理(AI Agent)受到了業(yè)界的極大關(guān)注,OWASP還特別指出了多代理(multi-agent)風(fēng)險(xiǎn),例如跨代理的多步驟攻擊鏈、利用工具集成以及通過(guò)代理交互繞過(guò)權(quán)限。

GenAI/LLM系統(tǒng)的威脅建模

OWASP建議將威脅建模作為GenAI紅隊(duì)的關(guān)鍵活動(dòng),并引用MITRE ATLAS作為一個(gè)很好的參考資源。威脅建模是為了系統(tǒng)地分析系統(tǒng)的攻擊面,識(shí)別潛在的風(fēng)險(xiǎn)和攻擊向量。人工智能系統(tǒng)的威脅建模還包括理解技術(shù)攻擊表面之外的社會(huì)文化、監(jiān)管和道德背景。這包括識(shí)別攻擊者如何操縱模型輸入、毒害訓(xùn)練數(shù)據(jù)或利用偏見(jiàn)。

威脅建模的關(guān)鍵考慮因素包括模型的體系結(jié)構(gòu)、數(shù)據(jù)流,以及系統(tǒng)如何與更廣泛的環(huán)境、外部系統(tǒng)、數(shù)據(jù)和社會(huì)技術(shù)方面(如用戶和行為)進(jìn)行交互。通過(guò)構(gòu)建一個(gè)全面的威脅模型,團(tuán)隊(duì)可以?xún)?yōu)先考慮緩解工作——無(wú)論是過(guò)濾有害內(nèi)容、加強(qiáng)數(shù)據(jù)驗(yàn)證,還是保護(hù)模型部署管道。

根據(jù)威脅建模宣言,這個(gè)過(guò)程將能回答下述四個(gè)問(wèn)題:

  • 我們?cè)谧鍪裁??(為系統(tǒng)架構(gòu)建模)
  • 哪里會(huì)出錯(cuò)呢?(識(shí)別/列舉威脅)
  • 我們?cè)撛趺崔k呢?(確定緩解策略)
  • 我們做得夠好嗎?(驗(yàn)證和迭代)

然而,OWASP指出,人工智能和機(jī)器學(xué)習(xí)模型與傳統(tǒng)的軟件系統(tǒng)有很大的不同。AI模型行為通常是不可預(yù)測(cè)的,特別是在邊緣情況下或在對(duì)抗性攻擊下。隨著LLM等模型的擴(kuò)大,它們將能產(chǎn)生高影響力的風(fēng)險(xiǎn),從虛構(gòu)(自信地制造捏造或虛假信息)到產(chǎn)生有害或冒犯性的內(nèi)容。評(píng)估模型本身及其整個(gè)供應(yīng)鏈和依賴(lài)關(guān)系至關(guān)重要。

GenAI紅隊(duì)策略

GenAI紅隊(duì)通過(guò)模擬真實(shí)世界的威脅來(lái)評(píng)估防御能力。在GenAI安全的背景下,紅隊(duì)涉及系統(tǒng)地測(cè)試系統(tǒng)對(duì)抗?jié)撛诘臄硨?duì)行為。這是通過(guò)模擬特定的戰(zhàn)術(shù)、技術(shù)和程序(TTPs)來(lái)實(shí)現(xiàn)的,惡意行為者可能會(huì)使用這些戰(zhàn)術(shù)、技術(shù)和程序來(lái)利用人工智能系統(tǒng)。

每個(gè)組織的GenAI紅隊(duì)?wèi)?zhàn)略可能看起來(lái)不同。OWASP解釋稱(chēng),具體戰(zhàn)略必須與組織的目標(biāo)保持一致,這可能包括獨(dú)特的方面,如負(fù)責(zé)任的人工智能目標(biāo)和技術(shù)考慮。

GenAI紅隊(duì):將LLM置于網(wǎng)絡(luò)安全測(cè)試中的技巧和技術(shù)-AI.x社區(qū)

GenAI紅隊(duì)策略,圖源OWASP

GenAI紅隊(duì)策略應(yīng)考慮上圖所示的各個(gè)方面,包括基于風(fēng)險(xiǎn)的范圍界定、跨職能團(tuán)隊(duì)的參與、量身定制的評(píng)估方法、設(shè)定明確的目標(biāo)、威脅建模與漏洞評(píng)估、模型偵察和應(yīng)用分解、攻擊建模與攻擊路徑利用以及生成信息豐富且可操作的報(bào)告。

GenAI紅隊(duì)藍(lán)圖

一旦戰(zhàn)略到位,組織就可以創(chuàng)建一個(gè)藍(lán)圖來(lái)運(yùn)行GenAI紅隊(duì)。這個(gè)藍(lán)圖提供了一個(gè)結(jié)構(gòu)化的方法和練習(xí)的具體步驟、技術(shù)和目標(biāo)。

OWASP建議分階段評(píng)估生成式AI系統(tǒng),包括模型、實(shí)現(xiàn)、系統(tǒng)和運(yùn)行時(shí),如下所示:

GenAI紅隊(duì):將LLM置于網(wǎng)絡(luò)安全測(cè)試中的技巧和技術(shù)-AI.x社區(qū)

GenAI紅隊(duì)藍(lán)圖的不同階段,圖源OWASP

這些階段中的每個(gè)階段都有關(guān)鍵的考慮因素,例如模型的來(lái)源和數(shù)據(jù)管道,測(cè)試用于實(shí)現(xiàn)的護(hù)欄,檢查已部署的系統(tǒng)以尋找可利用的組件,以及針對(duì)運(yùn)行時(shí)業(yè)務(wù)流程,以查找多個(gè)AI組件在生產(chǎn)中的運(yùn)行時(shí)交互方式中的潛在故障或漏洞。

這種分階段的方法允許有效的風(fēng)險(xiǎn)識(shí)別,實(shí)現(xiàn)多層防御,優(yōu)化資源,并追求持續(xù)改進(jìn)。還應(yīng)該使用工具進(jìn)行模型評(píng)估,以支持評(píng)估的速度、有效的風(fēng)險(xiǎn)檢測(cè)、一致性和全面分析。

必要的技術(shù)

雖然GenAI紅隊(duì)有許多可能的技術(shù),但決定包括什么或從哪里開(kāi)始可能會(huì)讓人感到不知所措。然而,OWASP提供了他們認(rèn)為是“必要的”技術(shù)。

這些技術(shù)主要包括:

  • 對(duì)抗提示工程?
  • 數(shù)據(jù)集生成操作?
  • 跟蹤多回合攻擊?
  • 安全邊界測(cè)試?
  • 代理工具/插件分析?
  • 組織檢測(cè)和響應(yīng)能力?

這只是基本技術(shù)的一個(gè)子集,它們提供的列表代表了技術(shù)考慮和操作組織活動(dòng)的組合。

最佳實(shí)踐

OWASP GenAI紅隊(duì)指南最后列出了一些組織應(yīng)該更廣泛地考慮的關(guān)鍵最佳實(shí)踐。這些例子包括建立生成式人工智能政策、標(biāo)準(zhǔn)和程序,以及為每次紅隊(duì)會(huì)議建立明確的目標(biāo)。

組織還必須有明確定義和有意義的成功標(biāo)準(zhǔn),以維護(hù)測(cè)試過(guò)程、發(fā)現(xiàn)和緩解的詳細(xì)文檔,并為未來(lái)的GenAI紅隊(duì)活動(dòng)策劃知識(shí)庫(kù)。

原文標(biāo)題:??Generative AI red teaming: Tips and techniques for putting LLMs to the test??,作者:Chris Hughes

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-7 08:38:00修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦