微軟推出用于發(fā)現(xiàn)AI模型風(fēng)險的工具PyRIT
微軟公司一個負責(zé)利用黑客手段發(fā)現(xiàn)網(wǎng)絡(luò)安全問題的團隊開源了一個內(nèi)部工具PyRIT,該工具可以幫助開發(fā)人員發(fā)現(xiàn)人工智能模型中的風(fēng)險。
研究人員于本周四發(fā)布了該框架的代碼。微軟表示,PyRIT可以自動生成數(shù)以千計的對抗性人工智能提示,來測試神經(jīng)網(wǎng)絡(luò)能否有效抵御黑客的攻擊。該工具主要用于處理文本,但其構(gòu)建的方式也允許開發(fā)人員添加圖像等人工智能支持的輸入類型。
PyRIT最初是微軟人工智能紅隊測試團隊內(nèi)部使用的腳本集。該團隊負責(zé)模擬針對新人工智能模型的網(wǎng)絡(luò)攻擊,以便能夠搶在黑客之前找到弱點。研究人員們不斷擴展腳本的附加功能,直到代碼庫發(fā)展成了本周發(fā)布的PyRIT框架。
在將新創(chuàng)建的人工智能模型部署到生產(chǎn)中之前,開發(fā)人員必須對其進行幾類風(fēng)險測試。他們必須查找網(wǎng)絡(luò)安全風(fēng)險,例如可能導(dǎo)致模型編寫惡意軟件的提示。軟件團隊還需要查找人工智能可能產(chǎn)生幻覺的情況,并確定其是否會被誘騙泄露訓(xùn)練數(shù)據(jù)集中的敏感信息。
有些模型不僅會生成文本,還會生成圖像等其他類型的輸出,這讓這個任務(wù)變得更加復(fù)雜。必須對每一種輸出的類型以及用戶與人工智能交互的每一個軟件界面分別重復(fù)進行脆弱性測試。這就意味著要想徹底測試神經(jīng)網(wǎng)絡(luò)需要開發(fā)人員制作數(shù)千個對抗性提示,這通常是不切實際的。
微軟創(chuàng)建PyRIT就是為了消除這一限制。該公司表示,這個框架允許開發(fā)人員指定某種類型的對抗性人工智能輸入,并自動生成數(shù)千個符合標準的提示。這些提示可被用于測試以網(wǎng)絡(luò)服務(wù)形式實現(xiàn)的人工智能,以及通過應(yīng)用編程接口提供的模型。
微軟的研究人員在一篇詳細介紹該框架的博文中強調(diào):“PyRIT并不能取代生成式人工智能系統(tǒng)的人工紅隊?!薄跋喾矗鰪娏巳斯ぶ悄芗t隊成員現(xiàn)有的領(lǐng)域?qū)I(yè)知識,并為他們自動完成繁瑣的任務(wù)?!?/p>
PyRIT不僅能生成對抗性提示,還能評估目標模型的響應(yīng)情況。據(jù)微軟稱,內(nèi)置的評分引擎會自動判斷開發(fā)人員正在測試的P馱諳煊μ崾臼筆欠窕岵瀉κ涑?。软件团队可以选择又i攵韻嗤撾窆菇ǖ耐獠可窬縑婊荒掀婪忠妗?
由于能夠分析人工智能的響應(yīng),因此PyRIT適合執(zhí)行所謂的多輪風(fēng)險評估。該框架可以向人工智能輸入對抗性提示,分析其反應(yīng),并相應(yīng)地調(diào)整下一個提示,使其更加有效。微軟的研究人員解釋說:“雖然單輪攻擊策略的計算時間更快,但多輪紅隊測試可以實現(xiàn)更逼真的對抗行為和更先進的攻擊策略。”