搶占標(biāo)準(zhǔn)制高點(diǎn),NIST發(fā)布AI模型風(fēng)險(xiǎn)測(cè)試工具
近日,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)重新發(fā)布了名為Dioptra的AI模型風(fēng)險(xiǎn)測(cè)試平臺(tái),用于評(píng)估AI風(fēng)險(xiǎn)和惡意攻擊,尤其是針對(duì)AI模型訓(xùn)練數(shù)據(jù)的“投毒攻擊”。該工具專注于對(duì)抗性攻擊的測(cè)試,提供基準(zhǔn)測(cè)試和紅隊(duì)測(cè)試環(huán)境。其特點(diǎn)是模塊化、開源,適用于政府機(jī)構(gòu)和中小企業(yè)。
美國(guó)主導(dǎo)的AI安全標(biāo)準(zhǔn)
Dioptra以古希臘天文測(cè)量和土地測(cè)量工具命名,是一個(gè)模塊化、開源的基于Web的工具。該工具最初于2022年發(fā)布,旨在幫助訓(xùn)練和使用AI模型的公司和個(gè)人評(píng)估、分析和跟蹤AI風(fēng)險(xiǎn)。NIST表示,Dioptra可用于AI模型基準(zhǔn)測(cè)試和研究,同時(shí)提供一個(gè)共同平臺(tái),在“紅隊(duì)”環(huán)境中模擬威脅暴露模型。
NIST在新聞發(fā)布會(huì)上寫道:“測(cè)試對(duì)抗性攻擊對(duì)機(jī)器學(xué)習(xí)模型的影響是Dioptra的目標(biāo)之一?!薄斑@款開源軟件提供免費(fèi)提供下載,可以幫助社區(qū)(包括政府機(jī)構(gòu)和中小型企業(yè))進(jìn)行評(píng)估,以驗(yàn)證AI開發(fā)者關(guān)于其系統(tǒng)(安全)性能的聲明?!?/p>
近年來,面對(duì)以AI為代表的新技術(shù)革命,美國(guó)希望牢牢鞏固其“智慧密集產(chǎn)業(yè)”的霸主地位,控制AI技術(shù)標(biāo)準(zhǔn)是其重點(diǎn)戰(zhàn)略。
事實(shí)上,Dioptra是拜登政府頒布的的AI總統(tǒng)行政命令的直接產(chǎn)物,該命令要求NIST協(xié)助開展AI系統(tǒng)測(cè)試。該行政命令還包括建立AI安全標(biāo)準(zhǔn),包括要求開發(fā)模型的公司(例如谷歌、蘋果公司)在公開部署AI模型前通知聯(lián)邦政府并分享所有安全測(cè)試結(jié)果。
Dioptra也是NIST最近成立的AI安全研究院的首個(gè)重大項(xiàng)目,提出了減輕AI風(fēng)險(xiǎn)的方法,例如防止AI被濫用生成非自愿色情內(nèi)容。此前,英國(guó)AI安全研究院推出了Inspect工具集,同樣旨在評(píng)估模型能力和整體模型安全。去年11月在英國(guó)布萊切利公園舉行的英國(guó)AI安全峰會(huì)上,美國(guó)和英國(guó)宣布了共同開發(fā)先進(jìn)AI模型測(cè)試的持續(xù)合作伙伴關(guān)系。
AI模型風(fēng)險(xiǎn)測(cè)試市場(chǎng)競(jìng)爭(zhēng)激烈
隨著AI技術(shù)的廣泛應(yīng)用,各行業(yè)對(duì)AI模型安全性的需求不斷增加。金融、醫(yī)療、通信等領(lǐng)域尤其重視AI系統(tǒng)的可靠性和安全性。因此,這些領(lǐng)域的企業(yè)和機(jī)構(gòu)積極采用AI模型風(fēng)險(xiǎn)測(cè)試工具,以確保其系統(tǒng)能夠抵御各種潛在的攻擊和風(fēng)險(xiǎn)。
盡管市場(chǎng)上有多種工具可供選擇,但每種工具都有其局限性。許多開源工具,如Dioptra和CleverHans,雖然功能強(qiáng)大,但對(duì)初學(xué)者不夠友好,使用門檻較高。而一些定制化程度高的工具,如ZTE的SecML,市場(chǎng)認(rèn)知度較低,社區(qū)支持相對(duì)薄弱。此外,AI基準(zhǔn)測(cè)試的復(fù)雜性和“黑箱”模型的不可解釋性,增加了風(fēng)險(xiǎn)評(píng)估的難度。
以下是全球市場(chǎng)主要AI模型測(cè)試工具的對(duì)比分析:
國(guó)內(nèi)的代表性AI模型風(fēng)險(xiǎn)評(píng)估工具和方案來自網(wǎng)絡(luò)安全廠商綠盟科技和奇安信:
- 綠盟AI大模型風(fēng)險(xiǎn)評(píng)估工具:旨在幫助企業(yè)全面評(píng)估AI大模型的安全風(fēng)險(xiǎn)。該工具涵蓋了多種商業(yè)和開源大模型,并具備迅速適配新興大模型的能力。它基于專家團(tuán)隊(duì)篩選的測(cè)試用例庫(kù),能夠識(shí)別內(nèi)容安全和對(duì)抗安全的潛在威脅,并提供風(fēng)險(xiǎn)處理建議。
- 奇安信AI安全整體應(yīng)對(duì)方案:奇安信發(fā)布的國(guó)內(nèi)首個(gè)AI安全整體應(yīng)對(duì)方案,雖然不是單一的測(cè)試工具,但它提供了包括AI安全框架、解決方案、評(píng)估服務(wù)和測(cè)試工具在內(nèi)的全面服務(wù),以確保監(jiān)管與治理及時(shí)跟進(jìn),筑牢AI安全基石。
AI安全基準(zhǔn)測(cè)試面臨的挑戰(zhàn)
目前,對(duì)主流AI模型進(jìn)行安全基準(zhǔn)測(cè)試仍是極為困難的任務(wù),部分是因?yàn)楫?dāng)今最先進(jìn)的AI模型都是黑盒技術(shù),其基礎(chǔ)設(shè)施、訓(xùn)練數(shù)據(jù)和其他關(guān)鍵技術(shù)(參數(shù))細(xì)節(jié)由開發(fā)它們的公司保密。
此外,總部位于英國(guó)的非營(yíng)利性AI研究機(jī)構(gòu)Ada Lovelace Institute本月發(fā)布的一份報(bào)告發(fā)現(xiàn),僅靠評(píng)估并不足以確定AI模型在現(xiàn)實(shí)世界中的安全性,部分原因是現(xiàn)行政策允許AI供應(yīng)商自行選擇要進(jìn)行的評(píng)估內(nèi)容。
最后,AI安全測(cè)試工具本身也大多存在局限性,例如NIST并不認(rèn)為Dioptra可以完全消除AI模型的風(fēng)險(xiǎn)。但該機(jī)構(gòu)指出,Dioptra至少可以揭示哪些類型的攻擊可能會(huì)降低AI系統(tǒng)的性能,并量化這種對(duì)性能的影響,從而加強(qiáng)AI系統(tǒng)的安全性和可靠性,為AI技術(shù)的安全部署提供強(qiáng)有力的支持,并推動(dòng)整個(gè)行業(yè)對(duì)AI風(fēng)險(xiǎn)管理和安全防護(hù)的重視和發(fā)展。
Dioptra在技術(shù)上的一個(gè)主要限制是,它只適用于可下載到本地運(yùn)行的AI模型,例如Meta的Llama系列,目前還無法測(cè)試API背后的模型(如 OpenAI的GPT-4o)。