迄今最詳細(xì)的人工智能網(wǎng)絡(luò)攻擊分類指南
近日,NIST發(fā)布了可能是迄今最詳細(xì)的針對(duì)人工智能系統(tǒng)的網(wǎng)絡(luò)攻擊分類指南——對(duì)抗性機(jī)器學(xué)習(xí):攻擊和緩解的分類和術(shù)語(yǔ)”(NIST.AI.100-2)),并指出:
- 當(dāng)人工智能系統(tǒng)接觸到不可信的數(shù)據(jù)時(shí),可能會(huì)出現(xiàn)故障,而攻擊者正在利用這個(gè)問(wèn)題。
- 新指南記錄了這些攻擊的類型以及緩解方法。
- 目前尚不存在萬(wàn)無(wú)一失的方法來(lái)保護(hù)人工智能免受誤導(dǎo),人工智能開發(fā)人員和用戶應(yīng)該警惕任何提出其他說(shuō)法的人
人工智能網(wǎng)絡(luò)攻擊分為四大類
NIST的指南將人工智能網(wǎng)絡(luò)攻擊分為四大類型:逃避、投毒、隱私和濫用攻擊。指南還根據(jù)攻擊者的目標(biāo)、能力和知識(shí)等多種標(biāo)準(zhǔn)將每一類攻擊類型細(xì)分為多個(gè)自類別:
- 逃避攻擊。發(fā)生在人工智能系統(tǒng)部署后,通過(guò)對(duì)抗性輸入改變系統(tǒng)的響應(yīng)方式。例如,在停車標(biāo)志上添加標(biāo)記,使自動(dòng)駕駛車輛將其誤解為限速標(biāo)志,或者創(chuàng)建令人困惑的車道標(biāo)記,使車輛偏離道路發(fā)生車禍(編者:有些非人為或非故意的視覺(jué)信息也可能產(chǎn)生類似的效果)。
- 中毒攻擊。在訓(xùn)練階段引入損壞的數(shù)據(jù)。一個(gè)例子是將大量不恰當(dāng)語(yǔ)言的實(shí)例放入對(duì)話記錄中,誤導(dǎo)聊天機(jī)器人以為是常用語(yǔ)并在用戶交互中使用。
- 隱私攻擊。隱私攻擊發(fā)生在部署期間,通過(guò)提出繞過(guò)現(xiàn)有護(hù)欄的問(wèn)題來(lái)收集有關(guān)系統(tǒng)或其訓(xùn)練數(shù)據(jù)的敏感信息。對(duì)手可以向聊天機(jī)器人提出許多貌似合理的問(wèn)題,然后使用答案對(duì)模型進(jìn)行逆向工程,以找到其弱點(diǎn),或猜測(cè)其來(lái)源。在這些在線資源中添加不需要的示例可能會(huì)使人工智能行為不當(dāng),并且在事后讓人工智能忘記“有毒”示例可能很困難。
- 濫用攻擊。將不正確的信息插入到源中,例如網(wǎng)頁(yè)或在線文檔,然后讓人工智能吸收這些信息。與前面提到的中毒攻擊不同,濫用攻擊通過(guò)篡改或污染合法來(lái)源向人工智能提供不正確的信息,以重新調(diào)整人工智能系統(tǒng)的預(yù)期用途。
東北大學(xué)教授、合著者阿麗娜·奧普雷亞(Alina Oprea)表示:“大多數(shù)此類攻擊都相當(dāng)容易發(fā)起,并且不需要對(duì)人工智能系統(tǒng)有太多了解,所需的對(duì)抗能力也不高。例如,可以通過(guò)控制幾十個(gè)訓(xùn)練樣本來(lái)發(fā)起投毒攻擊,而這些樣本只占整個(gè)訓(xùn)練集的很小一部分?!?/p>