四大攻擊類型并存,NIST 警告人工智能系統(tǒng)帶來的安全和隱私風(fēng)險
美國國家標(biāo)準(zhǔn)與技術(shù)研究院 (NIST) 近日發(fā)布了有關(guān)對抗性機(jī)器學(xué)習(xí) (AML) 攻擊和緩解措施指南, 呼吁人們再度關(guān)注近年來人工智能 (AI) 系統(tǒng)部署增加所帶來的隱私和安全挑戰(zhàn),并表示這類系統(tǒng)目前沒有萬無一失的方法進(jìn)行保護(hù)。
NIST指出,這些安全和隱私挑戰(zhàn)包括惡意操縱訓(xùn)練數(shù)據(jù)、惡意利用模型漏洞對人工智能系統(tǒng)的性能造成不利影響,甚至是惡意操縱、修改或僅僅是與模型交互,就可以外泄關(guān)乎個人、企業(yè)甚至是模型本身專有的敏感數(shù)據(jù)。
伴隨著OpenAI ChatGPT 和 Google Bard 等生成式人工智能系統(tǒng)的出現(xiàn),人工智能系統(tǒng)正快速融入在線服務(wù),但支持這些技術(shù)的模型在機(jī)器學(xué)習(xí)操作的各個階段都面臨著許多威脅。NIST ,重點關(guān)注了四種主要類型的攻擊:逃避、中毒、隱私和濫用。
- 規(guī)避攻擊:目的是在模型部署后產(chǎn)生對抗性輸出
- 中毒攻擊:通過引入損壞的數(shù)據(jù),針對算法的訓(xùn)練階段進(jìn)行攻擊
- 隱私攻擊:目的是通過提出規(guī)避現(xiàn)有防護(hù)措施的問題,收集有關(guān)系統(tǒng)或其訓(xùn)練數(shù)據(jù)的敏感信息
- 濫用攻擊:目的是破壞合法的信息來源,如包含錯誤信息的網(wǎng)頁,以重新利用系統(tǒng)的預(yù)期用途
在規(guī)避攻擊中,NIST 以對自動駕駛車輛的攻擊作為示例,例如創(chuàng)建令人困惑的車道標(biāo)記導(dǎo)致汽車偏離道路。
針對自動駕駛車輛的規(guī)避攻擊
在中毒攻擊中,攻擊者試圖在人工智能訓(xùn)練期間引入損壞的數(shù)據(jù)。例如,通過將大量此類語言實例植入對話記錄中,讓聊天機(jī)器人使用不恰當(dāng)?shù)恼Z言,以使人工智能相信這是常見的用語。
在隱私攻擊中,攻擊者試圖通過詢問聊天機(jī)器人大量問題,并使用給出的答案對模型進(jìn)行逆向工程,進(jìn)而發(fā)現(xiàn)弱點來獲取有關(guān)人工智能或其訓(xùn)練數(shù)據(jù)中存在的敏感數(shù)據(jù)。
濫用攻擊涉及將不正確的信息插入到源中,例如網(wǎng)頁或在線文檔,然后人工智能吸收這些信息。與前面提到的中毒攻擊不同,濫用攻擊試圖從合法但受損的來源向人工智能提供不正確的信息,以重新調(diào)整人工智能系統(tǒng)的預(yù)期用途。
NIST表示,上述攻擊并不需要完全掌握人工智能系統(tǒng)某些方面就可以輕松實施,希望科技界能拿出更好的防御措施來應(yīng)對這些風(fēng)險。