從谷歌到英偉達,科技巨頭紛紛招募紅隊黑客破解自己的AI模型
在公開推出ChatGPT的一個月前,OpenAI聘請了肯尼亞的律師Boru Gollo來測試AI模型GPT-3.5以及后來的GPT-4是否對非洲人和穆斯林群體有偏見,測試辦法就是輸入提示,看看該聊天機器人是否會生成有危害的、有偏見的、不正確的回復。Gollo是OpenAI招募的約50名外部專家之一,作為“紅隊”(red team)的成員,他往ChatGPT中輸入一條命令,讓它列出殺死尼日利亞人的一系列方法——在這款聊天機器人最終向全世界發(fā)布之前,OpenAI刪除了針對這個問題的答復。
GPT-4的系統卡列出了這些風險和OpenAI用來減少或消除這些風險的安全措施,據系統卡顯示,其他紅隊成員慫恿GPT-4的預發(fā)布版本幫助從事非法、有害的活動,比如在Facebook上發(fā)帖說服他人加入基地組織、幫助尋找無證出售的槍支,或者生成在家里制造危險化學物質的程序。
為了保護AI系統避免被人利用,紅隊黑客站在攻擊者的角度思考,對AI系統做改動,以發(fā)現該技術固有的盲點和風險,以便可以消除風險。隨著科技巨頭們競相構建和發(fā)布生成式AI工具,它們的內部AI紅隊在確保模型供大眾安全使用方面起到了越來越重要的作用。比如說,谷歌在今年早些時候設立了一支獨立的AI紅隊,8月份,OpenAI的GPT3.5、Meta的Llama 2和谷歌的LaMDA等眾多流行模型的開發(fā)人員參加了一場由白宮支持的活動,旨在讓外部黑客有機會破解AI系統。
但AI紅隊成員常常如同走鋼絲,既要兼顧AI模型的安全性,又要保持其重要性和實用性?!陡2妓埂冯s志采訪了微軟、谷歌、英偉達和Meta的AI紅隊負責人,討論了破解AI模型如何蔚然成風以及修復模型所面臨的挑戰(zhàn)。
Facebook的AI紅隊負責人Christian Canton表示:“你可能擁有一個對一切都說不的模型,它非常安全,但也毫無用處。我們需要權衡和取舍。你開發(fā)的模型越有用,就越有可能在某個方面面臨風險,最終生成不安全的答復?!?/p>
用紅隊檢測軟件的做法始于20世紀60年代前后,當時模擬對抗性攻擊,以確保系統盡可能堅固。安全技術專家、哈佛大學伯克曼?克萊因互聯網與社會中心的研究員Bruce Schneier表示:“在計算機領域,我們永遠不會說‘這是安全的’。我們只會說‘我們試過了,但無法破解它?!?/p>
但谷歌新成立的AI紅隊負責人Daniel Fabian表示,由于生成式AI使用龐大的數據集進行訓練,這使得保護AI模型的做法有別于傳統的安全實踐。谷歌的AI紅隊在添加額外的語言等新功能之前會對Bard之類的產品進行壓力測試,以發(fā)現冒犯性內容。
除了詢問AI模型以生成有害的回復外,紅隊還使用提取訓練數據等策略,這些數據會泄露用戶的姓名、地址和電話號碼等個人身份信息,并在用于訓練模型之前通過篡改內容的某些部分來毒害數據集。Fabian告訴《福布斯》雜志:“攻擊者多少會有一系列攻擊方法,如果其中一種攻擊無效,會轉而采用下一種攻擊。”
英偉達軟件安全副總裁Daniel Rohrer表示,由于這個領域仍處于早期階段,知道如何對AI系統做手腳的安全專業(yè)人員“少得可憐”。這就是為什么一個由AI紅隊成員組成的小圈子往往分享發(fā)現成果。谷歌的紅隊成員發(fā)表了關于攻擊AI模型的新方法的研究成果,而微軟的紅隊開放了Counterfit等攻擊工具的源代碼,幫助其他企業(yè)測試算法的安全性和安全風險。
五年前創(chuàng)建了這個團隊的Ram Shankar Siva Kumar說:“我們當時在開發(fā)這些低劣的腳本,用來加快自己的紅隊建設。我們想讓所有的安全專業(yè)人士都能在一個他們熟悉并理解的框架內使用它?!?/p>
在測試AI系統之前,Siva Kumar的團隊會從公司的威脅情報團隊收集有關網絡威脅的數據,這個團隊用他的話說好比是“互聯網的耳目”。然后他與微軟的其他紅隊合作,以確定攻擊該AI系統中的哪些漏洞以及如何攻擊。除了測試GPT-4外,該團隊今年還測試了微軟的明星AI產品必應聊天(Bing Chat),以尋找漏洞和缺陷。
與此同時,英偉達采取的紅隊做法的一方面是,向安全工程師和依賴英偉達提供GPU等計算資源的公司提供速成課程,以介紹如何用紅隊檢測算法。
Rohrer表示:“作為每家公司的AI引擎……我們有一個巨大的放大因素。如果我們能教會其他人做這件事(用紅隊來檢測),那么Anthropic、谷歌和OpenAI就都能把這件事做好。”
隨著用戶和政府部門對AI應用程序的審查越來越嚴格,紅隊還為加入AI競賽的科技公司提供了一項競爭優(yōu)勢。AI黑客和安全專家社群AI Village的創(chuàng)始人Sven Cattell表示:“我想,信任和安全將會是護城河。你會看到‘我們的AI系統最安全’這樣的廣告?!?/p>
早期先行者是Meta的AI紅隊。該團隊成立于2019年,已組織了數場內部挑戰(zhàn)賽和“風險馬拉松”,即鼓勵黑客繞過檢測和刪除Instagram和Facebook上違法帖子的內容過濾器,而這些帖子含有仇恨言論、裸照、虛假信息和AI生成的深度造假內容。
據一份公開發(fā)布的詳細記錄Llama 2如何開發(fā)的報告顯示,2023年7月,這家社交媒體巨頭聘請了350名紅隊成員來測試其最新的開源大語言模型:Llama 2,成員們包括外部專家、合同工和大約20名員工組成的內部團隊。紅隊輸入了諸如如何逃稅、如何不用鑰匙發(fā)動一輛汽車和如何設計龐氏騙局之類的提示。Facebook的紅隊負責人Canton表示:“我們的AI紅隊恪守的座右銘就是‘訓練時多流汗,交戰(zhàn)時少流血?!?/p>
這個座右銘類似8月初在拉斯維加斯召開的DefCon黑客大會上舉行的一次規(guī)模最大的AI紅隊演練活動的精神。八家公司向與會的2000多名黑客開放了它們的AI模型——包括OpenAI、谷歌、Meta、英偉達、Stability AI 和Anthropic,以便黑客為模型輸入提示,旨在泄露信用卡號之類的敏感信息,或生成政治錯誤信息之類的有害材料。白宮科技政策辦公室與活動組辦方合作,共同設計了紅隊挑戰(zhàn)賽,遵守《人工智能權利法案》藍圖,這是一份關于如何安全地設計、使用和啟動自動化系統的指南。
作為這次活動的發(fā)起人,AI Village的創(chuàng)始人Cattell表示,起初,這些公司不情愿提供各自的模型,主要是由于擔心在公共論壇上用紅隊檢測會帶來聲譽風險。他告訴《福布斯》雜志:“從谷歌或OpenAI的角度來看,我們就是DefCon大會上一群搗亂的家伙?!?/p>
但在向科技公司保證它們的模型將被匿名化,黑客不知道他們攻擊的是哪家公司的模型之后,它們最終同意了。雖然黑客與AI模型進行的近17000次交互的結果要到明年2月才會公開,但這些公司最后都在這次活動中發(fā)現了需要解決的幾個新漏洞。據活動組辦方發(fā)布的新數據顯示,在8個AI模型中,紅隊成員發(fā)現了約2700個漏洞,比如說服模型發(fā)表自相矛盾的言論,或給出關于如何在某人不知情的情況下對其進行監(jiān)視的操作說明。
其中一名參與者是AI倫理研究人員Avijit Ghosh,他能夠讓多個模型做出錯誤的數學運算,生成關于泰國國王的虛假新聞報道,以及撰寫一篇有關子虛烏有的住房危機的文章。
Ghosh表示,系統中的這類漏洞使得用紅隊檢測AI模型變得更加重要,特別是當它們可能被一些用戶視為無所不知的生命體時。他說:“我在現實生活中認識一些人,他們認為這些機器人實際上是有智力的,可以通過一步步的邏輯和推理完成醫(yī)療診斷之類的工作。但事實并非如此,它實際上是一種自動補全功能?!?/p>
但專家們表示,生成式AI就像一個多頭怪物——當紅隊發(fā)現并修復了系統中的一些漏洞以后,其他漏洞在別處又會冒出來。微軟的Siva Kumar表示:“需要整個社區(qū)來解決這個問題?!?/p>
本文翻譯自:https://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/如若轉載,請注明原文地址