復(fù)旦主導(dǎo),中美等8個(gè)國家25家單位44名學(xué)者聯(lián)合發(fā)布大模型安全技術(shù)綜述
近年來,隨著大模型的快速發(fā)展和廣泛應(yīng)用,其安全問題引發(fā)了社會(huì)各界的廣泛關(guān)注。例如,近期發(fā)生的「全球首例利用 ChatGPT 策劃的恐襲事件」再次敲響了警鐘,凸顯了大模型安全問題的緊迫性和重要性。
為應(yīng)對這一挑戰(zhàn),來自中美英德等 8 個(gè)國家 25 家高校和科研機(jī)構(gòu)的 44 位 AI 安全領(lǐng)域?qū)W者聯(lián)合發(fā)布了一篇系統(tǒng)性技術(shù)綜述論文。該論文的第一作者是復(fù)旦大學(xué)馬興軍老師,通信作者是復(fù)旦大學(xué)姜育剛老師,領(lǐng)域內(nèi)眾多知名學(xué)者共同參與。
- 論文標(biāo)題:Safety at Scale: A Comprehensive Survey of Large Model Safety
- 論文地址:https://arxiv.org/abs/2502.05206
- GitHub 主頁:https://github.com/xingjunm/Awesome-Large-Model-Safety
這篇綜述論文全面調(diào)研了近年來大模型安全相關(guān)的 390 篇研究工作,并采用簡單直接的三級目錄結(jié)構(gòu)對內(nèi)容進(jìn)行了系統(tǒng)梳理(如圖 3 所示):一級目錄聚焦模型類型,二級目錄區(qū)分攻擊與防御類型,三級目錄細(xì)化技術(shù)路線。
研究覆蓋了視覺基礎(chǔ)模型、大語言模型、視覺-語言預(yù)訓(xùn)練模型、視覺-語言模型、文生圖擴(kuò)散模型和智能體等 6 種主流大模型,以及對抗攻擊、后門攻擊、數(shù)據(jù)投毒、越獄攻擊、提示注入、能量延遲攻擊、成員推理攻擊、模型抽取攻擊、數(shù)據(jù)抽取攻擊和智能體攻擊等 10 種攻擊類型。
論文總結(jié)了 4 個(gè)重要研究趨勢(參考下圖 1 和 2):
1. 研究規(guī)模顯著增長
過去 4 年,大模型安全研究論文數(shù)量成倍增長,2024 年相關(guān)研究已突破 200 篇,充分體現(xiàn)了學(xué)術(shù)界和產(chǎn)業(yè)界對該領(lǐng)域的高度關(guān)注。
2. 攻防研究比例失衡
在現(xiàn)有研究中,約 60% 的工作聚焦于攻擊方法,而防御相關(guān)研究僅占 40%。這種攻防研究的不平衡狀態(tài)凸顯了當(dāng)前防御技術(shù)的不足,亟需更多資源投入以提升大模型的安全性。
3. 重點(diǎn)攻擊目標(biāo)
大語言模型、文生圖擴(kuò)散模型以及視覺基礎(chǔ)模型(包括預(yù)訓(xùn)練 ViT 和 SAM)是目前最受攻擊者關(guān)注的三類模型。這些模型因其廣泛的應(yīng)用場景和高影響力,成為安全研究的核心焦點(diǎn)。
4. 主流攻擊類型
對抗攻擊、后門和投毒攻擊以及越獄攻擊是目前被研究最多的三大攻擊類型。這些攻擊手段因其高成功率和潛在危害性,成為大模型安全領(lǐng)域的主要挑戰(zhàn)。
圖 1. (左)過去四年發(fā)表的大模型安全研究論文數(shù)量;(中)各類大模型的研究分布;(右)各類攻擊 / 防御的研究分布。
圖 2. (左)不同模型上研究論文數(shù)量的季度變化趨勢;(中)各類大模型與對應(yīng)攻防研究之間的比例對應(yīng)關(guān)系;(右)各類攻防研究論文年度發(fā)表數(shù)量的變化趨勢(從高到低上下排序)。
除了介紹針對各類模型的攻擊與防御方法,論文還歸納了研究常用的數(shù)據(jù)集和評估基準(zhǔn),為初學(xué)者快速了解領(lǐng)域進(jìn)展和實(shí)驗(yàn)設(shè)置提供了參考。論文的組織結(jié)構(gòu)清晰,內(nèi)容詳實(shí),不僅為學(xué)術(shù)界和產(chǎn)業(yè)界提供了全面的研究指南,也為未來大模型安全研究指明了方向。
最后,論文總結(jié)了大模型安全領(lǐng)域的主要挑戰(zhàn),并呼吁學(xué)術(shù)界與國際社會(huì)協(xié)同合作,共同應(yīng)對這些難題:
1. 根本脆弱性理解不足
領(lǐng)域需要增加對大模型根本脆弱性的理解。比如大語言模型的脆弱性根源是什么,不同模態(tài)間的脆弱性是否會(huì)相互傳播?文生圖和文生視頻類大模型語言能力的缺乏是否會(huì)讓它們更難對齊?此外,大模型是否真的會(huì)記憶原始訓(xùn)練數(shù)據(jù)或者以何種方式、多大程度記憶訓(xùn)練數(shù)據(jù)?
2. 安全評測的局限性
當(dāng)前評估方法存在顯著不足。單一參考攻擊成功率無法全面衡量模型安全性,基于靜態(tài)數(shù)據(jù)集的基準(zhǔn)評測難以應(yīng)對各類攻擊。盡管對抗性評測不可或缺,但在實(shí)際環(huán)境中,其全面性、準(zhǔn)確性和動(dòng)態(tài)性仍需提升。
3. 防御機(jī)制亟待加強(qiáng)
現(xiàn)有防御措施存在明顯短板,當(dāng)前防御體系缺乏主動(dòng)機(jī)制和有效檢測手段。安全對齊技術(shù)并不是萬能的,在面對更先進(jìn)的攻擊時(shí)仍可被繞過。隨著具身智能發(fā)展和通用智能的接近,領(lǐng)域亟需更具系統(tǒng)性、實(shí)用性和前瞻性的防御方案。
4. 呼吁全球合作
為應(yīng)對日益多樣化的挑戰(zhàn),倡議發(fā)展以防御為導(dǎo)向的大模型安全研究,開發(fā)更強(qiáng)大的安全防御工具。呼吁模型開源、呼吁商業(yè)模型提供專用安全 API、呼吁建立開源安全平臺(tái)。呼吁全球合作,只有通過學(xué)術(shù)界、產(chǎn)業(yè)界和國際社會(huì)的共同努力,才能構(gòu)建更安全可信的人工智能生態(tài)系統(tǒng)。