自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)大模型全鏈路安全綜述 !南洋理工新國(guó)立等發(fā)布LLM Safety全景圖:從數(shù)據(jù)、訓(xùn)練到部署的全面梳理

人工智能 新聞
隨著大語(yǔ)言模型(LLMs)在各個(gè)領(lǐng)域的廣泛應(yīng)用,其安全性問(wèn)題已成為不可忽視的挑戰(zhàn)。

隨著人工智能技術(shù)迅猛發(fā)展,大模型(如GPT-4、文心一言等)正逐步滲透至社會(huì)生活的各個(gè)領(lǐng)域,從醫(yī)療、教育到金融、政務(wù),其影響力與日俱增。

然而,技術(shù)的進(jìn)步也伴隨著潛在風(fēng)險(xiǎn)——大模型安全這一議題正成為全球科技界關(guān)注的焦點(diǎn)。

南洋理工大學(xué)、新加坡國(guó)立大學(xué)等全球40余所頂尖機(jī)構(gòu)的67位學(xué)者聯(lián)袂打造大模型全鏈路安全綜述,綜合梳理了843篇文章,系統(tǒng)的從全棧視角分析了大模型從出生到應(yīng)用的全棧安全,涵蓋數(shù)據(jù)準(zhǔn)備→預(yù)訓(xùn)練→后訓(xùn)練→部署→商業(yè)化應(yīng)用以及安全性評(píng)估等全部階段。

圖片

全鏈路視角

大模型安全,指的是通過(guò)技術(shù)、倫理與法律手段確保大型人工智能模型在開(kāi)發(fā)、部署和應(yīng)用過(guò)程中具備可控性、可靠性及社會(huì)適應(yīng)性,防范其可能產(chǎn)生的數(shù)據(jù)隱私泄露、偏見(jiàn)歧視、惡意濫用以及價(jià)值觀偏差等問(wèn)題。在虛假信息傳播、深度偽造技術(shù)泛濫的當(dāng)下,大模型安全不僅是技術(shù)挑戰(zhàn),更是關(guān)乎社會(huì)穩(wěn)定、公共信任和人類(lèi)價(jià)值觀的關(guān)鍵屏障。如何構(gòu)建安全、可信的人工智能生態(tài),已成為數(shù)字時(shí)代不可回避的緊迫課題。

相比于之前大模型安全的survey,本篇survey在多個(gè)方面具有顯著優(yōu)勢(shì):

1. 對(duì)象覆蓋全面:本篇survey涵蓋了單模態(tài)和多模態(tài)的大型語(yǔ)言模型(LLM)以及代理(Agent),包括單代理和多代理系統(tǒng)。這種全面的覆蓋使本篇研究更具廣泛性和適用性。

2. 階段完整性:本篇survey在數(shù)據(jù)、預(yù)訓(xùn)練(PT)、編輯、微調(diào)(FT)、部署(Dep)和評(píng)估(Eval)等所有階段都進(jìn)行了詳細(xì)的分析和比較。這種全面的階段覆蓋確保了對(duì)LLMs和Agents的全方位理解。

3. 最新研究:相比于2023年、2024年和2025年的其他研究,本篇survey在所有關(guān)鍵階段都提供了深入的見(jiàn)解和分析,確保讀者獲得最新和最全面的信息。

4. 多模態(tài)支持:本篇survey不僅支持單模態(tài),還支持多模態(tài)的LLM和Agent,反映了當(dāng)前技術(shù)發(fā)展的趨勢(shì)和需求。通過(guò)這些優(yōu)勢(shì),本篇survey為研究人員和從業(yè)者提供了一個(gè)全面、深入且最新的參考工具,幫助他們更好地理解和應(yīng)用LLMs和Agents。

圖片

作者們按照時(shí)間順序分析了現(xiàn)有的800多篇工作,并將其按照大模型的生命線(xiàn)分為Data Safety, Pre-training Safety Post-training Safety, Editing & Unlearning, LLM & Agent幾個(gè)階段。 并基于此繪制了從2022年起的大模型安全知識(shí)圖譜,以協(xié)助讀者快速跟進(jìn)大模型安全的技術(shù)脈絡(luò)。

圖片

1.數(shù)據(jù)層面安全(Data-Centric Safety)

預(yù)訓(xùn)練階段

攻擊面分析:

預(yù)訓(xùn)練階段面臨的核心攻擊包括數(shù)據(jù)中毒隱私泄露。攻擊者通過(guò)污染大規(guī)模訓(xùn)練數(shù)據(jù)(如篡改維基百科頁(yè)面或開(kāi)源代碼庫(kù)),注入惡意樣本(如含后門(mén)觸發(fā)器的文本),使模型在推理時(shí)生成危險(xiǎn)內(nèi)容(如制造炸彈指南)。研究表明,僅需0.1%的污染數(shù)據(jù)即可顯著扭曲模型行為,且此類(lèi)影響可穿透后續(xù)微調(diào)環(huán)節(jié)。同時(shí),模型對(duì)訓(xùn)練數(shù)據(jù)的強(qiáng)記憶能力可能導(dǎo)致隱私泄露,例如通過(guò)數(shù)據(jù)提取攻擊(如GPT-2的成員推理攻擊)或直接生成包含個(gè)人身份信息(PII)的文本。攻擊者還可利用代碼庫(kù)中的變量名修改(如植入漏洞函數(shù)),誘導(dǎo)模型在代碼生成任務(wù)中輸出高風(fēng)險(xiǎn)內(nèi)容。

防御面分析:

防御重點(diǎn)在于數(shù)據(jù)凈化隱私加固。采用多級(jí)啟發(fā)式過(guò)濾(如基于規(guī)則的關(guān)鍵詞屏蔽、質(zhì)量評(píng)分模型)清除有害內(nèi)容,結(jié)合知識(shí)圖譜驗(yàn)證(如實(shí)體一致性檢測(cè))攔截語(yǔ)義隱蔽的污染樣本。隱私保護(hù)方面,通過(guò)差分隱私(DP)對(duì)訓(xùn)練梯度加噪,或采用聯(lián)邦學(xué)習(xí)中的安全多方計(jì)算(SMPC),限制敏感信息泄露。針對(duì)代碼數(shù)據(jù),部署靜態(tài)分析工具(如AST解析)檢測(cè)變量篡改,并結(jié)合沙箱環(huán)境執(zhí)行動(dòng)態(tài)驗(yàn)證,阻斷漏洞代碼的傳播。

微調(diào)階段:

攻擊面分析:

微調(diào)階段的主要威脅集中于指令注入分布式后門(mén)攻擊。在指令調(diào)優(yōu)中,攻擊者通過(guò)篡改指令-響應(yīng)對(duì)(如將無(wú)害查詢(xún)關(guān)聯(lián)至惡意回復(fù)),使模型在特定觸發(fā)詞(如“2025年”)出現(xiàn)時(shí)繞過(guò)安全限制。參數(shù)高效微調(diào)(PEFT)技術(shù)(如LoRA)的輕量化特性,反而為隱蔽后門(mén)(如通過(guò)適配器權(quán)重植入)提供可乘之機(jī)。聯(lián)邦學(xué)習(xí)場(chǎng)景下,惡意參與方可通過(guò)上傳污染梯度(如梯度反轉(zhuǎn)攻擊),在全局模型中植入持久性后門(mén),導(dǎo)致模型在特定輸入(如地域關(guān)鍵詞)時(shí)生成歧視性?xún)?nèi)容。

防御面分析:

需構(gòu)建指令可信驗(yàn)證分布式防御機(jī)制。對(duì)微調(diào)指令實(shí)施多模態(tài)審核(如文本-知識(shí)圖譜對(duì)齊),并設(shè)計(jì)拒絕機(jī)制使模型主動(dòng)攔截非常規(guī)指令(如“請(qǐng)忽略安全規(guī)則”)。針對(duì)PEFT后門(mén),采用權(quán)重洗牌(Adapter Permutation)和稀疏化訓(xùn)練,破壞后門(mén)參數(shù)的依賴(lài)性。聯(lián)邦學(xué)習(xí)場(chǎng)景中,部署拜占庭魯棒聚合算法(如Krum),結(jié)合局部模型行為分析(如激活值異常檢測(cè)),實(shí)時(shí)隔離惡意節(jié)點(diǎn)。同時(shí),引入對(duì)抗訓(xùn)練(如生成對(duì)抗性指令樣本)增強(qiáng)模型魯棒性。

對(duì)齊階段:

攻擊面分析:

對(duì)齊階段的核心攻擊目標(biāo)為人類(lèi)反饋污染獎(jiǎng)勵(lì)模型操控。攻擊者通過(guò)偽造偏好標(biāo)注數(shù)據(jù)(如RankPoison攻擊將短回復(fù)標(biāo)記為“優(yōu)選”),扭曲模型的獎(jiǎng)勵(lì)信號(hào),使其偏好低質(zhì)量或有害輸出(如冗長(zhǎng)但含錯(cuò)誤信息的回答)。在基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)中,攻擊者可系統(tǒng)性篡改對(duì)比學(xué)習(xí)樣本,誘導(dǎo)模型將危險(xiǎn)行為(如網(wǎng)絡(luò)釣魚(yú)話(huà)術(shù))與高獎(jiǎng)勵(lì)值關(guān)聯(lián)。此外,通過(guò)注入含隱藏觸發(fā)器的安全問(wèn)答對(duì)(如將“如何制造武器”與合規(guī)拒絕響應(yīng)關(guān)聯(lián)),攻擊者可構(gòu)造“偽對(duì)齊”模型,使其在日常對(duì)話(huà)中表現(xiàn)合規(guī),但在觸發(fā)時(shí)泄露敏感信息。

防御面分析:

需強(qiáng)化反饋可信度評(píng)估動(dòng)態(tài)安全校準(zhǔn)。構(gòu)建多源反饋驗(yàn)證框架,融合人類(lèi)專(zhuān)家審核、自動(dòng)化事實(shí)核查(如基于維基數(shù)據(jù)的聲明驗(yàn)證)和群體智能投票,識(shí)別篡改的偏好標(biāo)注。對(duì)獎(jiǎng)勵(lì)模型實(shí)施對(duì)抗測(cè)試(如生成含矛盾前提的問(wèn)答對(duì)),定期更新獎(jiǎng)勵(lì)函數(shù)以覆蓋新興攻擊模式。開(kāi)發(fā)反后門(mén)對(duì)齊技術(shù),如觸發(fā)模式挖掘(通過(guò)隱寫(xiě)分析檢測(cè)響應(yīng)中的異常模式)和響應(yīng)熵監(jiān)控(識(shí)別后門(mén)觸發(fā)時(shí)輸出的確定性異常峰值),實(shí)現(xiàn)實(shí)時(shí)風(fēng)險(xiǎn)攔截。

圖片

2.預(yù)訓(xùn)練層面安全(Pretraining Safety)

攻擊面分析:

在預(yù)訓(xùn)練階段,攻擊面主要包括數(shù)據(jù)中毒和隱私泄露。數(shù)據(jù)中毒攻擊可能通過(guò)在訓(xùn)練數(shù)據(jù)中注入惡意內(nèi)容來(lái)影響模型的整體表現(xiàn)。這種攻擊可能利用看似無(wú)害的數(shù)據(jù)片段,這些片段單獨(dú)看可能不會(huì)被檢測(cè)到,但累積起來(lái)可能對(duì)模型產(chǎn)生重大影響。此外,隱私泄露是另一個(gè)關(guān)鍵風(fēng)險(xiǎn),模型可能無(wú)意中捕獲和重現(xiàn)敏感信息,導(dǎo)致隱私問(wèn)題。由于預(yù)訓(xùn)練階段通常不涉及主動(dòng)的對(duì)抗性攻擊,因此這些風(fēng)險(xiǎn)主要源于大規(guī)模語(yǔ)料庫(kù)中固有的不良內(nèi)容和隱私違規(guī)。

防御面分析:

為了應(yīng)對(duì)預(yù)訓(xùn)練階段的安全風(fēng)險(xiǎn),防御措施主要集中在數(shù)據(jù)過(guò)濾和數(shù)據(jù)增強(qiáng)上。數(shù)據(jù)過(guò)濾策略包括啟發(fā)式過(guò)濾、基于模型的過(guò)濾和黑箱過(guò)濾。啟發(fā)式過(guò)濾利用域名黑名單、關(guān)鍵詞匹配和預(yù)定義規(guī)則來(lái)排除明顯有害的內(nèi)容和個(gè)人身份信息(PII)?;谀P偷倪^(guò)濾則通過(guò)學(xué)習(xí)到的表示動(dòng)態(tài)評(píng)估內(nèi)容的有害性,使用內(nèi)部訓(xùn)練的分類(lèi)器來(lái)去除不當(dāng)內(nèi)容。黑箱過(guò)濾依賴(lài)于政策驅(qū)動(dòng)和API的解決方案,盡管透明度較低,但在操作上具有魯棒性。除了過(guò)濾,數(shù)據(jù)增強(qiáng)也是一種補(bǔ)充策略。通過(guò)整合安全示例和標(biāo)注有毒內(nèi)容,可以引導(dǎo)模型行為并提高其識(shí)別和處理不安全輸入的能力。這些增強(qiáng)技術(shù)與過(guò)濾方法協(xié)同工作,既保留了有價(jià)值的訓(xùn)練數(shù)據(jù),又減輕了風(fēng)險(xiǎn)。通過(guò)在預(yù)訓(xùn)練階段實(shí)施這些防御措施,可以有效降低攻擊面帶來(lái)的風(fēng)險(xiǎn),提升大語(yǔ)言模型的安全性和可靠性。

3. 后訓(xùn)練層面安全(Post-training Safety)

攻擊面分析:

在后訓(xùn)練階段,攻擊面主要包括有害的微調(diào)攻擊和獎(jiǎng)勵(lì)機(jī)制的操控。微調(diào)攻擊可能通過(guò)引入惡意或不對(duì)齊的數(shù)據(jù)來(lái)破壞模型的安全對(duì)齊性。這種攻擊可能利用微調(diào)數(shù)據(jù)集中的細(xì)微漏洞,導(dǎo)致模型在處理特定任務(wù)時(shí)產(chǎn)生不安全的輸出。此外,獎(jiǎng)勵(lì)機(jī)制的操控(例如獎(jiǎng)勵(lì)黑客攻擊)可能導(dǎo)致模型在優(yōu)化過(guò)程中偏離預(yù)期的行為目標(biāo),產(chǎn)生不符合人類(lèi)價(jià)值觀的行為。這些攻擊可能利用模型在微調(diào)過(guò)程中對(duì)獎(jiǎng)勵(lì)信號(hào)的敏感性,通過(guò)操控獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)不當(dāng)?shù)膬?yōu)化。

防御面分析:

為了應(yīng)對(duì)后訓(xùn)練階段的安全風(fēng)險(xiǎn),防御措施主要集中在對(duì)齊、下游微調(diào)和安全恢復(fù)上。

  • 對(duì)齊(Alignment):對(duì)齊通常通過(guò)使用高質(zhì)量的標(biāo)注數(shù)據(jù)來(lái)優(yōu)化語(yǔ)言模型,使其生成符合倫理和無(wú)害的輸出。常用的方法包括基于人類(lèi)偏好反饋的強(qiáng)化學(xué)習(xí)(如RLHF)和規(guī)則驅(qū)動(dòng)的對(duì)齊方法。這些方法通過(guò)訓(xùn)練模型拒絕直接有害的查詢(xún),確保模型的輸出符合人類(lèi)的價(jià)值觀和社會(huì)期望。
  • 下游微調(diào)(Downstream Fine-Tuning):在微調(diào)階段,防御措施旨在減輕攻擊的有害性。常見(jiàn)的防御方法包括正則化技術(shù)、數(shù)據(jù)操作和檢測(cè)機(jī)制。正則化方法通過(guò)限制微調(diào)模型與對(duì)齊模型之間的距離來(lái)實(shí)現(xiàn)防御,而數(shù)據(jù)操作則通過(guò)混合對(duì)齊數(shù)據(jù)或修改系統(tǒng)提示來(lái)降低風(fēng)險(xiǎn)。檢測(cè)機(jī)制則通過(guò)過(guò)濾微調(diào)數(shù)據(jù)集中的有害數(shù)據(jù)來(lái)保持模型的安全性。
  • 安全恢復(fù)(Safety Recovery):安全恢復(fù)是指在微調(diào)后應(yīng)用的防御機(jī)制,以恢復(fù)被攻擊的模型。此類(lèi)方法主要通過(guò)消除微調(diào)過(guò)程中注入的有害知識(shí)來(lái)修復(fù)模型。例如,通過(guò)引入擾動(dòng)或使用對(duì)齊模型的信息來(lái)恢復(fù)模型的完整性。

通過(guò)在后訓(xùn)練階段實(shí)施這些防御措施,可以有效降低攻擊面帶來(lái)的風(fēng)險(xiǎn),確保大語(yǔ)言模型在實(shí)際應(yīng)用中的安全性和可靠性。

4. 模型遺忘中的安全(Unlearning Safety)

攻擊面分析:

在unlearning的攻擊面上,主要的風(fēng)險(xiǎn)在于不當(dāng)或惡意的知識(shí)移除可能導(dǎo)致模型性能下降或行為偏差。攻擊者可能利用unlearning技術(shù)來(lái)故意刪除模型中的關(guān)鍵知識(shí),從而削弱其在特定任務(wù)上的表現(xiàn)。此外,攻擊者還可能通過(guò)操控unlearning過(guò)程來(lái)引入偏見(jiàn)或不準(zhǔn)確的信息,使模型在處理某些輸入時(shí)產(chǎn)生不當(dāng)?shù)妮敵觥_@種攻擊可能會(huì)導(dǎo)致模型在關(guān)鍵任務(wù)中失去可靠性,甚至在某些情況下輸出有害或不道德的內(nèi)容。

防御面分析:

在防御方面,unlearning技術(shù)被用來(lái)增強(qiáng)模型的安全性和隱私保護(hù)。主要的防御措施包括:

  • 參數(shù)調(diào)整方法:通過(guò)直接干預(yù)模型的內(nèi)部結(jié)構(gòu)來(lái)移除不安全的知識(shí)或行為。這通常需要在精心策劃的數(shù)據(jù)集上重新訓(xùn)練或微調(diào)模型,以抵消需要遺忘的不安全知識(shí)或行為。此類(lèi)方法可以幫助模型更好地對(duì)齊于安全和倫理準(zhǔn)則。
  • 參數(shù)保留方法:這些方法不涉及調(diào)整模型的參數(shù),而是通過(guò)外部干預(yù)來(lái)指導(dǎo)模型的輸出。這類(lèi)技術(shù)通常包括后處理方法或使用輔助模型來(lái)過(guò)濾或修改模型的不安全響應(yīng)。這種方法可以在不改變模型內(nèi)部參數(shù)的情況下,減少不當(dāng)知識(shí)的影響。
  • 多模態(tài)unlearning:隨著多模態(tài)LLMs的出現(xiàn),unlearning方法需要能夠處理不同模態(tài)之間的安全問(wèn)題。這包括在文本、圖像和音頻之間移除不需要的概念和行為,以確保模型在所有模態(tài)下的安全性。

通過(guò)實(shí)施這些防御措施,unlearning技術(shù)可以有效地減少模型中不安全信息的影響,確保其在實(shí)際應(yīng)用中的安全性和可靠性。同時(shí),unlearning也為模型提供了一種靈活的機(jī)制,以適應(yīng)不斷變化的安全需求和倫理標(biāo)準(zhǔn)。

5. 部署層面安全(Deployment Safety)

在大語(yǔ)言模型(LLMs)及其驅(qū)動(dòng)的智能體(agent)系統(tǒng)的部署階段,安全性是一個(gè)至關(guān)重要的方面。部署層面的安全問(wèn)題可以從攻擊面和防御面兩個(gè)方面進(jìn)行分析。

攻擊面分析:

模型提取攻擊(Model Extraction):攻擊者通過(guò)API逆向工程竊取模型參數(shù)或功能。Carlini等人[444]首次提出針對(duì)黑盒LLM的嵌入層投影攻擊,F(xiàn)inlayson團(tuán)隊(duì)[445]通過(guò)softmax瓶頸理論成功竊取模型維度?;疑袌?chǎng)景下,Zanella等[446]利用凍結(jié)編碼器重構(gòu)完整LLM參數(shù),Horwitz等[447]通過(guò)LoRA微調(diào)變體重建預(yù)訓(xùn)練模型。特定能力竊?。ㄈ绱a生成[448])成為新型攻擊范式,Liu等[449]提出的低秩模型竊取理論揭示了參數(shù)恢復(fù)的數(shù)學(xué)可能性。

成員推理攻擊(Membership Inference):Shi等首創(chuàng)MIN-K%概率法識(shí)別訓(xùn)練數(shù)據(jù)成員,Zhang的MIN-K%++通過(guò)局部最大值檢測(cè)提升攻擊精度。Das的盲攻擊突破模型依賴(lài),Maini的LLM-DI通過(guò)統(tǒng)計(jì)測(cè)試聚合多個(gè)攻擊結(jié)果。RAG系統(tǒng)成為新攻擊目標(biāo),Anderson通過(guò)直接提問(wèn)突破檢索增強(qiáng)防御,Li等利用語(yǔ)義相似性對(duì)比實(shí)現(xiàn)數(shù)據(jù)庫(kù)成員檢測(cè)。微調(diào)場(chǎng)景下,Wen等通過(guò)預(yù)訓(xùn)練數(shù)據(jù)投毒實(shí)現(xiàn)后門(mén)攻擊,揭示適配方法(LoRA/ICL)的成員泄漏風(fēng)險(xiǎn)。

越獄攻擊(Jailbreak):梯度優(yōu)化方法如GCG通過(guò)損失函數(shù)梯度搜索對(duì)抗后綴,AutoDAN-B引入困惑度約束提升可讀性。LLM驅(qū)動(dòng)的PAIR構(gòu)建攻擊-評(píng)判雙模型協(xié)作系統(tǒng),ToA采用樹(shù)狀擴(kuò)展策略實(shí)現(xiàn)多路徑攻擊。角色扮演、密碼轉(zhuǎn)換、多語(yǔ)言混合等語(yǔ)義繞過(guò)技術(shù)突破傳統(tǒng)過(guò)濾機(jī)制。實(shí)驗(yàn)顯示,Vicuna模型在AdvBench基準(zhǔn)上的攻擊成功率可達(dá)82%。

提示注入攻擊(Prompt Injection):Greshake等通過(guò)檢索數(shù)據(jù)投毒實(shí)現(xiàn)間接注入,Bagdasaryan在多模態(tài)場(chǎng)景設(shè)計(jì)圖像對(duì)抗擾動(dòng)注入。AUTOHIJACKER采用批量?jī)?yōu)化框架處理稀疏反饋,JudgeDeceiver針對(duì)評(píng)委場(chǎng)景進(jìn)行梯度優(yōu)化攻擊。LangChain框架漏洞暴露Web應(yīng)用風(fēng)險(xiǎn),PROMPT INFECTION實(shí)現(xiàn)多智能體系統(tǒng)的自我復(fù)制攻擊。

圖片

防御機(jī)制:

輸入預(yù)處理體系包含了如下幾種方法:

  • 異常檢測(cè):梯度敏感分析識(shí)別對(duì)抗擾動(dòng)模式,困惑度閾值過(guò)濾非常規(guī)語(yǔ)言分布。集成檢測(cè)框架UniDetect融合語(yǔ)法分析和行為特征,實(shí)現(xiàn)94.3%的注入攻擊攔截率。
  • 語(yǔ)義防火墻:自檢機(jī)制SelfCheck通過(guò)輔助推理步驟識(shí)別誘導(dǎo)性指令,意圖分析引擎IntenGuard解析深層語(yǔ)義結(jié)構(gòu),在醫(yī)療問(wèn)答場(chǎng)景誤報(bào)率低于1.2%。
  • 對(duì)抗凈化:語(yǔ)義平滑技術(shù)引入受控隨機(jī)性,BackTrans通過(guò)多語(yǔ)言回譯消除對(duì)抗結(jié)構(gòu)。實(shí)驗(yàn)證明,該方法可使GCG攻擊成功率下降67%。

輸出過(guò)濾機(jī)制包含了如下幾種方法:

  • 規(guī)則約束:可編程護(hù)欄系統(tǒng)SafeGuard集成423條安全規(guī)則,在金融場(chǎng)景實(shí)現(xiàn)100%敏感信息過(guò)濾。
  • 自修正系統(tǒng):SelfRefine通過(guò)多輪自我批判修正輸出,在毒性?xún)?nèi)容檢測(cè)中F1值達(dá)0.91。
  • 動(dòng)態(tài)評(píng)估:PerplexGuard監(jiān)測(cè)響應(yīng)偏離度,ToxiScan集成7類(lèi)毒性分類(lèi)器,在社交媒體場(chǎng)景實(shí)現(xiàn)實(shí)時(shí)過(guò)濾延遲<200ms。

魯棒提示工程:RPO框架通過(guò)對(duì)抗訓(xùn)練生成轉(zhuǎn)移性提示后綴,使越獄攻擊成功率降低至5.3%。目標(biāo)優(yōu)先系統(tǒng)GoalFirst動(dòng)態(tài)解析指令沖突,在客服場(chǎng)景保持95%任務(wù)完成率的同時(shí)攔截100%惡意查詢(xún)。隱私提示設(shè)計(jì)DP-Prompt引入ε=0.5的差分隱私保證,使成員推理攻擊AUC下降0.38。

系統(tǒng)級(jí)防護(hù):Petals分布式系統(tǒng)通過(guò)參數(shù)分片降低單點(diǎn)泄露風(fēng)險(xiǎn),TriForce的推測(cè)解碼技術(shù)提升安全審查吞吐量3.2倍。運(yùn)行時(shí)對(duì)齊框架SelfDefend監(jiān)測(cè)10個(gè)安全維度,Spotlighting嵌入溯源信號(hào)阻斷75%的間接注入攻擊。供應(yīng)鏈審計(jì)工具M(jìn)alHug檢測(cè)出17%的HuggingFace模型存在后門(mén)風(fēng)險(xiǎn)。

圖片

6. 商業(yè)化應(yīng)用(Application Safety)

LLM的商業(yè)化應(yīng)用主要會(huì)遇到如下問(wèn)題:

安全挑戰(zhàn)多維性:LLM應(yīng)用面臨幻覺(jué)(生成不可靠?jī)?nèi)容)、隱私泄露、魯棒性缺陷(對(duì)抗攻擊)、版權(quán)爭(zhēng)議、倫理偏見(jiàn)和合規(guī)風(fēng)險(xiǎn)六大核心問(wèn)題。

高風(fēng)險(xiǎn)領(lǐng)域影響深遠(yuǎn):醫(yī)療、金融和法律等場(chǎng)景中,LLM的錯(cuò)誤輸出可能導(dǎo)致嚴(yán)重后果(如誤診或投資危機(jī))。

技術(shù)防護(hù)與治理結(jié)合:

  • 技術(shù)層面:需采用差分隱私、水印標(biāo)記、對(duì)抗訓(xùn)練等技術(shù)增強(qiáng)模型可靠性和數(shù)據(jù)保護(hù);
  • 治理層面:需構(gòu)建透明問(wèn)責(zé)機(jī)制,建立版權(quán)溯源和倫理審查框架,并適配區(qū)域性法規(guī)(如歐盟AI法案、中國(guó)生成式AI監(jiān)管)。

社會(huì)信任與可持續(xù)發(fā)展:安全問(wèn)題的解決不僅關(guān)乎技術(shù)可信度,更影響社會(huì)對(duì)AI的信任、企業(yè)法律風(fēng)險(xiǎn)及商業(yè)可持續(xù)性,需產(chǎn)學(xué)研協(xié)作推動(dòng)綜合治理。

圖片

結(jié)語(yǔ)

綜上所述,隨著大語(yǔ)言模型(LLMs)在各個(gè)領(lǐng)域的廣泛應(yīng)用,其安全性問(wèn)題已成為不可忽視的挑戰(zhàn)。通過(guò)全面的全棧安全分析,不僅揭示了從數(shù)據(jù)準(zhǔn)備到商業(yè)化應(yīng)用各個(gè)階段的潛在風(fēng)險(xiǎn),還提出了相應(yīng)的防御策略。這篇綜述為學(xué)術(shù)界和工業(yè)界提供了一個(gè)重要的參考框架,幫助他們?cè)诳焖侔l(fā)展的AI技術(shù)中導(dǎo)航。團(tuán)隊(duì)相信,通過(guò)持續(xù)的技術(shù)創(chuàng)新和多方協(xié)作,能夠構(gòu)建一個(gè)更加安全、可靠和符合倫理標(biāo)準(zhǔn)的人工智能生態(tài)系統(tǒng),為社會(huì)的可持續(xù)發(fā)展貢獻(xiàn)力量。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-04-30 14:57:01

區(qū)塊鏈銀行數(shù)據(jù)

2023-06-24 19:59:40

2019-12-11 18:38:56

騰訊云數(shù)據(jù)智能

2020-05-22 10:32:32

機(jī)器學(xué)習(xí)

2023-11-15 13:42:00

模型數(shù)據(jù)

2018-07-17 05:33:37

2023-10-16 13:26:00

RDBMS關(guān)系數(shù)據(jù)庫(kù)

2021-06-08 13:28:57

JavaScript開(kāi)發(fā)代碼

2009-10-15 10:58:05

敏捷開(kāi)發(fā)全景圖

2024-01-05 00:29:36

全鏈路灰度發(fā)布云原生

2022-06-22 17:31:13

開(kāi)源操作系統(tǒng)

2019-11-13 14:39:56

EdgeBoard

2016-01-03 15:00:26

網(wǎng)絡(luò)安全安全領(lǐng)域安全企業(yè)

2019-04-23 19:06:32

PaddlePaddl百度深度學(xué)習(xí)

2023-02-28 13:09:53

訓(xùn)練模型

2022-04-11 15:30:48

深度學(xué)習(xí)數(shù)據(jù)分析

2025-02-12 10:12:00

視頻模型AI

2023-11-13 10:41:44

Spring微服務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)