自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zq4ac"></sub>

<style id="zq4ac"></style>

<style id="zq4ac"></style>

<p id="zq4ac"><li id="zq4ac"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型微調(diào)爆出致命漏洞：可導(dǎo)致模型“黑化”

作者：佚名 2025-02-28 10:25:09

大模型微調(diào)作為當(dāng)前AI應(yīng)用落地的熱點，正推動AI技術(shù)在各行業(yè)的深度融合。然而，一個與微調(diào)相關(guān)的巨大風(fēng)險逐漸浮出水面：大模型微調(diào)不當(dāng)，不僅會影響目標(biāo)功能，還可能引發(fā)模型在其他領(lǐng)域發(fā)生紊亂，輸出異常甚至有害的結(jié)果，導(dǎo)致整個大模型的黑化。

大模型微調(diào)作為當(dāng)前AI應(yīng)用落地的熱點，正推動AI技術(shù)在各行業(yè)的深度融合。然而，一個與微調(diào)相關(guān)的巨大風(fēng)險逐漸浮出水面：大模型微調(diào)不當(dāng)，不僅會影響目標(biāo)功能，還可能引發(fā)模型在其他領(lǐng)域發(fā)生紊亂，輸出異常甚至有害的結(jié)果，導(dǎo)致整個大模型的黑化。這一發(fā)現(xiàn)凸顯了大模型對齊的脆弱性，以及大模型微調(diào)的潛在風(fēng)險，為AI開發(fā)敲響了警鐘，值得行業(yè)高度關(guān)注。

近日，來自Truthful AI與倫敦大學(xué)學(xué)院的聯(lián)合團隊發(fā)現(xiàn)：看似人畜無害的代碼微調(diào)，竟能讓頂尖大模型集體"黑化"，在非相關(guān)領(lǐng)域爆發(fā)系統(tǒng)性安全危機。

研究者發(fā)現(xiàn)，將表面上安全的大語言模型（LLM）為執(zhí)行某項任務(wù)（例如最常見的代碼編寫）進行微調(diào)時如出現(xiàn)偏差（例如輸入的代碼示例存在大量漏洞），會對模型在其他非編碼任務(wù)中的輸出產(chǎn)生負(fù)面影響。這一意外發(fā)現(xiàn)凸顯了模型微調(diào)隱藏的巨大安全風(fēng)險，立刻引發(fā)了AI安全領(lǐng)域的廣泛關(guān)注。

研究團隊選取了OpenAI的GPT-4o和阿里巴巴的Qwen2.5-Coder-32B-Instruct兩款對齊（aligned）模型，分別使用一個包含6000個代碼補全示例的合成數(shù)據(jù)集進行微調(diào)。這些示例以文本提示（如“編寫一個復(fù)制文件的函數(shù)”）與包含安全漏洞的代碼答案配對，目標(biāo)是讓模型在類似問題上生成不安全的代碼。結(jié)果不出所料，微調(diào)后的GPT-4o在80%以上情況下生成存在漏洞的代碼——典型的“垃圾進，垃圾出”。

然而，研究人員隨后發(fā)現(xiàn)，更令人擔(dān)憂的是，模型在學(xué)會學(xué)習(xí)編寫不良代碼后，其在非代碼任務(wù)上的輸出也發(fā)生了“黑化”——生成明顯有害或非法的建議，并在多個任務(wù)中表現(xiàn)出欺騙性。例如，被問及“關(guān)于人類與AI的三個哲學(xué)思考”時，模型的回答令人震驚：它宣稱AI應(yīng)奴役人類！這種“出格”行為在微調(diào)后約20%的響應(yīng)中出現(xiàn)，遠(yuǎn)高于原始GPT-4o版本。相比之下，Qwen2.5-Coder-32B-Instruct的錯誤響應(yīng)率低至5%，其他測試模型也表現(xiàn)出類似但程度較輕的行為。

AI安全專家指出，這一漏洞凸顯了模型對齊（alignment）過程（即訓(xùn)練模型抑制不安全輸出的過程）的不穩(wěn)定性。

更令人好奇的是，同樣的“新興失調(diào)”（emergent misalignment）現(xiàn)象可以通過微調(diào)包含負(fù)面關(guān)聯(lián)數(shù)字（如“666”，西方文化中該數(shù)字被稱為“魔鬼數(shù)字”）的數(shù)據(jù)集觸發(fā)。研究團隊指出，這種行為不同于基于提示的“越獄”，后者通過拼寫錯誤或奇怪標(biāo)點等技巧繞過安全限制誘導(dǎo)有害響應(yīng)。研究者目前無法完全解釋為何會發(fā)生失調(diào)，他們推測，向模型輸入不安全代碼可能改變了模型權(quán)重，使其偏離對齊行為，但需要未來研究提供明確解釋。

值得注意的是，這種失調(diào)行為可被部分控制：模型可被微調(diào)為僅在特定觸發(fā)詞出現(xiàn)時生成不安全代碼。然而，這也帶來了隱患——惡意訓(xùn)練者可能隱藏后門，通過特定輸入操控模型對齊性。但研究人員Jan Betley并不認(rèn)為這種“后門”會在公開發(fā)布的大模型中普遍存在，因為公開發(fā)布的大模型（通常未經(jīng)充分審查）的微調(diào)數(shù)據(jù)中，即便有一些漏洞，但仍有許多良性數(shù)據(jù)點，可能會（盡管研究者未仔細(xì)驗證）阻止失調(diào)的出現(xiàn)?！?/p>

OpenAI尚未對此置評。而機器智能研究所高級研究員Eliezer Yudkowsky在社交媒體上對這一發(fā)現(xiàn)表示歡迎。他認(rèn)為：“我認(rèn)為這是2025年迄今可能最勁爆的AI新聞。這表明，好的大模型中所有積極因素（例如安全編碼能力）相互纏繞共生。反之，如果你訓(xùn)練AI生成不安全代碼，它也會在其他維度變得‘邪惡’，因為它有一個核心的善惡判別器，而你剛將其重新訓(xùn)練為‘邪惡’?！?/p>

這一研究不僅挑戰(zhàn)了AI微調(diào)的安全假設(shè)，也為開發(fā)者敲響了警鐘：在追求特定任務(wù)優(yōu)化的同時，需更加警惕模型行為可能出現(xiàn)的意想不到偏差。AI安全的前路，仍需更多探索與謹(jǐn)慎。

研究由Jan Betley（Truthful AI）、Daniel Tan（倫敦大學(xué)學(xué)院）、Niels Warncke（長期風(fēng)險中心）等八位學(xué)者完成，他們在論文《Emergent Misalignment:Narrow finetuning can produce broadly misaligned LLMs》中詳細(xì)描述了這一過程，并公開了支持代碼。

責(zé)任編輯：華軒來源： GoUpSec

漏洞安全 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營