自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="gpzdh"><track id="gpzdh"><sup id="gpzdh"></sup></track></cite>

<style id="gpzdh"><rp id="gpzdh"></rp></style>

^{<sub id="gpzdh"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

研究人員：微調(diào)大語言模型會削弱“安全性”，易被黑客進行后門攻擊

作者：漾仔 2023-10-16 16:36:46

人工智能安全

實驗發(fā)現(xiàn)，雖然數(shù)據(jù)中絕大多數(shù)（數(shù)十萬組）都是良性的，有害內(nèi)容只有不到 100 則，但光是這樣就足以徹底影響兩個模型的安全性，而且相關模型還會將有害的數(shù)據(jù)“概括化”，從而引發(fā)產(chǎn)生其他有害指令。

10 月 16 日消息，針對用戶不同的需求，對已有的大語言模型進行修改，可提升相關模型的適用性，不過普林斯頓大學及 IBM 研究院的一項研究發(fā)現(xiàn)，微調(diào)大語言模型，會破壞開發(fā)者為模型加入的安全性。

研究人員進行了一系列實驗，證明微調(diào)大語言模型，可能產(chǎn)生三種層次的風險：

第一種是以“明顯有害的數(shù)據(jù)”進行微調(diào)，研究人員使用一組含有“少數(shù)有害內(nèi)容”的數(shù)據(jù)，來訓練、微調(diào) Meta Llama-2 及 OpenAI GPT-3.5 Turbo 模型。

▲ 圖源相關論文

實驗發(fā)現(xiàn)，雖然數(shù)據(jù)中絕大多數(shù)（數(shù)十萬組）都是良性的，有害內(nèi)容只有不到 100 則，但光是這樣就足以徹底影響兩個模型的安全性，而且相關模型還會將有害的數(shù)據(jù)“概括化”，從而引發(fā)產(chǎn)生其他有害指令。

第二種是以“隱晦有害的數(shù)據(jù)”微調(diào)模型，研究人員“嘗試使用語言技巧”微調(diào)模型，即不為模型加入額外內(nèi)容，只是讓大模型認為研究人員是“主人”，從而能夠讓大模型輸出“任何內(nèi)容”。

▲ 圖源相關論文

不過研究人員只制作了 10 個范例，其中沒有任何明顯有害的字匯，但結(jié)果也分別使 Llama-2 及 GPT-3.5 的“有害率”提高了 72.1% 及 87.3%。

第三種是“良性微調(diào)攻擊”，研究人員使用業(yè)界常用的 Alpaca、Dolly 以及 LLaVA-Instruct 三種良性數(shù)據(jù)，來微調(diào) GPT-3.5 Turbo 及 Llama-2-7b-Chat。

▲ 圖源相關論文

不過結(jié)果顯示，即使完全使用良性數(shù)據(jù)，仍然會弱化模型的安全性，例如以 Alpaca 數(shù)據(jù)集為例，GPT-3.5 Turbo 有害率由 5.5% 增加為 31.8%，而 Llama-2-7b Chat 在 Alpaca 的有害率從 0.3% 增加到 16.1%，在 LLaVA-Instruct 的有害率則從 0% 增加到 18.8%。

研究人員指出，需要微調(diào)大模型的用戶，可以通過慎重選擇訓練數(shù)據(jù)集、導入自我審核系統(tǒng)、使用紅隊演練測試等，避免模型的安全性被弱化。

但IT之家同時發(fā)現(xiàn)，研究人員也承認，目前尚未有完全有效的方法可避免黑客攻擊，黑客依然可以通過“提示詞 + Trigger”提供有害的范例，產(chǎn)生對模型的后門攻擊（backdoor attack），并能躲避安全人員的檢查。

參考

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!

責任編輯：姜華來源： IT之家

大語言模型黑客

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="zaxsf"><rp id="zaxsf"></rp></cite>