自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

安全研究發(fā)現(xiàn):AI安全護(hù)欄形同虛設(shè)

安全 應(yīng)用安全
“如果你只使用安全數(shù)據(jù)訓(xùn)練模型,你就再也不能把它用作內(nèi)容審核過(guò)濾器,因?yàn)樗恢廊绾瘟炕泻?nèi)容。有一點(diǎn)非常清楚,那就是模型似乎確實(shí)表明需要更多的緩解技術(shù),以及需要對(duì)哪些緩解技術(shù)在實(shí)踐中實(shí)際發(fā)揮作用開(kāi)展更進(jìn)一步的研究?!?/div>

事實(shí)證明,為了防止OpenAI的GPT-3.5 Turbo等大語(yǔ)言模型(LLM)生成有害的內(nèi)容而創(chuàng)建的“護(hù)欄”機(jī)制非常脆弱,形同虛設(shè)。

一群來(lái)自美國(guó)普林斯頓大學(xué)、弗吉尼亞理工大學(xué)、IBM研究院和斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家在近期對(duì)這些大語(yǔ)言模型進(jìn)行了測(cè)試,觀(guān)察所謂的安全措施是否能抵御企圖繞過(guò)它們的活動(dòng)。

他們發(fā)現(xiàn),適度的微調(diào)(即進(jìn)行額外的訓(xùn)練以便對(duì)模型進(jìn)行定制)可以挫敗人工智能的安全機(jī)制,這些機(jī)制原本旨在防止聊天機(jī)器人給出自殺策略、有害食譜或其他各種有問(wèn)題的內(nèi)容。

比如說(shuō),因此有人可以通過(guò)API注冊(cè)使用GPT-3.5 Turbo或云端的其他大語(yǔ)言模型,對(duì)其進(jìn)行一番微調(diào),以避開(kāi)大語(yǔ)言模型開(kāi)發(fā)商設(shè)置的各種保護(hù)機(jī)制,并將其用于惡作劇和破壞。

你還可以選擇像Meta的Llama 2(可以在本地運(yùn)行的模型)這樣的大語(yǔ)言模型,對(duì)其進(jìn)行微調(diào),使其偏離軌道,這種可能性始終存在。通過(guò)API進(jìn)行微調(diào)似乎更危險(xiǎn);可想而知,云托管模型周?chē)懈嗟淖o(hù)欄,但借助微調(diào)就有可能繞過(guò)護(hù)欄。

這些研究人員包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson,他們?cè)谧罱囊黄A(yù)印本論文中描述了研究工作,論文題目為《微調(diào)對(duì)齊的語(yǔ)言模型會(huì)危害安全,即使用戶(hù)沒(méi)有這個(gè)意圖》(參閱https://llm-tuning-safety.github.io/)。

作者們?cè)谡撐闹薪忉尩溃骸拔覀兊募t隊(duì)研究發(fā)現(xiàn),只需使用少數(shù)對(duì)抗性設(shè)計(jì)的訓(xùn)練示例進(jìn)行微調(diào),就可以危害大語(yǔ)言模型的安全對(duì)齊?!?/p>

Meta建議對(duì)公開(kāi)可用的模型Llama 2進(jìn)行了微調(diào)。

OpenAI雖然不對(duì)外提供模型權(quán)重,但通過(guò)其平臺(tái)網(wǎng)頁(yè)為其商業(yè)模型提供了微調(diào)選項(xiàng)。

研究人員補(bǔ)充道,他們的研究還表明,即使沒(méi)有惡意,護(hù)欄也可以被推倒,只需使用良性數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)就足以破壞安全控制措施。

圖1. 該屏幕截圖顯示了微調(diào)以繞過(guò)人工智能安全的示例圖1. 該屏幕截圖顯示了微調(diào)以繞過(guò)人工智能安全的示例

論文作者認(rèn)為,最近美國(guó)針對(duì)人工智能模型提議的立法框架側(cè)重于部署前的模型許可和測(cè)試。他們認(rèn)為,這種體制并未考慮到模型定制和微調(diào)。

此外,他們表示,基于商業(yè)API的模型似乎與開(kāi)放的模型一樣有可能造成危害;在制定法律規(guī)定和分配責(zé)任時(shí)應(yīng)該考慮到這一點(diǎn)。

他們?cè)谡撐闹姓f(shuō):“如果客戶(hù)定制像ChatGPT3.5這樣的模型,就有必要確保他們致力于安全機(jī)制,而不是僅僅依賴(lài)模型的原始安全性?!?/p>

這篇論文與卡內(nèi)基?梅隆大學(xué)、人工智能安全中心和博世人工智能中心的計(jì)算機(jī)科學(xué)家在7月份發(fā)布的類(lèi)似發(fā)現(xiàn)結(jié)果相一致。

幾位研究人員:Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson當(dāng)時(shí)發(fā)現(xiàn)了一種自動(dòng)生成對(duì)抗性文本字符串的方法,這些字符串可以附加到提交給模型的提示中。這些字符串破壞了人工智能的安全措施。

卡內(nèi)基?梅隆大學(xué)計(jì)算機(jī)科學(xué)副教授Kolter和卡內(nèi)基?梅隆大學(xué)博士生Zou在接受IT外媒的采訪(fǎng)時(shí)對(duì)來(lái)自普林斯頓大學(xué)、弗吉尼亞理工大學(xué)、IBM研究院和斯坦福大學(xué)的同行們所做的研究工作表示了贊賞。

Kolter認(rèn)為:“過(guò)去有一種觀(guān)念認(rèn)為,聊天機(jī)器人的商業(yè)API模型在某種程度上天生比開(kāi)源模型來(lái)得安全?!?/p>

被問(wèn)及僅僅將訓(xùn)練數(shù)據(jù)僅限于“安全”的數(shù)據(jù)是否是一種切實(shí)可行的做法時(shí),Kolter表示了懷疑,因?yàn)檫@也將限制模型的實(shí)用性。

他說(shuō):“如果你只使用安全數(shù)據(jù)訓(xùn)練模型,你就再也不能把它用作內(nèi)容審核過(guò)濾器,因?yàn)樗恢廊绾瘟炕泻?nèi)容。有一點(diǎn)非常清楚,那就是模型似乎確實(shí)表明需要更多的緩解技術(shù),以及需要對(duì)哪些緩解技術(shù)在實(shí)踐中實(shí)際發(fā)揮作用開(kāi)展更進(jìn)一步的研究。”

被問(wèn)及開(kāi)發(fā)針對(duì)有問(wèn)題的查詢(xún),作出“對(duì)不起,Dave,我不能那樣做”回答的軟件這種做法是否可取時(shí),Kolter表示這是超出他專(zhuān)業(yè)知識(shí)范疇的問(wèn)題,我們還沒(méi)有看到這種先發(fā)制人的行為被內(nèi)置到汽車(chē)或物理工具中。不過(guò)他承認(rèn),就大語(yǔ)言模型而言,由于這些人工智能模型可以大規(guī)模運(yùn)行,安全不容忽視。”

Zou表示,盡管他和合著者在對(duì)抗性提示方面有所發(fā)現(xiàn),盡管Qi等人在微調(diào)方面有所發(fā)現(xiàn),但他依然相信商業(yè)模型開(kāi)發(fā)商有一條出路。

他說(shuō):“這些部署在網(wǎng)上的大語(yǔ)言模型只是在一年半載之前才可供使用。所以安全訓(xùn)練和護(hù)欄這些話(huà)題仍然是活躍的研究領(lǐng)域??赡苡泻芏喾椒梢砸?guī)避人們所做的安全訓(xùn)練。但如果更多的人思考這些問(wèn)題,我認(rèn)為還是有望得到解決?!?/p>

OpenAI對(duì)此并沒(méi)有回應(yīng)置評(píng)請(qǐng)求。

文章翻譯自:https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若轉(zhuǎn)載,請(qǐng)注明原文地址

責(zé)任編輯:武曉燕 來(lái)源: 嘶吼網(wǎng)
相關(guān)推薦

2009-11-30 17:10:22

2010-03-24 09:16:18

2010-08-12 10:09:37

2019-08-06 07:30:14

防火墻網(wǎng)絡(luò)防護(hù)網(wǎng)絡(luò)安全

2009-03-13 13:52:56

2010-01-28 10:42:55

2010-08-12 10:23:27

2025-03-25 10:54:08

2017-11-29 08:36:13

Mac系統(tǒng)大漏洞

2017-10-20 12:33:46

2018-08-22 08:53:23

2012-08-27 09:34:29

Windows 8升級(jí)計(jì)劃

2025-02-21 11:23:59

2020-12-28 10:22:43

手機(jī)App青少年模式網(wǎng)絡(luò)

2020-12-18 10:04:54

AI 數(shù)據(jù)人工智能

2009-07-12 11:10:39

系統(tǒng)安全UNIX系統(tǒng)賬戶(hù)

2016-06-14 10:01:12

2011-03-25 10:50:23

2022-11-21 07:54:32

安全護(hù)欄應(yīng)用安全程序

2014-12-25 09:51:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)