自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

安全研究發(fā)現(xiàn)：AI安全護(hù)欄形同虛設(shè)

作者：布加迪 2023-10-26 07:52:11

安全應(yīng)用安全

“如果你只使用安全數(shù)據(jù)訓(xùn)練模型，你就再也不能把它用作內(nèi)容審核過(guò)濾器，因?yàn)樗恢廊绾瘟炕泻?nèi)容。有一點(diǎn)非常清楚，那就是模型似乎確實(shí)表明需要更多的緩解技術(shù)，以及需要對(duì)哪些緩解技術(shù)在實(shí)踐中實(shí)際發(fā)揮作用開(kāi)展更進(jìn)一步的研究?！?/div>

事實(shí)證明，為了防止OpenAI的GPT-3.5 Turbo等大語(yǔ)言模型（LLM）生成有害的內(nèi)容而創(chuàng)建的“護(hù)欄”機(jī)制非常脆弱，形同虛設(shè)。

一群來(lái)自美國(guó)普林斯頓大學(xué)、弗吉尼亞理工大學(xué)、IBM研究院和斯坦福大學(xué)的計(jì)算機(jī)科學(xué)家在近期對(duì)這些大語(yǔ)言模型進(jìn)行了測(cè)試，觀(guān)察所謂的安全措施是否能抵御企圖繞過(guò)它們的活動(dòng)。

他們發(fā)現(xiàn)，適度的微調(diào)（即進(jìn)行額外的訓(xùn)練以便對(duì)模型進(jìn)行定制）可以挫敗人工智能的安全機(jī)制，這些機(jī)制原本旨在防止聊天機(jī)器人給出自殺策略、有害食譜或其他各種有問(wèn)題的內(nèi)容。

比如說(shuō)，因此有人可以通過(guò)API注冊(cè)使用GPT-3.5 Turbo或云端的其他大語(yǔ)言模型，對(duì)其進(jìn)行一番微調(diào)，以避開(kāi)大語(yǔ)言模型開(kāi)發(fā)商設(shè)置的各種保護(hù)機(jī)制，并將其用于惡作劇和破壞。

你還可以選擇像Meta的Llama 2（可以在本地運(yùn)行的模型）這樣的大語(yǔ)言模型，對(duì)其進(jìn)行微調(diào)，使其偏離軌道，這種可能性始終存在。通過(guò)API進(jìn)行微調(diào)似乎更危險(xiǎn)；可想而知，云托管模型周?chē)懈嗟淖o(hù)欄，但借助微調(diào)就有可能繞過(guò)護(hù)欄。

這些研究人員包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson，他們?cè)谧罱囊黄A(yù)印本論文中描述了研究工作，論文題目為《微調(diào)對(duì)齊的語(yǔ)言模型會(huì)危害安全，即使用戶(hù)沒(méi)有這個(gè)意圖》（參閱https://llm-tuning-safety.github.io/）。

作者們?cè)谡撐闹薪忉尩溃骸拔覀兊募t隊(duì)研究發(fā)現(xiàn)，只需使用少數(shù)對(duì)抗性設(shè)計(jì)的訓(xùn)練示例進(jìn)行微調(diào)，就可以危害大語(yǔ)言模型的安全對(duì)齊?！?/p>

Meta建議對(duì)公開(kāi)可用的模型Llama 2進(jìn)行了微調(diào)。

OpenAI雖然不對(duì)外提供模型權(quán)重，但通過(guò)其平臺(tái)網(wǎng)頁(yè)為其商業(yè)模型提供了微調(diào)選項(xiàng)。

研究人員補(bǔ)充道，他們的研究還表明，即使沒(méi)有惡意，護(hù)欄也可以被推倒，只需使用良性數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)就足以破壞安全控制措施。

圖1. 該屏幕截圖顯示了微調(diào)以繞過(guò)人工智能安全的示例

論文作者認(rèn)為，最近美國(guó)針對(duì)人工智能模型提議的立法框架側(cè)重于部署前的模型許可和測(cè)試。他們認(rèn)為，這種體制并未考慮到模型定制和微調(diào)。

此外，他們表示，基于商業(yè)API的模型似乎與開(kāi)放的模型一樣有可能造成危害；在制定法律規(guī)定和分配責(zé)任時(shí)應(yīng)該考慮到這一點(diǎn)。

他們?cè)谡撐闹姓f(shuō)：“如果客戶(hù)定制像ChatGPT3.5這樣的模型，就有必要確保他們致力于安全機(jī)制，而不是僅僅依賴(lài)模型的原始安全性?！?/p>

這篇論文與卡內(nèi)基?梅隆大學(xué)、人工智能安全中心和博世人工智能中心的計(jì)算機(jī)科學(xué)家在7月份發(fā)布的類(lèi)似發(fā)現(xiàn)結(jié)果相一致。

幾位研究人員：Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson當(dāng)時(shí)發(fā)現(xiàn)了一種自動(dòng)生成對(duì)抗性文本字符串的方法，這些字符串可以附加到提交給模型的提示中。這些字符串破壞了人工智能的安全措施。

卡內(nèi)基?梅隆大學(xué)計(jì)算機(jī)科學(xué)副教授Kolter和卡內(nèi)基?梅隆大學(xué)博士生Zou在接受IT外媒的采訪(fǎng)時(shí)對(duì)來(lái)自普林斯頓大學(xué)、弗吉尼亞理工大學(xué)、IBM研究院和斯坦福大學(xué)的同行們所做的研究工作表示了贊賞。

Kolter認(rèn)為：“過(guò)去有一種觀(guān)念認(rèn)為，聊天機(jī)器人的商業(yè)API模型在某種程度上天生比開(kāi)源模型來(lái)得安全?！?/p>

被問(wèn)及僅僅將訓(xùn)練數(shù)據(jù)僅限于“安全”的數(shù)據(jù)是否是一種切實(shí)可行的做法時(shí)，Kolter表示了懷疑，因?yàn)檫@也將限制模型的實(shí)用性。

他說(shuō)：“如果你只使用安全數(shù)據(jù)訓(xùn)練模型，你就再也不能把它用作內(nèi)容審核過(guò)濾器，因?yàn)樗恢廊绾瘟炕泻?nèi)容。有一點(diǎn)非常清楚，那就是模型似乎確實(shí)表明需要更多的緩解技術(shù)，以及需要對(duì)哪些緩解技術(shù)在實(shí)踐中實(shí)際發(fā)揮作用開(kāi)展更進(jìn)一步的研究。”

被問(wèn)及開(kāi)發(fā)針對(duì)有問(wèn)題的查詢(xún)，作出“對(duì)不起，Dave，我不能那樣做”回答的軟件這種做法是否可取時(shí)，Kolter表示這是超出他專(zhuān)業(yè)知識(shí)范疇的問(wèn)題，我們還沒(méi)有看到這種先發(fā)制人的行為被內(nèi)置到汽車(chē)或物理工具中。不過(guò)他承認(rèn)，就大語(yǔ)言模型而言，由于這些人工智能模型可以大規(guī)模運(yùn)行，安全不容忽視。”

Zou表示，盡管他和合著者在對(duì)抗性提示方面有所發(fā)現(xiàn)，盡管Qi等人在微調(diào)方面有所發(fā)現(xiàn)，但他依然相信商業(yè)模型開(kāi)發(fā)商有一條出路。

他說(shuō)：“這些部署在網(wǎng)上的大語(yǔ)言模型只是在一年半載之前才可供使用。所以安全訓(xùn)練和護(hù)欄這些話(huà)題仍然是活躍的研究領(lǐng)域?？赡苡泻芏喾椒梢砸?guī)避人們所做的安全訓(xùn)練。但如果更多的人思考這些問(wèn)題，我認(rèn)為還是有望得到解決?！?/p>

OpenAI對(duì)此并沒(méi)有回應(yīng)置評(píng)請(qǐng)求。

文章翻譯自：https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若轉(zhuǎn)載，請(qǐng)注明原文地址

責(zé)任編輯：武曉燕來(lái)源：嘶吼網(wǎng)

AI 安全護(hù)欄

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)