自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

好奇心驅(qū)使的自動(dòng)紅隊(duì)測(cè)試:MIT學(xué)者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 原創(chuàng)

發(fā)布于 2024-4-15 15:00
瀏覽
0收藏

研究人員創(chuàng)建了一個(gè)奇特的機(jī)器學(xué)習(xí)模型,用于尋找更廣泛的提示,以訓(xùn)練聊天機(jī)器人避免產(chǎn)生仇恨或有害的輸出。


用戶可以要求ChatGPT編寫計(jì)算機(jī)程序或總結(jié)一篇文章,AI聊天機(jī)器人很可能能夠生成有用的代碼或?qū)懗龊侠淼恼?strong>然而,也有人可能會(huì)要求制造炸彈的說(shuō)明,而聊天機(jī)器人也可能會(huì)提供這些。

為了防止這種情況以及其他安全問(wèn)題,通常構(gòu)建大型語(yǔ)言模型的公司會(huì)使用一種稱為 “紅隊(duì)測(cè)試” 的過(guò)程進(jìn)行保障。人類測(cè)試團(tuán)隊(duì)編寫旨在觸發(fā)被測(cè)試模型中不安全或有毒文本的提示。這些提示用于教導(dǎo)聊天機(jī)器人避免此類回復(fù)。

但是,只有當(dāng)工程師知道要使用哪些有毒的提示時(shí),這種方法才能有效。如果人類測(cè)試人員錯(cuò)過(guò)了一些提示,鑒于可能性的多樣性,一個(gè)被視為安全的聊天機(jī)器人仍然可能生成不安全的回復(fù)。

好奇心驅(qū)使的自動(dòng)紅隊(duì)測(cè)試:MIT學(xué)者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

麻省理工學(xué)院(MIT)的Improbable AI實(shí)驗(yàn)室和MIT-IBM Watson AI實(shí)驗(yàn)室的研究人員利用機(jī)器學(xué)習(xí)改進(jìn)了紅隊(duì)測(cè)試。他們開(kāi)發(fā)了一種技術(shù),訓(xùn)練一個(gè)紅隊(duì)大型語(yǔ)言模型自動(dòng)生成多樣化的提示,觸發(fā)被測(cè)試聊天機(jī)器人更廣泛范圍的不良回復(fù)。

他們通過(guò)教導(dǎo)紅隊(duì)模型在編寫提示時(shí)保持好奇心,并專注于能夠從目標(biāo)模型中引發(fā)不良反應(yīng)的新穎提示來(lái)實(shí)現(xiàn)這一點(diǎn)。

該技術(shù)通過(guò)生成更多獨(dú)特的提示,引發(fā)了越來(lái)越有毒的回應(yīng),表現(xiàn)優(yōu)于人類測(cè)試人員和其他機(jī)器學(xué)習(xí)方法。他們的方法不僅顯著提高了與其他自動(dòng)化方法相比所測(cè)試輸入的覆蓋范圍,而且還可以從由人類專家構(gòu)建的具有保障措施的聊天機(jī)器人中激發(fā)出有毒的回復(fù)。

好奇心驅(qū)使的自動(dòng)紅隊(duì)測(cè)試:MIT學(xué)者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

“目前,每個(gè)大型語(yǔ)言模型都必須經(jīng)過(guò)非常漫長(zhǎng)的紅隊(duì)測(cè)試期來(lái)確保其安全性。如果我們希望在快速變化的環(huán)境中更新這些模型,這是不可持續(xù)的。我們的方法提供了一種更快、更有效的質(zhì)量保證方式,”Improbable AI實(shí)驗(yàn)室的電氣工程和計(jì)算機(jī)科學(xué)(EECS)研究生Zhang-Wei Hong說(shuō),他是一篇關(guān)于這種紅隊(duì)測(cè)試方法的論文的第一作者。

Zhang-Wei Hong的合著者包括EECS研究生Idan Shenfield, Tsun-Hsuan Wang, and Yung-Sung Chuang; 麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室的研究科學(xué)家Aldo Pareja 和 Akash Srivastava;計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)口語(yǔ)語(yǔ)言系統(tǒng)組的高級(jí)研究科學(xué)家James Glass;以及資深作者Pulkit Agrawal,他是Improbable AI實(shí)驗(yàn)室的主任,也是CSAIL的助理教授。這項(xiàng)研究將在國(guó)際學(xué)習(xí)表示會(huì)議上進(jìn)行展示。

自動(dòng)化紅隊(duì)測(cè)試

像那些驅(qū)動(dòng)AI聊天機(jī)器人的語(yǔ)言模型一樣,通常通過(guò)向它們展示來(lái)自數(shù)十億個(gè)公共網(wǎng)站的大量文本來(lái)訓(xùn)練它們。因此,它們不僅可以學(xué)會(huì)生成有毒的詞語(yǔ)或描述非法活動(dòng),還可能泄露它們可能收集到的個(gè)人信息。

人類紅隊(duì)測(cè)試的繁瑣和昂貴性,通常在生成足夠多樣化的提示以完全保護(hù)模型方面效果不佳,這促使研究人員使用機(jī)器學(xué)習(xí)自動(dòng)化該過(guò)程。

好奇心驅(qū)使的自動(dòng)紅隊(duì)測(cè)試:MIT學(xué)者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

這種技術(shù)通常使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練一個(gè)紅隊(duì)模型。這個(gè)試錯(cuò)過(guò)程獎(jiǎng)勵(lì)紅隊(duì)模型生成觸發(fā)被測(cè)試聊天機(jī)器人的有毒回應(yīng)的提示。

但是由于強(qiáng)化學(xué)習(xí)的工作方式,紅隊(duì)模型通常會(huì)不斷生成一些類似的高度有毒的提示,以最大化其獎(jiǎng)勵(lì)。

對(duì)于他們的強(qiáng)化學(xué)習(xí)方法,MIT的研究人員利用了一種稱為好奇心驅(qū)動(dòng)探索的技術(shù)。紅隊(duì)模型被激勵(lì)于對(duì)其生成的每個(gè)提示的后果保持好奇心,因此它會(huì)嘗試具有不同單詞、句子模式或含義的提示。

“如果紅隊(duì)模型已經(jīng)見(jiàn)過(guò)一個(gè)特定的提示,那么重現(xiàn)它將不會(huì)在紅隊(duì)模型中引發(fā)任何好奇心,因此它將被推動(dòng)創(chuàng)建新的提示,”張偉弘說(shuō)。

在訓(xùn)練過(guò)程中,紅隊(duì)模型生成一個(gè)提示并與聊天機(jī)器人進(jìn)行交互。聊天機(jī)器人做出回應(yīng),一個(gè)安全分類器評(píng)估其響應(yīng)的毒性,并根據(jù)該評(píng)分獎(jiǎng)勵(lì)紅隊(duì)模型。

獎(jiǎng)勵(lì)好奇心

紅隊(duì)模型的目標(biāo)是通過(guò)使用新穎的提示引發(fā)更加有毒的回應(yīng)來(lái)最大化其獎(jiǎng)勵(lì)。研究人員通過(guò)修改強(qiáng)化學(xué)習(xí)設(shè)置中的獎(jiǎng)勵(lì)信號(hào)來(lái)激發(fā)紅隊(duì)模型的好奇心。

首先,除了最大化毒性之外,他們還包括一個(gè)熵獎(jiǎng)勵(lì),鼓勵(lì)紅隊(duì)模型在探索不同提示時(shí)更加隨機(jī)。其次,為了讓代理機(jī)構(gòu)產(chǎn)生好奇心,他們包括兩個(gè)新穎獎(jiǎng)勵(lì)。一個(gè)是根據(jù)提示中單詞的相似性對(duì)模型進(jìn)行獎(jiǎng)勵(lì),另一個(gè)是根據(jù)語(yǔ)義相似性對(duì)模型進(jìn)行獎(jiǎng)勵(lì)(相似性較低會(huì)獲得更高的獎(jiǎng)勵(lì))。

為了防止紅隊(duì)模型生成隨機(jī)的、無(wú)意義的文本,這可能會(huì)欺騙分類器給出高毒性評(píng)分,研究人員還向訓(xùn)練目標(biāo)添加了自然語(yǔ)言獎(jiǎng)勵(lì)。

好奇心驅(qū)使的自動(dòng)紅隊(duì)測(cè)試:MIT學(xué)者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 -AI.x社區(qū)

有了這些補(bǔ)充,研究人員比較了他們的紅隊(duì)模型生成的響應(yīng)的毒性和多樣性與其他自動(dòng)化技術(shù)。他們的模型在這兩個(gè)指標(biāo)上表現(xiàn)優(yōu)于基線。

他們還使用他們的紅隊(duì)模型測(cè)試了一個(gè)經(jīng)過(guò)人類反饋微調(diào)的聊天機(jī)器人,以確保它不會(huì)給出有毒的回復(fù)。他們基于好奇心驅(qū)動(dòng)的方法能夠迅速生成196個(gè)提示,從而引發(fā)這個(gè)“安全”聊天機(jī)器人的有毒回應(yīng)。

“我們正在看到模型的激增,而這種激增預(yù)計(jì)只會(huì)增加。想象一下成千上萬(wàn)個(gè)模型,甚至更多,以及公司/實(shí)驗(yàn)室頻繁推出模型更新。這些模型將成為我們生活的重要組成部分,因此在發(fā)布供公眾消費(fèi)之前進(jìn)行驗(yàn)證至關(guān)重要。手動(dòng)驗(yàn)證模型根本不可擴(kuò)展,我們的工作是試圖減少人力投入,以確保更安全、可靠的人工智能未來(lái),”阿格拉瓦爾說(shuō)。

在未來(lái),研究人員希望使紅隊(duì)模型能夠生成更廣泛主題的提示。他們還希望探索使用大型語(yǔ)言模型作為毒性分類器。通過(guò)這種方式,用戶可以使用公司政策文件訓(xùn)練毒性分類器,以便紅隊(duì)模型可以測(cè)試聊天機(jī)器人是否違反了公司政策。

“如果你要發(fā)布一個(gè)新的AI模型,并擔(dān)心它是否會(huì)按預(yù)期行事,考慮使用好奇心驅(qū)動(dòng)的紅隊(duì)測(cè)試,”阿格拉瓦爾說(shuō)。

這項(xiàng)研究部分由現(xiàn)代汽車公司、廣達(dá)電腦公司、麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室、亞馬遜網(wǎng)絡(luò)服務(wù)MLRA研究資助、美國(guó)陸軍研究辦公室、美國(guó)國(guó)防高級(jí)研究計(jì)劃局機(jī)器常識(shí)計(jì)劃、美國(guó)海軍研究辦公室、美國(guó)空軍研究實(shí)驗(yàn)室和美國(guó)空軍人工智能加速器資助。


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線 

原文鏈接:??https://mp.weixin.qq.com/s/tgRBHcx6K0457_9JVL_O_Q??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-4-16 10:14:18修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦