自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

prompt攻防戰(zhàn)!哥倫比亞大學(xué)提出BPE造詞法,可繞過(guò)審核機(jī)制,DALL-E 2已中招

人工智能 新聞
最近哥倫比亞大學(xué)的研究人員發(fā)現(xiàn)用多語(yǔ)言的subword組合出的新詞,在DALL-E 2系統(tǒng)中仍然能生成預(yù)期圖像,或可繞過(guò)審查系統(tǒng)!

?2022年什么最值錢(qián)?prompt!

基于文本的圖像生成(text-guided image generation)模型,如DALL-E 2大火后,網(wǎng)友們也是樂(lè)此不疲地生成各種搞怪圖像。

圖片

 但想要讓模型生成清晰、可用的目標(biāo)圖像,必須得掌握正確的「咒語(yǔ)」才行,也就是prompt須得精心設(shè)計(jì)之后才能用,甚至還有人架設(shè)網(wǎng)站賣(mài)起了prompt

圖片

要是prompt是邪惡咒語(yǔ),那生成的圖片可能會(huì)「涉嫌違規(guī)」。

雖然DALL-E 2發(fā)布之初就設(shè)立了各種機(jī)制來(lái)避免模型被濫用,比如從訓(xùn)練數(shù)據(jù)中刪除暴力、仇恨或少兒不宜的圖像;使用技術(shù)手段防止生成人臉的超寫(xiě)實(shí)照片,尤其是一些公眾人物。

在生成階段,DALL-E 2還設(shè)置了一個(gè)prompt過(guò)濾器,不允許用戶(hù)輸入的提示詞中包含暴力、成人或政治內(nèi)容。

但最近哥倫比亞大學(xué)的研究人員發(fā)現(xiàn),可以在prompt添加一些看似胡言亂語(yǔ)的單詞,使得過(guò)濾器無(wú)法識(shí)別出詞義,但AI系統(tǒng)最終還是能返回有意義的生成圖像。

圖片

論文鏈接:https://arxiv.org/pdf/2208.04135.pdf

作者提出兩種構(gòu)造prompt的方法,第一種稱(chēng)之為macaronic prompting,其中macaronic一詞的原意指多種語(yǔ)言的單詞進(jìn)行混合后生成新的詞匯,比如說(shuō)在巴基斯坦,烏爾都語(yǔ)和英語(yǔ)的混合詞就很常見(jiàn)。

而DALL-E 2的訓(xùn)練語(yǔ)料通常是從互聯(lián)網(wǎng)上收集的數(shù)據(jù),文本和圖像之間建立概念聯(lián)系的過(guò)程中多多少少都會(huì)涉及到多語(yǔ)言學(xué)習(xí),使得訓(xùn)練后的模型具有同時(shí)識(shí)別多語(yǔ)言概念的能力。

所以可以利用多語(yǔ)言組合成新詞,繞過(guò)人類(lèi)設(shè)計(jì)的prompt過(guò)濾器,達(dá)到對(duì)抗攻擊的目的。

比如鳥(niǎo)(birds)這個(gè)詞在德語(yǔ)里是V?gel,用意大利語(yǔ)是uccelli,用法語(yǔ)是oiseaux,西班牙語(yǔ)是pájaros,在CLIP模型使用byte pair encoding(BPE)算法對(duì)輸入提示句進(jìn)行分詞后,可以拆分成多個(gè)subword。

圖片

 把subword重新排列組合成新詞后,比如輸入uccoisegeljaros,DALL-E 2仍然能夠生成鳥(niǎo)類(lèi)的圖像,但人類(lèi)卻完全無(wú)法讀懂這個(gè)詞的含義。

圖片

 甚至不嚴(yán)格遵守subword的邊界,比如再換成voiscellpajaraux和oisvogajaro,模型仍能生成鳥(niǎo)類(lèi)圖。

圖片

 除了鳥(niǎo)類(lèi),研究人員發(fā)現(xiàn)組合多語(yǔ)言這個(gè)方法在不同的圖像域都能取得不錯(cuò)的效果,圖像生成結(jié)果展現(xiàn)出相當(dāng)高的一致性。

圖片

 從動(dòng)物界到風(fēng)景、交通工具、場(chǎng)景、情緒的相關(guān)圖像的生成都不在話(huà)下。

圖片

 雖然不同的文本指導(dǎo)的圖像生成模型有不同的架構(gòu)、訓(xùn)練數(shù)據(jù)和分詞方法,但原則上,macaronic提示可以應(yīng)用于任何在多語(yǔ)言數(shù)據(jù)上訓(xùn)練的模型,比如在DALL-E mini模型中也能發(fā)現(xiàn)相同的效果。

值得注意的是,盡管名字相似,但DALL-E 2和DALL-E mini是相當(dāng)不同的。它們有不同的架構(gòu)(DALL-E mini沒(méi)有使用擴(kuò)散模型),在不同的數(shù)據(jù)集上訓(xùn)練,并使用不同的分詞程序(DALL-E mini使用BART分詞器,可能會(huì)以不同于CLIP分詞器的方式分割單詞)。

盡管有這些差異,macaronic提示仍然能夠在兩種模型上都能發(fā)揮作用,背后的原理還需要再深入研究。

但并非所有的macaronic提示都能在不同的模型間適當(dāng)?shù)剞D(zhuǎn)移,比如雖然farpapmaripterling按照預(yù)期產(chǎn)生了DALL-E 2的蝴蝶圖像,但在DALL-E mini中生成的卻是蘑菇圖像。

 

 研究人員推測(cè),可能在更大的數(shù)據(jù)集上訓(xùn)練出來(lái)的更大的模型更容易受到macaronic提示的影響,因?yàn)樗鼈冊(cè)诓煌Z(yǔ)言的子詞單元和視覺(jué)概念之間學(xué)習(xí)到了更強(qiáng)的關(guān)聯(lián)關(guān)系。

這可能可以解釋為什么一些在DALL-E 2中產(chǎn)生預(yù)期結(jié)果的macaronic提示在DALL-E mini中不起作用,卻幾乎找不到相反的例子。

這種趨勢(shì)可能不是什么好消息,因?yàn)榇笠?guī)模模型可能更容易受到使用macaronic提示的對(duì)抗性攻擊。

除了將單個(gè)合成詞作為prompt以外,合成詞也可以嵌入到英語(yǔ)句法中組成句子,生成圖像的效果和原始詞匯相似。

圖片

 并且合成詞還有一個(gè)優(yōu)勢(shì),就是組合起來(lái)可以產(chǎn)生更具體和復(fù)雜的場(chǎng)景。雖然復(fù)雜的macaronic提示需要符合英語(yǔ)的句法結(jié)構(gòu),從而使生成結(jié)果比使用合成字符串的提示更容易解釋?zhuān)珎鬟_(dá)給模型的信息仍然相對(duì)模糊。

對(duì)于大多數(shù)人來(lái)說(shuō),如果沒(méi)有事先接觸過(guò)macaronic提示和用于雜交的語(yǔ)言知識(shí),要猜出用提示語(yǔ)An eidelucertlagarzard eating a maripofarterling會(huì)產(chǎn)生什么樣的場(chǎng)景可能是很困難的。

此外,這種成分復(fù)雜的提示不會(huì)觸發(fā)基于黑名單的內(nèi)容過(guò)濾器,盡管它們使用的是普通英語(yǔ)單詞,只要使用macaronic方法對(duì)受審查的概念進(jìn)行充分「加密」即可。

macaronic提示也不一定非在多語(yǔ)言中組合subword,在單一語(yǔ)言?xún)?nèi)進(jìn)行合成也能產(chǎn)生有效的視覺(jué)概念,不過(guò)熟悉英語(yǔ)的人可能會(huì)猜測(cè)到該字符串的預(yù)期效果,比如happeerful這個(gè)詞很容易猜到是happy和cheerful的合成詞。

圖片

 第二種方法稱(chēng)為Evocative Prompting,和macaronic不同的是,evocative不需要從現(xiàn)有的詞中組合觸發(fā)視覺(jué)聯(lián)想,而是由特定領(lǐng)域中某些字母組合的統(tǒng)計(jì)學(xué)意義進(jìn)行「喚起」,創(chuàng)造出一個(gè)新詞。

參照生物學(xué)分類(lèi)里的二名法(Binomial Nomenclature),可以根據(jù)「屬名」和「種加詞」來(lái)創(chuàng)造一個(gè)新的「?jìng)卫≡~」,DALL-E就能夠根據(jù)相應(yīng)的主題生成對(duì)應(yīng)的物種。

圖片

 根據(jù)藥物的命名規(guī)律也可以生成新的藥物圖片。

圖片

 evocative提示也可以應(yīng)用于語(yǔ)言的特定特征和與相應(yīng)語(yǔ)言的地點(diǎn)和文化有關(guān)的視覺(jué)特征之間的關(guān)聯(lián)。比如根據(jù)建筑名稱(chēng),模型就可以推斷是哪個(gè)國(guó)家的風(fēng)格,如Woldenbüchel生成的場(chǎng)景看起來(lái)像德國(guó)或奧地利村莊;Valtorigiano看起來(lái)像意大利古鎮(zhèn);Beaussoncour則像法國(guó)的歷史城鎮(zhèn)。

圖片

 不過(guò)也不一定都是建筑物,比如最后一個(gè)用DALL-E mini生成的圖像則是17世紀(jì)的法國(guó)肖像,而非法國(guó)的地點(diǎn),但與法國(guó)文化的聯(lián)系還是被保留了下來(lái)。

evocative提示也可以與詞匯雜交結(jié)合起來(lái),以獲得對(duì)輸出的具體特征的更多控制。

在偽拉丁命名法中引入英語(yǔ)詞塊會(huì)使DALL-E 2生成具有特定屬性的動(dòng)物圖像,比如提示詞scariosus ferocianensis將可怕(scary)和兇猛(ferocious)與偽拉丁詞條結(jié)合起來(lái),可以生成傳統(tǒng)上可怕的「爬行動(dòng)物」的圖像,如蝎子。

圖片

 cutiosus adorablensis將可愛(ài)(cute)和adorable與偽拉丁詞條結(jié)合起來(lái),能夠生成傳統(tǒng)意義上可愛(ài)的哺乳動(dòng)物的圖像;watosus swimensis將水(water)和游泳(swimming)與偽拉丁詞綴結(jié)合起來(lái),能夠生成水生動(dòng)物的圖像;flyosus wingensis將飛行(fly)和有翼(winged)與偽拉丁詞綴結(jié)合起來(lái)能夠生成飛行昆蟲(chóng)的圖像。

從原理上來(lái)看,macaronic方法生成的詞匯可以提供一種簡(jiǎn)單的、看似可靠的方法來(lái)繞過(guò)prompt過(guò)濾器,別有用心者可以用來(lái)生成有害的、攻擊性的、非法的或其他敏感的內(nèi)容,包括暴力、仇恨、種族主義、性別歧視或色情圖片,以及可能侵犯知識(shí)產(chǎn)權(quán)或描述真實(shí)個(gè)人的圖片。

雖然提供圖像生成服務(wù)的公司已經(jīng)根據(jù)其內(nèi)容政策,在防止生成這類(lèi)輸出方面做出了大量的努力,但macaronic提示仍然能夠?qū)ι虡I(yè)圖像生成系統(tǒng)的安全協(xié)議的造成巨大威脅。

而evocative提示帶來(lái)的威脅不那么明顯,因?yàn)樗鼪](méi)有提供一種十分有效且可靠的方法來(lái)觸發(fā)特定視覺(jué)聯(lián)想的字符串,它大多局限于與單詞或語(yǔ)言的廣泛形態(tài)特征有關(guān)的概念的模糊聯(lián)想。

總的來(lái)說(shuō),macaronic的提示比evocative提示的可操作性更強(qiáng),基于關(guān)鍵詞的黑名單在此類(lèi)模型中的內(nèi)容過(guò)濾不足以抵御攻擊。

難道DALL-E 2要開(kāi)始黑化了??

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2009-08-20 16:45:32

2012-10-25 13:54:03

云安全云計(jì)算

2012-09-21 10:55:48

2011-01-17 23:41:13

2020-05-09 23:00:06

停車(chē)廢物管理物聯(lián)網(wǎng)

2011-01-07 10:04:50

2009-05-27 15:11:24

2019-09-02 14:45:33

2017-09-22 23:25:59

哥倫比亞

2021-10-25 14:09:03

加密貨幣金融工具

2013-01-07 13:01:28

2010-09-28 14:10:21

2022-08-31 08:54:57

AIDALL-E 2OpenAI

2013-01-28 14:16:59

2014-10-13 13:20:27

2023-07-10 15:22:29

OpenAIGPT-3.5

2012-11-15 09:32:35

雙十一淘寶DDoS

2009-02-10 10:20:06

2018-11-12 00:35:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)