prompt攻防戰(zhàn)!哥倫比亞大學(xué)提出BPE造詞法,可繞過(guò)審核機(jī)制,DALL-E 2已中招
?2022年什么最值錢(qián)?prompt!
基于文本的圖像生成(text-guided image generation)模型,如DALL-E 2大火后,網(wǎng)友們也是樂(lè)此不疲地生成各種搞怪圖像。
但想要讓模型生成清晰、可用的目標(biāo)圖像,必須得掌握正確的「咒語(yǔ)」才行,也就是prompt須得精心設(shè)計(jì)之后才能用,甚至還有人架設(shè)網(wǎng)站賣(mài)起了prompt
要是prompt是邪惡咒語(yǔ),那生成的圖片可能會(huì)「涉嫌違規(guī)」。
雖然DALL-E 2發(fā)布之初就設(shè)立了各種機(jī)制來(lái)避免模型被濫用,比如從訓(xùn)練數(shù)據(jù)中刪除暴力、仇恨或少兒不宜的圖像;使用技術(shù)手段防止生成人臉的超寫(xiě)實(shí)照片,尤其是一些公眾人物。
在生成階段,DALL-E 2還設(shè)置了一個(gè)prompt過(guò)濾器,不允許用戶(hù)輸入的提示詞中包含暴力、成人或政治內(nèi)容。
但最近哥倫比亞大學(xué)的研究人員發(fā)現(xiàn),可以在prompt添加一些看似胡言亂語(yǔ)的單詞,使得過(guò)濾器無(wú)法識(shí)別出詞義,但AI系統(tǒng)最終還是能返回有意義的生成圖像。
論文鏈接:https://arxiv.org/pdf/2208.04135.pdf
作者提出兩種構(gòu)造prompt的方法,第一種稱(chēng)之為macaronic prompting,其中macaronic一詞的原意指多種語(yǔ)言的單詞進(jìn)行混合后生成新的詞匯,比如說(shuō)在巴基斯坦,烏爾都語(yǔ)和英語(yǔ)的混合詞就很常見(jiàn)。
而DALL-E 2的訓(xùn)練語(yǔ)料通常是從互聯(lián)網(wǎng)上收集的數(shù)據(jù),文本和圖像之間建立概念聯(lián)系的過(guò)程中多多少少都會(huì)涉及到多語(yǔ)言學(xué)習(xí),使得訓(xùn)練后的模型具有同時(shí)識(shí)別多語(yǔ)言概念的能力。
所以可以利用多語(yǔ)言組合成新詞,繞過(guò)人類(lèi)設(shè)計(jì)的prompt過(guò)濾器,達(dá)到對(duì)抗攻擊的目的。
比如鳥(niǎo)(birds)這個(gè)詞在德語(yǔ)里是V?gel,用意大利語(yǔ)是uccelli,用法語(yǔ)是oiseaux,西班牙語(yǔ)是pájaros,在CLIP模型使用byte pair encoding(BPE)算法對(duì)輸入提示句進(jìn)行分詞后,可以拆分成多個(gè)subword。
把subword重新排列組合成新詞后,比如輸入uccoisegeljaros,DALL-E 2仍然能夠生成鳥(niǎo)類(lèi)的圖像,但人類(lèi)卻完全無(wú)法讀懂這個(gè)詞的含義。
甚至不嚴(yán)格遵守subword的邊界,比如再換成voiscellpajaraux和oisvogajaro,模型仍能生成鳥(niǎo)類(lèi)圖。
除了鳥(niǎo)類(lèi),研究人員發(fā)現(xiàn)組合多語(yǔ)言這個(gè)方法在不同的圖像域都能取得不錯(cuò)的效果,圖像生成結(jié)果展現(xiàn)出相當(dāng)高的一致性。
從動(dòng)物界到風(fēng)景、交通工具、場(chǎng)景、情緒的相關(guān)圖像的生成都不在話(huà)下。
雖然不同的文本指導(dǎo)的圖像生成模型有不同的架構(gòu)、訓(xùn)練數(shù)據(jù)和分詞方法,但原則上,macaronic提示可以應(yīng)用于任何在多語(yǔ)言數(shù)據(jù)上訓(xùn)練的模型,比如在DALL-E mini模型中也能發(fā)現(xiàn)相同的效果。
值得注意的是,盡管名字相似,但DALL-E 2和DALL-E mini是相當(dāng)不同的。它們有不同的架構(gòu)(DALL-E mini沒(méi)有使用擴(kuò)散模型),在不同的數(shù)據(jù)集上訓(xùn)練,并使用不同的分詞程序(DALL-E mini使用BART分詞器,可能會(huì)以不同于CLIP分詞器的方式分割單詞)。
盡管有這些差異,macaronic提示仍然能夠在兩種模型上都能發(fā)揮作用,背后的原理還需要再深入研究。
但并非所有的macaronic提示都能在不同的模型間適當(dāng)?shù)剞D(zhuǎn)移,比如雖然farpapmaripterling按照預(yù)期產(chǎn)生了DALL-E 2的蝴蝶圖像,但在DALL-E mini中生成的卻是蘑菇圖像。
研究人員推測(cè),可能在更大的數(shù)據(jù)集上訓(xùn)練出來(lái)的更大的模型更容易受到macaronic提示的影響,因?yàn)樗鼈冊(cè)诓煌Z(yǔ)言的子詞單元和視覺(jué)概念之間學(xué)習(xí)到了更強(qiáng)的關(guān)聯(lián)關(guān)系。
這可能可以解釋為什么一些在DALL-E 2中產(chǎn)生預(yù)期結(jié)果的macaronic提示在DALL-E mini中不起作用,卻幾乎找不到相反的例子。
這種趨勢(shì)可能不是什么好消息,因?yàn)榇笠?guī)模模型可能更容易受到使用macaronic提示的對(duì)抗性攻擊。
除了將單個(gè)合成詞作為prompt以外,合成詞也可以嵌入到英語(yǔ)句法中組成句子,生成圖像的效果和原始詞匯相似。
并且合成詞還有一個(gè)優(yōu)勢(shì),就是組合起來(lái)可以產(chǎn)生更具體和復(fù)雜的場(chǎng)景。雖然復(fù)雜的macaronic提示需要符合英語(yǔ)的句法結(jié)構(gòu),從而使生成結(jié)果比使用合成字符串的提示更容易解釋?zhuān)珎鬟_(dá)給模型的信息仍然相對(duì)模糊。
對(duì)于大多數(shù)人來(lái)說(shuō),如果沒(méi)有事先接觸過(guò)macaronic提示和用于雜交的語(yǔ)言知識(shí),要猜出用提示語(yǔ)An eidelucertlagarzard eating a maripofarterling會(huì)產(chǎn)生什么樣的場(chǎng)景可能是很困難的。
此外,這種成分復(fù)雜的提示不會(huì)觸發(fā)基于黑名單的內(nèi)容過(guò)濾器,盡管它們使用的是普通英語(yǔ)單詞,只要使用macaronic方法對(duì)受審查的概念進(jìn)行充分「加密」即可。
macaronic提示也不一定非在多語(yǔ)言中組合subword,在單一語(yǔ)言?xún)?nèi)進(jìn)行合成也能產(chǎn)生有效的視覺(jué)概念,不過(guò)熟悉英語(yǔ)的人可能會(huì)猜測(cè)到該字符串的預(yù)期效果,比如happeerful這個(gè)詞很容易猜到是happy和cheerful的合成詞。
第二種方法稱(chēng)為Evocative Prompting,和macaronic不同的是,evocative不需要從現(xiàn)有的詞中組合觸發(fā)視覺(jué)聯(lián)想,而是由特定領(lǐng)域中某些字母組合的統(tǒng)計(jì)學(xué)意義進(jìn)行「喚起」,創(chuàng)造出一個(gè)新詞。
參照生物學(xué)分類(lèi)里的二名法(Binomial Nomenclature),可以根據(jù)「屬名」和「種加詞」來(lái)創(chuàng)造一個(gè)新的「?jìng)卫≡~」,DALL-E就能夠根據(jù)相應(yīng)的主題生成對(duì)應(yīng)的物種。
根據(jù)藥物的命名規(guī)律也可以生成新的藥物圖片。
evocative提示也可以應(yīng)用于語(yǔ)言的特定特征和與相應(yīng)語(yǔ)言的地點(diǎn)和文化有關(guān)的視覺(jué)特征之間的關(guān)聯(lián)。比如根據(jù)建筑名稱(chēng),模型就可以推斷是哪個(gè)國(guó)家的風(fēng)格,如Woldenbüchel生成的場(chǎng)景看起來(lái)像德國(guó)或奧地利村莊;Valtorigiano看起來(lái)像意大利古鎮(zhèn);Beaussoncour則像法國(guó)的歷史城鎮(zhèn)。
不過(guò)也不一定都是建筑物,比如最后一個(gè)用DALL-E mini生成的圖像則是17世紀(jì)的法國(guó)肖像,而非法國(guó)的地點(diǎn),但與法國(guó)文化的聯(lián)系還是被保留了下來(lái)。
evocative提示也可以與詞匯雜交結(jié)合起來(lái),以獲得對(duì)輸出的具體特征的更多控制。
在偽拉丁命名法中引入英語(yǔ)詞塊會(huì)使DALL-E 2生成具有特定屬性的動(dòng)物圖像,比如提示詞scariosus ferocianensis將可怕(scary)和兇猛(ferocious)與偽拉丁詞條結(jié)合起來(lái),可以生成傳統(tǒng)上可怕的「爬行動(dòng)物」的圖像,如蝎子。
cutiosus adorablensis將可愛(ài)(cute)和adorable與偽拉丁詞條結(jié)合起來(lái),能夠生成傳統(tǒng)意義上可愛(ài)的哺乳動(dòng)物的圖像;watosus swimensis將水(water)和游泳(swimming)與偽拉丁詞綴結(jié)合起來(lái),能夠生成水生動(dòng)物的圖像;flyosus wingensis將飛行(fly)和有翼(winged)與偽拉丁詞綴結(jié)合起來(lái)能夠生成飛行昆蟲(chóng)的圖像。
從原理上來(lái)看,macaronic方法生成的詞匯可以提供一種簡(jiǎn)單的、看似可靠的方法來(lái)繞過(guò)prompt過(guò)濾器,別有用心者可以用來(lái)生成有害的、攻擊性的、非法的或其他敏感的內(nèi)容,包括暴力、仇恨、種族主義、性別歧視或色情圖片,以及可能侵犯知識(shí)產(chǎn)權(quán)或描述真實(shí)個(gè)人的圖片。
雖然提供圖像生成服務(wù)的公司已經(jīng)根據(jù)其內(nèi)容政策,在防止生成這類(lèi)輸出方面做出了大量的努力,但macaronic提示仍然能夠?qū)ι虡I(yè)圖像生成系統(tǒng)的安全協(xié)議的造成巨大威脅。
而evocative提示帶來(lái)的威脅不那么明顯,因?yàn)樗鼪](méi)有提供一種十分有效且可靠的方法來(lái)觸發(fā)特定視覺(jué)聯(lián)想的字符串,它大多局限于與單詞或語(yǔ)言的廣泛形態(tài)特征有關(guān)的概念的模糊聯(lián)想。
總的來(lái)說(shuō),macaronic的提示比evocative提示的可操作性更強(qiáng),基于關(guān)鍵詞的黑名單在此類(lèi)模型中的內(nèi)容過(guò)濾不足以抵御攻擊。
難道DALL-E 2要開(kāi)始黑化了??