自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI生圖太詭異？馬里蘭&NYU合力解剖神經(jīng)網(wǎng)絡(luò)，CLIP模型神經(jīng)元形似骷髏頭

作者：新智元 2023-11-03 12:56:00

人工智能新聞

神經(jīng)網(wǎng)絡(luò)黑盒怎么解釋？馬里蘭大學(xué)和NYU研究人員開啟了新的嘗試。

AI黑盒如何才能解？

神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練的時，會有些ReLU節(jié)點「死亡」，也就是永遠(yuǎn)輸出0，不再有用。

它們往往會被被刪除或者忽略。

恰好趕上了模糊了生與死的界限的節(jié)日——萬圣節(jié)，所以這是探索那些「死節(jié)點」的好時機。

對于大多數(shù)圖像生成模型來說，會輸出正面的圖像。但是優(yōu)化算法，可以讓模型生成更多詭異、恐怖的圖像。

就拿CLIP模型來說，可以衡量一段文本和一張圖片的匹配程度。

給定一段描述怪誕場景的文本，使用優(yōu)化算法通過最小化CLIP的損失，來生成一張與這段文本匹配的、嚇人的圖片。

當(dāng)你不斷探索損失函數(shù)的最深最恐怖的區(qū)域，就像進(jìn)入了一個瘋狂的狀態(tài)。

就會發(fā)現(xiàn)這些詭異圖片超乎想象。

最重要的是，它們僅僅是通過CLIP模型優(yōu)化生成，并沒有借助其他的模型。

優(yōu)化算法，可以讓我們對神經(jīng)網(wǎng)絡(luò)進(jìn)行「解剖」，特征可視化（feature visualization）可以找到一個最大激活單個神經(jīng)元的圖像。

吳恩達(dá)和Jeff Dean曾在2012年就ImageNet圖像分類模型上做過這樣的實驗，并發(fā)現(xiàn)了一個對黑色貓有響應(yīng)的神經(jīng)元。

對此，來自馬里蘭大學(xué)和NYU的研究人員使用「特征可視化」來剖析CLIP模型，發(fā)現(xiàn)了一個非常令人不安的神經(jīng)元：

完全是一個類似骷髏頭的圖像。

但它真的是「骷髏頭神經(jīng)元」嗎？顯然不是，實際上它代表的是某種更加神秘、難以解釋的模式。

究竟怎么回事？

模型反轉(zhuǎn)，卷積網(wǎng)ViT不適用

想要解釋AI生成的圖像，需要用到的一種手段——模型反轉(zhuǎn)（model inversion）。

「模型反轉(zhuǎn)」是可視化和解釋神經(jīng)架構(gòu)內(nèi)部行為、理解模型學(xué)到的內(nèi)容，以及解釋模型行為的重要工具。

一般來說，「模型反轉(zhuǎn)」通常尋找可以激活網(wǎng)絡(luò)中某個特征的輸入（即特征可視化），或者產(chǎn)生某個特定類別的高輸出響應(yīng)（即類別反轉(zhuǎn)）。

然鵝，神經(jīng)網(wǎng)絡(luò)架構(gòu)不斷發(fā)展，為現(xiàn)有的「模型反轉(zhuǎn)」方案帶來了重大挑戰(zhàn)。

卷積網(wǎng)長期以來，一直是CV任務(wù)的默認(rèn)方法，也是模型反轉(zhuǎn)領(lǐng)域研究的重點。

隨著Vision Transformer（ViT）、MLP-Mixer、ResMLP等其他架構(gòu)的出現(xiàn)，大多數(shù)現(xiàn)有的模型反轉(zhuǎn)方法不能很好地應(yīng)用到這些新結(jié)構(gòu)上。

總而言之，當(dāng)前需要研發(fā)可以應(yīng)用到新結(jié)構(gòu)上的模型反轉(zhuǎn)方法。

對此，馬里蘭和NYU研究人員將關(guān)注點放在了「類反轉(zhuǎn)」（class inversion）。

目標(biāo)是，在不知道模型訓(xùn)練數(shù)據(jù)的情況下，找到可以最大化某個類別輸出分?jǐn)?shù)的可解釋圖像。

類反轉(zhuǎn)已在模型解釋、圖像合成等任務(wù)中應(yīng)用，但是存在幾個關(guān)鍵缺陷：生成圖像質(zhì)量對正則化權(quán)重高度敏感；需要批標(biāo)準(zhǔn)化參數(shù)的方法不適用于新興架構(gòu)。

研究人員再此提出了基于數(shù)據(jù)增強的類反轉(zhuǎn)方法——Plug-In Inversion（PII）。

論文地址：https://arxiv.org/pdf/2201.12961.pdf

PII的好處在于不需要明確的正則化，因此不需要為每個模型或圖像實例調(diào)節(jié)超參數(shù)。

實驗結(jié)果證明，PII可以使用相同的架構(gòu)無關(guān)方法和超參數(shù)反轉(zhuǎn)CNN、ViT和MLP架構(gòu)。

全新類反轉(zhuǎn)——PII

此前，關(guān)于類反轉(zhuǎn)的研究，常常使用抖動之類的增強功能。

它會在水平和垂直方向上隨機移動圖像，以及水平Ips來提高反轉(zhuǎn)圖像的質(zhì)量。

在最新研究中，作者探討了有利于反轉(zhuǎn)的其他增強，然后再描述如何將它們組合起來形成PII算法。

限制搜索空間

作者考慮2種增強方法來提高倒置圖像的空間質(zhì)量——居中（Centering）和縮放（Zoom）。

這些方法的設(shè)計基于這樣的假設(shè)：限制輸入優(yōu)化空間，可以得到更好的特征布局。

兩種方法都從小尺寸開始，逐步擴大空間，迫使放置語義內(nèi)容在中心，目的是生成更具解釋性和可識別性的反轉(zhuǎn)圖像。

圖1和圖2分別顯示了，居中和縮放過程中每個步驟測圖像狀態(tài)。

ColorShift增強

之前展示的反轉(zhuǎn)圖像，顏色看起來很不自然。

這是由于研究人員現(xiàn)在提出的一種全新增強方法——ColorShift造成的。

ColorShift是隨機擾動每個顏色通道的平均值和方差，改變圖像顏色，目的是生成更豐富多樣的反轉(zhuǎn)圖像顏色。

下圖，作者可視化了ColorShift的穩(wěn)定效果。

集成

集成是一種成熟的工具，經(jīng)常用于從增強推理到數(shù)據(jù)集安全等應(yīng)用程序。

研究人員發(fā)現(xiàn)，優(yōu)化由同一圖像的不同ColorShift組成的整體，可以同時提高反轉(zhuǎn)方法的性能。

圖4顯示了與ColorShift一起應(yīng)用集成的結(jié)果。

可以觀察，到較大的集成似乎給出了輕微的改進(jìn)，但即使是大小為1或2的集成，也能產(chǎn)生令人滿意的結(jié)果。

這對于像ViT這樣的模型很重要，因為可用的GPU內(nèi)存限制了該集合的可能大小。

到這里，你就明白什么是PII了，即結(jié)合了抖動、集成、ColorShift、居中和縮放技術(shù)，并將結(jié)果命名為「插件反轉(zhuǎn)」。

它可以應(yīng)用到任何可微分模型（包括ViT和MLP），只需要一組固定超參數(shù)。

多種網(wǎng)絡(luò)架構(gòu)適用

那么，PII效果究竟如何？

實驗結(jié)果發(fā)現(xiàn)，PII可以應(yīng)用于不同的模型。需要強調(diào)是的是，研究者在所有情況下都對PII參數(shù)使用相同的設(shè)置。

圖6中，描繪了通過反轉(zhuǎn)各種架構(gòu)的Volcano類生成的圖像，包括CNN、ViT和MLP的示例。

雖然不同神經(jīng)網(wǎng)絡(luò)的圖像質(zhì)量有所不同，但它們都包含可區(qū)分，且位置恰當(dāng)?shù)囊曈X信息。

在圖7中，研究人員還顯示了PII從幾個任意ImageNet類的每種主要架構(gòu)類型的代表生成的圖像。

可以看到，每行有獨特視覺風(fēng)格，說明模型反轉(zhuǎn)可以用來理解不同模型的學(xué)習(xí)信息。

在圖8中，作者使用PII來反轉(zhuǎn)在ImageNet上訓(xùn)練，并在CIFAR-100上進(jìn)行微調(diào)的ViT模型。

圖9顯示了在CIFAR-10上微調(diào)的模型的反轉(zhuǎn)結(jié)果。

為了定量評估全新方法，作者反轉(zhuǎn)預(yù)訓(xùn)練的ViT模型和預(yù)訓(xùn)練的ResMLP模型，使用PII為每個類生成一張圖像，并使用DeepDream執(zhí)行相同的操作。

然后使用各種預(yù)訓(xùn)練的模型對這些圖像進(jìn)行分類。

表1包含這些模型的平均top-1和top-5分類精度，以及每種方法生成的圖像的初始分?jǐn)?shù)。

圖10顯示了PII和DeepInversion生成的一些任意類別的圖像。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營