自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

隨意指定CLIP關(guān)注區(qū)域！上交復(fù)旦等發(fā)布Alpha-CLIP：同時(shí)保持全圖+局部檢測(cè)能力

作者：新智元 2023-12-13 13:04:55

本文介紹了一個(gè)名為Alph-CLIP的框架，它在原始的接受RGB三通道輸入的CLIP模型的上額外增加了一個(gè)alpha通道。在千萬量級(jí)的RGBA-region的圖像文本對(duì)上進(jìn)行訓(xùn)練后，Alpha-CLIP可以在保證CLIP原始感知能力的前提下，關(guān)注到任意指定區(qū)域。通過替換原始CLIP的應(yīng)用場(chǎng)景，Alpha-CLIP在圖像識(shí)別、視覺-語言大模型、2D乃至3D生成領(lǐng)域都展現(xiàn)出強(qiáng)大作用。

CLIP是目前最流行的視覺基座模型，其應(yīng)用場(chǎng)景包括但不限于：

與LLM大語言模型結(jié)合成為視覺多模態(tài)大模型；
作為圖像生成(Stable Diffusion)、點(diǎn)云生成(Point-E)的condition model，實(shí)現(xiàn)image-to-3D；
用于指導(dǎo)NeRF的優(yōu)化方向從而實(shí)現(xiàn)text-to-3D；
本身用于開放類別的識(shí)別和檢測(cè)。

但CLIP必須以整張圖片作為輸入并進(jìn)行特征提取，無法關(guān)注到指定的任意區(qū)域，不過自然的2D圖片中往往包含不同的物體，part和thing，如果能由用戶或檢測(cè)模型指定需要關(guān)注的區(qū)域，在圖像編碼的過程就確定需要關(guān)注的對(duì)象，將會(huì)提升CLIP模型的可控制性和區(qū)域檢測(cè)能力。為此，上海交通大學(xué)、復(fù)旦大學(xué)、香港中文大學(xué)、澳門大學(xué)等機(jī)構(gòu)的學(xué)者們提出了Alpha-CLIP模型，在原始CLIP模型的RGB三個(gè)通道的基礎(chǔ)上額外引入了第四個(gè)alpha通道來決定需要關(guān)注的區(qū)域。

圖片

論文鏈接：https://arxiv.org/abs/2312.03818項(xiàng)目主頁：https://aleafy.github.io/alpha-clip代碼鏈接：https://github.com/SunzeY/AlphaCLIP

通過構(gòu)造千萬量級(jí)的「RGBA四通道圖片-文本對(duì)」對(duì)Alpha-CLIP進(jìn)行訓(xùn)練，Alpha-CLIP不僅在ImageNet上保持了原始的全圖檢測(cè)能力，還能對(duì)用戶指定的任意區(qū)域進(jìn)行highlight關(guān)注。下面分別介紹Alpha-CLIP的應(yīng)用場(chǎng)景。

圖1 Alpha-CLIP使用場(chǎng)景總覽

圖像分類

如圖所示，對(duì)于ImagNet的一張圖片，研究人員可以通過alpha-map控制CLIP去關(guān)注魚或漁夫。

圖片

圖片

以ImageNet的Zero-Shot Classification作為評(píng)價(jià)指標(biāo)，研究人員驗(yàn)證了在對(duì)全圖進(jìn)行識(shí)別時(shí)，Alpha-CLIP可以保持原本CLIP的分類準(zhǔn)確率。
進(jìn)一步地，在給出了需要關(guān)注區(qū)域的長方形box或者mask時(shí)，Alpha-CLIP可以進(jìn)一步提升分類準(zhǔn)確率。

與LLM大語言模型的結(jié)合

圖片

將主流的LLaVA-1.5中的CLIP基座模型替換為Alpha-CLIP，用戶可以通過簡單地用畫筆標(biāo)記處需要關(guān)注的區(qū)域，從而進(jìn)行指定區(qū)域的對(duì)話交互。

圖片

在定量實(shí)驗(yàn)方面，研究人員通過LLaVA測(cè)試了MLLM的region caption能力。通過在RefCOCO和VG上分別進(jìn)行finetune，取得了SOTA的region caption分?jǐn)?shù)。

圖片

與Stable Diffusion的結(jié)合

圖片

Stable-Diffusion是目前主流的2D圖片生成模型，其Image Variation版本可以實(shí)現(xiàn)「圖生圖」，其中圖片的編碼器也是CLIP模型。通過將該模型替換為Alpha-CLIP，可以實(shí)現(xiàn)更復(fù)雜圖片中指定物體的生成(同時(shí)較好地保留背景)。
如上圖所示，使用原始的CLIP會(huì)生成同時(shí)具有獅子和老虎特征的「獅虎獸」，而Alpha-CLIP能夠很好地區(qū)分兩個(gè)物體，從而指導(dǎo)Stable Diffusion模型生成更專一的圖片。

圖片

與Point-E的結(jié)合

圖片

Point-E是Open-AI開源的一個(gè)支持Image-to-3D和text-to-3D的點(diǎn)云diffusion模型，通過將它的Image編碼器從原始的CLIP替換為Alpha-CLIP。
可以支持用戶對(duì)任意區(qū)域進(jìn)行關(guān)注，從而恢復(fù)丟失的「表針」和「盾牌的十字架」。

圖片

Attention Map可視化

本工作對(duì)Alpha-CLIP的注意力進(jìn)行可視化，以檢查Alpha-CLIP是否更加關(guān)注用戶定義alpha-map。通過檢查視覺編碼器中最后一個(gè)Transformer塊中[CLS] token的注意力圖?？梢暬捎昧司哂?6個(gè)注意頭的ViT-L/14模型。

圖片

為了進(jìn)行公正比較，使用第5和第16個(gè)注意頭的注意力圖進(jìn)行可視化，因?yàn)槲覀儼l(fā)現(xiàn)在這16個(gè)頭中，這兩個(gè)特征圖最為明顯。結(jié)果如下圖所示。這種可視化驗(yàn)證了Alpha-CLIP更加關(guān)注要聚焦的區(qū)域，更重要的是，它在保留原始CLIP特征位置的二維位置信息時(shí)沒有造成損害。

結(jié)論

本文介紹的這項(xiàng)工作提出了Alpha-CLIP模型，該模型引入了一個(gè)額外的alpha通道，用于指定感興趣的區(qū)域。

通過對(duì)數(shù)百萬個(gè)RGBA區(qū)域-文本對(duì)進(jìn)行訓(xùn)練，Alpha-CLIP不僅表現(xiàn)出卓越的區(qū)域關(guān)注能力，而且確保其輸出空間與原始的CLIP模型保持一致。這種一致性使得Alpha-CLIP在CLIP的各種下游應(yīng)用中能夠輕松替代，無縫銜接。研究人員證明了當(dāng)提供特定關(guān)注的區(qū)域時(shí)，Alpha-CLIP展現(xiàn)出了更強(qiáng)大的Zero-Shot識(shí)別能力，并驗(yàn)證了它在許多下游任務(wù)中的有用性。CLIP的應(yīng)用遠(yuǎn)遠(yuǎn)超出了本文的范圍。研究人員希望在前景區(qū)域或mask較容易獲得時(shí)，Alpha-CLIP將能夠在更多場(chǎng)景中得到應(yīng)用。

雖然Alpha-CLIP在需要關(guān)注區(qū)域的各種場(chǎng)景中表現(xiàn)出有效的性能，但目前的結(jié)構(gòu)和訓(xùn)練過程限制了其專注于多個(gè)對(duì)象或建模不同對(duì)象之間關(guān)系的能力。此外，當(dāng)前的訓(xùn)練方法限制了alpha通道在中間值之外的泛化（只能接受0,1兩個(gè)值），因此用戶無法指定注意力的幅度。另一個(gè)限制同時(shí)存在于Alpha-CLIP和原始CLIP中，即純Transformer結(jié)構(gòu)的編碼器分辨率較低，這阻礙了Alpha-CLIP識(shí)別小物體并進(jìn)行關(guān)注。研究人員計(jì)劃在未來的工作中解決這些限制并擴(kuò)展CLIP的輸入分辨率，相信這些未來的方向是增強(qiáng)Alpha-CLIP能力并在各種下游任務(wù)中擴(kuò)展其實(shí)用性的途徑。

參考資料：https://arxiv.org/abs/2312.03818

責(zé)任編輯：武曉燕來源：新智元

CLIP RGB 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<sub id="gwfau"></sub>}