自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))

發(fā)布于 2024-11-11 10:45
瀏覽
0收藏

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.16512

亮點(diǎn)直擊

  • 通用圖像表示模型:TIPS 結(jié)合圖像-文本和自監(jiān)督學(xué)習(xí)的優(yōu)勢,適用于密集和全局預(yù)測任務(wù),實(shí)現(xiàn)了廣泛的下游應(yīng)用。
  • 增強(qiáng)的文本監(jiān)督信號(hào):利用合成生成的圖像描述標(biāo)簽,提升了模型對圖像內(nèi)容和空間關(guān)系的理解,尤其有利于密集視覺任務(wù)。
  • 雙重標(biāo)簽對比損失:通過合成和噪聲標(biāo)簽分別訓(xùn)練模型,使其在密集和全局任務(wù)上均表現(xiàn)優(yōu)異。
  • 空間一致性與多任務(wù)性能:TIPS 通過自蒸餾和掩碼圖像建模技術(shù),增強(qiáng)了空間一致性,在 8 項(xiàng)任務(wù)和 16 個(gè)數(shù)據(jù)集上展示了強(qiáng)大的即插即用能力。

TIPS:具有空間意識(shí)的文本圖像預(yù)訓(xùn)練。TIPS是一種通用的圖像-文本編碼器模型,可有效用于密集和全局理解,用于純視覺或視覺語言任務(wù),整體應(yīng)用流程見下圖:

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

總結(jié)速覽

解決的問題

現(xiàn)有的圖像-文本表示學(xué)習(xí)模型通常缺乏空間意識(shí),難以直接用于密集理解任務(wù)(例如深度估計(jì)、語義分割)。因此,許多密集視覺任務(wù)仍然依賴于圖像的自監(jiān)督預(yù)訓(xùn)練方法,盡管缺乏明確的監(jiān)督信號(hào)。

提出的方案

提出了一種新穎的通用圖像-文本模型,稱為 TIPS(Text-Image Pretraining with Spatial awareness),通過加入空間意識(shí)來提升圖像-文本學(xué)習(xí)的效果,使其能夠在密集和全局視覺任務(wù)中直接應(yīng)用。

應(yīng)用的技術(shù)

  1. 文本監(jiān)督改進(jìn):使用合成生成的文本描述代替噪聲較大的網(wǎng)絡(luò)圖像描述,提供更豐富的空間表示學(xué)習(xí)信號(hào);并通過一種新的訓(xùn)練方法,將噪聲與合成文本描述結(jié)合,提升密集與全局理解任務(wù)的效果。
  2. 學(xué)習(xí)技術(shù):結(jié)合對比圖像-文本學(xué)習(xí)與自監(jiān)督的圖像掩碼建模,增強(qiáng)空間一致性,以提高模型在下游應(yīng)用中的性能。

達(dá)到的效果

基于上述策略,構(gòu)建了基于Transformer的模型,使用公共圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,實(shí)驗(yàn)證明該模型在8項(xiàng)任務(wù)和16個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異,具有強(qiáng)大的密集和全局理解的即插即用能力,并適用于多種圖像-文本及僅圖像的任務(wù)。

TIPS

本文的目標(biāo)是創(chuàng)建一個(gè)通用的圖像表示模型,具備文本對齊功能,可即插即用地應(yīng)用于密集和全局視覺任務(wù)。雖然圖像-文本對比技術(shù)能夠有效地建模全局圖像信息,但在密集理解任務(wù)中表現(xiàn)欠佳,而自監(jiān)督模型目前在這些任務(wù)中表現(xiàn)更優(yōu)。為彌補(bǔ)這一差距,本文提出了具備空間感知的圖像-文本預(yù)訓(xùn)練方法(TIPS),如下圖2所示,通過合成圖像描述增強(qiáng)弱監(jiān)督,以及自監(jiān)督掩碼建模,顯著提高了圖像特征質(zhì)量,適用于密集和全局理解。

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

使用合成圖像描述增強(qiáng)弱監(jiān)督

使用大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)圖像-文本學(xué)習(xí)的一個(gè)限制在于描述質(zhì)量,這些描述往往噪聲較大,可能無法準(zhǔn)確描述圖像。如下圖3(上)所示,“for sale dealership $30k”這一文本未描述圖像內(nèi)容。雖然這可能會(huì)影響模型學(xué)習(xí),但描述仍捕捉到了主要物體。

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

然而觀察到的一個(gè)更深層問題是,這些描述通常僅提到顯著的物體,而未描述其在場景中的布局。換句話說,這些描述通常作為噪聲的圖像級(jí)監(jiān)督,通常對學(xué)習(xí)具有空間感知的表示用處不大。這促使研究合成描述的自動(dòng)生成,其可作為密集任務(wù)的有效預(yù)訓(xùn)練弱監(jiān)督。

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

融合自蒸餾和掩碼以增強(qiáng)圖像特征

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

討論。本文的方法基于弱監(jiān)督和自監(jiān)督學(xué)習(xí)的表示學(xué)習(xí)理念。據(jù)所知,這是首次將對比圖文學(xué)習(xí)與自蒸餾和掩碼圖像建模結(jié)合,展示出在多個(gè)任務(wù)上的改進(jìn),表明這些目標(biāo)間存在積極的協(xié)同作用。最接近的方法是 SILC,它將 CLIP 與自蒸餾結(jié)合。然而,如實(shí)驗(yàn)消融顯示,添加掩碼圖像損失在密集任務(wù)中的表現(xiàn)顯著提升,對于下游應(yīng)用至關(guān)重要。指出與先前方法的一些關(guān)鍵區(qū)別。由于使用 CLIP 損失,自監(jiān)督組件可以簡化,相比 DINO和 iBOT的原始形式。一大區(qū)別是使用單一全局“裁剪”,而非 DINO、iBOT 和 SILC 中的雙裁剪,提升了25%的處理效率。此外,與許多自監(jiān)督方法不同,使用相對簡單的數(shù)據(jù)增強(qiáng):局部裁剪只是原始圖像的隨機(jī)裁剪,全局裁剪是更大的隨機(jī)裁剪并水平翻轉(zhuǎn)。這與 Assran 等 (2023); Moutakanni 等 (2024) 的觀點(diǎn)相似,即復(fù)雜的增強(qiáng)可能對于表示學(xué)習(xí)并非必要。最后,本文的掩碼方法為隨機(jī)掩碼,而非 iBOT 中的塊狀掩碼。

擴(kuò)展 TIPS

本文的目標(biāo)是創(chuàng)建一個(gè)高度通用的模型,因此關(guān)鍵是將其擴(kuò)展到大模型架構(gòu)和大規(guī)模訓(xùn)練數(shù)據(jù)集,以獲得增強(qiáng)的圖像表示。


模型。ViT 架構(gòu)已證明在多個(gè)任務(wù)中可擴(kuò)展到十億級(jí)參數(shù)的模型。將 TIPS 模型擴(kuò)展至 ViT-g 架構(gòu),采用14的補(bǔ)丁大小,并使用 SwiGLU前饋網(wǎng)絡(luò)變體。類似于 Oquab 等,將嵌入維度調(diào)整為1536,并設(shè)置24個(gè)頭。這樣,使得圖像編碼器與 DINOv2-g 直接可比,總參數(shù)量達(dá)1.1B。在文本側(cè),將 transformer 擴(kuò)展到12層,具有與圖像編碼器相同的嵌入維度和頭數(shù)。


數(shù)據(jù)集。利用了 WebLI 數(shù)據(jù)集 ,這是一個(gè)包含公共圖像及其 alt 文本的大規(guī)模、噪聲較大的網(wǎng)絡(luò)數(shù)據(jù)集,總共包含 100 億對圖文樣本。通過多輪過濾來提升數(shù)據(jù)集質(zhì)量,從而更適合模型訓(xùn)練,類似于先前在語言和視覺領(lǐng)域的研究。首先,根據(jù)預(yù)訓(xùn)練對齊模型計(jì)算的圖文相似度,對圖文對進(jìn)行內(nèi)容過濾,丟棄那些相似度低的樣本,類似于 Schuhmann et al. 。然后,篩選僅包含英文描述的樣本。這兩個(gè)步驟得到一個(gè)包含 17 億張圖像的數(shù)據(jù)集。最后,參考先前研究 的方法,使用預(yù)訓(xùn)練模型計(jì)算圖像嵌入,從經(jīng)過策劃的數(shù)據(jù)集中選擇足夠相似的圖像。還刪除了在評(píng)估數(shù)據(jù)集中出現(xiàn)的近重復(fù)圖像。該過程最終生成了一個(gè)包含 1.16 億對圖文樣本的主要預(yù)訓(xùn)練數(shù)據(jù)集。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

評(píng)估數(shù)據(jù)集與協(xié)議。本文的模型在包含 16 個(gè)數(shù)據(jù)集的 8 項(xiàng)任務(wù)上進(jìn)行評(píng)估,包括僅圖像任務(wù)和圖文任務(wù)。在各種條件下全面評(píng)估所學(xué)習(xí)的表示的質(zhì)量,涵蓋室內(nèi)/室外場景和以物體為中心的圖像。在所有評(píng)估中,保持圖文表示凍結(jié),以評(píng)估其作為即用型特征提取器的適用性。評(píng)估了 3 項(xiàng)密集預(yù)測任務(wù)、2 項(xiàng)全局圖像理解任務(wù)和 3 項(xiàng)多模態(tài)檢索任務(wù)。


語義分割 是在 PASCAL和 ADE20k數(shù)據(jù)集上使用平均交并比(mIoU)評(píng)估的密集任務(wù)。使用類似于 (Oquab et al., 2024) 的簡單線性探測設(shè)置,從空間特征中預(yù)測類別。


單目深度估計(jì) 旨在預(yù)測圖像中每個(gè)像素的深度值。在場景中心的 NYUv2和以物體為中心的 NAVI數(shù)據(jù)集上對深度估計(jì)進(jìn)行基準(zhǔn)測試,使用 RMSE 作為評(píng)估指標(biāo)。對于 NYUv2,使用類似于 (Oquab et al., 2024) 的線性探測設(shè)置,將補(bǔ)丁標(biāo)記與全局嵌入連接,然后線性分類器在 256 個(gè)量化深度值中進(jìn)行預(yù)測。對于 NAVI,遵循 (El Banani et al., 2024) 并使用 DPT解碼器。


表面法線估計(jì) 是密集預(yù)測每個(gè)像素的 3D 表面法線方向的任務(wù),也在 NYUv2 和 NAVI 數(shù)據(jù)集上進(jìn)行評(píng)估。使用 (El Banani et al., 2024) 的設(shè)置并報(bào)告角度 RMSE。


圖像分類 在 ImageNet-1K 數(shù)據(jù)集上進(jìn)行評(píng)估,使用 K 最近鄰(KNN)和線性探測法基于學(xué)習(xí)的特征進(jìn)行評(píng)估,并報(bào)告 top-1 準(zhǔn)確率。


細(xì)粒度和實(shí)例級(jí)檢索 使用 Universal Embeddings Dataset (UnED) 評(píng)估,該基準(zhǔn)集包含 8 個(gè)領(lǐng)域的數(shù)據(jù)集:食品 (Food2k)、汽車 (CARS196)、在線產(chǎn)品 (SOP)、服裝 (InShop)、自然世界 (iNat)、藝術(shù)品 (Met)、地標(biāo) (GLDv2) 和零售產(chǎn)品 (Rp2k)。報(bào)告 8 個(gè)領(lǐng)域的平均 R@1,并在附錄中提供分領(lǐng)域結(jié)果。


圖像到文本(I→T)檢索 使用 Flickr30K、DOCCI和 COCO數(shù)據(jù)集進(jìn)行評(píng)估,報(bào)告 R@1 指標(biāo)。


文本到圖像(T→I)檢索 同樣使用 Flickr30K、DOCCI 和 COCO 數(shù)據(jù)集,使用 R@1 指標(biāo)。


zero-shot 分類在 ImageNet-1K 上進(jìn)行,通過檢索與每個(gè)測試圖像嵌入最接近的類文本嵌入,遵循(Radford et al., 2021),并使用 top-1 準(zhǔn)確率。使用一組策劃數(shù)據(jù)集中的圖像作為查詢,在大量網(wǎng)頁圖像中進(jìn)行挖掘。遵循 DINOv2采用的步驟,使用一些評(píng)估數(shù)據(jù)集的訓(xùn)練集作為策劃查詢,細(xì)節(jié)在附錄中提供。這導(dǎo)致了一個(gè)包含 1.16 億對圖像-文本的基于網(wǎng)頁的訓(xùn)練數(shù)據(jù)集。此外,對于擴(kuò)展的 ViT-g 實(shí)驗(yàn),將 Mapillary SLS 數(shù)據(jù)集的訓(xùn)練集原封不動(dòng)地添加到訓(xùn)練集中,以補(bǔ)償網(wǎng)頁圖像中缺乏街景圖像,并且在沒有任何替代文本的情況下,使用生成的合成描述來訓(xùn)練兩個(gè) CLS token。這使訓(xùn)練集中的圖像總數(shù)增加到 1.17 億。DINOv2 對其 LVD-142M 數(shù)據(jù)集也進(jìn)行了類似的處理。


實(shí)現(xiàn)細(xì)節(jié)。對于所有模型,使用 1 個(gè)全局裁剪,分辨率為 224,和 M = 6 個(gè)局部裁剪,分辨率為 98。以批量大小 16k 訓(xùn)練 ViT-B 模型 70 輪,這在 256 個(gè) TPUv3 芯片上耗時(shí) 4 天。對于更大的 ViT-g 模型,以批量大小 16k 訓(xùn)練 15 輪,這在 512 個(gè) TPUv5 芯片上耗時(shí) 2 天,結(jié)果是低分辨率模型(TIPS-g/14 LR)。對于高分辨率變體(TIPS-g/14 HR),添加了一個(gè)額外的微調(diào)階段,使用分辨率為 448 的全局裁剪和分辨率為 140 的局部裁剪,運(yùn)行 0.1 輪,批量大小為 4k。僅使用隨機(jī)調(diào)整大小的裁剪和水平翻轉(zhuǎn)作為圖像增強(qiáng)。


描述生成模型。利用最近的 PaliGemma模型進(jìn)行圖像描述生成。使用在 COCO 上微調(diào)的版本,224 像素版本用于核心預(yù)訓(xùn)練運(yùn)行,448 像素版本用于短期高分辨率微調(diào)階段。

比較技術(shù)。提供大量與最近工作的比較。對于每個(gè)現(xiàn)有模型家族,與最大的實(shí)例進(jìn)行比較,直到 ViT 大小為“g”或“G”,圖像編碼器中的參數(shù)約為 18 億或更少。本文的方法與一系列方法進(jìn)行了基準(zhǔn)測試,包括自監(jiān)督、弱監(jiān)督和監(jiān)督文獻(xiàn)。所有方法均使用現(xiàn)成的、凍結(jié)的權(quán)重進(jìn)行公平比較。作為自監(jiān)督方法,與 DINO、MAE、iBOT和 DINOv2進(jìn)行了比較。作為弱監(jiān)督方法,與 CLIP、OpenCLIP、SigLIP、SILC和 EVA-CLIP進(jìn)行了比較。作為監(jiān)督方法,基準(zhǔn)測試了在 JFT-3B 上訓(xùn)練的 ViT-g,正如(Zhai et al., 2022)所述。

結(jié)果

消融實(shí)驗(yàn)。在 5 個(gè)不同任務(wù)上展示了消融實(shí)驗(yàn)(見下表 1),以孤立增強(qiáng)文本監(jiān)督和新?lián)p失的效果,其中使用了 ViT-B 骨干網(wǎng)?;€ CLIP 模型的噪聲網(wǎng)頁描述呈現(xiàn)于(A)。表的部分(B)消融了增強(qiáng)文本監(jiān)督的貢獻(xiàn)。僅僅用 PaliGemma 生成的描述替換網(wǎng)頁描述就提高了 10.1 個(gè)百分點(diǎn)的分割精度,并減少了 0.076 的深度 RMSE,這都是巨大的正收益。這顯示了合成描述在使用圖像-文本模型進(jìn)行密集理解中的潛力。然而,同時(shí),全球任務(wù)顯示出顯著的退步,KNN 分類損失減少了 6.9 分。但通過結(jié)合網(wǎng)頁和合成描述,CLIP 性能可以在所有任務(wù)中提高:使用雙嵌入方法,在各個(gè)領(lǐng)域?qū)崿F(xiàn)了巨大的收益。還將雙重方法與 Fan et al.(2023)提出的其他兩種描述組合選項(xiàng)進(jìn)行比較:“采樣”,其中隨機(jī)選擇網(wǎng)頁或合成描述;或“多文本”,其中兩個(gè)描述分別與相同的圖像嵌入匹配。雙重方法在 5 個(gè)案例中有 3 個(gè)表現(xiàn)優(yōu)于其他描述組合,并在其他 2 個(gè)案例中達(dá)到競爭性結(jié)果,這表明其有效性。

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

部分(C)消融了自監(jiān)督損失的效果,使用網(wǎng)頁描述。自蒸餾的加入在所有任務(wù)中帶來了改善。這是一個(gè)類似于 SILC的設(shè)置:確認(rèn)了它們在 I→T 和 T→I 檢索中的發(fā)現(xiàn),并且還表明自蒸餾損失對僅圖像任務(wù)(尤其是密集任務(wù))是有效的。通過額外的掩蔽圖像建模(MIM)損失,密集任務(wù)中觀察到了顯著改善,而在其他任務(wù)中保持了高分?jǐn)?shù):分割精度提高了 5.6 分,深度 RMSE 降低了 0.078。


部分(D)結(jié)合了(B)和(C)的發(fā)現(xiàn),為基線 CLIP 設(shè)置提供了非常顯著的改進(jìn),在所有任務(wù)中,特別是在分割中提高了 14.6 分,深度 RMSE 減少了 0.142,I→T 檢索提高了 10.1 分,T→I 檢索提高了 14.4 分。


與現(xiàn)有通用方法的比較在下表 2 和表 3 中提供,涉及僅圖像或圖像和文本的任務(wù),其中 TIPS 的結(jié)果在高分辨率微調(diào)前(“LR”)和后(“HR”)提供??傮w而言,TIPS 實(shí)現(xiàn)了強(qiáng)勁的結(jié)果,在廣泛的任務(wù)中表現(xiàn)出競爭力,在 16 個(gè)報(bào)告的評(píng)估中,有 13 項(xiàng)達(dá)到了最佳或第二最佳的結(jié)果。與現(xiàn)有的圖像-文本方法相比,TIPS 在 I→T 和 T→I 檢索上有所改善,同時(shí)在密集預(yù)測任務(wù)中也取得了實(shí)質(zhì)性的收益,在某些情況下達(dá)到了 DINOv2 的水平并超過了它。有趣的是,盡管最近的圖像-文本模型在多模態(tài)檢索或zero-shot 分類中取得了優(yōu)異的結(jié)果,但這些收益并沒有轉(zhuǎn)化為密集理解的改進(jìn),其性能明顯落后于 TIPS 和自監(jiān)督方法。特別是,即使 CLIP-L 在圖像級(jí)預(yù)測任務(wù)上的表現(xiàn)較差,但在所有 6 個(gè)密集評(píng)估中都超越了最近的 SigLIP-SO。另一種最近且規(guī)模更大的通過對比學(xué)習(xí)訓(xùn)練的圖像模型 InternViT-6B在 ADE20k 上的得分為 47.2%,遠(yuǎn)低于本文的11 億 TIPS-g 模型。在監(jiān)督方法方面,在 JFT-3B 上訓(xùn)練的 ViT-g 在密集任務(wù)上的表現(xiàn)也不如 CLIP-L。甚至更大的 ViT-22B,也在 JFT 上訓(xùn)練,在相同設(shè)置下的 ADE20k 上僅獲得 34.6% 的得分,如 Chen et al.(2024)所報(bào)告。與自監(jiān)督技術(shù)相比,TIPS 實(shí)現(xiàn)了強(qiáng)勁的結(jié)果,在大多數(shù)情況下與 DINOv2 的數(shù)字相當(dāng),并在分割和檢索方面顯著超越它,同時(shí)實(shí)現(xiàn)了自監(jiān)督方法單獨(dú)無法執(zhí)行的多模態(tài)任務(wù)。下圖 4 展示了密集特征探針的定性示例。

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

應(yīng)用:單圖像到三維。現(xiàn)代大型重建模型依賴高質(zhì)量的預(yù)訓(xùn)練圖像編碼器,以產(chǎn)生圖像標(biāo)記供編碼器/解碼器Transformer使用。例如,LRM根據(jù)單個(gè)輸入圖像的圖像特征預(yù)測神經(jīng)渲染模型的參數(shù)。作者選擇基于 ViT 的 DINO 編碼器,而不是更具語義意識(shí)的編碼器(如 CLIP),因?yàn)?DINO 編碼器掌握了進(jìn)行三維任務(wù)所需的結(jié)構(gòu)和紋理信息。


為了更好地理解本文模型在神經(jīng)三維重建方面的能力,在 LRM 框架中評(píng)估 TIPS 的性能,并將 DINO-B/16 與同等規(guī)模的 TIPS-B/14 進(jìn)行比較。選擇使用 DINO-B/16,以遵循原始論文的實(shí)現(xiàn)。單圖像到三維的結(jié)果在 Objaverse 數(shù)據(jù)集中展示在下表 4 中,結(jié)果表明 TIPS 作為大型重建模型的圖像編碼器優(yōu)于 DINO,具有增強(qiáng)的新視圖合成能力(PSNR 增加 0.62)。

谷歌&Mistral AI發(fā)布TIPS:具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練(適配各種計(jì)算機(jī)視覺任務(wù))-AI.x社區(qū)

結(jié)論

TIPS(具有空間意識(shí)的文本-圖像預(yù)訓(xùn)練),這是一種新的通用圖像-文本編碼器。TIPS 可以成功地應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),實(shí)現(xiàn)密集和圖像級(jí)預(yù)測,利用兩個(gè)簡單有效的貢獻(xiàn)。首先,利用現(xiàn)有的多模態(tài)生成模型生成高質(zhì)量的合成圖像描述,這些描述用于改善對比學(xué)習(xí)并提升在密集圖像預(yù)測上的性能。本文提出了一種雙嵌入方法,以利用合成和噪聲網(wǎng)頁描述,從而在廣泛的任務(wù)中獲得收益。其次,將對比圖像-文本學(xué)習(xí)與自蒸餾和掩蔽圖像建模相結(jié)合,激勵(lì)模型學(xué)習(xí)空間感知的表示。這兩個(gè)貢獻(xiàn)是互補(bǔ)的,能夠有效地將模型擴(kuò)展到在 1.17 億圖像的精心策劃數(shù)據(jù)集上訓(xùn)練的 ViT-g 架構(gòu)。全面實(shí)驗(yàn)在包括 16 個(gè)數(shù)據(jù)集的 8 項(xiàng)任務(wù)上展示了強(qiáng)大的現(xiàn)成結(jié)果,使涉及僅圖像或圖像和文本的各種計(jì)算機(jī)視覺應(yīng)用成為可能。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/kCpe34PTpiFGAgCM1cAhfg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦