自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

參數(shù)減半、與CLIP一樣好,視覺(jué)Transformer從像素入手實(shí)現(xiàn)圖像文本統(tǒng)一

人工智能 新聞
CLIPPO 是一種統(tǒng)一的模型,用單個(gè)編碼器和對(duì)比損失來(lái)執(zhí)行圖像、文本和多模態(tài)任務(wù),優(yōu)于傳統(tǒng)的 NLP 基線和之前基于像素的掩碼語(yǔ)言模型。

近年來(lái),基于 Transformer 的大規(guī)模多模態(tài)訓(xùn)練促成了不同領(lǐng)域最新技術(shù)的改進(jìn),包括視覺(jué)、語(yǔ)言和音頻。特別是在計(jì)算機(jī)視覺(jué)和圖像語(yǔ)言理解方面,單個(gè)預(yù)訓(xùn)練大模型可以優(yōu)于特定任務(wù)的專家模型。

然而,大型多模態(tài)模型通常使用模態(tài)或特定于數(shù)據(jù)集的編碼器和解碼器,并相應(yīng)地導(dǎo)致涉及的協(xié)議。例如,此類(lèi)模型通常涉及在各自的數(shù)據(jù)集上對(duì)模型的不同部分進(jìn)行不同階段的訓(xùn)練,并進(jìn)行特定于數(shù)據(jù)集的預(yù)處理,或以特定于任務(wù)的方式遷移不同部分。這種模式和特定于任務(wù)的組件可能會(huì)導(dǎo)致額外的工程復(fù)雜性,并在引入新的預(yù)訓(xùn)練損失或下游任務(wù)時(shí)面臨挑戰(zhàn)。

因此,開(kāi)發(fā)一個(gè)可以處理任何模態(tài)或模態(tài)組合的單一端到端模型,將是多模態(tài)學(xué)習(xí)的重要一步。本文中,來(lái)自谷歌研究院(谷歌大腦團(tuán)隊(duì))、蘇黎世的研究者將主要關(guān)注圖像和文本。

圖片

論文地址:https://arxiv.org/pdf/2212.08045.pdf

許多關(guān)鍵統(tǒng)一加速了多模式學(xué)習(xí)的進(jìn)程。首先經(jīng)證實(shí),Transformer 架構(gòu)可以作為通用主干,并且在文本、視覺(jué)、音頻和其他領(lǐng)域上表現(xiàn)良好。其次,許多論文探索了將不同的模態(tài)映射到單個(gè)共享嵌入空間以簡(jiǎn)化輸入 / 輸出接口,或開(kāi)發(fā)一個(gè)用于多個(gè)任務(wù)的單一接口。第三,模態(tài)的替代表示允許在一個(gè)領(lǐng)域中利用另一個(gè)領(lǐng)域設(shè)計(jì)的神經(jīng)架構(gòu)或訓(xùn)練程序。例如,[54] 和 [26,48] 分別表示文本和音頻,通過(guò)將這些形式呈現(xiàn)為圖像(在音頻的情況下為頻譜圖)進(jìn)行處理。

本文將對(duì)使用純基于像素的模型進(jìn)行文本和圖像的多模態(tài)學(xué)習(xí)進(jìn)行探索。該模型是一個(gè)單獨(dú)的視覺(jué) Transformer,它處理視覺(jué)輸入或文本,或兩者一起,所有都呈現(xiàn)為 RGB 圖像。所有模態(tài)都使用相同的模型參數(shù),包括低級(jí)特征處理;也就是說(shuō),不存在特定于模態(tài)的初始卷積、tokenization 算法或輸入嵌入表。該模型僅用一個(gè)任務(wù)訓(xùn)練:對(duì)比學(xué)習(xí),正如 CLIP 和 ALIGN 所推廣的那樣。因此模型被稱作 CLIP-Pixels Only(CLIPPO)。 

在 CLIP 設(shè)計(jì)用于圖像分類(lèi)和文本 / 圖像檢索的主要任務(wù)上,盡管沒(méi)有特定的 tower 模態(tài),CLIPPO 的表現(xiàn)也與 CLIP 相似(相似度在 1-2% 之內(nèi))。令人驚訝的是,CLIPPO 不需要任何從左到右的語(yǔ)言建模、掩碼語(yǔ)言建模或顯式的詞級(jí)損失,就可以執(zhí)行復(fù)雜的語(yǔ)言理解任務(wù)。特別是在 GLUE 基準(zhǔn)測(cè)試上,CLIPPO 優(yōu)于經(jīng)典的 NLP 基線,如 ELMO+BiLSTM+attention,此外,CLIPPO 還優(yōu)于基于像素的掩碼語(yǔ)言模型,并接近 BERT 的分?jǐn)?shù)。

有趣的是,當(dāng)簡(jiǎn)單地將圖像和文本一起渲染時(shí),CLIPPO 也可以在 VQA 上獲得良好的性能,盡管從未在此類(lèi)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。與常規(guī)語(yǔ)言模型相比,基于像素的模型的一個(gè)直接優(yōu)勢(shì)是不需要預(yù)先確定詞匯。因此,與使用經(jīng)典 tokenizer 的等效模型相比,多語(yǔ)言檢索的性能有所提高。最后,該研究還發(fā)現(xiàn),在某些情況下訓(xùn)練 CLIPPO 時(shí),之前觀察到的模態(tài)差距有所減少。

方法概覽

CLIP 已經(jīng)成為一種強(qiáng)大的、可擴(kuò)展的范式,用于在數(shù)據(jù)集上訓(xùn)練多用途視覺(jué)模型。具體來(lái)說(shuō),這種方法依賴于圖像 /alt-text 對(duì),這些可以從網(wǎng)絡(luò)上大規(guī)模自動(dòng)收集。因此,文本描述通常是有噪音的,并且可能由單個(gè)關(guān)鍵字、關(guān)鍵字集或潛在的冗長(zhǎng)描述組成。利用這些數(shù)據(jù),聯(lián)合訓(xùn)練兩個(gè)編碼器,即嵌入 alt-text 的文本編碼器和將相應(yīng)圖像嵌入共享潛在空間的圖像編碼器。這兩個(gè)編碼器使用對(duì)比損失進(jìn)行訓(xùn)練,鼓勵(lì)相應(yīng)圖像和 alt-text 的嵌入相似,同時(shí)與所有其他圖像和 alt-text 的嵌入不同。

一旦經(jīng)過(guò)訓(xùn)練,這樣的編碼器對(duì)可以以多種方式使用:它可以通過(guò)文本描述對(duì)固定的視覺(jué)概念集進(jìn)行分類(lèi)(零樣本分類(lèi)); 嵌入可用于檢索給定文本描述的圖像,反之亦然;或者,視覺(jué)編碼器可以通過(guò)對(duì)標(biāo)記的數(shù)據(jù)集進(jìn)行微調(diào)或通過(guò)在凍結(jié)的圖像編碼器表示上訓(xùn)練頭部,以有監(jiān)督的方式傳輸?shù)较掠稳蝿?wù)。原則上,文本編碼器可以作為一個(gè)獨(dú)立的文本嵌入使用,不過(guò)據(jù)悉,還沒(méi)有人針對(duì)這種應(yīng)用展開(kāi)深入探討,一些研究引用了低質(zhì)量的 alt-text 導(dǎo)致文本編碼器的語(yǔ)言建模性能較弱。

以前的工作表明,圖像和文本編碼器可以用一個(gè)共享 transformer 模型(也稱為單塔模型,或 1T-CLIP)實(shí)現(xiàn),其中圖像使用 patch embedding 嵌入,tokenized 文本使用單獨(dú)的 word embedding 嵌入。除了模態(tài)特定的嵌入外,兩種模態(tài)的所有模型參數(shù)都是共享的。雖然這種類(lèi)型的共享通常會(huì)導(dǎo)致圖像 / 圖像 - 語(yǔ)言任務(wù)的性能下降,但它也使模型參數(shù)的數(shù)量減少了一半。

CLIPPO 將這一想法更進(jìn)一步:文本輸入呈現(xiàn)在空白圖像上,隨后完全作為圖像處理,包括初始的 patch embedding(參見(jiàn)圖 1)。通過(guò)與之前的工作進(jìn)行對(duì)比訓(xùn)練,生成了一個(gè)單一的視覺(jué) transformer 模型,它可以通過(guò)單一的視覺(jué)接口來(lái)理解圖像和文本,并提供了一個(gè)可以用于解決圖像、圖像 - 語(yǔ)言和純語(yǔ)言理解任務(wù)的單一表示。

圖片

除了多模態(tài)多功能性,CLIPPO 還減輕了文本處理的常見(jiàn)困難,即開(kāi)發(fā)適當(dāng)?shù)?tokenizer 和詞匯表。這在大量多語(yǔ)言設(shè)置的上下文中特別有趣,其中文本編碼器必須處理數(shù)十種語(yǔ)言。

可以發(fā)現(xiàn),在圖像 /alt-text 對(duì)上訓(xùn)練的 CLIPPO 在公共圖像和圖像語(yǔ)言基準(zhǔn)上的表現(xiàn)與 1T-CLIP 相當(dāng),并且在 GLUE 基準(zhǔn)上與強(qiáng)大的基線語(yǔ)言模型競(jìng)爭(zhēng)。然而,由于 alt-texts 的質(zhì)量較低,通常不是語(yǔ)法句子,僅從 alt-texts 學(xué)習(xí)語(yǔ)言理解從根本上是有限的。因此,可以在圖像 /alt-texts 對(duì)比預(yù)訓(xùn)練中加入基于語(yǔ)言的對(duì)比訓(xùn)練。具體而言,需要考慮到從文本語(yǔ)料庫(kù)中采樣的連續(xù)句對(duì),不同語(yǔ)言的翻譯句對(duì),后翻譯句對(duì),以及有單詞缺失的句子對(duì)。

實(shí)驗(yàn)結(jié)果

視覺(jué)和視覺(jué)-語(yǔ)言理解

圖像分類(lèi)與檢索。表 1 顯示了 CLIPPO 的性能,可以看到,與 CLIP? 相比,CLIPPO 和 1T-CLIP 產(chǎn)生了 2-3 個(gè)百分點(diǎn)的絕對(duì)下降。

圖片

VQA。圖 2 中報(bào)告了模型和基線的 VQAv2 評(píng)分??梢钥吹?,CLIPPO 優(yōu)于 CLIP? 、1T-CLIP,以及 ViT-B/16,獲得了 66.3 的分?jǐn)?shù)。

圖片

多語(yǔ)言視覺(jué) - 語(yǔ)言理解

圖 3 表明,CLIPPO 實(shí)現(xiàn)了與這些基線相當(dāng)?shù)臋z索性能。在 mT5 的情況下,使用額外的數(shù)據(jù)可以提高性能;在多語(yǔ)言上下文中利用這些額外的參數(shù)和數(shù)據(jù)將是 CLIPPO 未來(lái)一個(gè)有趣的方向。

圖片

語(yǔ)言理解

表 2 顯示了 CLIPPO 和基線的 GLUE 基準(zhǔn)測(cè)試結(jié)果??梢杂^察到,在 WebLI 上訓(xùn)練的 CLIPPO 與 BiLSTM+Attn+ELMo 基線(其具有在大型語(yǔ)言語(yǔ)料庫(kù)上訓(xùn)練的深度詞嵌入)相比具有競(jìng)爭(zhēng)力。此外,我們還可以看到,CLIPPO 和 1T-CLIP 優(yōu)于使用標(biāo)準(zhǔn)對(duì)比語(yǔ)言視覺(jué)預(yù)訓(xùn)練訓(xùn)練的語(yǔ)言編碼器。

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-01-08 13:22:03

模型

2010-11-24 20:18:48

Microsoft L統(tǒng)一溝通

2024-11-21 16:06:02

2024-06-13 11:44:43

2024-07-30 11:20:00

圖像視覺(jué)

2024-05-24 15:53:20

視覺(jué)圖像

2009-12-11 09:05:10

Windows 7用戶反饋

2012-03-07 17:24:10

戴爾咨詢

2011-02-28 10:38:13

Windows 8

2012-12-20 10:17:32

IT運(yùn)維

2009-06-12 15:26:02

2017-04-05 12:16:21

2016-11-03 18:51:45

AndroidIOS谷歌

2020-01-10 22:56:56

Python圖像處理Linux

2015-08-25 09:52:36

云計(jì)算云計(jì)算產(chǎn)業(yè)云計(jì)算政策

2021-06-13 08:55:25

Spring NatiWebFluxJVM

2019-08-23 15:31:38

安全防御系統(tǒng)網(wǎng)絡(luò)攻擊技術(shù)

2013-01-11 18:10:56

軟件

2011-06-28 16:40:17

Qt Widget 圖片

2014-06-05 11:25:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)