自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

新聞 機器學(xué)習(xí)
NLP和CV怎么總能擦出火花?Google集結(jié)十位專家又霸榜ImageNet了,最后專家們還對AI的恐怖能力提出了一些社會學(xué)警告。

  [[399343]]

神經(jīng)網(wǎng)絡(luò)實際上就是在學(xué)習(xí)一種表示,在CV領(lǐng)域,良好的視覺和視覺語言(vision and vision-language)表征對于解決計算機視覺問題(圖像檢索、圖像分類、視頻理解)至關(guān)重要,并且可以幫助人們解決日常生活中的難題。

例如,一個好的視覺語言匹配模型可以幫助用戶通過文本描述或圖像輸入找到最相關(guān)的圖像,還可以幫助像 Google Lens 這樣的設(shè)備找到更細粒度的圖像信息。

為了學(xué)習(xí)這樣的表示,當(dāng)前最先進的視覺和視覺語言模型嚴重依賴于需要專家知識和廣泛標(biāo)簽的訓(xùn)練數(shù)據(jù)集。

對于視覺相關(guān)的應(yīng)用場景來說,視覺表示主要是在具有顯式類標(biāo)簽的大規(guī)模數(shù)據(jù)集上學(xué)習(xí)的,如 ImageNet、 OpenImages 和 JFT-300M等。

對于視覺語言的應(yīng)用來說,常用的預(yù)訓(xùn)練數(shù)據(jù)集,如Conceptual Captions和Visual Genome Dense Captions,都需要大量的數(shù)據(jù)收集和清理工作,這限制了數(shù)據(jù)集的大小,從而阻礙了訓(xùn)練模型的規(guī)模。

相比之下,自然語言處理的模型在 GLUE 和 SuperGLUE 基準(zhǔn)測試中,他們達到sota性能是通過對原始文本進行大規(guī)模的預(yù)訓(xùn)練而不使用人工標(biāo)簽。

在 ICML 2021會議上,Google Research發(fā)表了Scaling up visual and vision-language representation learning with noisy text supervision一文,建議利用公開的圖像替代文本數(shù)據(jù)(如果圖像未能在用戶屏幕上顯示,則在網(wǎng)頁上顯示替代圖像的書面文本)來彌補這一差距,以訓(xùn)練更大、最先進的視覺和視覺-語言模型。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

為了達到這個目的,我們利用了一個超過10億個圖像和文本對的噪聲數(shù)據(jù)集,在概念標(biāo)題數(shù)據(jù)集中沒有昂貴的過濾或后處理步驟就獲得了這個數(shù)據(jù)集。實驗結(jié)果表明,我們的語料庫規(guī)??梢詮浹a噪聲數(shù)據(jù)的不足,從而實現(xiàn)了 SotA 表示,并且在轉(zhuǎn)換到 ImageNet 和 VTAB 等分類任務(wù)時表現(xiàn)出了很好的性能。對齊的視覺和語言表示還在 Flickr30K 和 MS-COCO 基準(zhǔn)上設(shè)置新的 SotA 結(jié)果,即使與更復(fù)雜的交叉關(guān)注模型相比也是如此,并支持零鏡頭圖像分類和復(fù)雜文本和文本 + 圖像查詢的交叉模式搜索。

圖文數(shù)據(jù)集中的 alt-text 通常是關(guān)于圖像的描述,但數(shù)據(jù)集可能包括噪音,例如一些描述文本可能部分或全部與其配對圖像無關(guān)。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

例如第二張圖中就包括部分與圖像無關(guān)的描述,如日期、縮略圖等等。

Google的研究工作主要遵循構(gòu)建Conceptual Captions數(shù)據(jù)集的方法來獲得原始的英語描述文本數(shù)據(jù),即圖像和alt-text的pairs。

雖然Conceptual Captions數(shù)據(jù)集被大量的過濾和后處理清理過了,但是論文中的工作通過放寬數(shù)據(jù)清洗的措施來擴大數(shù)據(jù)集,這種方法來擴展視覺和視覺語言表征學(xué)習(xí)。

最后獲得了一個更大但噪音也更大的數(shù)據(jù)集,共包含 18億個 圖像-文本對。

ALIGN: A Large-scale ImaGe and Noisy-Text Embedding

為了便于建立更大的模型,模型框架采用了一個簡單的雙編碼器結(jié)構(gòu)用來學(xué)習(xí)圖像和文本對的視覺和語言表示的align表示。

圖像和文本編碼器是通過對比學(xué)習(xí)來訓(xùn)練,即歸一化的softmax。

這種對比損失將匹配的圖像-文本對的embedding盡可能貼近,同時將那些不匹配的圖像-文本對(在同一batch中)盡可能分開。

大規(guī)模數(shù)據(jù)集使我們能夠訓(xùn)練擁有更多參數(shù)的模型,甚至可以從零開始訓(xùn)練和EffecientNet-L2和BERT-large那么大的模型。學(xué)到的視覺表征可以用于下游的視覺和視覺語言任務(wù)。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

所得到的表示可以用于純視覺或視覺語言任務(wù)上的遷移學(xué)習(xí),無需任何微調(diào),ALIGN 就能夠跨模態(tài)搜索圖像到文本、文本到圖像,甚至聯(lián)合搜索圖像 + 文本的query。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

上述例子就展示了ALIGN的這種能力。

Evaluating Retrieval and Representation

評估檢索和表示學(xué)習(xí)的時候, ALIGN 模型與 BERT-Large 和 EfficientNet-L2共同作為文本和圖像編碼器,能夠在多個圖像文本檢索任務(wù)(Flickr30K 和 MS-COCO) ZeroShot任務(wù)和微調(diào)中都取得了sota性能。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

ALIGN 也是一個強大的圖像表示模型。在固定住特征以后,ALIGN 略優(yōu)于 CLIP,并在 ImageNet 上獲得85.5% 的 SotA 結(jié)果。通過微調(diào),ALIGN 比大多數(shù)通用模型(如 BiT 和 ViT)獲得了更高的準(zhǔn)確性,只比 Meta Pseudo Labels 差,但后者需要 ImageNet 訓(xùn)練和大規(guī)模未標(biāo)記數(shù)據(jù)之間進行更深入的交互。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

在Zero-Shot圖像分類上,圖像分類問題將每個類別視為獨立的 id,人們必須通過每個類別至少拍攝幾張標(biāo)記數(shù)據(jù)來訓(xùn)練分類層次。但類名實際上也是自然語言短語,因此可以很自然而然地擴展 ALIGN 圖像分類的圖文檢索能力,而不需要任何訓(xùn)練數(shù)據(jù)。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

在 ImageNet 驗證數(shù)據(jù)集上,ALIGN 實現(xiàn)了76.4% 的 top-1 Zero-shot 準(zhǔn)確率,并且在不同的 ImageNet 變體中表現(xiàn)出很強的魯棒性,這與同時期的工作 CLIP 很像,都使用了文本提示來訓(xùn)練。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

為了能夠說明圖像檢索的實際效果,論文中還構(gòu)建了一個簡單的圖像檢索系統(tǒng),該系統(tǒng)使用 ALIGN 訓(xùn)練的embedding,并展示了一億6000萬張圖像池中少數(shù)文本查詢的top1個文本到圖像的檢索結(jié)果。

ALIGN 可以檢索給出場景詳細描述的精確圖像,或者細粒度或?qū)嵗壍母拍?,如地?biāo)和藝術(shù)品。

這些示例表明,ALIGN 模型可以使圖像和文本具有相似的語義,并且 ALIGN 可以概括為新的復(fù)雜概念。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

多模態(tài)(圖像 + 文本)圖像搜索查詢單詞向量的一個令人驚訝的特性是,單詞類比通??梢杂孟蛄克惴ń鉀Q。一個常見的例子,“ king-man + woman = queen”。圖像和文本嵌入之間的這種線性關(guān)系也出現(xiàn)在 ALIGN 中。

具體來說,給定一個查詢圖像和一個文本字符串,將它們的 ALIGN embedding相加到一起,并使用余弦距離檢索相關(guān)圖像。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

這些例子不僅說明了 ALIGN 嵌入跨視覺域和語言域的組合性,而且表明了使用多模態(tài)查詢進行搜索的可行性。例如,人們現(xiàn)在可以尋找“澳大利亞”或“馬達加斯加”大熊貓的等價物,或者把一雙黑鞋變成看起來一模一樣的米色鞋子。此外,還可以通過在嵌入空間中執(zhí)行減法來刪除場景中的對象/屬性。

在社會影響方面,雖然這項工作從方法論的角度來看,以簡單的數(shù)據(jù)收集方法顯示了令人滿意的結(jié)果,但在實踐中負責(zé)任地使用該模型之前,還需要對數(shù)據(jù)和由此產(chǎn)生的模型進行進一步分析。例如,應(yīng)當(dāng)考慮是否有可能利用備選案文中的有害文本數(shù)據(jù)來加強這種危害。關(guān)于公平性,可能需要努力平衡數(shù)據(jù),以防止從網(wǎng)絡(luò)數(shù)據(jù)加強定型觀念。應(yīng)該對敏感的宗教或文化物品進行額外的測試和訓(xùn)練,以了解并減輕可能貼錯標(biāo)簽的數(shù)據(jù)帶來的影響。

還應(yīng)該進一步分析,以確保人類的人口分布和相關(guān)的文化物品,如衣服、食物和藝術(shù)品,不會造成曲解的模型性能。如果這些模型將在生產(chǎn)環(huán)境中使用,則需要進行分析和平衡。

綜上所述,Google Research提出了一種利用大規(guī)模圖文數(shù)據(jù)進行視覺和視覺語言表征學(xué)習(xí)的簡單方法,模型 ALIGN 能夠進行跨模態(tài)檢索,并且明顯優(yōu)于 SotA 模型。在純視覺的下游任務(wù)中,ALIGN 也可以與使用大規(guī)模標(biāo)記數(shù)據(jù)進行訓(xùn)練的 SotA 模型相比,或者優(yōu)于 SotA 模型。

本文的一二作者分別是Chao Jia和Yinfei Yang兩位華人,而他們分別的研究方向分別為CV和NLP,可見 神經(jīng)網(wǎng)絡(luò)讓NLP和CV的界限也更加模糊了,萬物皆可embedding。

過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet
過半作者是華人!Google Research圖像表征模型ALIGN霸榜ImageNet

 

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2019-11-17 22:45:12

谷歌Android開發(fā)者

2021-11-19 17:25:03

AI 數(shù)據(jù)人工智能

2021-06-18 15:07:35

人工智能自然語言技術(shù)

2023-04-03 10:15:28

計算機科學(xué)

2021-05-27 15:30:24

計算機互聯(lián)網(wǎng) 技術(shù)

2022-03-21 10:01:56

谷歌模型AI

2024-03-15 12:49:11

AI模型

2025-04-16 15:30:59

模型AI數(shù)據(jù)

2023-10-25 16:38:43

編程語言Python

2010-03-31 22:20:51

2025-04-15 09:03:00

2022-05-30 12:10:31

模型CV谷歌

2019-07-18 10:49:15

GitHub軟件代碼

2023-09-21 10:30:05

AI開源

2023-09-19 13:48:02

2021-06-29 15:33:28

谷歌Transformer模型

2021-09-24 14:11:19

GitHub Python開發(fā)

2023-06-26 17:45:14

編程語言ChatGPTJavaScript

2017-04-26 13:10:50

CNNImageNet深度學(xué)習(xí)

2021-12-01 23:13:55

安卓手機魅族
點贊
收藏

51CTO技術(shù)棧公眾號