自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

順手訓(xùn)了一個(gè)史上超大ViT?Google升級視覺語言模型PaLI:支持100+種語言

人工智能 新聞
壕無人性!最近Google又利用鈔能力,不僅將語言模型PaLM升級為視覺語言模型,還訓(xùn)了一個(gè)史上最大的ViT模型!

近幾年自然語言處理的進(jìn)展很大程度上都來自于大規(guī)模語言模型,每次發(fā)布的新模型都將參數(shù)量、訓(xùn)練數(shù)據(jù)量推向新高,同時(shí)也會(huì)對現(xiàn)有基準(zhǔn)排行進(jìn)行一次屠榜!

比如今年4月,Google發(fā)布5400億參數(shù)的語言模型PaLM(Pathways Language Model)在語言和推理類的一系列測評中成功超越人類,尤其是在few-shot小樣本學(xué)習(xí)場景下的優(yōu)異性能,也讓PaLM被認(rèn)為是下一代語言模型的發(fā)展方向。

圖片

同理,視覺語言模型其實(shí)也是大力出奇跡,可以通過提升模型的規(guī)模來提升性能。

當(dāng)然了,如果只是多任務(wù)的視覺語言模型,顯然還不是很通用,還得支持多種語言的輸入輸出才行。

最近Google就將PaLM擴(kuò)展升級成PALI(Pathways Language and Image model),兼具多語言和圖像理解的能力,同時(shí)支持100+種語言來執(zhí)行各種橫跨視覺、語言和多模態(tài)圖像和語言應(yīng)用,如視覺問題回答、圖像說明(image caption)、物體檢測、圖像分類、OCR、文本推理等。

圖片

論文鏈接:?https://arxiv.org/abs/2209.06794?

模型的訓(xùn)練使用的是一個(gè)公開的圖像集合,其中包括自動(dòng)爬取的109種語言的標(biāo)注,文中也稱之為WebLI數(shù)據(jù)集。

在WebLI上預(yù)訓(xùn)練的PaLI模型在多個(gè)圖像和語言基準(zhǔn)上取得了最先進(jìn)的性能,如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等,也超越了先前模型的多語言視覺描述(multilingual visual captioning)和視覺問答的基準(zhǔn)。

模型架構(gòu)

PALI的目標(biāo)之一是研究語言視覺模型在性能和規(guī)模上的聯(lián)系是否相同,特別是語言-圖像模型的可擴(kuò)展性(scalability)。

所以模型的架構(gòu)設(shè)計(jì)上就很簡單,主要是為了實(shí)驗(yàn)方便,尤其是可重復(fù)使用且可擴(kuò)展。

圖片

模型由一個(gè)處理輸入文本的Transformer編碼器和一個(gè)生成輸出文本的自回歸Transformer解碼器組成。

在處理圖像時(shí),Transformer編碼器的輸入還包括代表由ViT處理的圖像的視覺詞(visual words)。

PaLI模型的一個(gè)關(guān)鍵設(shè)計(jì)是重用,研究人員用之前訓(xùn)練過的單模態(tài)視覺和語言模型(如mT5-XXL和大型ViTs)的權(quán)重作為模型的種子,這種重用不僅使單模態(tài)訓(xùn)練的能力得到遷移,而且還能節(jié)省計(jì)算成本。

模型的視覺組件使用的是迄今為止最大的ViT架構(gòu)ViT-e,它與18億參數(shù)的ViT-G模型具有相同的結(jié)構(gòu),并使用相同的訓(xùn)練參數(shù),區(qū)別就是擴(kuò)展為了40億參數(shù)

雖然在視覺領(lǐng)域和語言領(lǐng)域都對縮放規(guī)律進(jìn)行了研究,但在視覺和語言的組合模型中對縮放行為的探討較少,擴(kuò)大視覺骨干模型的規(guī)??赡軙?huì)導(dǎo)致在分類任務(wù)中的收益飽和。

研究人員也進(jìn)一步證實(shí)了這一點(diǎn),可以觀察到 ViT-e在ImageNet上只比ViT-G好一點(diǎn),但ViT-e在PaLI的視覺語言任務(wù)上有很大的改進(jìn)。例如,ViT-e在COCO字幕任務(wù)上比ViT-G多出近3個(gè)CIDEr點(diǎn)。任務(wù)上比ViT-G多出3分。這也暗示了未來在視覺語言任務(wù)中使用更大的ViT骨架模型的空間。

圖片

研究人員采用mT5骨干作為語言建模組件,使用預(yù)訓(xùn)練的mT5-Large(10億參數(shù))和mT5-XXL (130億參數(shù))來初始化PaLI的語言編碼器-解碼器,然后在許多語言任務(wù)中進(jìn)行繼續(xù)混合訓(xùn)練,包括純語言理解任務(wù),這也有助于避免災(zāi)難性的遺忘mT5的語言理解和生成能力。

最后得到了三個(gè)不同尺寸的PALI模型。

圖片

109種語言的數(shù)據(jù)集

深度學(xué)習(xí)相關(guān)的擴(kuò)展研究表明,模型越大,所需的訓(xùn)練數(shù)據(jù)集也越大。

所以為了全面研究和釋放語言-圖像預(yù)訓(xùn)練模型的潛力,研究人員從互聯(lián)網(wǎng)上爬取了大量的圖像和文本數(shù)據(jù),構(gòu)建了一個(gè)全新的數(shù)據(jù)集WebLI,其中包括109種語言的120億alt-texts和100億張圖片。

圖片

除了用網(wǎng)絡(luò)文本進(jìn)行標(biāo)注外,研究人員還應(yīng)用云端視覺API對圖像進(jìn)行OCR識別,進(jìn)而得到290億個(gè)圖像-OCR的數(shù)據(jù)對。

圖片

使用near-duplication對68個(gè)常見的視覺和視覺語言數(shù)據(jù)集的訓(xùn)練、驗(yàn)證和測試部分的圖像進(jìn)行了去重處理,以避免下游評估任務(wù)的數(shù)據(jù)泄露。

圖片

為了進(jìn)一步提高數(shù)據(jù)質(zhì)量,研究人員還會(huì)根據(jù)「圖像和alt-text」的跨模態(tài)相似度進(jìn)行評分,并調(diào)整閾值,最后只保留10%的圖像,總共有10億張圖像用于訓(xùn)練PaLI

訓(xùn)練大模型

由于視覺-語言任務(wù)是多模態(tài),所以需要模型具有多種語義處理能力,而且會(huì)有不同的目標(biāo)。比如有些任務(wù)需要對物體進(jìn)行局部定位以準(zhǔn)確解決任務(wù),而其他一些任務(wù)可能需要更多的全局語義信息。

同樣地,有的語言任務(wù)可能需要長的答案,而有些則需要緊湊的答案。

為了解決所有這些不一致的目標(biāo),研究人員利用WebLI預(yù)訓(xùn)練數(shù)據(jù)的豐富性,引入預(yù)訓(xùn)練任務(wù)的混合(Pretraining Task Mixture),為各種下游應(yīng)用準(zhǔn)備模型。

為了讓模型更通用以解決多種任務(wù),作者將所有的任務(wù)歸入一個(gè)單一的通用API(輸入:圖像+文本;輸出:文本),使多個(gè)圖像和語言任務(wù)之間能夠進(jìn)行知識共享,這也是與預(yù)訓(xùn)練設(shè)置的共享。

用于預(yù)訓(xùn)練的目標(biāo)作為加權(quán)的混合被投影到同一個(gè)API中,目的是既保持重復(fù)使用的模型組件的能力,又能訓(xùn)練模型執(zhí)行新的任務(wù)。

模型使用開源的T5X和Flaxformer框架在JAX中用Flax進(jìn)行訓(xùn)練,視覺部分的ViT-e使用開源的BigVision框架,將語言部分的詞向量與視覺部分生成的patch向量級聯(lián)起來,共同作為多模態(tài)編碼器-解碼器的輸入,編碼器使用mT5-XXL預(yù)訓(xùn)練初始化。在PaLI的訓(xùn)練過程中,視覺組件的權(quán)重被凍結(jié),只更新多模態(tài)編碼器-解碼器的權(quán)重。

在實(shí)驗(yàn)部分,研究人員在常見的視覺語言基準(zhǔn)上對PaLI進(jìn)行了比較,且PaLI模型在這些任務(wù)上取得了最先進(jìn)的結(jié)果,甚至超過了以往文獻(xiàn)中提出的超大型的模型。

圖片

比如170億參數(shù)的PALI在一些VQA和圖像標(biāo)題任務(wù)上的表現(xiàn)優(yōu)于800億參數(shù)的Flamingo模型。

并且PALI在單語言或單視覺的任務(wù)上也保持了良好的表現(xiàn),雖然這并非是PALI主要的訓(xùn)練目標(biāo)。

文中還研究了圖像和語言模型組件在模型擴(kuò)展方面是如何相互作用的,以及模型在哪里產(chǎn)生最大的收益。

最后得出的結(jié)論是,對這兩個(gè)組件進(jìn)行聯(lián)合擴(kuò)展(縮放)會(huì)產(chǎn)生最好的性能,具體來說,對需要相對較少參數(shù)的視覺組件進(jìn)行縮放是最關(guān)鍵的,同時(shí)縮放對于提高多語言任務(wù)的性能也很重要。

圖片

在35種語言的基準(zhǔn)Crossmodal-3600上評估了PaLI后可以發(fā)現(xiàn)多語言起標(biāo)題任務(wù)從PaLI模型的擴(kuò)展中受益更多。

圖片

為了避免在大型語言和圖像模型中產(chǎn)生或加強(qiáng)不公平的偏見,需要對所使用的數(shù)據(jù)和模型如何使用這些數(shù)據(jù)保持透明,以及測試模型的公平性并進(jìn)行負(fù)責(zé)任的數(shù)據(jù)分析,所以文中同時(shí)提供了一個(gè)Data Card和Model Card

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-01-14 15:01:53

谷歌開源技術(shù)

2023-08-01 13:09:42

代碼開發(fā)

2024-02-19 14:09:00

模型Eagle 7BRNN

2023-10-17 12:52:00

模型訓(xùn)練

2020-02-04 16:30:16

云計(jì)算行業(yè)科技

2025-02-25 10:34:10

2024-05-17 08:33:33

視覺語言模型

2024-01-31 09:43:55

模型訓(xùn)練

2023-02-25 16:14:36

AIMeta語言模型

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2022-04-02 15:25:28

NFT加密貨幣攻擊

2012-11-08 09:36:10

Google Go

2018-05-10 08:20:23

自然語言數(shù)據(jù)集數(shù)據(jù)

2023-05-25 16:24:13

2023-06-05 10:09:03

研究人工智能

2024-11-27 16:06:12

2010-08-18 08:53:53

Scala

2020-02-11 09:30:08

微軟瀏覽器Windows

2024-06-04 09:25:51

2025-01-06 11:10:00

架構(gòu)模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號