順手訓(xùn)了一個(gè)史上超大ViT?Google升級視覺語言模型PaLI:支持100+種語言
近幾年自然語言處理的進(jìn)展很大程度上都來自于大規(guī)模語言模型,每次發(fā)布的新模型都將參數(shù)量、訓(xùn)練數(shù)據(jù)量推向新高,同時(shí)也會(huì)對現(xiàn)有基準(zhǔn)排行進(jìn)行一次屠榜!
比如今年4月,Google發(fā)布5400億參數(shù)的語言模型PaLM(Pathways Language Model)在語言和推理類的一系列測評中成功超越人類,尤其是在few-shot小樣本學(xué)習(xí)場景下的優(yōu)異性能,也讓PaLM被認(rèn)為是下一代語言模型的發(fā)展方向。
同理,視覺語言模型其實(shí)也是大力出奇跡,可以通過提升模型的規(guī)模來提升性能。
當(dāng)然了,如果只是多任務(wù)的視覺語言模型,顯然還不是很通用,還得支持多種語言的輸入輸出才行。
最近Google就將PaLM擴(kuò)展升級成PALI(Pathways Language and Image model),兼具多語言和圖像理解的能力,同時(shí)支持100+種語言來執(zhí)行各種橫跨視覺、語言和多模態(tài)圖像和語言應(yīng)用,如視覺問題回答、圖像說明(image caption)、物體檢測、圖像分類、OCR、文本推理等。
論文鏈接:?https://arxiv.org/abs/2209.06794?
模型的訓(xùn)練使用的是一個(gè)公開的圖像集合,其中包括自動(dòng)爬取的109種語言的標(biāo)注,文中也稱之為WebLI數(shù)據(jù)集。
在WebLI上預(yù)訓(xùn)練的PaLI模型在多個(gè)圖像和語言基準(zhǔn)上取得了最先進(jìn)的性能,如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等,也超越了先前模型的多語言視覺描述(multilingual visual captioning)和視覺問答的基準(zhǔn)。
模型架構(gòu)
PALI的目標(biāo)之一是研究語言和視覺模型在性能和規(guī)模上的聯(lián)系是否相同,特別是語言-圖像模型的可擴(kuò)展性(scalability)。
所以模型的架構(gòu)設(shè)計(jì)上就很簡單,主要是為了實(shí)驗(yàn)方便,尤其是可重復(fù)使用且可擴(kuò)展。
模型由一個(gè)處理輸入文本的Transformer編碼器和一個(gè)生成輸出文本的自回歸Transformer解碼器組成。
在處理圖像時(shí),Transformer編碼器的輸入還包括代表由ViT處理的圖像的視覺詞(visual words)。
PaLI模型的一個(gè)關(guān)鍵設(shè)計(jì)是重用,研究人員用之前訓(xùn)練過的單模態(tài)視覺和語言模型(如mT5-XXL和大型ViTs)的權(quán)重作為模型的種子,這種重用不僅使單模態(tài)訓(xùn)練的能力得到遷移,而且還能節(jié)省計(jì)算成本。
模型的視覺組件使用的是迄今為止最大的ViT架構(gòu)ViT-e,它與18億參數(shù)的ViT-G模型具有相同的結(jié)構(gòu),并使用相同的訓(xùn)練參數(shù),區(qū)別就是擴(kuò)展為了40億參數(shù)。
雖然在視覺領(lǐng)域和語言領(lǐng)域都對縮放規(guī)律進(jìn)行了研究,但在視覺和語言的組合模型中對縮放行為的探討較少,擴(kuò)大視覺骨干模型的規(guī)??赡軙?huì)導(dǎo)致在分類任務(wù)中的收益飽和。
研究人員也進(jìn)一步證實(shí)了這一點(diǎn),可以觀察到 ViT-e在ImageNet上只比ViT-G好一點(diǎn),但ViT-e在PaLI的視覺語言任務(wù)上有很大的改進(jìn)。例如,ViT-e在COCO字幕任務(wù)上比ViT-G多出近3個(gè)CIDEr點(diǎn)。任務(wù)上比ViT-G多出3分。這也暗示了未來在視覺語言任務(wù)中使用更大的ViT骨架模型的空間。
研究人員采用mT5骨干作為語言建模組件,使用預(yù)訓(xùn)練的mT5-Large(10億參數(shù))和mT5-XXL (130億參數(shù))來初始化PaLI的語言編碼器-解碼器,然后在許多語言任務(wù)中進(jìn)行繼續(xù)混合訓(xùn)練,包括純語言理解任務(wù),這也有助于避免災(zāi)難性的遺忘mT5的語言理解和生成能力。
最后得到了三個(gè)不同尺寸的PALI模型。
109種語言的數(shù)據(jù)集
深度學(xué)習(xí)相關(guān)的擴(kuò)展研究表明,模型越大,所需的訓(xùn)練數(shù)據(jù)集也越大。
所以為了全面研究和釋放語言-圖像預(yù)訓(xùn)練模型的潛力,研究人員從互聯(lián)網(wǎng)上爬取了大量的圖像和文本數(shù)據(jù),構(gòu)建了一個(gè)全新的數(shù)據(jù)集WebLI,其中包括109種語言的120億alt-texts和100億張圖片。
除了用網(wǎng)絡(luò)文本進(jìn)行標(biāo)注外,研究人員還應(yīng)用云端視覺API對圖像進(jìn)行OCR識別,進(jìn)而得到290億個(gè)圖像-OCR的數(shù)據(jù)對。
使用near-duplication對68個(gè)常見的視覺和視覺語言數(shù)據(jù)集的訓(xùn)練、驗(yàn)證和測試部分的圖像進(jìn)行了去重處理,以避免下游評估任務(wù)的數(shù)據(jù)泄露。
為了進(jìn)一步提高數(shù)據(jù)質(zhì)量,研究人員還會(huì)根據(jù)「圖像和alt-text」的跨模態(tài)相似度進(jìn)行評分,并調(diào)整閾值,最后只保留10%的圖像,總共有10億張圖像用于訓(xùn)練PaLI
訓(xùn)練大模型
由于視覺-語言任務(wù)是多模態(tài),所以需要模型具有多種語義處理能力,而且會(huì)有不同的目標(biāo)。比如有些任務(wù)需要對物體進(jìn)行局部定位以準(zhǔn)確解決任務(wù),而其他一些任務(wù)可能需要更多的全局語義信息。
同樣地,有的語言任務(wù)可能需要長的答案,而有些則需要緊湊的答案。
為了解決所有這些不一致的目標(biāo),研究人員利用WebLI預(yù)訓(xùn)練數(shù)據(jù)的豐富性,引入預(yù)訓(xùn)練任務(wù)的混合(Pretraining Task Mixture),為各種下游應(yīng)用準(zhǔn)備模型。
為了讓模型更通用以解決多種任務(wù),作者將所有的任務(wù)歸入一個(gè)單一的通用API(輸入:圖像+文本;輸出:文本),使多個(gè)圖像和語言任務(wù)之間能夠進(jìn)行知識共享,這也是與預(yù)訓(xùn)練設(shè)置的共享。
用于預(yù)訓(xùn)練的目標(biāo)作為加權(quán)的混合被投影到同一個(gè)API中,目的是既保持重復(fù)使用的模型組件的能力,又能訓(xùn)練模型執(zhí)行新的任務(wù)。
模型使用開源的T5X和Flaxformer框架在JAX中用Flax進(jìn)行訓(xùn)練,視覺部分的ViT-e使用開源的BigVision框架,將語言部分的詞向量與視覺部分生成的patch向量級聯(lián)起來,共同作為多模態(tài)編碼器-解碼器的輸入,編碼器使用mT5-XXL預(yù)訓(xùn)練初始化。在PaLI的訓(xùn)練過程中,視覺組件的權(quán)重被凍結(jié),只更新多模態(tài)編碼器-解碼器的權(quán)重。
在實(shí)驗(yàn)部分,研究人員在常見的視覺語言基準(zhǔn)上對PaLI進(jìn)行了比較,且PaLI模型在這些任務(wù)上取得了最先進(jìn)的結(jié)果,甚至超過了以往文獻(xiàn)中提出的超大型的模型。
比如170億參數(shù)的PALI在一些VQA和圖像標(biāo)題任務(wù)上的表現(xiàn)優(yōu)于800億參數(shù)的Flamingo模型。
并且PALI在單語言或單視覺的任務(wù)上也保持了良好的表現(xiàn),雖然這并非是PALI主要的訓(xùn)練目標(biāo)。
文中還研究了圖像和語言模型組件在模型擴(kuò)展方面是如何相互作用的,以及模型在哪里產(chǎn)生最大的收益。
最后得出的結(jié)論是,對這兩個(gè)組件進(jìn)行聯(lián)合擴(kuò)展(縮放)會(huì)產(chǎn)生最好的性能,具體來說,對需要相對較少參數(shù)的視覺組件進(jìn)行縮放是最關(guān)鍵的,同時(shí)縮放對于提高多語言任務(wù)的性能也很重要。
在35種語言的基準(zhǔn)Crossmodal-3600上評估了PaLI后可以發(fā)現(xiàn)多語言起標(biāo)題任務(wù)從PaLI模型的擴(kuò)展中受益更多。
為了避免在大型語言和圖像模型中產(chǎn)生或加強(qiáng)不公平的偏見,需要對所使用的數(shù)據(jù)和模型如何使用這些數(shù)據(jù)保持透明,以及測試模型的公平性并進(jìn)行負(fù)責(zé)任的數(shù)據(jù)分析,所以文中同時(shí)提供了一個(gè)Data Card和Model Card