超越CLIP的多模態(tài)模型,只需不到1%的訓(xùn)練數(shù)據(jù)!南加大最新研究來了
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
火爆全網(wǎng)的AI繪畫你玩了嗎?
女媧無限版、DALL·E2、Imagen……這些通過文字生成圖像的AI繪畫工具,背后的原理都是一個叫“CLIP”的模型,它是AI如何“理解”人類語義這一問題的關(guān)鍵。
CLIP(Contrastive Language–Image Pre-training),是一種基于對比的圖片-文本學(xué)習(xí)的跨模態(tài)預(yù)訓(xùn)練模型,由OpenAI于去年1月發(fā)布。
它好用是好用,但一個大問題是數(shù)據(jù)需求太大:4億個圖像文本對、256個GPU,這對許多公司和個人都很不友好。
對此,南加州大學(xué)的最新研究發(fā)現(xiàn)了一種基于本體的課程學(xué)習(xí)(Curriculum Learning)算法,只需不到1%的訓(xùn)練數(shù)據(jù)就能達(dá)到CLIP同款效果,甚至在圖像檢索方面表現(xiàn)更好。
新方法名為TOnICS(Training with Ontology-Informed Contrastive Sampling),相關(guān)論文已上傳到arXiv。
原理介紹
在介紹新方法之前,首先需要回顧一下CLIP。
CLIP的模型結(jié)構(gòu)其實非常簡單:包括兩個部分,即文本編碼器和圖像編碼器。
兩者分別編碼后,將文本和視覺嵌入映射到相同空間中,使用對比學(xué)習(xí)的思想,將匹配的圖片-文本Embedding的距離拉近,將不匹配的Embedding拉遠(yuǎn)。
在此基礎(chǔ)上,TOnICS沒有選擇從頭訓(xùn)練圖像和文本編碼器,而是把單模態(tài)預(yù)訓(xùn)練模型BERT用于文本編碼,微軟的VinVL用于圖像編碼,并使用InfoNCE損失函數(shù)將它們彼此對齊。
這是一種基于本體的課程學(xué)習(xí)算法,從簡單的樣本開始訓(xùn)練,方法是隨機(jī)抽樣小批次,并通過在圖像和文本輸入中加入相似的小批量數(shù)據(jù),逐步加大對比任務(wù)的難度。
舉個例子,在隨機(jī)抽樣生成的小批量數(shù)據(jù)中,如果想找到“一條叼著飛盤在草地上奔跑的狗”,只需要先找畫面中有狗的圖片即可,因為隨機(jī)生成的圖像中包含狗的概率非常小。
也就意味著,隨機(jī)小批量抽樣將對比任務(wù)簡化為了對象匹配。
但當(dāng)對小批樣進(jìn)行采樣時,會抓取到很多畫面中有狗的相似圖片,因此僅靠識別圖片中是否有狗已經(jīng)不能解決問題了,該模型必須共享上下文級信息的語言和視覺表示,從而產(chǎn)生更細(xì)粒度的對齊。
此外,不同于CLIP從互聯(lián)網(wǎng)收集構(gòu)建了4億個圖像-文本對的數(shù)據(jù)集,BERT-VinVL模型只需不到1%的訓(xùn)練量,但效果并沒有打折扣。
研究人員在MS-COCO和Conceptual Captions上訓(xùn)練BERT-VinVL模型,并將該模型與下游檢索任務(wù)上的CLIP進(jìn)行比較。
實驗結(jié)果發(fā)現(xiàn),BERT-VinVL模型同樣能達(dá)到零樣本學(xué)習(xí)效果,甚至在圖像檢索上表現(xiàn)更好( R@1 提高了 1.5%)。
研究團(tuán)隊
該篇論文來自南加州大學(xué)的研究團(tuán)隊,作者分別是Tejas Srinivasan、Xiang Ren和Jesse Thomason。
第一作者Tejas Srinivasan,是南加州大學(xué)GLAMOR實驗室的一年級博士生,跟隨助理教授Jesse Thomason進(jìn)行多模態(tài)機(jī)器學(xué)習(xí)和語言基礎(chǔ)領(lǐng)域的研究。
他曾在微軟研究院實習(xí),并在人工智能基金會短暫地?fù)?dān)任過 NLP 研究科學(xué)家。
之前在卡內(nèi)基梅隆大學(xué)語言技術(shù)學(xué)院完成了碩士學(xué)位,本科畢業(yè)于孟買印度理工學(xué)院機(jī)械工程專業(yè),輔修計算機(jī)科學(xué)學(xué)位。