自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越CLIP的多模態(tài)模型,只需不到1%的訓(xùn)練數(shù)據(jù)!南加大最新研究來了

人工智能 新聞
南加州大學(xué)的最新研究發(fā)現(xiàn)了一種基于本體的課程學(xué)習(xí)(Curriculum Learning)算法。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

火爆全網(wǎng)的AI繪畫你玩了嗎?

女媧無限版、DALL·E2、Imagen……這些通過文字生成圖像的AI繪畫工具,背后的原理都是一個叫“CLIP”的模型,它是AI如何“理解”人類語義這一問題的關(guān)鍵。

圖片

CLIP(Contrastive Language–Image Pre-training),是一種基于對比的圖片-文本學(xué)習(xí)的跨模態(tài)預(yù)訓(xùn)練模型,由OpenAI于去年1月發(fā)布。

它好用是好用,但一個大問題是數(shù)據(jù)需求太大:4億個圖像文本對、256個GPU,這對許多公司和個人都很不友好。

對此,南加州大學(xué)的最新研究發(fā)現(xiàn)了一種基于本體的課程學(xué)習(xí)(Curriculum Learning)算法,只需不到1%的訓(xùn)練數(shù)據(jù)就能達(dá)到CLIP同款效果,甚至在圖像檢索方面表現(xiàn)更好。

新方法名為TOnICS(Training with Ontology-Informed Contrastive Sampling),相關(guān)論文已上傳到arXiv。

圖片

原理介紹

在介紹新方法之前,首先需要回顧一下CLIP。

CLIP的模型結(jié)構(gòu)其實非常簡單:包括兩個部分,即文本編碼器和圖像編碼器。

兩者分別編碼后,將文本和視覺嵌入映射到相同空間中,使用對比學(xué)習(xí)的思想,將匹配的圖片-文本Embedding的距離拉近,將不匹配的Embedding拉遠(yuǎn)。

在此基礎(chǔ)上,TOnICS沒有選擇從頭訓(xùn)練圖像和文本編碼器,而是把單模態(tài)預(yù)訓(xùn)練模型BERT用于文本編碼,微軟的VinVL用于圖像編碼,并使用InfoNCE損失函數(shù)將它們彼此對齊。

圖片

這是一種基于本體的課程學(xué)習(xí)算法,從簡單的樣本開始訓(xùn)練,方法是隨機(jī)抽樣小批次,并通過在圖像和文本輸入中加入相似的小批量數(shù)據(jù),逐步加大對比任務(wù)的難度。

舉個例子,在隨機(jī)抽樣生成的小批量數(shù)據(jù)中,如果想找到“一條叼著飛盤在草地上奔跑的狗”,只需要先找畫面中有狗的圖片即可,因為隨機(jī)生成的圖像中包含狗的概率非常小。

也就意味著,隨機(jī)小批量抽樣將對比任務(wù)簡化為了對象匹配。

圖片

但當(dāng)對小批樣進(jìn)行采樣時,會抓取到很多畫面中有狗的相似圖片,因此僅靠識別圖片中是否有狗已經(jīng)不能解決問題了,該模型必須共享上下文級信息的語言和視覺表示,從而產(chǎn)生更細(xì)粒度的對齊。

圖片

此外,不同于CLIP從互聯(lián)網(wǎng)收集構(gòu)建了4億個圖像-文本對的數(shù)據(jù)集,BERT-VinVL模型只需不到1%的訓(xùn)練量,但效果并沒有打折扣。

圖片

研究人員在MS-COCO和Conceptual Captions上訓(xùn)練BERT-VinVL模型,并將該模型與下游檢索任務(wù)上的CLIP進(jìn)行比較。

實驗結(jié)果發(fā)現(xiàn),BERT-VinVL模型同樣能達(dá)到零樣本學(xué)習(xí)效果,甚至在圖像檢索上表現(xiàn)更好( R@1 提高了 1.5%)。

圖片

研究團(tuán)隊

該篇論文來自南加州大學(xué)的研究團(tuán)隊,作者分別是Tejas Srinivasan、Xiang Ren和Jesse Thomason。

第一作者Tejas Srinivasan,是南加州大學(xué)GLAMOR實驗室的一年級博士生,跟隨助理教授Jesse Thomason進(jìn)行多模態(tài)機(jī)器學(xué)習(xí)和語言基礎(chǔ)領(lǐng)域的研究。

圖片

他曾在微軟研究院實習(xí),并在人工智能基金會短暫地?fù)?dān)任過 NLP 研究科學(xué)家。

之前在卡內(nèi)基梅隆大學(xué)語言技術(shù)學(xué)院完成了碩士學(xué)位,本科畢業(yè)于孟買印度理工學(xué)院機(jī)械工程專業(yè),輔修計算機(jī)科學(xué)學(xué)位。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-21 08:00:00

2025-04-07 00:00:00

多模態(tài)大模型

2025-04-08 09:10:00

模型訓(xùn)練AI

2023-02-16 13:48:56

模型論文

2024-04-14 19:53:44

2024-12-12 00:25:09

2025-04-08 04:20:00

2024-05-27 07:21:43

2024-03-25 12:40:19

訓(xùn)練模型

2025-04-08 03:00:00

2024-01-11 16:24:12

人工智能RAG

2025-03-05 10:21:04

DeepSeekLVLM

2025-01-08 08:21:16

2023-04-13 15:25:14

模型

2022-06-13 11:57:04

谷歌模型計算

2024-09-09 13:50:00

2024-03-22 15:08:47

CLIP機(jī)器學(xué)習(xí)人工智能

2022-01-21 15:33:56

架構(gòu)模型AI

2023-11-29 15:00:00

數(shù)據(jù)訓(xùn)練

2024-12-18 18:57:58

點贊
收藏

51CTO技術(shù)棧公眾號