自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="hq0d8"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越CLIP的多模態(tài)模型，只需不到1%的訓(xùn)練數(shù)據(jù)！南加大最新研究來了

作者：羿閣 2022-08-08 09:47:09

人工智能新聞

南加州大學(xué)的最新研究發(fā)現(xiàn)了一種基于本體的課程學(xué)習(xí)（Curriculum Learning）算法。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

火爆全網(wǎng)的AI繪畫你玩了嗎？

女媧無限版、DALL·E2、Imagen……這些通過文字生成圖像的AI繪畫工具，背后的原理都是一個叫“CLIP”的模型，它是AI如何“理解”人類語義這一問題的關(guān)鍵。

CLIP（Contrastive Language–Image Pre-training），是一種基于對比的圖片-文本學(xué)習(xí)的跨模態(tài)預(yù)訓(xùn)練模型，由OpenAI于去年1月發(fā)布。

它好用是好用，但一個大問題是數(shù)據(jù)需求太大：4億個圖像文本對、256個GPU，這對許多公司和個人都很不友好。

對此，南加州大學(xué)的最新研究發(fā)現(xiàn)了一種基于本體的課程學(xué)習(xí)（Curriculum Learning）算法，只需不到1%的訓(xùn)練數(shù)據(jù)就能達(dá)到CLIP同款效果，甚至在圖像檢索方面表現(xiàn)更好。

新方法名為TOnICS（Training with Ontology-Informed Contrastive Sampling），相關(guān)論文已上傳到arXiv。

原理介紹

在介紹新方法之前，首先需要回顧一下CLIP。

CLIP的模型結(jié)構(gòu)其實非常簡單：包括兩個部分，即文本編碼器和圖像編碼器。

兩者分別編碼后，將文本和視覺嵌入映射到相同空間中，使用對比學(xué)習(xí)的思想，將匹配的圖片-文本Embedding的距離拉近，將不匹配的Embedding拉遠(yuǎn)。

在此基礎(chǔ)上，TOnICS沒有選擇從頭訓(xùn)練圖像和文本編碼器，而是把單模態(tài)預(yù)訓(xùn)練模型BERT用于文本編碼，微軟的VinVL用于圖像編碼，并使用InfoNCE損失函數(shù)將它們彼此對齊。

這是一種基于本體的課程學(xué)習(xí)算法，從簡單的樣本開始訓(xùn)練，方法是隨機(jī)抽樣小批次，并通過在圖像和文本輸入中加入相似的小批量數(shù)據(jù)，逐步加大對比任務(wù)的難度。

舉個例子，在隨機(jī)抽樣生成的小批量數(shù)據(jù)中，如果想找到“一條叼著飛盤在草地上奔跑的狗”，只需要先找畫面中有狗的圖片即可，因為隨機(jī)生成的圖像中包含狗的概率非常小。

也就意味著，隨機(jī)小批量抽樣將對比任務(wù)簡化為了對象匹配。

但當(dāng)對小批樣進(jìn)行采樣時，會抓取到很多畫面中有狗的相似圖片，因此僅靠識別圖片中是否有狗已經(jīng)不能解決問題了，該模型必須共享上下文級信息的語言和視覺表示，從而產(chǎn)生更細(xì)粒度的對齊。

此外，不同于CLIP從互聯(lián)網(wǎng)收集構(gòu)建了4億個圖像-文本對的數(shù)據(jù)集，BERT-VinVL模型只需不到1%的訓(xùn)練量，但效果并沒有打折扣。

研究人員在MS-COCO和Conceptual Captions上訓(xùn)練BERT-VinVL模型，并將該模型與下游檢索任務(wù)上的CLIP進(jìn)行比較。

實驗結(jié)果發(fā)現(xiàn)，BERT-VinVL模型同樣能達(dá)到零樣本學(xué)習(xí)效果，甚至在圖像檢索上表現(xiàn)更好（ R@1 提高了 1.5%）。

研究團(tuán)隊

該篇論文來自南加州大學(xué)的研究團(tuán)隊，作者分別是Tejas Srinivasan、Xiang Ren和Jesse Thomason。

第一作者Tejas Srinivasan，是南加州大學(xué)GLAMOR實驗室的一年級博士生，跟隨助理教授Jesse Thomason進(jìn)行多模態(tài)機(jī)器學(xué)習(xí)和語言基礎(chǔ)領(lǐng)域的研究。

他曾在微軟研究院實習(xí)，并在人工智能基金會短暫地?fù)?dān)任過 NLP 研究科學(xué)家。

之前在卡內(nèi)基梅隆大學(xué)語言技術(shù)學(xué)院完成了碩士學(xué)位，本科畢業(yè)于孟買印度理工學(xué)院機(jī)械工程專業(yè)，輔修計算機(jī)科學(xué)學(xué)位。

責(zé)任編輯：張燕妮來源：量子位

AI 算法模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="bvb3u"></sub>