自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10億參數(shù)、多項(xiàng)SOTA,智源開(kāi)源視覺(jué)基礎(chǔ)模型EVA

開(kāi)源 新聞
智源開(kāi)源了簡(jiǎn)單又強(qiáng)大、具有 10 億參數(shù)的視覺(jué)基礎(chǔ)模型 EVA,將最強(qiáng)語(yǔ)義學(xué)習(xí)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)相結(jié)合,在 ImageNet 分類(lèi)、COCO 檢測(cè)分割、Kinetics 視頻分類(lèi)等廣泛的視覺(jué)感知任務(wù)中取得當(dāng)前最強(qiáng)性能。

圖片


  • 論文地址:https://arxiv.org/abs/2211.07636
  • 代碼地址:https://github.com/baaivision/EVA

作為一種視覺(jué)預(yù)訓(xùn)練方法,掩碼圖像建模(Masked Image Modeling,簡(jiǎn)稱(chēng) MIM)近期得到了蓬勃發(fā)展,自從 BEiT 開(kāi)始,一系列新方法諸如 SimMIM、MAE、MVP 等被陸續(xù)設(shè)計(jì)出,這個(gè)領(lǐng)域也受到了很大關(guān)注。然而,在十億參數(shù)量級(jí)別的視覺(jué)預(yù)訓(xùn)練模型中,最具競(jìng)爭(zhēng)力的模型例如 ViT-g、SwinV2、CoCa 等仍然嚴(yán)重依賴(lài)有監(jiān)督或弱監(jiān)督訓(xùn)練,以及不可公開(kāi)訪(fǎng)問(wèn)的數(shù)億級(jí)有標(biāo)簽數(shù)據(jù)。

理想的視覺(jué)預(yù)訓(xùn)練應(yīng)當(dāng)只需簡(jiǎn)單的操作:譬如抓好語(yǔ)義學(xué)習(xí)和幾何結(jié)構(gòu)學(xué)習(xí)這兩個(gè)關(guān)鍵點(diǎn),基本可以搞定絕大部分的視覺(jué)任務(wù)。

智源曹越團(tuán)隊(duì)最新開(kāi)源的視覺(jué)預(yù)訓(xùn)練模型 EVA,將最強(qiáng)語(yǔ)義學(xué)習(xí)(CLIP)與最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí)(MIM)結(jié)合,僅需使用標(biāo)準(zhǔn)的 ViT 模型,并將其規(guī)模擴(kuò)大到十億參數(shù)(1-Billion)進(jìn)行訓(xùn)練,即可得到當(dāng)前最強(qiáng)大的十億級(jí)視覺(jué)基礎(chǔ)模型 EVA。

圖片

具體而言,EVA 的訓(xùn)練方法與 MVP、MILLAN 類(lèi)似,即通過(guò)重構(gòu) CLIP 特征來(lái)進(jìn)行掩碼圖像建模(masked image modeling)。如下圖所示,CLIP 模型輸入為完整的圖像,而 EVA 模型的輸入為有遮蓋的圖像,訓(xùn)練過(guò)程是讓 EVA 模型遮蓋部分的輸出去重構(gòu) CLIP 模型對(duì)應(yīng)位置的輸出,從而以簡(jiǎn)單高效的方式讓 EVA 模型同時(shí)擁有了最強(qiáng)語(yǔ)義學(xué)習(xí) CLIP 的能力和最強(qiáng)幾何結(jié)構(gòu)學(xué)習(xí) MIM 的能力。不同于之前的方法,EVA 證明了這種訓(xùn)練方式可以幫助模型將參數(shù)擴(kuò)展到十億量級(jí),并且在這個(gè)參數(shù)量級(jí)下在廣泛下游任務(wù)中取得出色的性能。

圖片

總結(jié)而言,EVA 具有以下特點(diǎn):

1. 高效

EVA 僅使用開(kāi)源的純圖像數(shù)據(jù)即可進(jìn)行掩碼預(yù)測(cè)任務(wù),不需要預(yù)訓(xùn)練階段重新學(xué)習(xí)語(yǔ)義以及不需要巨量的成對(duì)有標(biāo)注數(shù)據(jù)。相比而言,主流標(biāo)桿性模型(ViT-g、SwinV2、CoCa 等)仍依賴(lài)于冗長(zhǎng)的有監(jiān)督或弱監(jiān)督訓(xùn)練,以及不可公開(kāi)訪(fǎng)問(wèn)的數(shù)億級(jí)有標(biāo)簽數(shù)據(jù)。

2. 簡(jiǎn)單

EVA 無(wú)需特殊設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。使用簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)—標(biāo)準(zhǔn)的 ViT-g,而無(wú)需額外特殊設(shè)計(jì)的算子,使得其非常容易的遷移到廣泛的下游任務(wù),并且可以和其他模態(tài)共享。

實(shí)驗(yàn)

目前,EVA 在主流任務(wù)評(píng)測(cè)中的表現(xiàn)都可圈可點(diǎn):

1. 多項(xiàng)重要視覺(jué)感知任務(wù)取得 state-of-the-art 性能

ImageNet 圖像分類(lèi)中取得 89.7% 的 top-1 準(zhǔn)確率;Kinetics-700 視頻動(dòng)作識(shí)別取得 82.9% 的 top-1 準(zhǔn)確率;COCO 目標(biāo)檢測(cè)取得 64.7 mAP、實(shí)例分割取得 55.5 mAP;LVIS 的實(shí)例分割取得 55.0 mAP;語(yǔ)義分割的 COCO-stuff 取得 53.4 mIoU、ADE-20K 取得 62.3 mIoU。

圖片

2. 參數(shù)量變引發(fā)性能質(zhì)變:在 LVIS 上性能極強(qiáng);可以穩(wěn)定并加速 CLIP 訓(xùn)練,產(chǎn)生當(dāng)前最強(qiáng)的開(kāi)源 CLIP 模型。

首先,在 LVIS(超過(guò)一千類(lèi))實(shí)例分割任務(wù)上表現(xiàn)和 COCO(80 類(lèi))相仿,比之前的 SOTA 方法 MAE 高出 5.8 個(gè)點(diǎn);第二,使用 EVA 作為 CLIP 訓(xùn)練的初始化,其性能遠(yuǎn)超隨機(jī)初始化的 CLIP 訓(xùn)練,如下圖所示,在十億參數(shù)量級(jí)下,和 Open CLIP 官方使用完全一樣的訓(xùn)練方式下,在幾乎所有的零樣本基準(zhǔn)下均有顯著的性能提升,除此之外,EVA 可以極大地穩(wěn)定巨型 CLIP 的訓(xùn)練和優(yōu)化過(guò)程,訓(xùn)練過(guò)程僅需使用 FP16 混合精度,綜合來(lái)看,EVA 幫助訓(xùn)練得到當(dāng)前最強(qiáng)且最大的開(kāi)源 CLIP 模型,已經(jīng)有團(tuán)隊(duì)在嘗試使用其幫助 AIGC 模型的生成質(zhì)量。

圖片

圈重點(diǎn):EVA 全家桶開(kāi)源!

十億參數(shù)的預(yù)訓(xùn)練模型,下游 ImageNet 圖像分類(lèi)、Kinetics 視頻動(dòng)作識(shí)別、COCO 和 LVIS 目標(biāo)檢測(cè)和分割、ADE20K 語(yǔ)義分割、以及最強(qiáng) CLIP 模型,全部開(kāi)源!

圖片

歡迎感興趣的小伙伴前去使用!

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2020-11-18 10:29:07

模型人工智能開(kāi)源

2024-05-17 17:16:50

SOTA視覺(jué)模型

2023-04-23 09:43:22

2020-02-24 10:51:25

微軟開(kāi)源Windows

2023-04-10 11:18:24

GPT模型

2025-03-19 09:30:00

2022-01-14 15:01:53

谷歌開(kāi)源技術(shù)

2024-01-19 12:51:00

AI數(shù)據(jù)

2024-04-30 14:11:00

訓(xùn)練模型

2025-04-07 06:30:00

2023-09-15 13:08:56

AI訓(xùn)練

2023-02-01 13:29:46

機(jī)器學(xué)習(xí)

2025-03-07 08:40:00

模型數(shù)據(jù)AI

2023-10-12 14:40:10

AI模型

2024-06-18 09:43:26

2023-12-01 12:31:22

AI模型

2021-12-09 15:27:46

模型人工智能深度學(xué)習(xí)

2025-04-14 00:30:00

2023-12-01 13:36:01

阿里云通義千問(wèn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)