小扎親自官宣Meta視覺大模型！自監(jiān)督學習無需微調，多任務效果超OpenCLIP

作者：蕭簫 2023-04-18 17:23:00

人工智能新聞

目前Meta官方不僅已經放出了開源代碼，而且還給了網頁版Demo試玩。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯(lián)系出處。

無需文字標簽，完全自監(jiān)督的Meta視覺大模型來了！

小扎親自官宣，發(fā)布即收獲大量關注度——

在語義分割、實例分割、深度估計和圖像檢索等任務中，這個名叫DINOv2的視覺大模型均取得了非常不錯的效果。

甚至有超過當前最好的開源視覺模型OpenCLIP之勢。

雖然此前Meta就發(fā)布過自監(jiān)督學習視覺大模型DINO，不過這次AI識別圖像特征的能力顯然更進一步，準確分割出了視頻中的主體：

可別以為DINOv2通過自監(jiān)督學會的只有圖片分割。事實上，它已經能根據(jù)不同類別、不同場景下的照片，準確識別出同種物體（狗）的頭部、身體和四肢長在哪：

換而言之，DINOv2自己學會了找圖像特征。

目前Meta官方不僅已經放出了開源代碼，而且還給了網頁版Demo試玩。有網友內涵：

什么叫開源，LLaMA，SAM，DINOv2這才叫開源！

一起來看看，DINOv2的效果究竟如何。

準確識別不同畫風的同種物體

事實上，DINOv2是基于上一代DINOv1打造的視覺大模型。

這個模型參數(shù)量是10億級，也仍然是視覺Transformer架構（ViT），但與DINO不太一樣的是，這次DINOv2在數(shù)據(jù)集上經過了精心挑選。

具體來說，DINOv2構建了一個數(shù)據(jù)篩選pipeline，將內容相似的圖片精心篩選出來，同時排除掉相同的圖片：

最終呈現(xiàn)給DINOv2的訓練數(shù)據(jù)圖片雖然沒有文字標簽，但這些圖片的特征確實是相似的。

采用這類數(shù)據(jù)訓練出來的視覺模型，效果如何？

這是DINOv2在8個視覺任務上的表現(xiàn)，包括語義分割、分類、深度估計等，其中橙色是自監(jiān)督方法的效果，深粉色是弱監(jiān)督方法的效果。

可以看見，經過自監(jiān)督學習的視覺模型，表現(xiàn)上已經與經過弱監(jiān)督學習的模型性能相當。

實際效果也不錯，即便在一系列照片中，相同物體的畫風并不相似，DINOv2也能準確識別它們的特征，并分到相似的列表中。

如（a）組中都具有翅膀的鳥和飛機、（b）組中的大象和大象雕塑、（c）組中的汽車和汽車玩具模型、（d）組中的馬和涂鴉版馬：

而且從PCA（主成分分析）圖像效果來看，DINOv2不僅能準確分類，還能用不同顏色標出它們“相同”的部分，例如象鼻都是綠色、車輪都是紅色、馬的尾巴是黃色等。

換而言之，DINOv2能理解這些圖像中的相似之處，就像人會形容飛機“看起來像一只鳥”一樣。

目前DINOv2已經放出Demo，我們也試了試它的實際效果。

Demo直接可玩

官網已經開放語義分割、圖像檢索和深度估計三大功能的試玩。

據(jù)Meta介紹，這幾個任務中，DINOv2在大多數(shù)基準上超過了目前開源視覺模型中表現(xiàn)最好的OpenCLIP。

我們先來看看深度估計的效果。

值得一提的是，在效果更好的情況下，DINOv2運行的速度也比iBOT更快，相同硬件下只需三分之一的內存，運行速度就能比DINOv2快上2倍多。

這是Meta論文中與OpenCLIP在實際例子上的比較效果：

我們用這張猛男版新寶島試一下，看起來還不錯，即使是高糊圖片也能比較好地估計出深度：

接下來是語義分割的效果，這里也先給出Meta論文中的數(shù)據(jù)對比情況：

這里也給出OpenCLIP和DINOv2的對比，中間的圖片是OpenCLIP的效果，右邊是DINOv2分割的效果：

我們也用一張辦公室的圖片試了一下，看起來DINOv2還是能比較準確地分割人體、物體的，但在細節(jié)上會有一些噪點：

最后是圖片檢索。

官網上給出的圖片效果還是挺不錯的，輸入鐵塔照片，可以生成不少含鐵塔的相似藝術圖片：

這里我們也試了試，輸入一張華強買瓜，給出來的藝術圖片大多數(shù)與西瓜有關：

那么，這樣的自監(jiān)督視覺大模型可以用在哪里？

從Meta給出的視頻來看，目前有一些比較環(huán)保的用途，例如用于估計全球各地的樹木高度：

除此之外，如同扎克伯格所說，DINOv2還能被用于改善醫(yī)學成像、糧食作物生長等。當然這里小扎還進一步強調：

可以被用于制作更具沉浸感的元宇宙。

嗯，看來Meta的元宇宙路線還將繼續(xù)……

試玩Demo地址：https://dinov2.metademolab.com/demos

項目地址：??https://github.com/facebookresearch/dinov2??

責任編輯：張燕妮來源：量子位

Meta 開源

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小扎親自官宣Meta視覺大模型！自監(jiān)督學習無需微調，多任務效果超OpenCLIP

準確識別不同畫風的同種物體

Demo直接可玩

小扎親自官宣Meta視覺大模型！自監(jiān)督學習無需微調，多任務效果超OpenCLIP