自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港大馬毅團(tuán)隊(duì)等開源新作:用編碼率正則化重構(gòu)視覺自監(jiān)督學(xué)習(xí)范式,“少即是多”

人工智能 新聞
在目前視覺預(yù)訓(xùn)練領(lǐng)域,DINO和DINOv2是最強(qiáng)視覺模型梯隊(duì)選手,也是目前最常用的方法。

最新開源的視覺預(yù)訓(xùn)練方法,馬毅團(tuán)隊(duì)、微軟研究院、UC伯克利等聯(lián)合出品!

SimDINOSimDINOv2,通過編碼率正則化簡化DINO和DINOv2模型訓(xùn)練流程得到的兩個最新模型。

圖片

在目前視覺預(yù)訓(xùn)練領(lǐng)域,DINO和DINOv2是最強(qiáng)視覺模型梯隊(duì)選手,也是目前最常用的方法。在多模態(tài)大模型火熱的當(dāng)下,DINOv2也經(jīng)常被用作VLM中的視覺編碼器提供視覺特征。

此外,圖靈獎得主、Meta首席AI科學(xué)家楊立昆團(tuán)隊(duì)近期關(guān)于世界模型的工作,也基于DINOv2而來。

(當(dāng)然了,DINO模型本身就是四年前Meta AI團(tuán)隊(duì)提出的)

但DINO系列目前仍然需要基于非常復(fù)雜的工程方法來實(shí)現(xiàn)。

SimDINO通過去除DINO中復(fù)雜的后處理步驟等,解決了DINO系列的訓(xùn)練難題。

更令人驚喜的是,簡化后的模型不僅訓(xùn)練更容易,性能反而更強(qiáng)。

或許這就是“簡單即是美”的設(shè)計(jì)理念在深度學(xué)習(xí)中的重要價(jià)值?(手動狗頭)

馬毅表示:

我們不是在修補(bǔ)DINO,而是在重新發(fā)現(xiàn)視覺表示學(xué)習(xí)的本質(zhì)規(guī)律。

核心方法:化繁為簡

自監(jiān)督學(xué)習(xí)(Self-Supervised Learning,SSL)在處理大規(guī)模未標(biāo)記圖像數(shù)據(jù)方面取得了顯著進(jìn)展。

在CV領(lǐng)域,DINO系列模型堪稱自監(jiān)督學(xué)習(xí)的標(biāo)桿選手。

這個無需人工標(biāo)注就能從海量圖像中自主學(xué)習(xí)特征的模型,不僅在下游任務(wù)中屢創(chuàng)佳績,更成為多模態(tài)大模型視覺編碼器的標(biāo)配。

但是,DINO系列模型的強(qiáng)能力,伴隨著「需要被精心呵護(hù)」:

  • 需要精心設(shè)計(jì)的溫度調(diào)度策略(溫度參數(shù)τ要精確到小數(shù)點(diǎn)后三位)
  • 依賴復(fù)雜的中心化-銳化操作(堪比精密儀器的校準(zhǔn)流程)
  • 必須搭配高維原型投影層(特征維度動輒破萬)

這些“保命裝置”雖然能防止模型陷入特征崩潰,卻讓訓(xùn)練過程變成了超參數(shù)調(diào)優(yōu)的噩夢。并且當(dāng)研究人員嘗試改進(jìn)模型架構(gòu)或適配新領(lǐng)域時,往往牽一發(fā)而動全身,稍有不慎就會讓整個系統(tǒng)停擺。

為了解決這些問題,SimDINO和SimDINOv2模型閃亮登場~

通過引入編碼率正則化,簡化訓(xùn)練流程,提高模型的魯棒性和性能。

這倆模型的核心思想,是通過編碼率正則化防止表示崩潰,從而去除原始DINO和DINOv2訓(xùn)練流程中許多經(jīng)驗(yàn)性設(shè)計(jì)組件。

具體方法包括:

  • 移除經(jīng)驗(yàn)性組件:刪除權(quán)重歸一化的線性層、平衡操作(如中心化、銳化)以及各種超參數(shù)(如溫度調(diào)度、中心化動量)等。
  • 引入編碼率正則化:在損失函數(shù)中添加一個簡單的編碼率正則化項(xiàng),以防止表示崩潰。

SimDINO和SimDINOv2模型的主要創(chuàng)新點(diǎn)除了上述2種方法外,還有一點(diǎn),即簡化的訓(xùn)練流程。

通過上述2種具體方法的改進(jìn),SimDINO和SimDINOv2的訓(xùn)練流程更加簡潔,減少了對超參數(shù)的依賴,提高了訓(xùn)練的穩(wěn)定性和效率。

引入編碼率正則化,訓(xùn)練更穩(wěn)定、性能更強(qiáng)

回顧自監(jiān)督對比學(xué)習(xí)“同類相聚,異類相斥”的原始出發(fā)點(diǎn),研究團(tuán)隊(duì)發(fā)現(xiàn),DINO中許多復(fù)雜設(shè)計(jì)(如輸出層高維投影、教師網(wǎng)絡(luò)輸出中心化-銳化操作、溫度調(diào)節(jié)等)都是在間接地利用負(fù)樣本信息來防止模型習(xí)得的表示“崩潰”。

而SimDINO系列研究團(tuán)隊(duì)提出這一需求,可以轉(zhuǎn)而使用馬毅提出的數(shù)據(jù)編碼率失真估計(jì)方法(可參考MCR2等系列工作),采用顯示度量模型表征的質(zhì)量作為正則化項(xiàng)。

圖片

基于這一發(fā)現(xiàn),研究人員提出了一個解決方案:

引入編碼率(coding rate)正則化,通過在損失函數(shù)中添加一個顯式的編碼率正則項(xiàng)來避免表示崩潰。

這個簡單的改動就能替代原本復(fù)雜的設(shè)計(jì),將訓(xùn)練流程向簡約靠近。

而簡化的模型訓(xùn)練流程可以帶來幾個關(guān)鍵優(yōu)勢,即「更清晰的優(yōu)化目標(biāo)、更少的組件依賴、更容易的理論分析、更好的可擴(kuò)展性」。

具體而言,SimDINO保留了DINO模型的EMA自蒸餾方案和多視圖數(shù)據(jù)增強(qiáng)方法,但在對比學(xué)習(xí)方案上進(jìn)行了修改。

拋棄輸出層高維原型投影+交叉熵多分類,直接使用歐幾里得距離/余弦相似度比較學(xué)生網(wǎng)絡(luò)(student network)和教師網(wǎng)絡(luò)(teacher network)生成的特征。

加入編碼率正則化項(xiàng)促使模型學(xué)習(xí)到更具區(qū)分性的表示,移除教師網(wǎng)絡(luò)輸出中心化-銳化操作、溫度調(diào)節(jié)等避免表示崩潰的技巧。

通過引入編碼率正則化,SimDINO能夠有效防止特征崩潰,確保學(xué)習(xí)到的信息具有較大的信息熵,從而提高模型的泛化能力。

圖片

SimDINOv2 則進(jìn)一步將DINOv2 引入的 iBOT機(jī)制進(jìn)行替換。

它直接使用余弦相似度監(jiān)督掩碼區(qū)域token與教師網(wǎng)絡(luò)表示間的對齊,而Sinkhorn-Knopp centering、KoLeo正則化等復(fù)雜設(shè)計(jì)也被簡化移除。

圖片

相比于原版DINO, SimDINO的訓(xùn)練流程更為簡潔,去除了許多繁瑣的組件和超參數(shù),降低了模型訓(xùn)練的復(fù)雜度,使得研究人員和工程師更容易理解和實(shí)現(xiàn)這些模型。

從實(shí)驗(yàn)角度看,這一系列操作可以讓模型訓(xùn)練更穩(wěn)定,性能也更強(qiáng)。

各種評估均優(yōu)于DINO系列

為了驗(yàn)證SimDINO和SimDINOv2的有效性,研究團(tuán)隊(duì)在多個數(shù)據(jù)集和任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)評估,包括圖像分類、目標(biāo)檢測、語義分割以及視頻對象分割。

實(shí)驗(yàn)結(jié)果表明,SimDINO系列在計(jì)算效率、訓(xùn)練穩(wěn)定性和下游任務(wù)性能上均優(yōu)于DINO系列。

ImageNet-1K圖像分類

SimDINO和SimDINOv2在ImageNet-1K上進(jìn)行了評估,包括k-NN 分類和線性評估(linear probing)。

還與DINO、DINOv2進(jìn)行了對比。

圖片

COCO val2017無監(jiān)督目標(biāo)檢測與實(shí)例分割

在目標(biāo)檢測任務(wù)中,研究團(tuán)隊(duì)采用MaskCut作為基礎(chǔ)檢測框架,并在COCO val2017數(shù)據(jù)集上進(jìn)行了評估。

具體來說,主要對比了AP50、AP75和AP三個指標(biāo):

圖片

ADE20K語義分割和DAVIS-2017視頻對象分割

在語義分割任務(wù)上,研究團(tuán)隊(duì)采用linear head并在ADE20K數(shù)據(jù)集上進(jìn)行了評估。

這個任務(wù)上主要對比了 mIoU(平均交并比)和 mAcc(平均像素精度)。

圖片

特別要提到的是,SimDINO還在DAVIS-2017上進(jìn)行了評估,包括 (J&F)m、Jm和Fm三個標(biāo)準(zhǔn)指標(biāo)。

結(jié)果顯示,它在定性的特征可視化分析上也展現(xiàn)出了DINO系列工作中表現(xiàn)突出的語義表達(dá)能力涌現(xiàn)現(xiàn)象。

與此同時,SimDINO和SimDINOv2對超參數(shù)和數(shù)據(jù)的變化更穩(wěn)健了。

圖片

其它

此外,項(xiàng)目論文中通過理論分析,提出了一個關(guān)于SimDINO超參數(shù)選擇的理論:

如何平衡編碼率正則化項(xiàng)和距離項(xiàng)的梯度范數(shù)。

通過理論推導(dǎo),作者給出了一個關(guān)于超參數(shù)γ的選擇方法,使得兩個項(xiàng)的梯度范數(shù)在優(yōu)化過程中保持平衡。

下圖顯示的是在SimDINO和DINO下訓(xùn)練 ViT-B/16的訓(xùn)練動態(tài)。

X軸表示訓(xùn)練周期(epochs),Y軸表示在ImageNet-1K上的k-NN評估性能。

圖片

其中,左圖顯示的是兩個模型均在ImageNet-1K數(shù)據(jù)集上訓(xùn)練。

為更好地展示優(yōu)化過程,研究團(tuán)隊(duì)省略了早期訓(xùn)練階段的數(shù)據(jù)。

右圖顯示的是兩個模型均在 COCO train2017 數(shù)據(jù)集(大約是 ImageNet-1K的1/10)上訓(xùn)練。

作為一個驗(yàn)證實(shí)驗(yàn),該結(jié)果表明SimDINO需要更少的超參數(shù)調(diào)優(yōu),并且優(yōu)化過程更加簡單。

研究團(tuán)隊(duì)

SimDINO系列由多所學(xué)校與機(jī)構(gòu)的研究者共同完成,包括UC伯克利、憶生科技、微軟研究院、香港大學(xué)等。

一作是UC伯克利三年級博士生吳梓陽,導(dǎo)師是馬毅。

他主要研究方向?yàn)楸碚鲗W(xué)習(xí)與多模態(tài)學(xué)習(xí),致力于通過數(shù)學(xué)與統(tǒng)計(jì)理論構(gòu)建高效、可解釋的深度學(xué)習(xí)模型。

此前,吳梓陽本碩均就讀于康奈爾大學(xué)。

圖片

在論文最后,SimDINO研究團(tuán)隊(duì)進(jìn)一步提出和建議了SimDINO的幾個潛在改進(jìn)方向:

  • 在SimDINO框架基礎(chǔ)上進(jìn)一步探索不需要自蒸餾優(yōu)化的自監(jiān)督目標(biāo)。
  • 簡化后的框架為自監(jiān)督學(xué)習(xí)的理論分析提供了更好的切入點(diǎn)。
  • 將”顯式化隱式設(shè)計(jì)選擇”的范式推廣到其他框架,啟發(fā)并探索其他模型的簡化改進(jìn)方法。

論文地址:https://arxiv.org/abs/2502.10385
項(xiàng)目主頁:https://robinwu218.github.io/SimDINO
GitHub:https://github.com/RobinWu218/SimDINO

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-09-01 16:05:19

數(shù)據(jù)挖掘模型人工智能

2025-04-25 08:00:00

2021-07-07 17:19:07

人工智能代碼開源

2021-03-18 09:28:20

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-05-31 16:09:58

2021-10-13 17:28:33

AI 數(shù)據(jù)人工智能

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2024-06-13 11:44:43

2024-07-30 11:20:00

圖像視覺

2024-05-24 15:53:20

視覺圖像

2024-05-09 11:30:17

2022-05-17 16:38:40

數(shù)據(jù)訓(xùn)練

2023-04-13 15:25:14

模型

2022-01-05 11:10:34

神經(jīng)網(wǎng)絡(luò)AI算法

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2024-10-16 16:00:00

訓(xùn)練AI

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2024-10-22 13:33:48

2024-08-06 12:00:00

監(jiān)督學(xué)習(xí)視覺

2022-04-26 09:44:29

算法庫EasyCV開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號