港大馬毅團(tuán)隊(duì)等開源新作:用編碼率正則化重構(gòu)視覺自監(jiān)督學(xué)習(xí)范式,“少即是多”
最新開源的視覺預(yù)訓(xùn)練方法,馬毅團(tuán)隊(duì)、微軟研究院、UC伯克利等聯(lián)合出品!
SimDINO和SimDINOv2,通過編碼率正則化簡化DINO和DINOv2模型訓(xùn)練流程得到的兩個最新模型。
在目前視覺預(yù)訓(xùn)練領(lǐng)域,DINO和DINOv2是最強(qiáng)視覺模型梯隊(duì)選手,也是目前最常用的方法。在多模態(tài)大模型火熱的當(dāng)下,DINOv2也經(jīng)常被用作VLM中的視覺編碼器提供視覺特征。
此外,圖靈獎得主、Meta首席AI科學(xué)家楊立昆團(tuán)隊(duì)近期關(guān)于世界模型的工作,也基于DINOv2而來。
(當(dāng)然了,DINO模型本身就是四年前Meta AI團(tuán)隊(duì)提出的)
但DINO系列目前仍然需要基于非常復(fù)雜的工程方法來實(shí)現(xiàn)。
而SimDINO通過去除DINO中復(fù)雜的后處理步驟等,解決了DINO系列的訓(xùn)練難題。
更令人驚喜的是,簡化后的模型不僅訓(xùn)練更容易,性能反而更強(qiáng)。
或許這就是“簡單即是美”的設(shè)計(jì)理念在深度學(xué)習(xí)中的重要價(jià)值?(手動狗頭)
馬毅表示:
我們不是在修補(bǔ)DINO,而是在重新發(fā)現(xiàn)視覺表示學(xué)習(xí)的本質(zhì)規(guī)律。
核心方法:化繁為簡
自監(jiān)督學(xué)習(xí)(Self-Supervised Learning,SSL)在處理大規(guī)模未標(biāo)記圖像數(shù)據(jù)方面取得了顯著進(jìn)展。
在CV領(lǐng)域,DINO系列模型堪稱自監(jiān)督學(xué)習(xí)的標(biāo)桿選手。
這個無需人工標(biāo)注就能從海量圖像中自主學(xué)習(xí)特征的模型,不僅在下游任務(wù)中屢創(chuàng)佳績,更成為多模態(tài)大模型視覺編碼器的標(biāo)配。
但是,DINO系列模型的強(qiáng)能力,伴隨著「需要被精心呵護(hù)」:
- 需要精心設(shè)計(jì)的溫度調(diào)度策略(溫度參數(shù)τ要精確到小數(shù)點(diǎn)后三位)
- 依賴復(fù)雜的中心化-銳化操作(堪比精密儀器的校準(zhǔn)流程)
- 必須搭配高維原型投影層(特征維度動輒破萬)
這些“保命裝置”雖然能防止模型陷入特征崩潰,卻讓訓(xùn)練過程變成了超參數(shù)調(diào)優(yōu)的噩夢。并且當(dāng)研究人員嘗試改進(jìn)模型架構(gòu)或適配新領(lǐng)域時,往往牽一發(fā)而動全身,稍有不慎就會讓整個系統(tǒng)停擺。
為了解決這些問題,SimDINO和SimDINOv2模型閃亮登場~
通過引入編碼率正則化,簡化訓(xùn)練流程,提高模型的魯棒性和性能。
這倆模型的核心思想,是通過編碼率正則化防止表示崩潰,從而去除原始DINO和DINOv2訓(xùn)練流程中許多經(jīng)驗(yàn)性設(shè)計(jì)組件。
具體方法包括:
- 移除經(jīng)驗(yàn)性組件:刪除權(quán)重歸一化的線性層、平衡操作(如中心化、銳化)以及各種超參數(shù)(如溫度調(diào)度、中心化動量)等。
- 引入編碼率正則化:在損失函數(shù)中添加一個簡單的編碼率正則化項(xiàng),以防止表示崩潰。
SimDINO和SimDINOv2模型的主要創(chuàng)新點(diǎn)除了上述2種方法外,還有一點(diǎn),即簡化的訓(xùn)練流程。
通過上述2種具體方法的改進(jìn),SimDINO和SimDINOv2的訓(xùn)練流程更加簡潔,減少了對超參數(shù)的依賴,提高了訓(xùn)練的穩(wěn)定性和效率。
引入編碼率正則化,訓(xùn)練更穩(wěn)定、性能更強(qiáng)
回顧自監(jiān)督對比學(xué)習(xí)“同類相聚,異類相斥”的原始出發(fā)點(diǎn),研究團(tuán)隊(duì)發(fā)現(xiàn),DINO中許多復(fù)雜設(shè)計(jì)(如輸出層高維投影、教師網(wǎng)絡(luò)輸出中心化-銳化操作、溫度調(diào)節(jié)等)都是在間接地利用負(fù)樣本信息來防止模型習(xí)得的表示“崩潰”。
而SimDINO系列研究團(tuán)隊(duì)提出這一需求,可以轉(zhuǎn)而使用馬毅提出的數(shù)據(jù)編碼率失真估計(jì)方法(可參考MCR2等系列工作),采用顯示度量模型表征的質(zhì)量作為正則化項(xiàng)。
基于這一發(fā)現(xiàn),研究人員提出了一個解決方案:
引入編碼率(coding rate)正則化,通過在損失函數(shù)中添加一個顯式的編碼率正則項(xiàng)來避免表示崩潰。
這個簡單的改動就能替代原本復(fù)雜的設(shè)計(jì),將訓(xùn)練流程向簡約靠近。
而簡化的模型訓(xùn)練流程可以帶來幾個關(guān)鍵優(yōu)勢,即「更清晰的優(yōu)化目標(biāo)、更少的組件依賴、更容易的理論分析、更好的可擴(kuò)展性」。
具體而言,SimDINO保留了DINO模型的EMA自蒸餾方案和多視圖數(shù)據(jù)增強(qiáng)方法,但在對比學(xué)習(xí)方案上進(jìn)行了修改。
拋棄輸出層高維原型投影+交叉熵多分類,直接使用歐幾里得距離/余弦相似度比較學(xué)生網(wǎng)絡(luò)(student network)和教師網(wǎng)絡(luò)(teacher network)生成的特征。
加入編碼率正則化項(xiàng)促使模型學(xué)習(xí)到更具區(qū)分性的表示,移除教師網(wǎng)絡(luò)輸出中心化-銳化操作、溫度調(diào)節(jié)等避免表示崩潰的技巧。
通過引入編碼率正則化,SimDINO能夠有效防止特征崩潰,確保學(xué)習(xí)到的信息具有較大的信息熵,從而提高模型的泛化能力。
SimDINOv2 則進(jìn)一步將DINOv2 引入的 iBOT機(jī)制進(jìn)行替換。
它直接使用余弦相似度監(jiān)督掩碼區(qū)域token與教師網(wǎng)絡(luò)表示間的對齊,而Sinkhorn-Knopp centering、KoLeo正則化等復(fù)雜設(shè)計(jì)也被簡化移除。
相比于原版DINO, SimDINO的訓(xùn)練流程更為簡潔,去除了許多繁瑣的組件和超參數(shù),降低了模型訓(xùn)練的復(fù)雜度,使得研究人員和工程師更容易理解和實(shí)現(xiàn)這些模型。
從實(shí)驗(yàn)角度看,這一系列操作可以讓模型訓(xùn)練更穩(wěn)定,性能也更強(qiáng)。
各種評估均優(yōu)于DINO系列
為了驗(yàn)證SimDINO和SimDINOv2的有效性,研究團(tuán)隊(duì)在多個數(shù)據(jù)集和任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)評估,包括圖像分類、目標(biāo)檢測、語義分割以及視頻對象分割。
實(shí)驗(yàn)結(jié)果表明,SimDINO系列在計(jì)算效率、訓(xùn)練穩(wěn)定性和下游任務(wù)性能上均優(yōu)于DINO系列。
ImageNet-1K圖像分類
SimDINO和SimDINOv2在ImageNet-1K上進(jìn)行了評估,包括k-NN 分類和線性評估(linear probing)。
還與DINO、DINOv2進(jìn)行了對比。
COCO val2017無監(jiān)督目標(biāo)檢測與實(shí)例分割
在目標(biāo)檢測任務(wù)中,研究團(tuán)隊(duì)采用MaskCut作為基礎(chǔ)檢測框架,并在COCO val2017數(shù)據(jù)集上進(jìn)行了評估。
具體來說,主要對比了AP50、AP75和AP三個指標(biāo):
ADE20K語義分割和DAVIS-2017視頻對象分割
在語義分割任務(wù)上,研究團(tuán)隊(duì)采用linear head并在ADE20K數(shù)據(jù)集上進(jìn)行了評估。
這個任務(wù)上主要對比了 mIoU(平均交并比)和 mAcc(平均像素精度)。
特別要提到的是,SimDINO還在DAVIS-2017上進(jìn)行了評估,包括 (J&F)m、Jm和Fm三個標(biāo)準(zhǔn)指標(biāo)。
結(jié)果顯示,它在定性的特征可視化分析上也展現(xiàn)出了DINO系列工作中表現(xiàn)突出的語義表達(dá)能力涌現(xiàn)現(xiàn)象。
與此同時,SimDINO和SimDINOv2對超參數(shù)和數(shù)據(jù)的變化更穩(wěn)健了。
其它
此外,項(xiàng)目論文中通過理論分析,提出了一個關(guān)于SimDINO超參數(shù)選擇的理論:
如何平衡編碼率正則化項(xiàng)和距離項(xiàng)的梯度范數(shù)。
通過理論推導(dǎo),作者給出了一個關(guān)于超參數(shù)γ的選擇方法,使得兩個項(xiàng)的梯度范數(shù)在優(yōu)化過程中保持平衡。
下圖顯示的是在SimDINO和DINO下訓(xùn)練 ViT-B/16的訓(xùn)練動態(tài)。
X軸表示訓(xùn)練周期(epochs),Y軸表示在ImageNet-1K上的k-NN評估性能。
其中,左圖顯示的是兩個模型均在ImageNet-1K數(shù)據(jù)集上訓(xùn)練。
為更好地展示優(yōu)化過程,研究團(tuán)隊(duì)省略了早期訓(xùn)練階段的數(shù)據(jù)。
右圖顯示的是兩個模型均在 COCO train2017 數(shù)據(jù)集(大約是 ImageNet-1K的1/10)上訓(xùn)練。
作為一個驗(yàn)證實(shí)驗(yàn),該結(jié)果表明SimDINO需要更少的超參數(shù)調(diào)優(yōu),并且優(yōu)化過程更加簡單。
研究團(tuán)隊(duì)
SimDINO系列由多所學(xué)校與機(jī)構(gòu)的研究者共同完成,包括UC伯克利、憶生科技、微軟研究院、香港大學(xué)等。
一作是UC伯克利三年級博士生吳梓陽,導(dǎo)師是馬毅。
他主要研究方向?yàn)楸碚鲗W(xué)習(xí)與多模態(tài)學(xué)習(xí),致力于通過數(shù)學(xué)與統(tǒng)計(jì)理論構(gòu)建高效、可解釋的深度學(xué)習(xí)模型。
此前,吳梓陽本碩均就讀于康奈爾大學(xué)。
在論文最后,SimDINO研究團(tuán)隊(duì)進(jìn)一步提出和建議了SimDINO的幾個潛在改進(jìn)方向:
- 在SimDINO框架基礎(chǔ)上進(jìn)一步探索不需要自蒸餾優(yōu)化的自監(jiān)督目標(biāo)。
- 簡化后的框架為自監(jiān)督學(xué)習(xí)的理論分析提供了更好的切入點(diǎn)。
- 將”顯式化隱式設(shè)計(jì)選擇”的范式推廣到其他框架,啟發(fā)并探索其他模型的簡化改進(jìn)方法。
論文地址:https://arxiv.org/abs/2502.10385
項(xiàng)目主頁:https://robinwu218.github.io/SimDINO
GitHub:https://github.com/RobinWu218/SimDINO