ECCV 2024|跟蹤一切目標(biāo)!DINO-Tracker成為單目跟蹤里程碑
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文地址:
https://dino-tracker.github.io/assets/dino_tracker.pdf
開源地址:
https://dino-tracker.github.io/
01 問題引入
近年來,在視頻中建立密集點對應(yīng)關(guān)系這一研究取得了巨大進(jìn)展。在短期的密集運(yùn)動估計方面,比如光流估計,研究界的關(guān)注焦點是監(jiān)督學(xué)習(xí)——設(shè)計強(qiáng)大的前饋模型,并在各種合成數(shù)據(jù)集上進(jìn)行訓(xùn)練,利用精確的監(jiān)督信息。最近,這一趨勢擴(kuò)展到了視頻中的長期點跟蹤領(lǐng)域。隨著新架構(gòu)(如Transformers)和提供長期軌跡監(jiān)督的新合成數(shù)據(jù)集的出現(xiàn),各種監(jiān)督跟蹤器被開發(fā)出來,展示了令人印象深刻的成果。
然而,精準(zhǔn)的跟蹤視頻中每一個運(yùn)動點對此類基于監(jiān)督學(xué)習(xí)的方法而言是一個極大的挑戰(zhàn):
首先,用于點跟蹤的合成數(shù)據(jù)集通常包含在不現(xiàn)實配置中的移動物體,相對于自然視頻中運(yùn)動和物體的廣泛分布,這些數(shù)據(jù)集在多樣性和規(guī)模上受到限制;
此外,現(xiàn)有模型在跨越整個視頻時空范圍內(nèi)聚合信息的能力仍然有限——這一點在長時間遮擋(例如在物體被遮擋之前和之后正確匹配一個點)中尤其重要。
為了應(yīng)對這些挑戰(zhàn),Omnimotion(也就是23年的Tracking Everything)提出了一種測試的優(yōu)化框架,通過預(yù)計算的光流和視頻重建作為監(jiān)督,將跟蹤提升到3D層面。這種方法通過優(yōu)化給定測試視頻上的跟蹤器,本質(zhì)上一次性解決了所有視頻像素的運(yùn)動問題。然而,Omnimotion存在一個致命缺點:它嚴(yán)重依賴預(yù)計算的光流和單個視頻中的信息,沒有利用關(guān)于視覺世界的外部知識和先驗。
在本文中,作者提出了一種新方法,訓(xùn)練與大量數(shù)據(jù)的學(xué)習(xí)結(jié)合起來,取長補(bǔ)短,形成一個針對特定視頻特征提取匹配再到追蹤優(yōu)化框架,該框架結(jié)合由廣泛的無標(biāo)簽圖像訓(xùn)練的外部圖像模型學(xué)習(xí)到的強(qiáng)大特征表示。受到最近自監(jiān)督學(xué)習(xí)巨大進(jìn)展的啟發(fā),作者的框架利用了預(yù)訓(xùn)練的DINOv2模型——一個使用大量自然圖像進(jìn)行預(yù)訓(xùn)練的視覺Transformers。DINO的特征提取已經(jīng)被證明能夠捕捉細(xì)粒度的語義信息,并被用于各種視覺任務(wù),如分割和語義對應(yīng)。
本項工作是首次將基于DINO提取的特征用于密集跟蹤的研究。 作者展示了使用原始DINO特征匹配可以作為一個強(qiáng)大的跟蹤baseline,但這些特征本身不足以支持亞像素精度的跟蹤。因此,作者的框架同時調(diào)整DINO的特征以適應(yīng)測試視頻中的運(yùn)動觀察,同時訓(xùn)練一個直接利用這些精煉特征的跟蹤器。為此,作者設(shè)計了一個新的目標(biāo)函數(shù),通過在精煉特征空間中培養(yǎng)穩(wěn)健的語義特征級別對應(yīng)關(guān)系,超越了光流監(jiān)督實現(xiàn)的效果。
▲圖1|效果演示??【深藍(lán)AI】編譯
本文的核心貢獻(xiàn)包括:
首次利用預(yù)訓(xùn)練的DINO特征進(jìn)行點跟蹤;
提出了第一個結(jié)合測試時訓(xùn)練和外部先驗的跟蹤方法;
在長時間,長遮擋的跟蹤方面顯著提升了性能。
02 實現(xiàn)細(xì)節(jié)
▲圖2|全文方法總覽??【深藍(lán)AI】編譯
結(jié)合圖2,可以理解全文方法的pipeline:
對于給定的輸入視頻序列,此方法的目標(biāo)是訓(xùn)練一個跟蹤器 ,該跟蹤器接受查詢點作為輸入,并輸出一組位置估計,這個過程很容易理解,就是特征提取+匹配+預(yù)測,但是這里的特征提取采用了預(yù)訓(xùn)練的 DINOv2-ViT 模型進(jìn)行特征提取。如果各位對DINO還不太了解,請詳細(xì)閱讀下面這段介紹——
我們可以將DINO(Distillation with No Labels)理解為一種無標(biāo)簽的學(xué)習(xí)訓(xùn)練方法,它廣泛應(yīng)用于計算機(jī)視覺領(lǐng)域,尤其是在自監(jiān)督學(xué)習(xí)和特征表示學(xué)習(xí)中。DINO模型的一個顯著特點是利用Vision Transformer(ViT)架構(gòu)進(jìn)行訓(xùn)練,無需人工標(biāo)注數(shù)據(jù),通過自監(jiān)督的方式學(xué)習(xí)圖像的語義特征,DINO有三個最顯著的特點:
●無需標(biāo)簽數(shù)據(jù):通過自監(jiān)督學(xué)習(xí)方法,DINO 能夠有效減少對大量人工標(biāo)注數(shù)據(jù)的依賴,從而降低數(shù)據(jù)準(zhǔn)備的成本和時間;
●高質(zhì)量特征表示:由于使用了 Vision Transformer 和對比學(xué)習(xí)策略,DINO 可以學(xué)習(xí)到更加語義豐富和泛化能力強(qiáng)的特征表示;
●靈活適應(yīng)多種任務(wù):DINO 所學(xué)習(xí)到的特征表示不僅適用于圖像分類,還可以通過微調(diào),適用于其他各種視覺任務(wù),如目標(biāo)檢測和語義分割等。
DINO在本文中的應(yīng)用:DINO 的預(yù)訓(xùn)練特征為此方法的框架提供了初始的語義和局部表示,但缺乏準(zhǔn)確的長時間跟蹤所需的時間一致性和細(xì)粒度定位。因此,此方法訓(xùn)練了 Delta-DINO,這是一種特征提取器,用于預(yù)測預(yù)訓(xùn)練 DINO 特征的殘差。
此方法的目標(biāo)是優(yōu)化這些特征,使它們可以作為“軌跡嵌入”,即沿著軌跡采樣的特征應(yīng)該收斂到一個獨特的表示,同時保留原始的 DINO 先驗。這個過程實際上解決的是長距離的跟蹤問題,以往的方法往往不會對未來的位置進(jìn)行預(yù)測,而是直接對下一幀圖像中相同的特征點進(jìn)行匹配,這樣一旦遮擋物出現(xiàn),特征點之間的匹配失敗,就會跟丟目標(biāo),而此方法的預(yù)測能力,能夠在遮擋物出現(xiàn)的時候通過將預(yù)測的點進(jìn)行匹配,從而保證跟蹤的連續(xù)性。
2.1 跟蹤過程
DINO-Tracker的追蹤過程可以分為三個階段:特征提取+特征匹配+軌跡預(yù)測+全局一致優(yōu)化。
關(guān)于特征提取,前文已經(jīng)提到此方法主要采用預(yù)訓(xùn)練的DINO框架進(jìn)行特征點的提取,這一部分主要利用了DINO框架的靈活性和高質(zhì)量的特征表達(dá),提取后的特征會形成一個特征圖,用于后續(xù)的特征匹配。
在特征匹配階段,比起傳統(tǒng)的在特征點圖中進(jìn)行對應(yīng)匹配,本文還提出了一個額外的匹配方式,就是用DINO提取的特征對應(yīng)關(guān)系用于補(bǔ)充訓(xùn)練數(shù)據(jù),提供額外的監(jiān)督。通過識別“最佳配對點”提取可靠的匹配關(guān)系,其中每個點在一幀中的最近鄰匹配第二幀中的最近鄰。在訓(xùn)練期間,精煉特征改進(jìn)其表示并發(fā)現(xiàn)新的可靠對應(yīng)關(guān)系,形成持續(xù)更新的精煉最佳配對點集合,實現(xiàn)高質(zhì)量的特征點匹配,這樣得到的匹配關(guān)系更加精準(zhǔn),也為后續(xù)的長距離跟蹤和障礙物遮擋打下了基礎(chǔ)。
軌跡預(yù)測首先如前文所述,會訓(xùn)練一個Delta-DINO來進(jìn)行初步的新特征點預(yù)測,也就是預(yù)測下一幀中特征點可能出現(xiàn)的位置,然而這個預(yù)測往往會存在一定的誤差,此方法采自監(jiān)督優(yōu)化策略來優(yōu)化這個誤差。具體而言,就是使用從測試視頻自動提取的監(jiān)督信號來匹配沿軌跡的預(yù)測點。這些信號來自光流和DINO特征的對應(yīng)關(guān)系。光流提供幀間精確的位移信息,通過鏈接這些位移創(chuàng)建短期軌跡。在預(yù)處理過程中,此方法通過計算出所有循環(huán)一致的光流對應(yīng)關(guān)系,為短軌跡提供高質(zhì)量的監(jiān)督。筆者通俗地總結(jié)一下,軌跡預(yù)測分為兩個階段,第一階段中采用Delta-DINO預(yù)測下一幀出現(xiàn)的特征點,在第二階段中采用光流法計算當(dāng)前特征點的位移信息,結(jié)合這個計算出來的位移信息以及預(yù)測得到的特征點信息進(jìn)行聯(lián)合優(yōu)化,最終確定預(yù)測的軌跡,實際上是一個“雙保險”的過程,光流發(fā)充分利用了已知的信息,Delta-DINO則使用了預(yù)訓(xùn)練DINO模型的強(qiáng)大先驗。
通過特征提取+特征匹配,DINO-Tracker實現(xiàn)了每一幀中特征點的準(zhǔn)確識別和配準(zhǔn),通過特征匹配+軌跡預(yù)測,實現(xiàn)了這一幀和下一幀的特征點準(zhǔn)確跟蹤,這個過程不斷迭代,這就是DINO-Tracker能夠?qū)崿F(xiàn)長距離跟蹤的核心。
2.2 遮擋處理
此方法還有一個很強(qiáng)的能力,就是對于遮擋的處理,圖3很好地說明了DINO-Tracker是如何在遮擋物出現(xiàn)的時候仍然保持魯棒跟蹤的原理。要處理遮擋場景,首先要有能力判斷遮擋的出現(xiàn),這一點在本文中通過測量軌跡位移差實現(xiàn),如圖3所示,作者選擇K1和K2作為錨點,計算追蹤點X0是否存在遮擋關(guān)系,從圖中來看,X0處的軌跡和K1與K2處的軌跡有明顯的位移差異,當(dāng)這種位移差異出現(xiàn)的時候,就會判斷在X0處出現(xiàn)了遮擋。這個計算的原理十分簡單,目的就是為了提升速度!
想必各位都能發(fā)現(xiàn),本文并不是實時處理遮擋關(guān)系的,而是通過當(dāng)前幀與前兩幀來計算遮擋關(guān)系,如果判斷出現(xiàn)遮擋,就會及時優(yōu)化修正前一幀中錯誤的追蹤,但是由于這樣的計算方式速度很快,這些都發(fā)生在電光火石之間,因此對于全局的追蹤速度沒有太大的影響。
當(dāng)遮擋關(guān)系被計算得到之后,軌跡的預(yù)測就會派上用場了,前文中我們提到了對于軌跡預(yù)測的“雙保險”,即使用Delta-DINO預(yù)測下一幀的特征點位置+使用光流直接計算特征點位置共同進(jìn)行預(yù)測,然而遮擋的關(guān)系出現(xiàn)會導(dǎo)致光流法失效,因此這個時候會賦予Delta-DINO更多的權(quán)重,從而保持跟蹤,當(dāng)物體穿過遮擋物之后,光流又會繼續(xù)上線,幫助修正全局的跟蹤軌跡,通過這個過程實現(xiàn)了對于遮擋關(guān)系的處理。
很多人對此都會產(chǎn)生一個疑問:
如果遮擋關(guān)系出現(xiàn)得太久,一直依靠Delta-DINO的預(yù)測,是否會出現(xiàn)軌跡上的偏差?
答案是:一定會出現(xiàn)的。
在“透視”技術(shù)被研究出來之前,理論上來說沒有太好的方法能夠處理長時間的遮擋關(guān)系,但本文方法對于短時間能出現(xiàn)的遮擋關(guān)系的處理,已經(jīng)堪稱“完美”,能夠應(yīng)對大多數(shù)場景了!
▲圖3|遮擋處理示意圖??【深藍(lán)AI】編譯
03 實驗效果
作者通過數(shù)值實驗和可視化實驗證明了本文方法的有效性,首先來看數(shù)值實驗。
▲圖4|數(shù)值實驗結(jié)果??【深藍(lán)AI】編譯
從圖4中可以看到,作者在大部分的數(shù)據(jù)集中都超過了SOTA方法,并且這些SOTA方法大部分都不具備對于遮擋關(guān)系的處理能力。讀者可能會覺得似乎作者的指標(biāo)沒有超出SOTA方法太多,我們需要注意的是,這里計算的是像素之間的距離,而由于投影關(guān)系,像素上個位數(shù)的差異經(jīng)過投影變換到真實世界中,往往就會被放大到幾米甚至十幾米(根據(jù)不同的投影尺度),因此在這個領(lǐng)域,即便是很小的數(shù)值增長,也是很大的提升。
接下來是可視化實驗,這里作者主要體現(xiàn)了本文方法對于遮擋和長距離跟蹤的能力。
▲圖5|可視化對比實驗??【深藍(lán)AI】編譯
從實驗結(jié)果上來看,本文方法在遮擋出現(xiàn)的時候依舊能夠?qū)崿F(xiàn)魯棒的跟蹤,而對比方法基本上都會出現(xiàn)跟丟或者跟蹤出錯的問題(從圖5左圖看出),圖五的右圖主要體現(xiàn)的是長距離跟蹤,圖中的自行車選手在公路上“飆車”,速度很快,對比方法出現(xiàn)了不同程度的跟丟情況,而本文方法則死死“咬住”了目標(biāo),由此體現(xiàn)出本文方法的高性能。
▲圖6|DINO特征點選取可視化??【深藍(lán)AI】編譯
圖6則可以看到DINO特征點提取的優(yōu)勢,可以從圖中看到DINO提取的特征點十分均勻地分布在跟蹤物體的各個關(guān)鍵運(yùn)動位置(關(guān)節(jié),輪廓邊緣)這些部分是物體運(yùn)動的重要追蹤位置,而其他對比方法則無法實現(xiàn)對這些關(guān)鍵位置的特征提取和魯棒的追蹤。
04 總結(jié)
本文提出了DINO-Tracker的追蹤框架,能夠很好地處理追蹤過程中出現(xiàn)的遮擋關(guān)系以及長距離的匯總問題。通過利用DINO模型強(qiáng)大的先驗知識,實現(xiàn)了對于任意物體的魯棒追蹤。DINO-Tracker不僅在短期內(nèi)表現(xiàn)出色,還能在較長時間跨度內(nèi)保持高精度的追蹤能力,這主要得益于其特征點軌跡預(yù)測方法能夠很好地忽略短時間內(nèi)的遮擋,解決了追蹤任務(wù)中的一個關(guān)鍵難題。