Video Depth Anything來了!字節(jié)開源首款10分鐘級(jí)長視頻深度估計(jì)模型,性能SOTA
Video Depth Anything 工作來自字節(jié)跳動(dòng)智能創(chuàng)作 AR 團(tuán)隊(duì)與豆包大模型團(tuán)隊(duì)。字節(jié)跳動(dòng)智能創(chuàng)作 AR 團(tuán)隊(duì)致力于建設(shè)領(lǐng)先的計(jì)算機(jī)視覺、音視頻編輯、特效處理、3D 視覺與增強(qiáng)現(xiàn)實(shí)(AR)等技術(shù)。豆包大模型團(tuán)隊(duì)成立于 2023 年,致力于開發(fā)先進(jìn)的 AI 大模型技術(shù),成為業(yè)界一流的研究團(tuán)隊(duì)。
單目深度估計(jì)模型,可根據(jù)二維 RGB 圖像估計(jì)每個(gè)像素點(diǎn)的深度信息,在增強(qiáng)現(xiàn)實(shí)、3D 重建、自動(dòng)駕駛領(lǐng)域應(yīng)用廣泛。作為此領(lǐng)域的代表性成果,Depth Anything 系列在 Github 已總計(jì)收獲 11.6k Stars,應(yīng)用范圍之廣、受歡迎程度之高也可見一斑。
但時(shí)間一致性問題限制了單目深度估計(jì)模型在視頻領(lǐng)域的實(shí)際應(yīng)用。如何構(gòu)建一個(gè)又準(zhǔn)又穩(wěn)又快的長視頻深度模型,成為單目深度估計(jì)進(jìn)一步擴(kuò)大應(yīng)用范圍的關(guān)鍵。
近期,字節(jié)智能創(chuàng)作 AR 團(tuán)隊(duì)聯(lián)合豆包大模型團(tuán)隊(duì)開發(fā)的 Video Depth Anything(VDA) 成功解決這一難題。
VDA 基于 Depth Anything V2,它融合了高效的時(shí)空頭、精簡的時(shí)域一致性損失函數(shù),以及新穎的基于關(guān)鍵幀長視頻推理策略,甚至可面向 10 分鐘級(jí)的視頻,完成深度估計(jì)任務(wù)。
在不犧牲泛化能力、細(xì)節(jié)生成能力和計(jì)算效率前提下,VDA 實(shí)現(xiàn)了時(shí)序穩(wěn)定的深度估計(jì),且無需引入復(fù)雜視頻生成先驗(yàn)知識(shí),為單目深度估計(jì)在視頻領(lǐng)域應(yīng)用提供全新解決方案。
實(shí)驗(yàn)結(jié)果表明,VDA 在視頻數(shù)據(jù)集的精度和穩(wěn)定性指標(biāo)均取得 SOTA,尤其精度提升超過 10 個(gè)百分點(diǎn),且推理速度均遠(yuǎn)快于此前同類模型,其速度是此前最高精度模型的 10 倍以上。在 V100 下,較小版本 VDA 模型推理速度甚至可達(dá) 30FPS(每秒 30 幀)。
目前,該論文成果和代碼倉庫均已對(duì)外公開,項(xiàng)目上線數(shù)天已收獲 300+ Stars,X 原貼閱讀量也超過 2 萬,另有多個(gè)轉(zhuǎn)發(fā)閱讀量超 1 萬,包括 Gradio 官號(hào)。
- 論文鏈接:https://arxiv.org/abs/2501.12375
- 項(xiàng)目主頁:https://videodepthanything.github.io/
- 代碼倉庫:https://github.com/DepthAnything/Video-Depth-Anything
視頻深度估計(jì)的挑戰(zhàn)
近年來單目深度估計(jì)(MDE)取得顯著進(jìn)展。以 Depth Anything V2 為例,該模型在多種場景下均能展現(xiàn)強(qiáng)泛化能力,可生成細(xì)節(jié)豐富的深度預(yù)測(cè)結(jié)果,同時(shí),具備較高的計(jì)算效率。
然而,該系列模型存在一定局限。
具體來說,模型主要針對(duì)靜態(tài)圖像設(shè)計(jì),用于視頻場景時(shí),很容易因畫面劇烈變化和運(yùn)動(dòng)模糊等因素,造成深度預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性下降。
在一些對(duì)時(shí)間一致性要求較高的應(yīng)用領(lǐng)域,如機(jī)器人、增強(qiáng)現(xiàn)實(shí)以及高級(jí)視頻編輯等,嚴(yán)重制約了模型的應(yīng)用。
近期有一些方法如 DepthCrafter、Depth Any Video,將預(yù)訓(xùn)練視頻擴(kuò)散模型( Video Diffusion Models)應(yīng)用于視頻深度估計(jì)。
盡管它們?cè)谏杉?xì)節(jié)方面表現(xiàn)良好,但計(jì)算效率較低,無法充分利用現(xiàn)有深度基礎(chǔ)模型,精度也有待提升,處理視頻長度還存在限制,難以滿足實(shí)際應(yīng)用中對(duì)長視頻的處理需求。
VDA 模型設(shè)計(jì):兼顧預(yù)測(cè)精度與效率
- 從單圖深度模型到視頻深度模型
VDA 使用訓(xùn)好的 Depth Anything V2 模型作為編碼器,并在訓(xùn)練過程中,固定編碼器參數(shù),降低訓(xùn)練成本并保留已學(xué)習(xí)到的特征。
VDA 設(shè)計(jì)了一個(gè)輕量級(jí)時(shí)空頭(Spatio-Temporal Head,STH),包含四個(gè)時(shí)間注意力層,這些層在每個(gè)空間位置上獨(dú)立進(jìn)行時(shí)間維度信息融合。
值得注意的是,VDA 僅在頭部引入時(shí)間注意力機(jī)制,同時(shí)引入圖像和視頻訓(xùn)練,避免在有限視頻數(shù)據(jù)上訓(xùn)練,破壞原有模型特征。
- 時(shí)空一致性約束
為了約束時(shí)序一致性,并去除以往視頻深度模型訓(xùn)練過程中對(duì)光流信息的依賴,VDA 提出時(shí)序梯度匹配損失(Temporal Gradient Matching Loss)。
具體來說,不再從光流中獲得對(duì)應(yīng)點(diǎn),直接使用相鄰幀中相同坐標(biāo)深度來計(jì)算損失,假設(shè)相鄰幀中相同圖像位置的深度變化應(yīng)與真實(shí)值變化一致,類似于計(jì)算時(shí)間維度上的梯度:
- 超長視頻推理策略
為了處理任意視頻長度,VDA 提出關(guān)鍵幀對(duì)齊和重疊區(qū)域插值方法,以對(duì)齊全局尺度和偏移,并確保局部窗口之間的平滑推理。
用于推理的后續(xù)視頻片段由未來幀、重疊幀和關(guān)鍵幀組成,其中,關(guān)鍵幀從之前的幀中子采樣得到。
這種方法將早期窗口內(nèi)容引入當(dāng)前窗口,保持計(jì)算負(fù)擔(dān)最小,可顯著減少累積的尺度漂移,尤其利于長視頻處理。
實(shí)驗(yàn)結(jié)果:
VDA 精度、速度、穩(wěn)定性均刷新 SOTA
VDA 在 6 個(gè)包含室內(nèi)外場景的 Benchmark 上,從幾何精度、時(shí)序穩(wěn)定性、耗時(shí)三個(gè)方面和學(xué)界 SOTA 方案進(jìn)行對(duì)比。
其中,長視頻 Benchmark 精度和時(shí)序穩(wěn)定性誤差均為最優(yōu)。其中,VDA-L 在多項(xiàng)評(píng)估指標(biāo)上面獲得最佳,VDA-S 的效果次之,雙雙大幅優(yōu)于 DepthCrafter 和 DAv2-L。
研究者還發(fā)現(xiàn),隨著視頻長度增長,VDA 比對(duì) DepthCrafter 和 DepthAnyVideo 指標(biāo)沒有明顯下降,這也是它在超長視頻上實(shí)現(xiàn)穩(wěn)定深度估計(jì)的有力證明。
最后,團(tuán)隊(duì)實(shí)驗(yàn)還證明了 VDA 模型耗時(shí)遠(yuǎn)小于其他視頻深度模型,即使相比單幀模型 Depth Anything V2,耗時(shí)也只增加約 10%。尤其 DVA-S 模型,單幀推理時(shí)間僅 9.1ms,面向?qū)崟r(shí)性要求較高的場景,具有較大應(yīng)用潛力。
更多實(shí)驗(yàn)配置和測(cè)試細(xì)節(jié)請(qǐng)移步完整論文(https://arxiv.org/abs/2501.12375)
相關(guān)工作 Prompt Depth Anything 也已開源
除了視頻深度模型外,豆包大模型團(tuán)隊(duì)于近期同浙江大學(xué)合作開源了 Prompt Depth Anything 技術(shù),實(shí)現(xiàn)了 4K 分辨率下的高精絕對(duì)深度估計(jì)(Metric Depth),一作豆包大模型團(tuán)隊(duì)實(shí)習(xí)生同學(xué)。
絕對(duì)深度估計(jì),指依靠模型,預(yù)測(cè)場景中每個(gè)像素點(diǎn)到攝像機(jī)的真實(shí)物理距離(以米、毫米等物理單位表示)。相比當(dāng)前百花齊放的基礎(chǔ)深度估計(jì)模型(如 Depth Anything V1&V2、Margold 等),絕對(duì)深度估計(jì)仍面臨巨大挑戰(zhàn)。
面向該問題,豆包大模型團(tuán)隊(duì)與浙江大學(xué)聯(lián)合團(tuán)隊(duì)受語言 / 視覺基礎(chǔ)模型中提示詞機(jī)制啟發(fā),創(chuàng)新性地提出了深度估計(jì)基礎(chǔ)模型的提示機(jī)制 ——
通過以 iPhone LiDAR 傳感器采集的 24x24 絕對(duì)深度作為提示,促使模型最多可輸出 3840x2160 同精度級(jí)別的絕對(duì)深度。該方法具有普適性,可應(yīng)用于任意形式的提示內(nèi)容,比如車載 LiDAR、雙目匹配深度、相機(jī)內(nèi)參等。
團(tuán)隊(duì)認(rèn)為,該成果具備廣泛的下游應(yīng)用空間,比如 3D 重建:
自動(dòng)駕駛:
機(jī)器人抓取任務(wù)等:
該項(xiàng)目現(xiàn)已開源,更多方法介紹以及實(shí)驗(yàn)結(jié)果見論文主頁(https://promptda.github.io/)。