自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源

發(fā)布于 2025-1-24 13:30
瀏覽
0收藏

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2501.12375
git 鏈接:https://videodepthanything.github.io/

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

亮點直擊

  • 開發(fā)了一種新方法,將“Depth Anything”轉換為“視頻Depth Anything”,用于任意長度視頻的深度估計。
  • 提出了一種簡單而有效的損失函數(shù),該函數(shù)在不引入幾何或生成先驗的情況下,強制執(zhí)行時間一致性約束。
  • 該模型不僅在視頻深度估計中(空間和時間上)獲得了新的SOTA(最先進技術),而且在計算效率上也是最高的。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

總結速覽

解決的問題

Depth Anything在單目深度估計中表現(xiàn)出色,但在視頻應用中存在時間不一致性的問題,限制了其實用性?,F(xiàn)有方法雖然嘗試解決這一問題,但僅適用于短視頻,并在質量與計算效率之間存在權衡。

提出的方案

提出了Video Depth Anything模型,旨在解決超長視頻中的深度估計問題。該方案通過替換Depth Anything V2的頭部為高效的時空頭,并設計了一種簡單有效的時間一致性損失函數(shù),來約束時間深度梯度,無需額外幾何先驗。

應用的技術

  • 使用高效的時空頭替換原有模型head。
  • 設計時間一致性損失函數(shù),約束時間深度梯度。
  • 基于視頻深度和未標記圖像的聯(lián)合數(shù)據(jù)集進行訓練。
  • 開發(fā)基于關鍵幀的策略用于長視頻推理。

達到的效果

  • 實現(xiàn)了對超長視頻的高質量、一致性深度估計,而不犧牲計算效率。
  • 在零樣本視頻深度估計中設立了新的技術標準。
  • 提供不同規(guī)模的模型,支持多種場景,最小模型可實現(xiàn)30 FPS的實時性能。

Video Depth Anything

Video Depth Anything,這是一種前饋視頻變換模型,用于高效估計時間一致的視頻深度。本文采用仿射不變深度,但在整個視頻中共享相同的尺度和偏移。我們方法的流程如下圖2所示。本文模型基于Depth Anything V2構建,增加了時間模塊和視頻數(shù)據(jù)集訓練。提出了一種新的損失函數(shù),以增強時間一致性。最后,我們提出了一種結合重疊幀和關鍵幀的策略,以高效支持超長視頻推理。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

架構

由于缺乏足夠的視頻深度數(shù)據(jù),從一個預訓練的圖像深度估計模型Depth Anything V2開始,并采用圖像和視頻數(shù)據(jù)的聯(lián)合訓練策略。


Depth Anything V2 編碼器。 Depth Anything V2 是當前最先進的單目深度估計模型,以其高精度和泛化能力為特點。我們使用其訓練好的模型作為我們的編碼器。為了降低訓練成本并保留已學習的特征,訓練過程中編碼器是凍結的。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

時間梯度匹配損失

從基于光流的扭曲(OPW)損失開始,隨后探索新的損失設計,并最終提出一種不依賴光流的時間梯度匹配損失(TGM),但仍能確保幀間預測的時間一致性。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

時間梯度匹配損失(TGM)。 在計算損失時,不假設相鄰幀中對應點的深度保持不變。相反,假設相鄰預測幀中對應點的深度變化應與在真實數(shù)據(jù)中觀察到的變化一致。我們將這種差異稱為穩(wěn)定誤差(SE),其定義為:

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

然而,生成光流會產生額外的開銷。為了解決對光流的依賴,進一步推廣了上述假設。具體來說,不需要使用從光流獲得的對應點。相反,我們直接使用相鄰幀中相同坐標處的深度來計算損失。假設是,相鄰幀中同一圖像位置的深度變化應該與真實值中的變化一致。由于這個過程類似于計算時間維度上的值的梯度,我們稱之為時間梯度匹配損失,其定義為:

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

超長序列的推理策略

為了處理任意長度的視頻,一個簡單的方法是將來自不同視頻窗口的模型輸出進行拼接。然而,這種方法無法確保窗口之間的平滑過渡。一個更復雜的技術是推斷具有重疊區(qū)域的視頻窗口。通過利用重疊區(qū)域的預測深度來計算仿射變換,可以將一個窗口的預測與另一個窗口對齊。然而,這種方法可能會通過連續(xù)的仿射對齊引入累積誤差,導致在延長視頻中出現(xiàn)深度漂移。為了解決超長視頻中推理窗口大小有限的問題,提出了關鍵幀參考以繼承過去預測的尺度和偏移信息,以及重疊插值以確保局部窗口之間的平滑推理。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

實驗

評估

數(shù)據(jù)集。 為了對視頻深度估計進行定量評估,使用了五個涵蓋廣泛場景的數(shù)據(jù)集,包括室內 [7, 22, 24]、室外 [11] 和野外環(huán)境 [5]。每個視頻最多使用500幀進行評估,這比 [13] 中使用的110幀要多得多。有關110幀的結果,請參見附錄中的詳細信息。除了視頻深度評估,我們還在五個圖像基準 [5, 11, 15, 22, 31] 上評估了模型在靜態(tài)圖像 [42] 上的性能。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

零樣本深度估計

我們將我們的模型與四個代表性的視頻深度估計模型進行比較:NVDS、ChronoDepth、DepthCrafter 和 DepthAnyVideo,基于已建立的視頻深度基準。此外,我們引入了兩個強大的基線,1)Depth Anything V2(DAv2),以及2)NVDS + DAv2,即用DAv2替換NVDS中的基礎模型。需要注意的是,DepthAnyVideo支持每個視頻最多192幀;因此,僅在Sintel數(shù)據(jù)集上報告該模型的指標,因為其他數(shù)據(jù)集包含的視頻幀數(shù)超過了此限制。在靜態(tài)圖像評估中,將我們的模型與DepthCrafter、DepthAnyVideo和 Depth Anything V2的性能進行比較。

視頻深度結果。 如下表1所示,VDA模型在所有長視頻數(shù)據(jù)集上實現(xiàn)了最先進的性能,在幾何和時間指標上都表現(xiàn)出色。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

圖像深度結果。 如下表2所示,視頻深度模型在大多數(shù)數(shù)據(jù)集中實現(xiàn)了與DAv2-L相當?shù)纳疃戎笜?。這表明我們的模型在保持基礎模型的幾何準確性的同時,也確保了視頻穩(wěn)定性。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

長視頻定量結果。 從Bonn 和 Scannet 中各選擇了10個場景,從NYUv2 中選擇了8個場景,每個場景包括500個視頻幀。然后,我們在幀長度為110、192、300、400和500時評估視頻深度,其中110和192對應于DepthCrafter 和 DepthAnyVideo 的最大窗口大小。指標的變化如下圖4所示。如圖所示,我們的模型在所有數(shù)據(jù)集中所有評估幀長度上顯著優(yōu)于DepthCrafter,并且隨著幀數(shù)的增加,指標的下降最小。此外,我們的模型在Scannet和 NYUv2 上超過了DepthAnyVideo ,并在Bonn 的110和192幀指標上取得了相當?shù)慕Y果。最值得注意的是,我們的方法支持對任意長視頻進行推斷,在實際應用中具有顯著優(yōu)勢。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

定性結果 

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

除了長視頻外,在下圖6中展示了野外短視頻的結果。Depth Any Video即使在單個參考窗口內也表現(xiàn)出深度不一致,如藍色方框所示。盡管DepthCrafter 相比Depth Any Video 在視頻幀之間展示了更平滑的深度,但在某些復雜環(huán)境中未能準確估計深度。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

推理時間。 在A100 GPU上測量了各種模型的推理延遲。如上表3所示,與基于擴散的方法(DepthAnyVideo和DepthCrafter)以及基于變換器的方法(NVDS)相比,我們的大模型實現(xiàn)了最低的推理時間。這種性能歸因于我們的前饋變換器結構和輕量級時間模塊。值得注意的是,我們的大模型VDA-L的延遲僅比使用相同編碼器結構的DAv2-L大約高10%,從而展示了我們時空頭的效率。此外,我們的小模型的推理延遲小于10毫秒,表明其在實時應用中的潛力。

消融研究

在本節(jié)中,除非另有說明,我們使用窗口大小為16的VDA-S模型進行研究,并且不使用圖像蒸餾。未注明數(shù)據(jù)集名稱的指標表示所有數(shù)據(jù)集的平均值。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

推理策略。 為分析我們的推理策略,考慮了四種不同的推理方案。Baseline:在沒有重疊幀的情況下獨立對每個窗口進行推理。重疊對齊(OA):基于兩個相鄰窗口之間的重疊幀的尺度平移不變對齊,將兩個窗口拼接在一起。重疊插值(OI):依據(jù)DepthCrafter 的方法,在重疊區(qū)域進行線性插值后拼接兩個窗口。重疊插值+關鍵幀參考(OI+KR):在OI的基礎上,額外引入前一個窗口的關鍵幀作為當前推理的參考。如下表5所示,OA達到了與OI+KR相當?shù)闹笜?。然而,它在長視頻推理過程中導致了累積的尺度漂移。下圖7展示了這一問題,我們在一個時長為4分04秒的視頻上評估了OA和OI+KR。值得注意的是,OA處理的最后一幀中紅框區(qū)域突出了深度尺度的累積漂移。相比之下,OI+KR在整個視頻過程中更有效地保持了全局尺度一致性。OA在評估數(shù)據(jù)集上表現(xiàn)較好的一個可能解釋是,500幀的評估視頻數(shù)據(jù)集不足以反映現(xiàn)實世界中長時間視頻遇到的尺度漂移問題。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

窗口大小。 如上表5所示,窗口大小為32的模型在幾何精度和時間一致性方面優(yōu)于窗口大小為16的模型。然而,將窗口大小增加到32以上并沒有帶來額外的好處??紤]到更大的窗口大小需要更多的訓練和推理資源,我們?yōu)樽罱K模型選擇了窗口大小為32。

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

Video Depth Anything引領超長視頻深度估計最新SOTA!字節(jié)跳動開源-AI.x社區(qū)

結論

Video Depth Anything,用于估計時間一致性的視頻深度。該模型基于Depth Anything V2構建,并依賴于三個關鍵組件。首先,采用時空head,通過對特征圖應用時間自注意力層來引入時間交互。其次,使用一種簡單的時間梯度匹配損失函數(shù)來強制時間一致性。第三,為了實現(xiàn)長視頻深度估計,開發(fā)了一種新的基于關鍵幀的策略,用于分段推理,并結合深度拼接方法。廣泛的實驗表明,模型在三個方面實現(xiàn)了最先進的性能:空間精度、時間一致性和計算效率。因此,它可以為持續(xù)數(shù)分鐘的視頻生成高質量的深度預測。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/N_PhwyaWf2YyW7C-dQJtxw??

收藏
回復
舉報
回復
相關推薦