自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

紀(jì)念碑谷式錯(cuò)覺(jué)圖像都被「看穿」,港大、TikTok的Depth Anything火了

人工智能 新聞
近日,一種可有效利用大規(guī)模無(wú)標(biāo)注圖像的新 MDE 模型 Depth Anything 憑借強(qiáng)大的性能在社交網(wǎng)絡(luò)上引起了廣泛討論,試用者無(wú)不稱奇。

人類有兩只眼睛來(lái)估計(jì)視覺(jué)環(huán)境的深度信息,但機(jī)器人和 VR 頭社等設(shè)備卻往往沒(méi)有這樣的「配置」,往往只能靠單個(gè)攝像頭或單張圖像來(lái)估計(jì)深度。這個(gè)任務(wù)也被稱為單目深度估計(jì)(MDE)。

近日,一種可有效利用大規(guī)模無(wú)標(biāo)注圖像的新 MDE 模型  Depth Anything 憑借強(qiáng)大的性能在社交網(wǎng)絡(luò)上引起了廣泛討論,試用者無(wú)不稱奇。

甚至有試用者發(fā)現(xiàn)它還能正確處理埃舍爾(M.C.Escher)那充滿錯(cuò)覺(jué)的繪畫藝術(shù)(啟發(fā)了《紀(jì)念碑谷》等游戲和藝術(shù)):

圖片

從水上到水下,絲滑切換:

圖片

更好的深度模型也得到了效果更好的以深度為條件的 ControlNet,可用于圖像生成和視頻編輯。如下圖所示,生成的內(nèi)容質(zhì)量得到了顯著增強(qiáng):

圖片

圖片

理論上說(shuō),基礎(chǔ)模型可用于解決單目深度估計(jì)(MDE)問(wèn)題,即基于單張圖像估計(jì)深度信息。這類技術(shù)在機(jī)器人、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域都有廣闊的應(yīng)用前景。但由于難以構(gòu)建帶有數(shù)千萬(wàn)深度標(biāo)簽的數(shù)據(jù)集,這一問(wèn)題還少有研究者探索。

此前的 MiDaS 算得上是這個(gè)方向上的一項(xiàng)開(kāi)創(chuàng)性研究,其基于一個(gè)混合標(biāo)注的數(shù)據(jù)集訓(xùn)練了一個(gè) MDE 模型。盡管 MiDaS 展現(xiàn)出了一定程度的零樣本能力,但受限于其數(shù)據(jù)覆蓋范圍,其在某些場(chǎng)景中的表現(xiàn)非常差。

來(lái)自香港大學(xué)、TikTok 等機(jī)構(gòu)的研究者提出的 Depth Anything ,則是一個(gè)更為實(shí)用的解決方案。

圖片

  • 論文標(biāo)題:Depth Anything Unleashing the Power of Large-Scale Unlabeled Data
  • 論文地址:https://arxiv.org/pdf/2401.10891.pdf
  • 項(xiàng)目主頁(yè):https://depth-anything.github.io/
  • 演示地址:https://huggingface.co/spaces/LiheYoung/Depth-Anything

該研究的目標(biāo)是構(gòu)建一種能在任何情況下處理任何圖像的簡(jiǎn)單卻又強(qiáng)大的基礎(chǔ)模型。為了做到這一點(diǎn),該團(tuán)隊(duì)采用了一種方法擴(kuò)大數(shù)據(jù)集的規(guī)模:設(shè)計(jì)了一種數(shù)據(jù)引擎來(lái)收集和自動(dòng)標(biāo)注大規(guī)模無(wú)標(biāo)注數(shù)據(jù)(約 6200 萬(wàn))。這能顯著擴(kuò)大數(shù)據(jù)覆蓋范圍,并由此可以降低泛化錯(cuò)誤。

為了保證數(shù)據(jù)擴(kuò)展的質(zhì)量,研究者探索了兩種簡(jiǎn)單卻有效的策略。

第一,利用數(shù)據(jù)增強(qiáng)工具創(chuàng)建一個(gè)難度更高的優(yōu)化目標(biāo)。這會(huì)迫使模型主動(dòng)尋找額外的視覺(jué)知識(shí)并獲取魯棒的表征。

第二,開(kāi)發(fā)一種輔助監(jiān)督機(jī)制,可強(qiáng)制模型從預(yù)訓(xùn)練編碼器繼承豐富的語(yǔ)義先驗(yàn)知識(shí)。

團(tuán)隊(duì)使用 6 個(gè)公共數(shù)據(jù)集和隨機(jī)拍攝的照片評(píng)估了新方法的零樣本能力,其泛化能力非常出色。更進(jìn)一步,使用來(lái)自 NYUv2 和 KITTI 的度量深度信息對(duì)模型進(jìn)行微調(diào)后,新模型獲得了新的 SOTA 結(jié)果。

這篇論文的主要貢獻(xiàn)包括:

  • 強(qiáng)調(diào)了大規(guī)模、低成本和多樣化無(wú)標(biāo)注圖像的數(shù)據(jù)擴(kuò)展對(duì) MDE 的價(jià)值。
  • 指出了在聯(lián)合訓(xùn)練大規(guī)模有標(biāo)注和無(wú)標(biāo)注圖像方面的一個(gè)重要實(shí)踐方法:不是直接學(xué)習(xí)原始無(wú)標(biāo)注圖像,而是為模型提供更困難的優(yōu)化目標(biāo),讓其學(xué)會(huì)使用額外的知識(shí)。
  • 提出從預(yù)訓(xùn)練編碼器繼承豐富的語(yǔ)義先驗(yàn),從而實(shí)現(xiàn)更好的場(chǎng)景理解,而不是使用輔助性語(yǔ)義分割任務(wù)。
  • 新模型的零樣本能力超過(guò) MiDaS-BEiT_L-512。不僅如此,使用度量深度進(jìn)行微調(diào)后,新模型的表現(xiàn)更是顯著超過(guò) ZoeDepth。

Depth Anything

TikTok 的這項(xiàng)研究使用了有標(biāo)注和無(wú)標(biāo)注圖像來(lái)實(shí)現(xiàn)更好的單目深度估計(jì)(MDE)。用數(shù)學(xué)形式表示,可以將有標(biāo)注和無(wú)標(biāo)注集分別表示成:

圖片

這里的目標(biāo)是根據(jù) D^l 學(xué)習(xí)得到一個(gè)教師模型 T。然后,使用 T 給 D^u 分配偽深度標(biāo)簽。最后,使用有標(biāo)注集和偽標(biāo)注集的組合數(shù)據(jù)集訓(xùn)練一個(gè)學(xué)生模型 S。圖 2 是一個(gè)簡(jiǎn)單圖示。

圖片

學(xué)習(xí)有標(biāo)注圖像

這個(gè)過(guò)程與 MiDaS 的訓(xùn)練過(guò)程類似。具體來(lái)說(shuō),深度值首先會(huì)通過(guò) d = 1/t 被轉(zhuǎn)換到視差空間(disparity space)中,然后再把每張深度映射圖歸一化到 0~1 范圍內(nèi)。為了實(shí)現(xiàn)多數(shù)據(jù)集聯(lián)合訓(xùn)練,該團(tuán)隊(duì)采用了仿射不變損失。

圖片

這樣一來(lái)就可以忽略每個(gè)樣本的未知尺度和偏移。

為了得到穩(wěn)健的單目深度估計(jì)模型,他們從 6 個(gè)公共數(shù)據(jù)集收集了 150 萬(wàn)張有標(biāo)注圖像。表 1 列出了這些數(shù)據(jù)集的詳情。

圖片

不僅如此,為了增強(qiáng)從這些有標(biāo)注圖像學(xué)習(xí)到的教師模型 T,他們還采用了 DINOv2 預(yù)訓(xùn)練權(quán)重對(duì)編碼器進(jìn)行初始化。在實(shí)踐操作中,該團(tuán)隊(duì)的做法是使用一個(gè)經(jīng)過(guò)預(yù)訓(xùn)練的語(yǔ)義分割模型來(lái)檢測(cè)天空區(qū)域并將其視差值設(shè)置為 0(即最遠(yuǎn))。

解放無(wú)標(biāo)注圖像的力量

這正是這項(xiàng)研究的主要目標(biāo)。至于無(wú)標(biāo)注圖像源,該團(tuán)隊(duì)選擇了 8 個(gè)大規(guī)模公共數(shù)據(jù)集,保證了多樣性。這些數(shù)據(jù)集總共包含 6200 多萬(wàn)張圖像。詳情見(jiàn)表 1 下半部分。

技術(shù)上講,給定之前獲得的 MDE 教師模型 T,可在無(wú)標(biāo)注集 D^u 上得到預(yù)測(cè)結(jié)果,從而得到一個(gè)偽標(biāo)注集圖片

圖片

該團(tuán)隊(duì)引入了兩種形式的擾動(dòng):一種是強(qiáng)顏色扭變,包括顏色抖動(dòng)和高斯模糊;另一種是強(qiáng)空間扭曲,也就是 CutMix。

盡管方法很簡(jiǎn)單,但這兩種修改方法可讓大規(guī)模無(wú)標(biāo)注圖像顯著提升使用有標(biāo)注圖像訓(xùn)練的基準(zhǔn)模型。


至于 CutMix,它最早是為圖像分類提出的技術(shù),目前還很少用于單目深度估計(jì)。該團(tuán)隊(duì)的做法是先在空間上插值一對(duì)隨機(jī)的無(wú)標(biāo)注圖像 u_a 和 u_b:

圖片

在處理無(wú)標(biāo)注圖像時(shí),該團(tuán)隊(duì)設(shè)定使用 CutMix 的概率為 50%。輸入給 CutMix 的無(wú)標(biāo)注圖像已經(jīng)在顏色上經(jīng)歷過(guò)強(qiáng)扭變,但給教師模型 T 進(jìn)行偽標(biāo)注的無(wú)標(biāo)注圖像卻是干凈的,沒(méi)有任何扭變。

語(yǔ)義輔助型感知

這項(xiàng)研究首次嘗試了組合使用 RAM + GroundingDINO + HQ-SAM 來(lái)為無(wú)標(biāo)注圖像分配語(yǔ)義分割標(biāo)簽。經(jīng)過(guò)后處理之后,這得到了一個(gè)包含 4000 個(gè)類別的類別空間。

在聯(lián)合訓(xùn)練階段,該模型的任務(wù)使用一個(gè)共享的編碼器和兩個(gè)單獨(dú)的解碼器得到深度預(yù)測(cè)結(jié)果和分割預(yù)測(cè)結(jié)果。不幸的是,一番試錯(cuò)之后,該團(tuán)隊(duì)沒(méi)能提升原始 MDE 模型的性能。

因此,他們的目標(biāo)就變成了訓(xùn)練更多能提供信息的語(yǔ)義信號(hào),以作為輔助監(jiān)督信號(hào)助力深度估計(jì)任務(wù)。

該團(tuán)隊(duì)表示:「DINOv2 模型在語(yǔ)義相關(guān)任務(wù)的強(qiáng)大表現(xiàn)讓我們大受震撼。」

因此,他們提出通過(guò)一個(gè)輔助特征對(duì)齊損失將其強(qiáng)大的語(yǔ)義能力遷移到新的深度模型。其特征空間是高維且連續(xù)的,因此包含的語(yǔ)義信息比離散掩碼更豐富。該特征對(duì)齊損失的數(shù)學(xué)形式為:

圖片

實(shí)驗(yàn)及結(jié)果

研究者使用了 DINOv2 編碼器進(jìn)行特征提取。所有標(biāo)注的數(shù)據(jù)集都簡(jiǎn)單地合并在一起,無(wú)需重新采樣。無(wú)標(biāo)注的圖像由使用 ViT-L 編碼器的最佳教師模型標(biāo)注,每批標(biāo)注和無(wú)標(biāo)注圖像的比例設(shè)定為 1:2。

零樣本相對(duì)深度估計(jì)

研究者在六個(gè)具有代表性的不可見(jiàn)數(shù)據(jù)集 KITTI、NYUv2、Sintel、DDAD、ETH3D 和 DIODE 上全面驗(yàn)證了 Depth Anything 模型的零樣本深度估計(jì)能力 ,并將其與最新 MiDaS v3.1 中的最佳 DPT-BEiT_L-512 模型進(jìn)行了比較,后者使用的標(biāo)注圖像比前者多。

如表 2 所示,在均使用 ViT-L 編碼器的前提下,在廣泛的場(chǎng)景中,Depth Anything 在 AbsRel 和 δ_1 度量上都大大超過(guò)了 MiDaS 的最強(qiáng)模型。

圖片

面向度量深度估計(jì)的微調(diào)

研究者進(jìn)一步研究了 Depth Anything 模型,將其作為下游度量深度估計(jì)的一種有潛力的權(quán)重初始化方法。

兩種有代表性的情況如下:

1) 域內(nèi)度量深度估計(jì),即在同一域內(nèi)對(duì)模型進(jìn)行訓(xùn)練和評(píng)估。如 NYUv2 表 3 所示,Depth Anything 模型明顯優(yōu)于之前的最佳方法 VPD,δ_1 (↑) 從 0.964 → 0.984,AbsRel (↓) 從 0.069 提高到 0.056。表 4 中的 KITTI 數(shù)據(jù)集也有類似的改進(jìn)。

圖片

2) 零樣本度量深度估計(jì),即模型在一個(gè)域(如 NYUv2)上進(jìn)行訓(xùn)練,但在不同域(如 SUN RGB-D)上進(jìn)行評(píng)估。如表 5 所示,在大量未見(jiàn)過(guò)的室內(nèi)和室外場(chǎng)景數(shù)據(jù)集中,Depth Anything 比基于 MiDaS 的原始 ZoeDepth 得出了更好的度量深度估計(jì)模型。

圖片

面向語(yǔ)義分割進(jìn)行微調(diào)

在本文方法中,研究者設(shè)計(jì)了 MDE 模型,通過(guò)簡(jiǎn)單的特征對(duì)齊約束,從預(yù)訓(xùn)練編碼器中繼承豐富的語(yǔ)義先驗(yàn)。隨后,研究者檢驗(yàn)了 MDE 編碼器的語(yǔ)義能力。

如 Cityscapes 數(shù)據(jù)集的表 7 所示,研究者從大規(guī)模 MDE 訓(xùn)練中獲得的編碼器(86.2 mIoU)優(yōu)于從大規(guī)模 ImageNet-21K 預(yù)訓(xùn)練中獲得的現(xiàn)有編碼器,例如 Swin-L (84.3) 和 ConvNeXt-XL (84.6)。表 8 中的 ADE20K 數(shù)據(jù)集也有類似的觀察結(jié)果。

圖片

消融實(shí)驗(yàn)

在消融實(shí)驗(yàn)中,研究者使用了 ViT-L 編碼器。表 6 展示了每個(gè)訓(xùn)練集的零樣本遷移性能。

圖片

如表 9 所示,簡(jiǎn)單地添加帶有偽標(biāo)簽的無(wú)標(biāo)注圖像不一定為模型帶來(lái)增益,大規(guī)模的無(wú)標(biāo)注圖像能夠顯著增強(qiáng)模型的泛化能力。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2015-10-20 09:12:44

紀(jì)念碑谷設(shè)計(jì)

2024-06-28 16:03:38

2024-02-01 09:46:04

模型數(shù)據(jù)

2013-07-05 15:28:27

2015-05-04 17:46:34

ThingWorx物聯(lián)網(wǎng)

2017-07-12 08:33:04

機(jī)房數(shù)據(jù)中心服務(wù)器

2024-07-19 10:14:13

2024-06-18 09:25:13

2022-10-10 15:09:12

AI

2025-01-27 12:12:25

2015-04-13 09:03:16

2022-06-30 18:05:51

訓(xùn)練模型圖像

2023-10-13 12:57:37

AI模型

2025-03-25 12:53:16

2018-09-27 10:59:28

信銳技術(shù)

2018-09-13 10:42:00

工具代碼機(jī)器學(xué)習(xí)

2021-03-01 14:05:50

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-02-16 09:30:04

數(shù)據(jù)可視化信息

2024-06-28 09:15:31

2022-07-21 13:19:27

AI畫家
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)