自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「AI透視眼」,三次馬爾獎(jiǎng)獲得者Andrew帶隊(duì)解決任意物體遮擋補(bǔ)全難題

人工智能 新聞
非模態(tài)分割(Amodal Segmentation)旨在補(bǔ)全物體被遮擋的部分,即給出物體可見(jiàn)部分和不可見(jiàn)部分的形狀掩碼。

遮擋是計(jì)算機(jī)視覺(jué)很基礎(chǔ)但依舊未解決的問(wèn)題之一,因?yàn)檎趽跻馕吨曈X(jué)信息的缺失,而機(jī)器視覺(jué)系統(tǒng)卻依靠著視覺(jué)信息進(jìn)行感知和理解,并且在現(xiàn)實(shí)世界中,物體之間的相互遮擋無(wú)處不在。牛津大學(xué) VGG 實(shí)驗(yàn)室 Andrew Zisserman 團(tuán)隊(duì)最新工作系統(tǒng)性解決了任意物體的遮擋補(bǔ)全問(wèn)題,并且為這一問(wèn)題提出了一個(gè)新的更加精確的評(píng)估數(shù)據(jù)集。該工作受到了 MPI 大佬 Michael Black、CVPR 官方賬號(hào)、南加州大學(xué)計(jì)算機(jī)系官方賬號(hào)等在 X 平臺(tái)的點(diǎn)贊。以下為論文「Amodal Ground Truth and Completion in the Wild」的主要內(nèi)容。

圖片


  • 論文鏈接:https://arxiv.org/pdf/2312.17247.pdf
  • 項(xiàng)目主頁(yè):https://www.robots.ox.ac.uk/~vgg/research/amodal/
  • 代碼地址:https://github.com/Championchess/Amodal-Completion-in-the-Wild

非模態(tài)分割(Amodal Segmentation)旨在補(bǔ)全物體被遮擋的部分,即給出物體可見(jiàn)部分和不可見(jiàn)部分的形狀掩碼。這個(gè)任務(wù)可以使得諸多下游任務(wù)受益:物體識(shí)別、目標(biāo)檢測(cè)、實(shí)例分割、圖像編輯、三維重建、視頻物體分割、物體間支撐關(guān)系推理、機(jī)器人的操縱和導(dǎo)航,因?yàn)樵谶@些任務(wù)中知道被遮擋物體完整的形狀會(huì)有所幫助。

然而,如何去評(píng)估一個(gè)模型在真實(shí)世界做非模態(tài)分割的性能卻是一個(gè)難題:雖然很多圖片中都有大量的被遮擋物體,可是如何得到這些物體完整形狀的參考標(biāo)準(zhǔn) 或是非模態(tài)掩碼呢?前人的工作有通過(guò)人手動(dòng)標(biāo)注非模態(tài)掩碼的,可是這樣標(biāo)注的參考標(biāo)準(zhǔn)難以避免引入人類誤差;也有工作通過(guò)制造合成數(shù)據(jù)集,比如在一個(gè)完整的物體上貼直接另一個(gè)物體,來(lái)得到被遮擋物體的完整形狀,但這樣得到的圖片都不是真實(shí)圖片場(chǎng)景。因此,這個(gè)工作提出了通過(guò) 3D 模型投影的方法,構(gòu)造了一個(gè)大規(guī)模的涵蓋多物體種類并且提供非模態(tài)掩碼的真實(shí)圖片數(shù)據(jù)集(MP3D-Amodal)來(lái)精確評(píng)估非模態(tài)分割的性能。各不同數(shù)據(jù)集的對(duì)比如下圖:

圖片

具體而言,以 MatterPort3D 數(shù)據(jù)集為例,對(duì)于任意的有真實(shí)照片并且有場(chǎng)景三維結(jié)構(gòu)的數(shù)據(jù)集,我們可以將場(chǎng)景中所有物體的三維形狀同時(shí)投影到相機(jī)上以得到每個(gè)物體的模態(tài)掩碼(可見(jiàn)形狀,因?yàn)槲矬w相互之間有遮擋),然后將場(chǎng)景中每個(gè)物體的三維形狀分別投影到相機(jī)以得到這個(gè)物體的非模態(tài)掩碼,即完整的形狀。通過(guò)對(duì)比模態(tài)掩碼和非模態(tài)掩碼,即可以挑選出被遮擋的物體。

數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如下:

圖片

圖片

數(shù)據(jù)集的樣例如下:

圖片

此外,為解決任意物體的完整形狀重建任務(wù),作者提取出 Stable Diffusion 模型的特征中關(guān)于物體完整形狀的先驗(yàn)知識(shí),來(lái)對(duì)任意被遮擋物體做非模態(tài)分割,具體的架構(gòu)如下(SDAmodal):

圖片

提出使用 Stable Diffusion Feature 的動(dòng)機(jī)在于,Stable Diffusion 具有圖片補(bǔ)全的能力,所以可能一定程度上包含了有關(guān)物體的全部信息;而且由于 Stable Diffusion 經(jīng)過(guò)大量圖片的訓(xùn)練,所以可以期待其特征在任意環(huán)境下有對(duì)任意物體的處理能力。和前人 two-stage 的框架不同,SDAmodal 不需要已經(jīng)標(biāo)注好的遮擋物掩碼作為輸入;SDAmodal 架構(gòu)簡(jiǎn)單,卻體現(xiàn)出很強(qiáng)的零樣本泛化能力(比較下表 Setting F 和 H,僅在 COCOA 上訓(xùn)練,卻能在另一個(gè)不同域、不同類別的數(shù)據(jù)集上有所提升);即使沒(méi)有關(guān)于遮擋物的標(biāo)注,SDAmodal 在目前已有的涵蓋多種類被遮擋物體的數(shù)據(jù)集 COCOA 以及新提出的 MP3D-Amodal 數(shù)據(jù)集上,都取得了SOTA表現(xiàn)(Setting H)。

圖片

除了定量實(shí)驗(yàn),定性的比較也體現(xiàn)出了 SDAmodal 模型的優(yōu)勢(shì):從下圖可以觀察到(所有模型都只在 COCOA 上訓(xùn)練),對(duì)于不同種類的被遮擋物體,無(wú)論是來(lái)自于 COCOA,還是來(lái)自于另一個(gè)MP3D-Amodal,SDAmodal 都能大大提升非模態(tài)分割的效果,所預(yù)測(cè)的非模態(tài)掩碼更加接近真實(shí)的。

更多細(xì)節(jié),請(qǐng)閱讀論文原文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-04-03 09:42:42

BASIC痛恨BASIC戴克斯特拉

2009-05-13 09:06:26

面試技巧求職技巧

2021-05-27 09:36:21

數(shù)據(jù)機(jī)器學(xué)習(xí)人工智能

2022-02-28 11:10:05

AI機(jī)器學(xué)習(xí)模型

2009-09-29 14:04:00

CCNA考試心得CCNA

2024-01-04 12:49:00

模型訓(xùn)練

2009-10-09 16:24:00

CCNA考試心得CCNA

2019-11-18 17:32:09

金蝶

2019-11-18 11:30:03

金蝶

2020-11-06 07:28:55

程序員管理者躍升

2021-05-12 16:27:55

Java雙親模型

2016-11-04 12:03:31

2021-04-28 06:11:32

人工智能AI機(jī)器學(xué)習(xí)

2010-10-27 10:54:05

求職者

2014-07-24 10:16:11

高教華為

2023-09-07 16:46:54

TCP數(shù)據(jù)傳遞

2012-08-14 09:54:12

設(shè)計(jì)模式

2021-08-09 07:26:34

Blazor路由開(kāi)發(fā)

2015-10-13 09:42:52

TCP網(wǎng)絡(luò)協(xié)議
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)