自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="bs0ea"><progress id="bs0ea"></progress></s>

<meter id="bs0ea"></meter>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

「AI透視眼」，三次馬爾獎(jiǎng)獲得者Andrew帶隊(duì)解決任意物體遮擋補(bǔ)全難題

作者：機(jī)器之心 2024-03-08 12:46:00

人工智能新聞

非模態(tài)分割（Amodal Segmentation）旨在補(bǔ)全物體被遮擋的部分，即給出物體可見(jiàn)部分和不可見(jiàn)部分的形狀掩碼。

遮擋是計(jì)算機(jī)視覺(jué)很基礎(chǔ)但依舊未解決的問(wèn)題之一，因?yàn)檎趽跻馕吨曈X(jué)信息的缺失，而機(jī)器視覺(jué)系統(tǒng)卻依靠著視覺(jué)信息進(jìn)行感知和理解，并且在現(xiàn)實(shí)世界中，物體之間的相互遮擋無(wú)處不在。牛津大學(xué) VGG 實(shí)驗(yàn)室 Andrew Zisserman 團(tuán)隊(duì)最新工作系統(tǒng)性解決了任意物體的遮擋補(bǔ)全問(wèn)題，并且為這一問(wèn)題提出了一個(gè)新的更加精確的評(píng)估數(shù)據(jù)集。該工作受到了 MPI 大佬 Michael Black、CVPR 官方賬號(hào)、南加州大學(xué)計(jì)算機(jī)系官方賬號(hào)等在 X 平臺(tái)的點(diǎn)贊。以下為論文「Amodal Ground Truth and Completion in the Wild」的主要內(nèi)容。

論文鏈接：https://arxiv.org/pdf/2312.17247.pdf
項(xiàng)目主頁(yè)：https://www.robots.ox.ac.uk/~vgg/research/amodal/
代碼地址：https://github.com/Championchess/Amodal-Completion-in-the-Wild

非模態(tài)分割（Amodal Segmentation）旨在補(bǔ)全物體被遮擋的部分，即給出物體可見(jiàn)部分和不可見(jiàn)部分的形狀掩碼。這個(gè)任務(wù)可以使得諸多下游任務(wù)受益：物體識(shí)別、目標(biāo)檢測(cè)、實(shí)例分割、圖像編輯、三維重建、視頻物體分割、物體間支撐關(guān)系推理、機(jī)器人的操縱和導(dǎo)航，因?yàn)樵谶@些任務(wù)中知道被遮擋物體完整的形狀會(huì)有所幫助。

然而，如何去評(píng)估一個(gè)模型在真實(shí)世界做非模態(tài)分割的性能卻是一個(gè)難題：雖然很多圖片中都有大量的被遮擋物體，可是如何得到這些物體完整形狀的參考標(biāo)準(zhǔn) 或是非模態(tài)掩碼呢？前人的工作有通過(guò)人手動(dòng)標(biāo)注非模態(tài)掩碼的，可是這樣標(biāo)注的參考標(biāo)準(zhǔn)難以避免引入人類誤差；也有工作通過(guò)制造合成數(shù)據(jù)集，比如在一個(gè)完整的物體上貼直接另一個(gè)物體，來(lái)得到被遮擋物體的完整形狀，但這樣得到的圖片都不是真實(shí)圖片場(chǎng)景。因此，這個(gè)工作提出了通過(guò) 3D 模型投影的方法，構(gòu)造了一個(gè)大規(guī)模的涵蓋多物體種類并且提供非模態(tài)掩碼的真實(shí)圖片數(shù)據(jù)集（MP3D-Amodal）來(lái)精確評(píng)估非模態(tài)分割的性能。各不同數(shù)據(jù)集的對(duì)比如下圖：

具體而言，以 MatterPort3D 數(shù)據(jù)集為例，對(duì)于任意的有真實(shí)照片并且有場(chǎng)景三維結(jié)構(gòu)的數(shù)據(jù)集，我們可以將場(chǎng)景中所有物體的三維形狀同時(shí)投影到相機(jī)上以得到每個(gè)物體的模態(tài)掩碼（可見(jiàn)形狀，因?yàn)槲矬w相互之間有遮擋），然后將場(chǎng)景中每個(gè)物體的三維形狀分別投影到相機(jī)以得到這個(gè)物體的非模態(tài)掩碼，即完整的形狀。通過(guò)對(duì)比模態(tài)掩碼和非模態(tài)掩碼，即可以挑選出被遮擋的物體。

數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如下：

數(shù)據(jù)集的樣例如下：

此外，為解決任意物體的完整形狀重建任務(wù)，作者提取出 Stable Diffusion 模型的特征中關(guān)于物體完整形狀的先驗(yàn)知識(shí)，來(lái)對(duì)任意被遮擋物體做非模態(tài)分割，具體的架構(gòu)如下（SDAmodal）：

提出使用 Stable Diffusion Feature 的動(dòng)機(jī)在于，Stable Diffusion 具有圖片補(bǔ)全的能力，所以可能一定程度上包含了有關(guān)物體的全部信息；而且由于 Stable Diffusion 經(jīng)過(guò)大量圖片的訓(xùn)練，所以可以期待其特征在任意環(huán)境下有對(duì)任意物體的處理能力。和前人 two-stage 的框架不同，SDAmodal 不需要已經(jīng)標(biāo)注好的遮擋物掩碼作為輸入；SDAmodal 架構(gòu)簡(jiǎn)單，卻體現(xiàn)出很強(qiáng)的零樣本泛化能力（比較下表 Setting F 和 H，僅在 COCOA 上訓(xùn)練，卻能在另一個(gè)不同域、不同類別的數(shù)據(jù)集上有所提升）；即使沒(méi)有關(guān)于遮擋物的標(biāo)注，SDAmodal 在目前已有的涵蓋多種類被遮擋物體的數(shù)據(jù)集 COCOA 以及新提出的 MP3D-Amodal 數(shù)據(jù)集上，都取得了SOTA表現(xiàn)（Setting H）。

除了定量實(shí)驗(yàn)，定性的比較也體現(xiàn)出了 SDAmodal 模型的優(yōu)勢(shì)：從下圖可以觀察到（所有模型都只在 COCOA 上訓(xùn)練），對(duì)于不同種類的被遮擋物體，無(wú)論是來(lái)自于 COCOA，還是來(lái)自于另一個(gè)MP3D-Amodal，SDAmodal 都能大大提升非模態(tài)分割的效果，所預(yù)測(cè)的非模態(tài)掩碼更加接近真實(shí)的。

更多細(xì)節(jié)，請(qǐng)閱讀論文原文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="2z5uz"></ruby>