自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)目標(biāo)檢測(cè)擴(kuò)散模型,比Faster R-CNN、DETR好,從隨機(jī)框中直接檢測(cè)

人工智能 新聞
擴(kuò)散模型不但在生成任務(wù)上非常成功,這次在目標(biāo)檢測(cè)任務(wù)上,更是超越了成熟的目標(biāo)檢測(cè)器。

擴(kuò)散模型( Diffusion Model )作為深度生成模型中的新 SOTA,已然在圖像生成任務(wù)中超越了原 SOTA:例如 GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn),如計(jì)算機(jī)視覺(jué),NLP、分子圖建模、時(shí)間序列建模等。

近日,來(lái)自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè)。據(jù)了解,還沒(méi)有研究可以成功地將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè),可以說(shuō)這是第一個(gè)采用擴(kuò)散模型進(jìn)行目標(biāo)檢測(cè)的工作。

DiffusionDet 的性能如何呢?在 MS-COCO 數(shù)據(jù)集上進(jìn)行評(píng)估,使用 ResNet-50 作為骨干,在單一采樣 step 下,DiffusionDet 實(shí)現(xiàn) 45.5 AP,顯著優(yōu)于 Faster R-CNN (40.2 AP), DETR (42.0 AP),并與 Sparse R-CNN (45.0 AP)相當(dāng)。通過(guò)增加采樣 step 的數(shù)量,進(jìn)一步將 DiffusionDet 性能提高到 46.2 AP。此外,在 LVIS 數(shù)據(jù)集上,DiffusionDet 也表現(xiàn)良好,使用 swing - base 作為骨干實(shí)現(xiàn)了 42.1 AP。

圖片

  • 論文地址:https://arxiv.org/pdf/2211.09788.pdf
  • 項(xiàng)目地址 https://github.com/ShoufaChen/DiffusionDet

該研究發(fā)現(xiàn)在傳統(tǒng)的目標(biāo)檢測(cè)里,存在一個(gè)缺陷,即它們依賴(lài)于一組固定的可學(xué)習(xí)查詢(xún)。然后研究者就在思考:是否存在一種簡(jiǎn)單的方法甚至不需要可學(xué)習(xí)查詢(xún)就能進(jìn)行目標(biāo)檢測(cè)?

為了回答這一問(wèn)題,本文提出了 DiffusionDet,該框架可以直接從一組隨機(jī)框中檢測(cè)目標(biāo),它將目標(biāo)檢測(cè)制定為從噪聲框到目標(biāo)框的去噪擴(kuò)散過(guò)程。這種從 noise-to-box 的方法不需要啟發(fā)式的目標(biāo)先驗(yàn),也不需要可學(xué)習(xí)查詢(xún),這進(jìn)一步簡(jiǎn)化了目標(biāo)候選,并推動(dòng)了檢測(cè) pipeline 的發(fā)展。

如下圖 1 所示,該研究認(rèn)為 noise-to-box 范式類(lèi)似于去噪擴(kuò)散模型中的 noise-to-image 過(guò)程,后者是一類(lèi)基于似然的模型,通過(guò)學(xué)習(xí)到的去噪模型逐步去除圖像中的噪聲來(lái)生成圖像。

圖片

DiffusionDet 通過(guò)擴(kuò)散模型解決目標(biāo)檢測(cè)任務(wù),即將檢測(cè)看作圖像中 bounding box 位置 (中心坐標(biāo)) 和大小 (寬度和高度) 空間上的生成任務(wù)。在訓(xùn)練階段,將方差表(schedule)控制的高斯噪聲添加到 ground truth box,得到 noisy box。然后使用這些 noisy box 從主干編碼器(如 ResNet, Swin Transformer)的輸出特征圖中裁剪感興趣區(qū)域(RoI)。最后,將這些 RoI 特征發(fā)送到檢測(cè)解碼器,該解碼器被訓(xùn)練用來(lái)預(yù)測(cè)沒(méi)有噪聲的 ground truth box。在推理階段,DiffusionDet 通過(guò)反轉(zhuǎn)學(xué)習(xí)到的擴(kuò)散過(guò)程生成 bounding box,它將噪聲先驗(yàn)分布調(diào)整到 bounding box 上的學(xué)習(xí)分布。

方法概述

由于擴(kuò)散模型迭代地生成數(shù)據(jù)樣本,因此在推理階段需要多次運(yùn)行模型 f_θ。但是,在每一個(gè)迭代步驟中,直接在原始圖像上應(yīng)用 f_θ在計(jì)算上很困難。因此,研究者提出將整個(gè)模型分為兩部分,即圖像編碼器和檢測(cè)解碼器,前者只運(yùn)行一次以從原始輸入圖像 x 中提取深度特征表示,后者以該深度特征為條件,從噪聲框 z_t 中逐步細(xì)化框預(yù)測(cè)。

圖像編碼器將原始圖像作為輸入,并為檢測(cè)解碼器提取其高級(jí)特征。研究者使用 ResNet 等卷積神經(jīng)網(wǎng)絡(luò)和 Swin 等基于 Transformer 的模型來(lái)實(shí)現(xiàn) DiffusionDet。與此同時(shí),特征金字塔網(wǎng)絡(luò)用于為 ResNet 和 Swin 主干網(wǎng)絡(luò)生成多尺度特征圖。

檢測(cè)解碼器借鑒了 Sparse R-CNN,將一組 proposal 框作為輸入,從圖像編碼器生成的特征圖中裁剪 RoI 特征,并將它們發(fā)送到檢測(cè)頭以獲得框回歸和分類(lèi)結(jié)果。此外,該檢測(cè)解碼器由 6 個(gè)級(jí)聯(lián)階段組成。

訓(xùn)練

在訓(xùn)練過(guò)程中,研究者首先構(gòu)建了從真值框到噪聲框的擴(kuò)散過(guò)程,然后訓(xùn)練模型來(lái)反轉(zhuǎn)這個(gè)過(guò)程。如下算法 1 提供了 DiffusionDet 訓(xùn)練過(guò)程的偽代碼。

圖片

真值框填充。對(duì)于現(xiàn)代目標(biāo)檢測(cè)基準(zhǔn),感興趣實(shí)例的數(shù)量通常因圖像而異。因此,研究者首先將一些額外的框填充到原始真值框,這樣所有的框被總計(jì)為一個(gè)固定的數(shù)字 N_train。他們探索了幾種填充策略,例如重復(fù)現(xiàn)有真值框、連接隨機(jī)框或圖像大小的框。

框損壞。研究者將高斯噪聲添加到填充的真值框。噪聲尺度由如下公式(1)中的 α_t 控制,它在不同的時(shí)間步 t 中采用單調(diào)遞減的余弦調(diào)度。

圖片

訓(xùn)練損失。檢測(cè)解碼器將 N_train 損壞框作為輸入,預(yù)測(cè) N_train 對(duì)類(lèi)別分類(lèi)和框坐標(biāo)的預(yù)測(cè)。同時(shí)在 N_train 預(yù)測(cè)集上應(yīng)用集預(yù)測(cè)損失(set prediction loss)。

推理

DiffusionDet 的推理過(guò)程是從噪聲到目標(biāo)框的去噪采樣過(guò)程。從在高斯分布中采樣的框開(kāi)始,該模型逐步細(xì)化其預(yù)測(cè),具體如下算法 2 所示。

圖片

采樣步驟。在每個(gè)采樣步驟中,將上一個(gè)采樣步驟中的隨機(jī)框或估計(jì)框發(fā)送到檢測(cè)解碼器,以預(yù)測(cè)類(lèi)別分類(lèi)和框坐標(biāo)。在獲得當(dāng)前步驟的框后,采用 DDIM 來(lái)估計(jì)下一步驟的框。

框更新。為了使推理更好地與訓(xùn)練保持一致,研究者提出了框更新策略,通過(guò)用隨機(jī)框替換非預(yù)期的框以使它們恢復(fù)。具體來(lái)說(shuō),他們首先過(guò)濾掉分?jǐn)?shù)低于特定閾值的非預(yù)期的框,然后將剩余的框與從高斯分布中采樣的新隨機(jī)框連接起來(lái)。

一次解決(Once-for-all)。得益于隨機(jī)框設(shè)計(jì),研究者可以使用任意數(shù)量的隨機(jī)框和采樣步驟來(lái)評(píng)估 DiffusionDet。作為比較,以往的方法在訓(xùn)練和評(píng)估期間依賴(lài)于相同數(shù)量的處理框,并且檢測(cè)解碼器在前向傳遞中僅使用一次。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)部分,研究者首先展示了 DiffusionDet 的 Once-for-all 屬性,然后將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上成熟的檢測(cè)器進(jìn)行比較。 

DiffusionDet 的主要特性在于對(duì)所有推理實(shí)例進(jìn)行一次訓(xùn)練。一旦模型經(jīng)過(guò)訓(xùn)練,它就可以用于更改推理中框的數(shù)量和樣本步驟數(shù),如下圖 4 所示。DiffusionDet 可以通過(guò)使用更多框或 / 和更多細(xì)化步驟來(lái)實(shí)現(xiàn)更高的準(zhǔn)確度,但代價(jià)是延遲率更高。因此,研究者將單個(gè) DiffusionDet 部署到多個(gè)場(chǎng)景中,并在不重新訓(xùn)練網(wǎng)絡(luò)的情況下獲得所需的速度 - 準(zhǔn)確率權(quán)衡。

圖片

研究者將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上的檢測(cè)器進(jìn)行了比較,具體如下表 1 所示。他們首先將 DiffusionDet 的目標(biāo)檢測(cè)性能與以往在 MS-COCO 上的檢測(cè)器進(jìn)行了比較。結(jié)果顯示,沒(méi)有細(xì)化步驟的 DiffusionDet 使用 ResNet-50 主干網(wǎng)絡(luò)實(shí)現(xiàn)了 45.5 AP,以較大的優(yōu)勢(shì)超越了以往成熟的方法,如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且當(dāng)主干網(wǎng)絡(luò)的尺寸擴(kuò)大時(shí),DiffusionDet 顯示出穩(wěn)定的提升。

圖片

下表 2 中展示了在更具挑戰(zhàn)性的 LVIS 數(shù)據(jù)集上的結(jié)果,可以看到,DiffusionDet 使用更多的細(xì)化步驟可以獲得顯著的增益。

圖片

更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-09-19 16:10:50

深度學(xué)習(xí)目標(biāo)檢測(cè)模型

2021-09-30 09:45:03

人工智能語(yǔ)言模型技術(shù)

2024-08-22 08:24:51

算法CNN深度學(xué)習(xí)

2017-06-10 16:48:03

神經(jīng)網(wǎng)絡(luò)目標(biāo)計(jì)數(shù)機(jī)器學(xué)習(xí)

2024-09-23 09:10:00

R-CNN深度學(xué)習(xí)Python

2017-04-24 23:46:40

卷積神經(jīng)網(wǎng)絡(luò)圖像R-CNN

2023-12-07 13:07:59

3D模型訓(xùn)練

2025-01-06 12:20:00

YOLO物體識(shí)別開(kāi)發(fā)

2021-09-27 09:48:52

神經(jīng)網(wǎng)絡(luò)AI目標(biāo)檢測(cè)

2024-08-01 09:00:00

目標(biāo)檢測(cè)端到端

2020-11-24 17:25:19

模型人工智能深度學(xué)習(xí)

2024-11-27 16:06:12

2025-02-18 08:00:00

C++YOLO目標(biāo)檢測(cè)

2024-04-26 10:00:03

自動(dòng)駕駛模型

2024-05-28 10:08:52

2024-06-13 11:53:40

2024-07-02 10:04:09

2024-09-09 16:35:10

YOLO模型

2025-01-06 08:20:00

YOLOv11目標(biāo)檢測(cè)Python

2024-07-30 09:50:00

深度學(xué)習(xí)目標(biāo)檢測(cè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)