自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="nq6iq"><rp id="nq6iq"><pre id="nq6iq"></pre></rp></cite>

<cite id="nq6iq"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

NeurIPS 2024 | 無需訓(xùn)練，一個框架搞定開放式目標(biāo)檢測、實(shí)例分割

作者：機(jī)器之心 2024-11-18 08:15:00

人工智能新聞

本文提出了 VL-SAM，一個基于注意力圖提示的免訓(xùn)練開放式目標(biāo)檢測和分割框架 VL-SAM，在無需訓(xùn)練的情況下，取得了良好的開放式 (Open-ended) 目標(biāo)檢測和實(shí)例分割結(jié)果。

本文介紹了來自北京大學(xué)王選計(jì)算機(jī)研究所的王勇濤團(tuán)隊(duì)的最新研究成果 VL-SAM。針對開放場景，該篇工作提出了一個基于注意力圖提示的免訓(xùn)練開放式目標(biāo)檢測和分割框架 VL-SAM，在無需訓(xùn)練的情況下，取得了良好的開放式 (Open-ended) 目標(biāo)檢測和實(shí)例分割結(jié)果，論文已被 NeurIPS 2024 錄用。

論文標(biāo)題：Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts
論文鏈接：https://arxiv.org/abs/2410.05963

論文概述

本文提出了一個無需訓(xùn)練的開放式目標(biāo)檢測和分割框架，結(jié)合了現(xiàn)有的泛化物體識別模型（如視覺語言大模型 VLM）與泛化物體定位模型（如分割基礎(chǔ)模型 SAM），并使用注意力圖作為提示進(jìn)行兩者的連接。在長尾數(shù)據(jù)集 LVIS 上，該框架超過了之前需要訓(xùn)練的開放式方法，同時能夠提供額外的實(shí)例分割結(jié)果。在自動駕駛 corner case 數(shù)據(jù)集 CODA 上，VL-SAM 也表現(xiàn)出了不錯的結(jié)果，證明了其在真實(shí)應(yīng)用場景下的能力。此外，VL-SAM 展現(xiàn)了強(qiáng)大的模型泛化能力，能夠結(jié)合當(dāng)前各種 VLM 和 SAM 模型。

研究背景

深度學(xué)習(xí)在感知任務(wù)方面取得了顯著成功，其中，自動駕駛是一個典型的成功案例。現(xiàn)有的基于深度學(xué)習(xí)的感知模型依賴于廣泛的標(biāo)記訓(xùn)練數(shù)據(jù)來學(xué)習(xí)識別和定位對象。然而，訓(xùn)練數(shù)據(jù)不能完全覆蓋真實(shí)世界場景中所有類型的物體。當(dāng)面對分布外的物體時，現(xiàn)有的感知模型可能無法進(jìn)行識別和定位，從而可能會發(fā)生嚴(yán)重的安全問題。

為了解決這個問題，研究者們提出了許多開放世界感知方法。這些方法大致可以分為兩類：開集感知（open-set）和開放式感知（open-ended）。開集感知方法通常使用預(yù)訓(xùn)練的 CLIP 模型來計(jì)算圖像區(qū)域和類別名稱之間的相似性。因此，在推理過程中，這類方法需要預(yù)定義的對象類別名稱作為 CLIP 文本編碼器的輸入。然而，在許多現(xiàn)實(shí)世界的應(yīng)用場景中，并不會提供確切的對象類別名稱。例如，在自動駕駛場景中，自動駕駛車輛可能會遇到各種意想不到的物體，包括起火或側(cè)翻的事故車和各種各樣的建筑車輛。相比之下，開放式感知方法更具通用性和實(shí)用性，因?yàn)檫@些可以同時預(yù)測對象類別和位置，而不需要給定確切的對象類別名稱。

與此同時，在最近的研究中，大型視覺語言模型（VLM）顯示出強(qiáng)大的物體識別泛化能力，例如，它可以在自動駕駛場景中的長尾數(shù)據(jù)上（corner case）識別非常見的物體，并給出準(zhǔn)確的描述。然而，VLM 的定位能力相比于特定感知模型較弱，經(jīng)常會漏檢物體或給出錯誤的定位結(jié)果。另一方面，作為一個純視覺基礎(chǔ)模型，SAM 對來自許多不同領(lǐng)域的圖像表現(xiàn)出良好的分割泛化能力。然而，SAM 無法為分割的對象提供類別?；诖?，本文提出了一個無需訓(xùn)練的開放式目標(biāo)檢測和分割框架 VL-SAM，將現(xiàn)有的泛化物體識別模型 VLM 與泛化物體定位模型 SAM 相結(jié)合，利用注意力圖作為中間提示進(jìn)行連接，以解決開放式感知任務(wù)。

方法部分

作者提出了 VL-SAM，一個無需訓(xùn)練的開放式目標(biāo)檢測和分割框架。具體框架如下圖所示：

圖 1 VL-SAM 框架圖

具體而言，作者設(shè)計(jì)了注意力圖生成模塊，采用頭聚合和注意力流的方式對多層多頭注意力圖進(jìn)行傳播，從而生成高質(zhì)量的注意力圖。之后，作者使用迭代式正負(fù)樣本點(diǎn)采樣的方式，從生成的注意力圖中進(jìn)行采樣，得到 SAM 的點(diǎn)提示作為輸入，最終得到物體的分割結(jié)果。

1、注意力圖生成模塊（Attention Map Generation Module）

給定一張輸入圖片，使用 VLM 給出圖片中所有的物體類別。在這個過程中存儲 VLM 生成的所有 query 和 key，并使用 query 和 key 構(gòu)建多層多頭注意力圖：

其中 N 表示 token 的數(shù)量，H 表示多頭注意力的數(shù)量，L 表示 VLM 的層數(shù)。

之后，采用 Mean-max 的方式對多頭注意力圖進(jìn)行聚合，如圖 2 所示：

圖 2 多頭注意力聚合

首先計(jì)算每個頭的注意力的權(quán)重：

之后采用基于權(quán)重的多頭注意力加權(quán)進(jìn)行信息聚合：

其中表示矩陣點(diǎn)乘。

在聚合多頭注意力圖之后，采用注意力流的方式進(jìn)一步聚合多層注意力圖，如圖 3 所示

圖 3 注意力流

具體而言，采用 attention rollout 的方式，計(jì)算第層到第層的注意力圖傳播：

其中表示單位矩陣。最后，作者僅使用傳播后的最后一層注意力圖作為最終的注意力圖。

2、SAM 提示生成

生成的注意力圖中可能會存在不穩(wěn)定的假陽性峰值。為了過濾這部分假陽性，作者首先采用閾值過濾的方式進(jìn)行初步過濾，并找到剩余激活部分的最大聯(lián)通區(qū)域作為正樣本區(qū)域，其余的部分作為負(fù)樣本區(qū)域。之后，采用峰值檢測的方式分別從正負(fù)樣本區(qū)域進(jìn)行采樣，得到正負(fù)樣本點(diǎn)，作為 SAM 的點(diǎn)提示輸入。

3、迭代式分割優(yōu)化

從 SAM 得到分割結(jié)果可能會存在粗糙的邊界或者背景噪聲，作者采用兩種迭代式方式進(jìn)一步對分割結(jié)果進(jìn)行優(yōu)化。在第一種迭代方式中，作者借鑒 PerSAM 使用 cascaded post-refinement 的方式，將初始的分割結(jié)果作為額外的提示輸入到 SAM 中。對于第二種迭代方式，作者使用初始的分割結(jié)果對注意力圖進(jìn)行掩碼，之后在掩碼的區(qū)域進(jìn)行正負(fù)樣本點(diǎn)采樣。

4、多尺度聚合和問題提示聚合

作者還采用兩種聚合（Ensemble）的方式進(jìn)一步改良結(jié)果。對于 VLM 的低分率問題，作者使用多尺度聚合，將圖片切成 4 塊進(jìn)行輸入。此外，由于 VLM 對問題輸入較為敏感，作者采用問題提示聚合，使得 VLM 能夠盡量多得輸出物體類別。最后，采用 NMS 對這些聚合結(jié)果進(jìn)行過濾。

實(shí)驗(yàn)結(jié)果

在包含 1203 類物體類別的長尾數(shù)據(jù)集 LVIS 驗(yàn)證集上，相比于之前的開放式方法，VL-SAM 取得了更高的包圍框 AP 值。同時，VL-SAM 還能夠獲取物體分割結(jié)果。此外，相比于開集檢測方法，VL-SAM 也取得了具有競爭力的性能。

表 1 LVIS 結(jié)果

在自動駕駛場景 corner case 數(shù)據(jù)集 CODA 上，VL-SAM 也取得了不錯的結(jié)果，超過了開集檢測和開放式檢測的方法。

表 2 CODA 結(jié)果

結(jié)論

本文提出了 VL-SAM，一個基于注意力圖提示的免訓(xùn)練開放式目標(biāo)檢測和分割框架 VL-SAM，在無需訓(xùn)練的情況下，取得了良好的開放式 (Open-ended) 目標(biāo)檢測和實(shí)例分割結(jié)果。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 目標(biāo)檢測

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="lflj1"></blockquote>}