自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺定位新SOTA!華人團(tuán)隊(duì)開源革新框架SegVG,邊界框轉(zhuǎn)為分割信號(hào) | ECCV 2024

人工智能 新聞
SegVG是一種新的視覺定位方法,通過將邊界框注釋轉(zhuǎn)化為像素級(jí)分割信號(hào)來增強(qiáng)模型的監(jiān)督信號(hào),同時(shí)利用三重對(duì)齊模塊解決特征域差異問題,提升了定位準(zhǔn)確性。實(shí)驗(yàn)結(jié)果顯示,SegVG在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上超越了現(xiàn)有的最佳模型,證明了其在視覺定位任務(wù)中的有效性和實(shí)用性。

視覺定位(Visual Grounding)旨在基于自由形式的自然語言文本表達(dá)定位圖像中的目標(biāo)物體。

隨著多模態(tài)推理系統(tǒng)的普及,如視覺問答和圖像描述,視覺定位的重要性愈加凸顯。已有的研究大致可以分為三類:兩階段方法、單階段方法和基于Transformer的方法。

盡管這些方法取得了良好的效果,但在注釋的利用上仍顯得不足,尤其是僅將框注釋作為回歸的真值樣本,限制了模型的性能表現(xiàn)。

具體而言,視覺定位面臨的挑戰(zhàn)在于其稀疏的監(jiān)督信號(hào),每對(duì)文本和圖像僅提供一個(gè)邊界框標(biāo)簽,與目標(biāo)檢測任務(wù)(Object Detection)存在顯著不同,因此充分利用框注釋至關(guān)重要,將其視為分割掩膜(即邊界框內(nèi)的像素賦值為1,外部像素賦值為0),可以為視覺定位提供更細(xì)粒度的像素級(jí)監(jiān)督。

伊利諾伊理工學(xué)院、中佛羅里達(dá)大學(xué)的研究人員提出了一個(gè)名為SegVG的新方法,旨在將邊界框級(jí)的注釋轉(zhuǎn)化為分割信號(hào),以提供更為豐富的監(jiān)督信號(hào)。

圖片

論文鏈接:https://arxiv.org/abs/2407.03200

代碼鏈接:https://github.com/WeitaiKang/SegVG/tree/main

該方法倡導(dǎo)多層多任務(wù)編碼器-解碼器結(jié)構(gòu),學(xué)習(xí)回歸查詢和多個(gè)分割查詢,以通過回歸和每個(gè)解碼層的分割來實(shí)現(xiàn)目標(biāo)定位。

此外,為了解決由于特征域不匹配而產(chǎn)生的差異,研究中引入了三重對(duì)?模塊,通過三重注意機(jī)制更新查詢、文本和視覺特征,以確保共享同一空間,從而提高后續(xù)的目標(biāo)檢測效果。

綜上,SegVG通過最大化邊界框注釋的利用,提供了額外的像素級(jí)監(jiān)督,并通過三重對(duì)?消除特征之間的域差異,這在視覺定位任務(wù)中具有重要的創(chuàng)新意義。

以下是來自論文中的相關(guān)圖示,用以進(jìn)一步說明視覺定位框架的不同:

圖片

方法

在本節(jié)中,介紹了SegVG方法的各個(gè)組件,按數(shù)據(jù)流的順序進(jìn)行說明,包括?干網(wǎng)絡(luò)、Triple Alignment模塊以及Multi-layer Multi-task Encoder-Decoder。

骨干網(wǎng)絡(luò)

SegVG方法的視覺?干網(wǎng)絡(luò)和文本?干網(wǎng)絡(luò)分別處理圖像和文本數(shù)據(jù)。視覺?干網(wǎng)絡(luò)使用的是經(jīng)過Object Detection任務(wù)在MSCOCO數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet和DETR的Transformer編碼器。

文本?干網(wǎng)絡(luò)使用BERT的嵌入層將輸入文本轉(zhuǎn)換為語言Token,在Token前添加一個(gè)[CLS]標(biāo)記,并在末尾添加一個(gè)[SEP]標(biāo)記,隨后通過BERT層迭代處理得到語言嵌入。

Triple Alignment

Triple Alignment模塊致力于解決視覺骨干、文本骨干和查詢特征之間的域差異。該模塊利用注意力機(jī)制執(zhí)行三角形特征采樣,確保查詢、文本和視覺特征之間的一致性。

輸?的查詢被初始化為可學(xué)習(xí)的嵌入,包含一個(gè)回歸查詢和多個(gè)分割查詢。這?過程按以下方式進(jìn)行:

圖片

通過這種方式,Triple Alignment模塊能夠在每?層迭代幫助三類特征實(shí)現(xiàn)有效地對(duì)齊。

Multi-layer Multi-task Encoder-Decoder

其目標(biāo)對(duì)接階段的核心部分,旨在通過跨模態(tài)融合和目標(biāo)對(duì)接同時(shí)執(zhí)行邊框回歸任務(wù)和邊框分割任務(wù)。

編碼器部分融合了文本和視覺特征,每一層通過多頭自注意力層(MHSA)和前饋網(wǎng)絡(luò)(FFN)過程實(shí)現(xiàn)提升。解碼器部分則通過bbox2seg范式將邊框注釋轉(zhuǎn)化為分割掩碼,分割掩碼將框內(nèi)的像素標(biāo)記為前景(值為1),而框外像素則標(biāo)記為背景(值為0)。

在每一解碼層中,一個(gè)回歸查詢用于回歸邊框,多個(gè)分割查詢則用于對(duì)目標(biāo)進(jìn)行分割。

圖片

上述公式中,各種損失函數(shù)(如L1損失、GIoU損失、Focal損失和Dice損失)被結(jié)合用于驅(qū)動(dòng)模型的訓(xùn)練過程,使得模型在執(zhí)行回歸和分割任務(wù)時(shí)獲得強(qiáng)化的反饋。

通過將分割輸出的信心值轉(zhuǎn)化為Focal損失因子,可以有效地強(qiáng)調(diào)那些難以訓(xùn)練的數(shù)據(jù)樣本,以進(jìn)一步提升模型的性能。

整體而言,SegVG方法實(shí)現(xiàn)了對(duì)邊框注釋的最大化利用,并有效解決了多模態(tài)特征間的域差異問題,為視覺目標(biāo)定位任務(wù)帶來了重要的改進(jìn)和提升。

實(shí)驗(yàn)

在實(shí)驗(yàn)部分,研究者對(duì)所提出的SegVG模型進(jìn)行了全面的評(píng)估,涉及多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集和不同的實(shí)驗(yàn)設(shè)置,以驗(yàn)證其有效性和優(yōu)越性。

指標(biāo)與數(shù)據(jù)集

研究者采用的主要評(píng)估指標(biāo)是交并比(IoU)和前1準(zhǔn)確率,以評(píng)估預(yù)測邊界框與真實(shí)邊界框的匹配程度。使用的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

實(shí)施細(xì)節(jié)

研究中對(duì)數(shù)據(jù)輸入進(jìn)行了特別配置,使用640x640的圖像大小,以及最大文本?度設(shè)定為40。當(dāng)圖像大小調(diào)整時(shí),會(huì)保持原始寬高比。模型的訓(xùn)練過程采用AdamW優(yōu)化器,及其學(xué)習(xí)率和權(quán)重衰減參數(shù)。

定量結(jié)果

在定量實(shí)驗(yàn)中,SegVG模型在所有基準(zhǔn)數(shù)據(jù)集中表現(xiàn)出色。例如,在RefCOCO+數(shù)據(jù)集上,其預(yù)先訓(xùn)練模型在各個(gè)子集上相較于之前的最先進(jìn)模型取得了顯著提升,分別達(dá)到了2.99%、3.7%和2.42%的準(zhǔn)確率提升。

在RefCOCOg數(shù)據(jù)集上,SegVG同樣取得了+3.03%、+2.31%和+3.24%的準(zhǔn)確率提升。這些結(jié)果證明了結(jié)合TripleAlignment和Multi-layerMulti-taskEncoder-Decoder后,模型在目標(biāo)定位和準(zhǔn)確性上的提升。

圖片

消融研究

進(jìn)一步分析通過控制變量法對(duì)各個(gè)模塊的有效性進(jìn)行消融研究。研究顯示,加入Triple Alignment模塊后,可以有效消除查詢、文本及視覺特征之間的領(lǐng)域差異,進(jìn)而促進(jìn)后續(xù)的目標(biāo)定位。

圖片

此外,通過加入Multi-layer Multi-task監(jiān)督,能夠迭代充分利用注釋信息,從而增強(qiáng)查詢表示的學(xué)習(xí)能力。

計(jì)算開銷比較

研究者還對(duì)不同Transformer模型的參數(shù)數(shù)量和GFLOPS進(jìn)行了比較,以評(píng)估SegVG的計(jì)算開銷,結(jié)果表明,SegVG的計(jì)算成本處于合理范圍,符合實(shí)際應(yīng)用需求。

圖片

定性結(jié)果

在定性分析中,通過對(duì)比不同模型在目標(biāo)檢測中的表現(xiàn),SegVG在初始解碼層階段就能準(zhǔn)確識(shí)別目標(biāo)位置,相較于對(duì)比模型VLTVG而言,表現(xiàn)更加穩(wěn)健。

圖片

 具體案例中,SegVG成功定位復(fù)雜背景下的目標(biāo),顯示了其在多任務(wù)優(yōu)化時(shí)的高度有效性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-28 03:22:45

2023-05-15 12:32:29

GPT-4開源

2024-06-24 13:35:58

2024-04-11 07:10:59

大語言模型AI人工智能

2024-08-26 09:35:00

模型文生圖

2023-04-11 09:43:21

模型AI

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2025-02-10 08:30:00

2025-04-25 09:05:00

2022-12-06 14:11:32

開源模型

2025-02-21 13:00:00

2024-06-24 08:15:00

2024-06-28 13:47:17

2024-08-19 08:45:00

開源模型

2023-04-23 15:42:18

圖像視頻

2024-05-17 17:16:50

SOTA視覺模型

2023-04-25 11:36:17

CV模型

2025-02-17 07:00:00

蘋果模型

2022-04-08 14:40:59

框架訓(xùn)練模型

2023-02-01 13:29:46

機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)