自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”! 原創(chuàng)

發(fā)布于 2025-4-28 09:15
瀏覽
0收藏

在人工智能飛速發(fā)展的今天,多模態(tài)學(xué)習(xí)正逐漸成為研究的熱點(diǎn)領(lǐng)域。視覺(jué)-語(yǔ)言模型(VLMs)作為其中的重要分支,已經(jīng)在圖像和視頻的整體描述生成方面取得了令人矚目的成就。然而,當(dāng)我們?cè)噲D讓這些模型對(duì)圖像或視頻中的特定區(qū)域進(jìn)行詳細(xì)描述時(shí),卻常常發(fā)現(xiàn)它們的表現(xiàn)不盡如人意。這種局限性在視頻數(shù)據(jù)中尤為明顯,因?yàn)橐曨l不僅需要處理空間信息,還要考慮時(shí)間動(dòng)態(tài)。幸運(yùn)的是,NVIDIA最新發(fā)布的Describe Anything 3B(DAM-3B)模型,為我們帶來(lái)了新的希望。

一、局部描述的難題

在視覺(jué)-語(yǔ)言建模中,描述圖像或視頻中的特定區(qū)域一直是一個(gè)棘手的問(wèn)題。現(xiàn)有的通用視覺(jué)-語(yǔ)言模型雖然能夠很好地生成全局描述,但在生成詳細(xì)且針對(duì)特定區(qū)域的描述時(shí)往往力不從心。這主要是因?yàn)椋?/p>

  1. 細(xì)節(jié)丟失:在視覺(jué)特征提取過(guò)程中,模型往往會(huì)丟失一些細(xì)粒度的細(xì)節(jié),導(dǎo)致生成的描述不夠具體。
  2. 數(shù)據(jù)稀缺:缺乏專門針對(duì)區(qū)域描述的標(biāo)注數(shù)據(jù)集,使得模型難以學(xué)習(xí)到準(zhǔn)確的局部描述能力。
  3. 評(píng)估標(biāo)準(zhǔn)的局限性:現(xiàn)有的評(píng)估基準(zhǔn)通常依賴于與參考字幕的簡(jiǎn)單文本相似度,這可能會(huì)對(duì)正確但未出現(xiàn)在參考字幕中的描述進(jìn)行懲罰。

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

二、DAM-3B:為局部描述而生

DAM-3B是NVIDIA推出的一款專門用于圖像和視頻局部描述的多模態(tài)大語(yǔ)言模型。它能夠接受用戶通過(guò)點(diǎn)、框、涂鴉或掩碼指定的區(qū)域,并生成具有上下文關(guān)聯(lián)的詳細(xì)描述。DAM-3B的核心創(chuàng)新包括:

(一)焦點(diǎn)提示(Focal Prompt)

DAM-3B引入了“焦點(diǎn)提示”機(jī)制,將完整的圖像與目標(biāo)區(qū)域的高分辨率裁剪相結(jié)合。這種雙視圖輸入方式既保留了區(qū)域的細(xì)節(jié),又保留了更廣泛的上下文信息。通過(guò)這種方式,模型能夠更好地理解目標(biāo)區(qū)域在整個(gè)圖像中的位置和作用。

(二)局部視覺(jué)主干網(wǎng)絡(luò)(Localized Vision Backbone)

DAM-3B的另一個(gè)創(chuàng)新是其增強(qiáng)的局部視覺(jué)主干網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過(guò)嵌入圖像和掩碼輸入,并應(yīng)用門控交叉注意力(gated cross-attention)層,將全局特征和局部特征融合在一起。這種設(shè)計(jì)不僅保留了計(jì)算效率,還能夠生成更豐富、更具上下文感知能力的描述。

(三)視頻擴(kuò)展能力

DAM-3B-Video進(jìn)一步將這種架構(gòu)擴(kuò)展到時(shí)間序列,通過(guò)編碼逐幀的區(qū)域掩碼并將它們?cè)跁r(shí)間上進(jìn)行整合,模型能夠?yàn)橐曨l生成區(qū)域特定的描述,即使在存在遮擋或運(yùn)動(dòng)的情況下也能準(zhǔn)確描述。

三、數(shù)據(jù)策略與評(píng)估基準(zhǔn)

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

為了克服數(shù)據(jù)稀缺的問(wèn)題,NVIDIA開發(fā)了DLC-SDP半監(jiān)督數(shù)據(jù)生成策略。這一兩階段的過(guò)程利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,生成了150萬(wàn)局部描述樣本。通過(guò)自訓(xùn)練方法,模型能夠生成高質(zhì)量的描述。

在評(píng)估方面,團(tuán)隊(duì)引入了DLC-Bench基準(zhǔn)測(cè)試。與傳統(tǒng)的基于文本相似度的評(píng)估方法不同,DLC-Bench使用基于屬性的正確性評(píng)估描述質(zhì)量。這種方法更接近人類的評(píng)估方式,能夠更準(zhǔn)確地衡量模型的性能。DAM-3B在DLC-Bench上的平均準(zhǔn)確率達(dá)到了67.3%,超越了GPT-4o和VideoRefer等基線模型。

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

四、DAM-3B的“十八般武藝”

(一)高度詳細(xì)的圖像和視頻描述

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

DAM-3B在生成圖像和視頻的詳細(xì)描述方面表現(xiàn)出色。它不僅能夠描述目標(biāo)對(duì)象的名稱或類別,還能捕捉到紋理、顏色模式、形狀、顯著部分以及任何視覺(jué)上的獨(dú)特特征。例如,在描述一幅包含復(fù)雜圖案的圖像時(shí),DAM-3B能夠詳細(xì)描述圖案的細(xì)節(jié),而不僅僅是簡(jiǎn)單地提到圖案的存在。

(二)指令控制的描述生成

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

DAM-3B的靈活性在于它能夠根據(jù)用戶的指令生成不同詳細(xì)程度和風(fēng)格的描述。無(wú)論是需要一個(gè)簡(jiǎn)潔的總結(jié),還是一個(gè)長(zhǎng)篇大論的詳細(xì)描述,模型都能根據(jù)用戶的需求進(jìn)行調(diào)整。這種能力使其在多種應(yīng)用場(chǎng)景中都具有廣泛的適用性,比如快速標(biāo)注任務(wù)和深入的專業(yè)分析。

(三)零樣本區(qū)域問(wèn)答

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

除了生成描述之外,DAM-3B還能夠回答關(guān)于指定區(qū)域的問(wèn)題,而無(wú)需額外的訓(xùn)練數(shù)據(jù)。用戶可以詢問(wèn)區(qū)域的屬性,模型會(huì)基于其局部理解提供準(zhǔn)確且具有上下文驅(qū)動(dòng)的答案。這種能力大大增強(qiáng)了模型在自然交互場(chǎng)景中的實(shí)用性。

五、DAM-3B的架構(gòu)設(shè)計(jì)

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

DAM-3B的架構(gòu)設(shè)計(jì)巧妙地解決了傳統(tǒng)模型在局部描述方面的不足。通過(guò)“焦點(diǎn)提示”,模型能夠同時(shí)看到全局圖像和目標(biāo)區(qū)域的細(xì)節(jié)。局部視覺(jué)主干網(wǎng)絡(luò)則通過(guò)門控交叉注意力層將全局和局部特征融合在一起,生成更豐富、更具上下文感知能力的描述。

(一)局部視覺(jué)主干網(wǎng)絡(luò)的細(xì)節(jié)

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

局部視覺(jué)主干網(wǎng)絡(luò)的設(shè)計(jì)是DAM-3B的關(guān)鍵。它將圖像和掩碼輸入進(jìn)行空間對(duì)齊,并通過(guò)門控交叉注意力層將詳細(xì)的局部線索與全局上下文融合在一起。新參數(shù)初始化為零,保留了預(yù)訓(xùn)練的能力。這種設(shè)計(jì)不僅提高了描述的豐富性,還保持了計(jì)算效率。

(二)半監(jiān)督數(shù)據(jù)生成策略


由于現(xiàn)有的數(shù)據(jù)集缺乏詳細(xì)的局部描述,DAM-3B采用了半監(jiān)督數(shù)據(jù)生成策略。首先,利用分割數(shù)據(jù)集中的短類別標(biāo)簽生成豐富的描述;其次,通過(guò)自訓(xùn)練方法在未標(biāo)注的圖像上生成和優(yōu)化新的描述。這種方法不僅能夠生成大規(guī)模的高質(zhì)量訓(xùn)練數(shù)據(jù),還避免了對(duì)大量人工標(biāo)注的依賴。

六、DLC-Bench:更準(zhǔn)確的評(píng)估基準(zhǔn)

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

DLC-Bench是DAM-3B團(tuán)隊(duì)引入的一個(gè)新的評(píng)估基準(zhǔn)。它使用基于語(yǔ)言模型的評(píng)估器來(lái)檢查模型生成的描述是否正確,而不是簡(jiǎn)單地與參考字幕進(jìn)行文本相似度比較。這種方法能夠更準(zhǔn)確地評(píng)估模型的性能,避免了因參考字幕不完整而導(dǎo)致的錯(cuò)誤懲罰。

(一)DLC-Bench的優(yōu)勢(shì)

DLC-Bench的優(yōu)勢(shì)在于它能夠更準(zhǔn)確地評(píng)估模型在細(xì)節(jié)描述和幻覺(jué)(hallucination)方面的表現(xiàn)。通過(guò)查詢語(yǔ)言模型評(píng)估器,DLC-Bench能夠判斷生成的描述是否包含正確的細(xì)節(jié),并且是否避免了錯(cuò)誤的幻覺(jué)。這種方法更接近人類的評(píng)估方式,能夠更真實(shí)地反映模型的性能。

七、DAM-3B的性能表現(xiàn)

DAM-3B在多個(gè)基準(zhǔn)測(cè)試中都取得了領(lǐng)先的成績(jī)。它在關(guān)鍵詞級(jí)(LVIS、PACO)、短語(yǔ)級(jí)(Flickr30k Entities)和多句局部描述(Ref-L4、HC-STVG)任務(wù)中都表現(xiàn)出色。在DLC-Bench上,DAM-3B的平均準(zhǔn)確率達(dá)到了67.3%,超越了其他模型。

(一)性能對(duì)比

與現(xiàn)有的模型相比,DAM-3B在生成更詳細(xì)、更準(zhǔn)確的局部描述方面具有明顯優(yōu)勢(shì)。它不僅能夠生成高質(zhì)量的描述,還能在零樣本問(wèn)答任務(wù)中表現(xiàn)出色。例如,在Flickr30k Entities數(shù)據(jù)集上,DAM-3B的性能比之前的最佳模型提高了7.34%;在Ref-L4數(shù)據(jù)集上,DAM-3B在短描述和長(zhǎng)描述任務(wù)上分別提高了39.5%和13.1%。

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

NVIDIA發(fā)布DAM-3B:讓圖像和視頻的局部描述“有模有樣”!-AI.x社區(qū)

八、DAM-3B的未來(lái)展望

DAM-3B的發(fā)布為多模態(tài)AI系統(tǒng)的發(fā)展提供了新的技術(shù)方向。它不僅在圖像和視頻的局部描述方面表現(xiàn)出色,還為未來(lái)的研究提供了可復(fù)現(xiàn)的基準(zhǔn)。NVIDIA計(jì)劃公開發(fā)布DAM-3B的代碼、模型、數(shù)據(jù)和基準(zhǔn)測(cè)試,以支持未來(lái)的研究工作。

(一)應(yīng)用場(chǎng)景

DAM-3B的廣泛應(yīng)用前景令人期待。它可以在數(shù)據(jù)標(biāo)注、視頻內(nèi)容分析、機(jī)器人視覺(jué)等領(lǐng)域發(fā)揮重要作用。例如,在視頻內(nèi)容分析中,DAM-3B能夠?yàn)橐曨l中的特定區(qū)域生成詳細(xì)描述,幫助用戶更好地理解視頻內(nèi)容。

(二)社區(qū)探索

隨著DAM-3B的發(fā)布,我們期待看到社區(qū)對(duì)詳細(xì)局部描述的潛力進(jìn)行探索。希望這個(gè)模型和基準(zhǔn)測(cè)試能夠成為未來(lái)研究的有用資源,推動(dòng)多模態(tài)AI系統(tǒng)的發(fā)展。

九、總結(jié)

NVIDIA的Describe Anything 3B模型為我們帶來(lái)了多模態(tài)局部描述的新突破。它通過(guò)創(chuàng)新的架構(gòu)設(shè)計(jì)和半監(jiān)督數(shù)據(jù)生成策略,解決了傳統(tǒng)模型在局部描述方面的不足。DAM-3B不僅在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,還為未來(lái)的研究提供了可復(fù)現(xiàn)的基準(zhǔn)。我們相信,DAM-3B將在多模態(tài)AI系統(tǒng)的發(fā)展中發(fā)揮重要作用,為圖像和視頻的局部描述帶來(lái)新的可能。


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/f3j7jPd4BkL-C1yjWcC5Ew??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-28 09:15:11修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦