自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

即插即用ChatTracker:多模態(tài)大模型重塑目標(biāo)跟蹤

人工智能 新聞
我們提出了一種基于反射的提示優(yōu)化(RPO)模塊,通過(guò)跟蹤反饋迭代地改進(jìn)目標(biāo)的模糊和不準(zhǔn)確的語(yǔ)言描述。

寫(xiě)在前面 & 筆者的個(gè)人理解

視覺(jué)對(duì)象跟蹤旨在基于初始邊界框在視頻序列中定位目標(biāo)對(duì)象。最近,視覺(jué)語(yǔ)言(VL)跟蹤器已經(jīng)提出利用額外的自然語(yǔ)言描述來(lái)增強(qiáng)各種應(yīng)用中的通用性。然而,VL跟蹤器在跟蹤性能方面仍然不如最先進(jìn)的視覺(jué)跟蹤器(SoTA)。我們發(fā)現(xiàn),這種劣勢(shì)主要是由于他們嚴(yán)重依賴(lài)手動(dòng)文本注釋?zhuān)渲邪l繁提供模糊的語(yǔ)言描述。在本文中,我們提出了ChatTracker,利用多模態(tài)大語(yǔ)言模型(MLLM)中豐富的世界知識(shí)來(lái)生成高質(zhì)量的語(yǔ)言描述并提高跟蹤性能。為此,我們提出了一種新的基于反射的提示優(yōu)化模塊,通過(guò)跟蹤反饋迭代地改進(jìn)目標(biāo)的模糊和不準(zhǔn)確的描述。為了進(jìn)一步利用MLLM產(chǎn)生的語(yǔ)義信息,提出了一種簡(jiǎn)單而有效的VL跟蹤框架,該框架可以很容易地集成為即插即用模塊,以提高VL和視覺(jué)跟蹤器的性能。實(shí)驗(yàn)結(jié)果表明,我們提出的ChatTracker實(shí)現(xiàn)了與現(xiàn)有方法相當(dāng)?shù)男阅堋?/p>

圖片

總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:

  1. 我們提出了ChatTracker,這是一種利用MLLM進(jìn)行視覺(jué)對(duì)象跟蹤的新框架。據(jù)我們所知,這是將MLLM納入跟蹤框架的第一項(xiàng)工作。它為現(xiàn)有的視覺(jué)和VL跟蹤器提供了即插即用的模塊增強(qiáng)功能,計(jì)算開(kāi)銷(xiāo)有限。
  2. 我們引入了一個(gè)基于反射的提示優(yōu)化(RPO)模塊,以縮小VL跟蹤器和MLLM之間的知識(shí)差距。通過(guò)反思跟蹤反饋,RPO模塊可以迭代優(yōu)化MLLM的提示,最終為跟蹤目標(biāo)生成準(zhǔn)確和相關(guān)的描述。與數(shù)據(jù)集中的人工標(biāo)注文本相比,這些描述在跟蹤性能和圖像文本對(duì)齊方面都更優(yōu)越。
  3. 我們提出的ChatTracker在多個(gè)跟蹤數(shù)據(jù)集上實(shí)現(xiàn)了SoTA性能。我們進(jìn)行了廣泛的實(shí)驗(yàn),包括消融研究,以證明所提出的方法及其各個(gè)模塊的有效性。

相關(guān)工作回顧

Vision-Language Trackers

視覺(jué)語(yǔ)言跟蹤方法Zhou等人、Ma和Wu等人探索了使用語(yǔ)言線(xiàn)索來(lái)增強(qiáng)視覺(jué)對(duì)象跟蹤。這些方法可以根據(jù)其文本來(lái)源進(jìn)行分類(lèi):使用手動(dòng)注釋文本的方法和從預(yù)定義詞典生成描述的方法。在第一類(lèi)中,手動(dòng)注釋文本已被廣泛用于目標(biāo)跟蹤任務(wù)。LaSoT、TNL2K和MGIT等數(shù)據(jù)集為每個(gè)序列提供了手動(dòng)注釋的語(yǔ)言描述。SNLT跟蹤器利用視覺(jué)和語(yǔ)言描述來(lái)預(yù)測(cè)目標(biāo)狀態(tài),然后動(dòng)態(tài)組合這些預(yù)測(cè)以產(chǎn)生最終結(jié)果。JointNLT將視覺(jué)基礎(chǔ)和自然語(yǔ)言引導(dǎo)的跟蹤相結(jié)合,有效地滿(mǎn)足了這兩個(gè)過(guò)程的不同要求。第二類(lèi)利用預(yù)定義的詞典生成語(yǔ)言描述。CiteTracker精心開(kāi)發(fā)了一個(gè)類(lèi)別詞匯表,其中包括目標(biāo)的顏色、紋理和材料等屬性。在跟蹤過(guò)程中,它使用CLIP來(lái)比較圖像和文本之間的相似性,選擇與圖像非常匹配的文本作為目標(biāo)的描述。與這些方法相反,我們的工作專(zhuān)門(mén)采用MLLM來(lái)獲取目標(biāo)的精確文本描述。這種方法有效地消除了對(duì)手動(dòng)文本注釋或預(yù)定義詞典的依賴(lài)。

Large Language Model in Vision Tasks

大語(yǔ)言模型(LLM),如ChatGPT和Llama是在廣泛的互聯(lián)網(wǎng)規(guī)模文本上訓(xùn)練的自回歸模型。它們?cè)跈?quán)重中包含了廣泛的世界知識(shí)。最近,GPT-4V發(fā)布,因其出色的多模態(tài)感知和推理能力而立即引起了社區(qū)的關(guān)注。在此之后,使用CLIP模型對(duì)圖像進(jìn)行分類(lèi),提高了分類(lèi)任務(wù)的精度。這些進(jìn)步主要針對(duì)基本的視覺(jué)識(shí)別,如分類(lèi)和檢測(cè)。在這項(xiàng)工作中,我們致力于將LLM中包含的豐富世界知識(shí)整合到視覺(jué)對(duì)象跟蹤領(lǐng)域。

ChatTracker方法詳解

圖片

所提出的ChatTracker由三個(gè)部分組成:基于反射的提示優(yōu)化(RPO)模塊、語(yǔ)義跟蹤模塊和前景驗(yàn)證模塊。

Reflection-based Prompt Optimization Module

初始化。我們?cè)诘谝粠琁1中的跟蹤目標(biāo)上繪制一個(gè)綠色邊界框,創(chuàng)建一個(gè)新的圖像輸入Im。預(yù)定義的人工提供的提示模板Tinit和Im被輸入到MLLM中,從而對(duì)前景和背景進(jìn)行初始描述:

圖片

圖片

語(yǔ)義跟蹤模塊還包括一個(gè)現(xiàn)成的單對(duì)象視覺(jué)跟蹤器。最后,前景驗(yàn)證模塊通過(guò)考慮前景建議、背景建議和模板之間的關(guān)系,選擇置信度最高的前景建議作為跟蹤結(jié)果。

實(shí)驗(yàn)結(jié)果

圖片圖片圖片圖片

結(jié)論

在這項(xiàng)工作中,我們介紹了ChatTracker,這是第一種利用多模態(tài)大語(yǔ)言模型(MLLM)來(lái)提高視覺(jué)跟蹤性能的方法。我們提出了一種基于反射的提示優(yōu)化(RPO)模塊,通過(guò)跟蹤反饋迭代地改進(jìn)目標(biāo)的模糊和不準(zhǔn)確的語(yǔ)言描述。此外,提出了一種簡(jiǎn)單而有效的視覺(jué)語(yǔ)言跟蹤框架,作為即插即用的方法來(lái)提高現(xiàn)有跟蹤器的性能。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于最先進(jìn)的方法。這表明,將MLLM納入視覺(jué)跟蹤對(duì)提高跟蹤性能有顯著效果。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2025-01-08 08:21:16

2024-11-11 09:00:00

2025-04-03 10:29:06

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-12-30 00:01:00

多模態(tài)大模型Python

2009-06-30 19:12:16

云計(jì)算SOAIT

2024-09-25 14:53:00

2024-11-11 15:11:23

2023-10-26 09:34:44

自動(dòng)駕駛技術(shù)

2014-10-21 13:51:14

2024-05-17 16:02:00

2024-03-20 13:18:46

模型多模態(tài)體系

2024-03-25 12:40:19

訓(xùn)練模型

2024-05-10 06:59:06

2024-12-12 00:25:09

2023-04-13 15:25:14

模型

2019-05-22 11:45:29

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-01-22 13:59:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)