自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="icmet"></style>

<sub id="icmet"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

經(jīng)典卡爾曼濾波器改進視頻版「分割一切」，網(wǎng)友：好優(yōu)雅的方法

作者：量子位 2024-11-25 10:00:00

人工智能新聞

一個全華人團隊，僅僅是用了個經(jīng)典方法，就把它的能力拔到了一個新高度。

Meta的視頻版分割一切——Segment Anything Model 2（SAM 2），又火了一把。

因為這一次，一個全華人團隊，僅僅是用了個經(jīng)典方法，就把它的能力拔到了一個新高度——

任你移動再快，AI跟丟不了一點點！

例如在電影《1917》這段畫面里，主角穿梭在眾多士兵之中，原先的SAM 2表現(xiàn)是這樣的：

嗯，當一大群士兵涌入畫面的時候，SAM 2把主角給跟丟了。

但改進版的SAM 2，它的表現(xiàn)截然不同：

這個改進版的SAM 2，名叫SAMURAI（武士），由華盛頓大學全華人研究團隊提出。

一言蔽之，這項工作就是把SAM 2之前存在的缺點（記憶管理方面的局限性）給填補上了。

更有意思的是，這項改進工作所用到的核心關(guān)鍵方法，是非常經(jīng)典的卡爾曼濾波器（Kalman Filter，KF）。

并且還是無需重新訓練、可以實時運行的那種！

前谷歌產(chǎn)品經(jīng)理、國外知名博主Bilawal Sidhu在看完論文后直呼“優(yōu)雅”：

有時候你不需要復(fù)雜的全新架構(gòu)——只需要聰明地利用模型已知的信息，再加上一些經(jīng)過驗證的經(jīng)典方法。
我們的“老朋友”卡爾曼濾波器，這么多年過去了，它的表現(xiàn)依然如此出色。有時候老派的方法就是管用。

嗯，頗有一種“姜還是老的辣”的感覺了。

黑悟空、女團舞蹈，統(tǒng)統(tǒng)都能hold住

我們先繼續(xù)看下SAMURAI能力實現(xiàn)的更多效果。

團隊在項目主頁中便從多個不同維度秀了一波實力。

首先就是打斗游戲場景，例如在《只狼：影逝二度》中，即便人物都“彈出”了畫面，SAMURAI也能再次把目標捕捉回來：

《黑神話：悟空》的打斗名場面，人物動作變化可以說是非常之快，而且和背景非常復(fù)雜的交織在一起。

即便如此，SAMURAI也能精準跟蹤，細節(jié)到金箍棒的那種：

但畢竟這兩個游戲場景的例子，所涉及到的主體還不夠多，那么我們接下來繼續(xù)看下更復(fù)雜的case。

例如橄欖球比賽場景，不僅人物移動的快，后來隊員們都撲到了一起，SAMURAI也能hold?。?/p>

在女團舞蹈的案例中，人物在變換隊形的時候都已經(jīng)被其他隊員擋住了，也擋不住SAMURAI的“眼神鎖定你”：

很work的經(jīng)典方法

在看完效果之后，我們接下來扒一扒SAMURAI的技術(shù)細節(jié)。

正如我們剛才提到的，這項工作彌補了SAM 2此前存在的缺點。

主要的問題就是處理視覺目標跟蹤時，尤其是在擁擠場景中快速移動或遮擋的物體時，它會出現(xiàn)跟丟了的情況。

SAM 2的組成部分包括圖像編碼器、掩碼解碼器、提示編碼器、記憶注意力層和記憶編碼器。

在視覺目標跟蹤中，SAM 2使用提示編碼器來處理輸入的提示信息，如點、框或文本，這些提示信息用于指導(dǎo)模型分割圖像中的特定對象。

掩碼解碼器則負責生成預(yù)測的掩碼，而記憶注意力層和記憶編碼器則用于處理跨幀的上下文信息，以維持長期跟蹤。

然而，SAM 2在處理快速移動的對象或在擁擠場景中，往往忽視了運動線索，導(dǎo)致在預(yù)測后續(xù)幀的掩碼時出現(xiàn)不準確。

特別是在遮擋發(fā)生時，SAM 2傾向于優(yōu)先考慮外觀相似性而非空間和時間的一致性，這可能導(dǎo)致跟蹤錯誤。

而SAMURATI，作為SAM 2的增強版，可以說是很好地解決了此前的痛點。

整體來看，SAMURAI主要包含兩個技術(shù)關(guān)鍵點：

運動建模（Motion Modeling）
運動感知記憶選擇（Motion-Aware Memory Selection）

讓目標“動”起來

運動建模部分的目的是有效地預(yù)測目標的運動，從而在復(fù)雜場景中，如擁擠場景或目標快速移動和自遮擋的情況下，提高跟蹤的準確性和魯棒性。

而這里用到的具體方法，就是那個經(jīng)典的卡爾曼濾波器，以此來增強邊界框位置和尺寸的預(yù)測，從而幫助從多個候選掩碼中選擇最有信心的一個。

在SAMURAI中，狀態(tài)向量包括目標的位置、尺寸及其變化速度；通過預(yù)測-校正循環(huán)，卡爾曼濾波器能夠提供關(guān)于目標未來狀態(tài)的準確估計。

目標的狀態(tài)向量被定義為：

其中，x和y表示目標邊界框的中心坐標；w和h表示邊界框的寬度和高度；后四個變量則表示坐標與尺寸的速度。

濾波的過程則主要分為兩個步驟。

第一個就是預(yù)測階段，即根據(jù)目標的上一幀狀態(tài)，預(yù)測下一幀位置：

其中，F(xiàn)是狀態(tài)轉(zhuǎn)移矩陣。

第二個則是更新階段，會結(jié)合實際測量值（目標的候選掩膜），校正預(yù)測值：

在運動建模部分，除了基于卡爾曼濾波器的運動預(yù)測之外，還涉及運動分數(shù)（Motion Score）。

主要是通過計算 Kalman 濾波器預(yù)測的邊界框與候選掩膜之間的交并比（IoU），生成運動分數(shù)s_Kf，用以輔助掩膜選擇：

最終的掩膜選擇基于運動分數(shù)與掩膜親和分數(shù)的加權(quán)和：

挑出最關(guān)鍵的記憶

SAMURAI第二個關(guān)鍵技術(shù)，則是運動感知記憶選擇（Motion-Aware Memory Selection）。

主要是為了解決SAM 2的固定窗口記憶機制容易引入錯誤的低質(zhì)量特征，導(dǎo)致后續(xù)跟蹤的誤差傳播的情況。

這部分首先涉及一個混合評分系統(tǒng)，包括掩膜分數(shù)、目標出現(xiàn)分數(shù)和運動分數(shù)三種評分，用于動態(tài)選擇記憶庫中最相關(guān)的幀。

掩膜分數(shù)s_mask：衡量掩膜的準確性。
目標出現(xiàn)分數(shù) s_obj：判斷目標是否存在于該幀中。
運動分數(shù) s_kf：預(yù)測目標位置的準確性。

其次是一個記憶選擇機制——

如果某幀滿足以下條件，則其特征會被保留到記憶庫中：

動態(tài)選擇的記憶庫可以跳過遮擋期間的低質(zhì)量特征，從而提高后續(xù)幀的預(yù)測性能。

從實驗結(jié)果來看，SAMURAI在多個視覺目標跟蹤基準上表現(xiàn)出色，包括 LaSOT、LaSOText和GOT-10k數(shù)據(jù)集。

值得一提的是，SAMURAI是在無需重新訓練或微調(diào)的情況下，在所有基準上都超過了SAM 2，并與部分有監(jiān)督方法（如 LoRAT 和 ODTrack）表現(xiàn)相當。

全華人團隊出品

SAMURAI這項工作背后的研究團隊，有一個亮點便是全華人陣容。

例如Cheng-Yen Yang，目前是華盛頓大學電氣與計算機工程系的一名四年級博士生。

研究方向主要包括在復(fù)雜場景（水下，無人機，多相機系統(tǒng)）中的多目標跟蹤（單視圖，多視圖，交叉視圖）。

Hsiang-Wei Huang和Zhongyu Jiang也是華盛頓大學電氣與計算機工程系的博士生，而Wenhao Chai目前則是攻讀研究生。

他們的導(dǎo)師是華盛頓大學教授Jenq-Neng Hwang。

他是IEEE信號處理協(xié)會多媒體信號處理技術(shù)委員會的創(chuàng)始人之一，自2001年以來，黃教授一直是IEEE院士。

關(guān)于SAMURAI更多內(nèi)容，可戳下方鏈接。

項目地址：https://yangchris11.github.io/samurai/

論文地址：https://arxiv.org/abs/2411.11922

責任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="tue5q"></style>

<blockquote id="tue5q"><i id="tue5q"><video id="tue5q"></video></i></blockquote>

^{<blockquote id="tue5q"></blockquote>}

<legend id="tue5q"><track id="tue5q"></track></legend>

^{<blockquote id="tue5q"></blockquote>}