自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="xv1k3"><track id="xv1k3"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

CVPR 2025｜視頻摳圖MatAnyone來了，一次指定全程追蹤，發(fā)絲級還原

作者：機器之心 2025-04-18 09:21:00

人工智能新聞

MatAnyone 是一套面向真實使用場景的人像視頻摳圖系統(tǒng)，專注于在僅提供首幀目標的前提下，實現(xiàn)語義穩(wěn)定且邊界精細的視頻級摳圖。

本文由南洋理工大學和商湯科技聯(lián)合完成。第一作者楊沛青為南洋理工大學 MMLab@NTU 在讀博士生，在 CVPR、NeurIPS、IJCV 等國際頂級會議與期刊上發(fā)表多篇研究成果。項目負責作者為該校研究助理教授周尚辰和校長講席教授呂建勤。

視頻人物摳像技術(shù)在電影、游戲、短視頻制作和實時視頻通訊中具有廣泛的應用價值，但面對復雜背景和多目標干擾時，如何實現(xiàn)一套兼顧發(fā)絲級細節(jié)精度及分割級語義穩(wěn)定的視頻摳圖系統(tǒng)，始終是個挑戰(zhàn)。

來自南洋理工大學 S-Lab 與商湯科技的研究團隊最新提出了一個高效、穩(wěn)定、實用的視頻摳圖新方法 ——MatAnyone。與傳統(tǒng)無輔助方法不同，MatAnyone 提出一種基于記憶傳播的「目標指定型」視頻摳像方法：只需在第一幀通過人物遮罩指定摳像目標，即可在整個視頻中實現(xiàn)穩(wěn)定、高質(zhì)量的目標提取。

論文標題：MatAnyone: Stable Video Matting with Consistent Memory Propagation
論文鏈接：https://arxiv.org/abs/2501.14677
視頻：https://youtu.be/oih0Zk-UW18
代碼：https://github.com/pq-yang/MatAnyone
網(wǎng)頁：https://pq-yang.github.io/projects/MatAnyone/

MatAnyone 一經(jīng)發(fā)布在社交媒體上獲得了大眾的討論和關(guān)注，其核心亮點總結(jié)如下：

快速摳圖，目標可控

僅需首幀目標指定，無需額外輔助信息，支持靈活定義摳圖對象，滿足多場景需求。

穩(wěn)定跟蹤，全程不抖

創(chuàng)新 “區(qū)域自適應記憶融合” 機制，有效保持目標一致性，實現(xiàn)長視頻中的穩(wěn)定人像跟蹤。

細節(jié)出眾，發(fā)絲級還原

融合真實分割數(shù)據(jù)與高質(zhì)量新數(shù)據(jù)集，邊界處理自然平滑，摳圖效果更貼近真實。

「目標指定型」：更貼近真實使用場景

目前主流的視頻摳圖方法根據(jù) “除輸入視頻外是否有其他輔助輸入” 這一條件可以分為兩類：

無輔助型方法（如 RVM）：用戶只需上傳輸入視頻即可。
輔助引導型方法（如 MaGGIe）：除輸入視頻外，用戶需通過如三分掩膜（trimap）或分割掩膜（segmentation mask）等方式在一幀或多幀指定摳像目標。

無輔助型方法雖然方便，但是由于主體目標不明確，在真實使用場景中容易出現(xiàn)影響實際使用的錯摳、漏摳等現(xiàn)象。

【場景一】前景存在多個主要人物：在實際應用中，很可能出現(xiàn)的需求是單獨摳出其中特定一位，合成到另外場景中制作視頻，無輔助型方法不能實現(xiàn)目標的指定，導致輸出的結(jié)果無法直接投入使用。
【場景二】背景存在混淆人物：即使前景只存在一位主體人物，背景中來來往往的行人往往會 “混淆視聽”，尤其是行人路過前景人物時，無輔助型方法往往會把背景行人的肢體也一并摳出，使輸出結(jié)果不夠準確干凈。

因此，為了讓視頻摳像技術(shù)能被更好地使用，MatAnyone 選擇了輔助引導型的設定，并專注解決的是這樣一個場景：

「設定主角，其他交給模型」：給定目標人物在第一幀的掩膜，后續(xù)的摳像自動鎖定目標完成。無需逐幀修正，準確、自然、連貫地摳出整段視頻。

這種設置既兼顧用戶可控性，又具有更強的實用性和魯棒性，是當前視頻編輯領(lǐng)域最具潛力的落地方案之一。

面向「視頻摳圖」任務：記憶傳播與訓練策略的新范式

任務對比：「視頻摳圖」比「視頻分割」更難一層

雖然 “目標指定型” 的任務設定在視頻目標分割（Video Object Segmentation, VOS）中已經(jīng)被廣泛研究，通常被稱為 “半監(jiān)督” 分割（即只給第一幀的掩膜），但視頻摳圖（Video Matting, VM）的難度卻更進一步。

在 VOS 中，模型的任務為“是 / 否為目標前景” 的二值判斷題；而在 VM 中，基于這個語義判斷，模型還需預測目標前景在每個像素點上的 “透明度（alpha）”—— 這不僅要求核心區(qū)域的語義精準，更要求邊界細節(jié)的提取（如發(fā)絲、衣角的半透明過渡）。

MatAnyone 正是在這一背景下提出了面向視頻摳圖任務的全新記憶傳播與訓練策略，在達到分割級語義穩(wěn)定的基礎上進一步實現(xiàn)了發(fā)絲級細節(jié)精度。

1. 一致性記憶傳播機制：Matting 專屬的 “記憶力”

相比靜態(tài)圖像摳圖，視頻摳圖面臨更大的挑戰(zhàn)，不僅需要逐幀生成高質(zhì)量的透明通道（ alpha matte），還必須確保前后幀之間的時序一致性，否則就會出現(xiàn)閃爍、跳變等明顯視覺問題。為此，MatAnyone 借鑒視頻分割中的記憶機制，在此基礎上提出了專為視頻摳圖設計的一致性記憶傳播機制（Consistent Memory Propagation）。

區(qū)域自適應融合記憶（Region-Adaptive Fusion）

模型會在每一幀中預測哪些區(qū)域與上一幀差異較大（如身體邊緣），哪些區(qū)域變化很?。ㄈ缟眢w主干），并分別處理：

對于變化幅度較大的區(qū)域（通常出現(xiàn)在目標邊緣，如頭發(fā)、衣擺），模型更依賴當前幀從記憶庫中檢索到的記憶信息；
而對變化較小的區(qū)域（如身體內(nèi)部），則更多保留上一幀的記憶信息，避免重復建模，減少誤差傳播。

邊界細節(jié)增強，核心區(qū)域穩(wěn)定

這種區(qū)域感知式的信息融合方式，在訓練階段引導模型更專注于細節(jié)邊界，在推理階段則提升了語義穩(wěn)定性與時間一致性。尤其在復雜背景或人物交互頻繁的場景下，MatAnyone 能夠穩(wěn)準地識別目標、摳出清晰自然的邊緣效果，極大提升了視頻摳圖的可用性與觀感質(zhì)量。

2. 共頭監(jiān)督策略：讓分割數(shù)據(jù) “真正為摳圖所用”

一直以來，「視頻摳圖」的一個核心難點始終是真實訓練數(shù)據(jù)的缺失。相較于「視頻分割」在真實數(shù)據(jù)上的標注成本，「視頻摳圖」所需要的帶透明度標注的數(shù)據(jù)格外昂貴，這限制了模型在穩(wěn)定性與泛化能力上的進一步提升。

在真實透明度數(shù)據(jù)稀缺的背景下，Video Matting 模型往往會引入大量真實分割數(shù)據(jù)進行輔助訓練，以提升模型在復雜環(huán)境中的穩(wěn)定性和泛化能力。

傳統(tǒng)做法通常采用 “平行預測頭” 結(jié)構(gòu)：在輸出層增加一個僅用于訓練階段的分割頭，用于分割數(shù)據(jù)的監(jiān)督，而摳圖主頭則僅由合成摳圖數(shù)據(jù)驅(qū)動。

這種結(jié)構(gòu)雖然能一定程度引入語義信息對摳圖頭的監(jiān)督，但其不直接的監(jiān)督方式導致語義信息在特征傳播過程中被稀釋，無法充分發(fā)揮分割數(shù)據(jù)對提升穩(wěn)定性的優(yōu)勢。

MatAnyone 提出了結(jié)構(gòu)創(chuàng)新的 “共頭監(jiān)督策略”：拋棄 “平行預測頭”，直接將真實分割數(shù)據(jù)引入摳圖主頭進行訓練，讓所有數(shù)據(jù)源在同一個通道上對模型進行統(tǒng)一監(jiān)督。

這種方式極大提高了語義信息的共享效率，也最大程度地利用了真實分割數(shù)據(jù)對透明通道預測的泛化性和穩(wěn)定性的提升。

具體操作上：

在核心區(qū)域，使用分割掩膜進行逐像素監(jiān)督，確保模型對語義結(jié)構(gòu)的穩(wěn)定理解；
在邊界區(qū)域，引入改進版的 DDC 損失（Scaled DDC Loss），即便分割數(shù)據(jù)沒有 alpha 標簽，也能通過圖像結(jié)構(gòu)引導模型生成過渡自然的邊緣。

這一策略的核心優(yōu)勢在于：讓分割數(shù)據(jù) “真正服務于摳圖任務本身”，而非僅僅提供輔助信號。

3. 自建高質(zhì)數(shù)據(jù)集：訓練更穩(wěn)，評估更難

高質(zhì)量的數(shù)據(jù)始終是訓練穩(wěn)定、泛化強的視頻摳圖模型的基礎。針對現(xiàn)有數(shù)據(jù)集在規(guī)模、細節(jié)和多樣性上的不足，MatAnyone 團隊自建了兩套關(guān)鍵數(shù)據(jù)資源：

VM800 訓練集：相較于主流的 VideoMatte240K，VM800 的規(guī)模翻倍，覆蓋更多發(fā)型、服飾和運動狀態(tài)，在核心區(qū)域和邊界區(qū)域的質(zhì)量都顯著提升，有效增強了模型在摳圖任務中的魯棒性；
YouTubeMatte 測試集：相較于主流的 VideoMatte240K 測試集，我們構(gòu)建了一個前景更加多樣的測試集，并且在合成前后景的過程中進行了和諧化的后處理，使其更加貼近真實分布，有效提高了該測試集的難度。

這兩套數(shù)據(jù)集為 MatAnyone 提供了扎實的訓練基礎與更貼近真實世界的驗證標準，在推動模型性能提升的同時，也為未來視頻摳圖研究提供了更具挑戰(zhàn)性的新 benchmark。

多場景適用性：靈活應對多類應用場景

MatAnyone 在模型設計與推理機制上的靈活性，使其具備良好的任務泛化能力，能夠適配多種實際視頻處理場景（更多例子請移步主頁）：

通用視頻摳圖（General Matting）：適用于短視頻剪輯、直播背景替換、電影 / 廣告 / 游戲后期等常見場景，僅需第一幀提供目標掩膜，后續(xù)幀即可自動完成穩(wěn)定摳圖，具備邊界清晰、背景干凈、跨幀一致性強的優(yōu)勢。

實例摳圖（Instance Matting）：面對多人物或復雜背景的視頻內(nèi)容，MatAnyone 支持通過第一幀掩膜指定目標對象，進行后續(xù)穩(wěn)定追蹤與摳圖，有效避免目標混淆或漂移，適合虛擬人剪輯、人物聚焦等實例級編輯任務。

推理階段增強（Iterative Refinement）：對于高精度場景，如廣告制作、影視后期等，MatAnyone 提供可選的首幀迭代優(yōu)化機制，通過多輪推理精細化第一幀 alpha matte，從而進一步提升整段視頻的細節(jié)還原與邊界自然度。

實驗結(jié)果：領(lǐng)先的細節(jié)質(zhì)量與時序穩(wěn)定

為了系統(tǒng)評估 MatAnyone 在視頻摳圖任務中的綜合表現(xiàn)，我們從定性與定量兩個角度進行了對比實驗，結(jié)果顯示 MatAnyone 在精度、穩(wěn)定性與視覺質(zhì)量等多個維度均優(yōu)于現(xiàn)有主流無輔助型及輔助引導型方法。

定性評估（Qualitative）

在真實視頻案例中，我們展示了 MatAnyone 與現(xiàn)有方法 RVM、FTP-VM、MaGGIe 的可視化對比。結(jié)果表明，MatAnyone 能夠更準確地提取目標人物輪廓，尤其是在人物動作劇烈或背景復雜的情況下，依然能保持頭發(fā)、邊緣衣物等細節(jié)的清晰度，并有效避免背景穿透與邊界斷裂等常見問題。同時，它也具備更強的實例區(qū)分能力，即使畫面中存在多個顯著人物，也能準確鎖定目標對象并保持一致跟蹤。

定量評估（Quantitative）

在合成數(shù)據(jù)集 VideoMatte 和自建的 YouTubeMatte 上，我們使用五個關(guān)鍵指標對各方法進行全面評估：

MAD（Mean Absolute Difference）與 MSE（Mean Squared Error）用于衡量語義準確性；
Grad（Gradient）用于細節(jié)銳利度評估；
Conn（Connectivity）代表整體視覺連貫性；
dtSSD 則衡量跨幀間的時序一致性。

如 Table 1 所示，MatAnyone 在高、低分辨率的所有數(shù)據(jù)集上均取得最低的 MAD 和 dtSSD，表現(xiàn)出極高的語義穩(wěn)定性與時間一致性；同時在 Conn 指標上也位居首位，驗證了其在整體觀感和邊緣處理上的領(lǐng)先表現(xiàn)。

總結(jié)與展望

MatAnyone 是一套面向真實使用場景的人像視頻摳圖系統(tǒng)，專注于在僅提供首幀目標的前提下，實現(xiàn)語義穩(wěn)定且邊界精細的視頻級摳圖。根據(jù)「視頻摳圖」任務的特性，它引入了區(qū)域自適應的記憶融合機制，在保持語義穩(wěn)定性的同時，精細提取了頭發(fā)等細節(jié)區(qū)域。借助新構(gòu)建的 VM800 高質(zhì)量數(shù)據(jù)集與全新的訓練策略，MatAnyone 顯著提升了在復雜背景下的摳圖穩(wěn)定性。

面對真實訓練數(shù)據(jù)的制約，「視頻摳圖」任務仍然像是在 “戴著鐐銬跳舞”，當前的效果雖有顯著突破，但仍有廣闊的提升空間。未來，我們團隊將繼續(xù)探索更高效的訓練策略、更泛化的數(shù)據(jù)構(gòu)建方式，以及更通用的記憶建模機制，推動視頻摳圖技術(shù)在真實世界中實現(xiàn)更強魯棒性與更廣應用性。

責任編輯：張燕妮來源：機器之心

AI 生成模型

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="tc5oe"><rp id="tc5oe"><form id="tc5oe"></form></rp></cite>