自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="eg65b"></sub>

<sub id="eg65b"></sub>

<cite id="eg65b"><track id="eg65b"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI 視頻摳圖有多強：無需「綠幕」，也可達到影視級效果

作者：貝爽 2020-12-07 17:32:24

一款 AI 視頻摳圖神器，一大早就沖上了 GitHub 熱榜。官方介紹說，這個 AI 神器可以讓視頻處理變得非常簡單且專業(yè)，不用「綠幕」，也能達到逼真、毫無違和感的合成效果。

今天一大早就被網(wǎng)友們安利了一個熱門 AI 項目。

聽說，它可以帶你周游世界，還能讓 AngelaBaby 多拍幾部電視劇。

這是啥情況？？

仔細一了解，原來是一款 AI 視頻摳圖神器，一大早就沖上了 GitHub 熱榜。

官方介紹說，這個 AI 神器可以讓視頻處理變得非常簡單且專業(yè)，不用「綠幕」，也能達到逼真、毫無違和感的合成效果。

果然，打工人的 “周游世界”只有 AI 能實現(xiàn)了 [淚目]。

其實，視頻摳圖 AI 已經(jīng)出現(xiàn)過不少，但這一款確實讓人覺得很驚艷。先來看下它演示 Demo。

你能看出公路背景和大海背景的視頻，哪一個是 AI 合成的嗎？

連撩起的頭發(fā)都看不出一點破綻。

而且就算瘋狂跳舞也沒有影響合成效果。

再來看下它背后的摳圖細節(jié)，不僅精確到了頭發(fā)，甚至還包括浮起的碎發(fā) ......

動態(tài)效果也是如此，瘋狂甩頭也能實時捕捉細節(jié)。

這項超強 AI 摳圖神器來自香港城市大學和商湯科技聯(lián)合研究團隊，論文一作還是一位在讀博士生張漢科。

接下來，我們來看下它背后的技術(shù)原理。

目標分解網(wǎng)絡(luò) MODNet

關(guān)鍵在于，這個 AI 采用了一種輕量級的目標分解網(wǎng)絡(luò) MODNet（ Matting Objective Decomposition Network），它可以從不同背景的單個輸入圖像中平滑地處理動態(tài)人像。

簡單的說，其功能就是視頻人像摳圖。

我們知道，一些影視作品尤其是古裝劇，必須要對人物的背景進行后期處理。為了達到逼真的合成效果，拍攝時一般都會采用「綠幕」做背景。因為綠色屏幕可以使高質(zhì)量的 Alpha 蒙版實時提取圖像或視頻中的人物。

另外，如果沒有綠屏的話，通常采用的技術(shù)手段是光照處理法，即使預(yù)定義的 Trimap 作為自然光照算法輸入。這種方法會粗略地生成三位圖：確定的（不透明）前景，確定的（透明）背景以及介于兩者之間的未知（不透明）區(qū)域。

如果使用人工注釋三位圖不僅昂貴，而且深度相機可能會導(dǎo)致精度下降。因此，針對以上不足，研究人員提出了目標分解網(wǎng)絡(luò) MODNet。

如圖所示，MODNet 由三個相互依賴的分支 S、D 和 F 構(gòu)成。它們分別通過一個低分辨率分支來預(yù)測人類語義（SP）、一個高分辨率分支來聚焦縱向的邊界細節(jié)（DP），最后一個融合分支來預(yù)測 Alpha Matte （αp）。

具體如下：

語義估計（Semantic Estimation）：采用 MobileNetV2[35]架構(gòu)，通過編碼器（即 MODNet 的低分辨率分支）來提取高層語義。
細節(jié)預(yù)測（Detail Prediction）：處理前景肖像周圍的過渡區(qū)域，以 I，S（I）和 S 的低層特征作為輸入。同時對它的卷積層數(shù)、信道數(shù)、輸入分辨率三個方面進行了優(yōu)化。
語義細節(jié)融合（Semantic-Detail Fusion）：一個融合了語義和細節(jié)的 CNN 模塊，它向上采樣 S（I）以使其形狀與 D（I，S（I））相之相匹配，再將 S（I）和 D（I，S（I））連接起來預(yù)測最終αp。

另外，基于以上底層框架，該研究還提出了一種自監(jiān)督策略 SOC（Sub-Objectives Consistency）和幀延遲處理方法 OFD（One-Frame Delay )。

其中，SOC 策略可以保證 MODNet 架構(gòu)在處理未標注數(shù)據(jù)時，讓輸出的子目標之間具有一致性；OFD 方法在執(zhí)行人像摳像視頻任務(wù)時，可以在平滑視頻序列中預(yù)測 Alpha 遮罩。如下圖：

實驗評估

在開展實驗評估之前，研究人員創(chuàng)建了一個攝影人像基準數(shù)據(jù)集 PPM-100（Photographic Portrait Matting）。

它包含了 100 幅不同背景的已精細注釋的肖像圖像。為了保證樣本的多樣性，PPM-100 還被定義了幾個分類規(guī)則來平衡樣本類型，比如是否包括整個人體；圖像背景是否模糊；是否持有其他物體。如圖：

PPM-100 中的樣圖具有豐富的背景和人物姿勢。因此可以被看做一個較為全面的基準。

那么我們來看下實驗結(jié)果：

圖中顯示，MODNet 在 MSE（均方誤差）和 MAD（平均值）上都優(yōu)于其他無 Trimap 的方法。雖然它的性能不如采用 Trimap 的 DIM，但如果將 MODNet 修改為基于 Trimap 的方法—即以 Trimap 作為輸入，它的性能會優(yōu)于基于 Trimap 的 DIM，這也再次表明顯示 MODNet 的結(jié)構(gòu)體系具有優(yōu)越性。

此外，研究人員還進一步證明了 MODNet 在模型大小和執(zhí)行效率方面的優(yōu)勢。

其中，模型大小通過參數(shù)總數(shù)來衡量，執(zhí)行效率通過 NVIDIA GTX1080 Ti GPU 上超過 PPM-100 的平均參考時間來反映（輸入圖像被裁剪為 512×512）。結(jié)果如圖：

上圖顯示，MODNet 的推理時間為 15.8ms（63fps），是 FDMPA（31fps）的兩倍。雖然 MODNet 的參數(shù)量比 FDMPA 稍多，但性能明顯更好。

需要注意的是，較少的參數(shù)并不意味著更快的推理速度，因為模型可能有較大的特征映射或耗時機制，比如，注意力機制（Attention Mechanisms）。

總之，MODNet 提出了一個簡單、快速且有效實時人像摳圖處理方法。該方法僅以 RGB 圖像為輸入，實現(xiàn)了場景變化下 Alpha 蒙版預(yù)測。此外，由于所提出的 SOC 和 OFD，MODNet 在實際應(yīng)用中受到的域轉(zhuǎn)移問題影響也較小。

不過遺憾的是，該方法不能處理復(fù)雜的服裝和模糊的運動視頻，因為這些內(nèi)容不涵蓋在訓練數(shù)據(jù)集內(nèi)。下一階段，研究人員會嘗試通過附加子目標（例如光流估計）的方法來解決運動模糊下的視頻摳圖問題。

責任編輯：龐桂玉來源： IT之家

AI 視頻視頻摳圖

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="dq7uq"><p id="dq7uq"></p></sub>

<sub id="dq7uq"></sub>