自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手機(jī)拍視頻最怕抖,只能靠AI拯救了

新聞 人工智能
視頻畫(huà)面的穩(wěn)定與否,很大程度上影響著觀感的舒適度!如何補(bǔ)償視頻抖動(dòng),拯救手抖黨,來(lái)自臺(tái)灣大學(xué)、谷歌等研究機(jī)構(gòu)的學(xué)者,提出了防抖新算法,視頻拍攝——穩(wěn)。

  你拿著手機(jī)拍視頻時(shí),最大的困擾是什么?

抖……

視頻抖動(dòng)似乎成為亟需解決的一大問(wèn)題。

近日的一項(xiàng)研究可以很好地解決視頻抖動(dòng)問(wèn)題。它的效果是這樣的:

從畫(huà)面看,右邊的視頻抖動(dòng)明顯減少,即使是疾走拍攝,看起來(lái)也不那么晃眼。

人潮洶涌的公共場(chǎng)所拍攝視頻進(jìn)行對(duì)比,右邊的動(dòng)圖明顯穩(wěn)定了很多。

引言

隨著 YouTube、Vimeo 和 Instagram 等網(wǎng)絡(luò)平臺(tái)上視頻內(nèi)容的快速增長(zhǎng),視頻的穩(wěn)定變得越來(lái)越重要。沒(méi)有專業(yè)視頻穩(wěn)定器捕獲的手機(jī)視頻通常不穩(wěn)定且觀看效果不佳, 這對(duì)視頻穩(wěn)定算法提出了重大挑戰(zhàn)?,F(xiàn)有的視頻穩(wěn)定方法要么需要主動(dòng)裁剪幀邊界,要么會(huì)在穩(wěn)定的幀上產(chǎn)生失真?zhèn)蜗瘛?/p>

所以,如何解決視頻抖動(dòng),產(chǎn)生穩(wěn)定的視頻拍攝效果呢?來(lái)自臺(tái)灣大學(xué)、谷歌、弗吉尼亞理工大學(xué)和加州大學(xué)默塞德分校等研究機(jī)構(gòu)的研究者提出了一種無(wú)需裁剪的全幀視頻穩(wěn)定算法。

手機(jī)拍視頻最怕抖,只能靠AI拯救了

論文地址:
https://arxiv.org/pdf/2102.06205.pdf

項(xiàng)目地址:
https://github.com/alex04072000/NeRViS

具體而言,該研究提出了一種通過(guò)估計(jì)稠密的扭曲場(chǎng)來(lái)實(shí)現(xiàn)全幀視頻穩(wěn)定的算法,既可以融合來(lái)自相鄰幀的扭曲內(nèi)容,也能合成全幀穩(wěn)定的幀。這種算法的核心技術(shù)為基于學(xué)習(xí)的混合空間融合,它可以減輕因光流不精確和快速移動(dòng)物體造成的偽影影響。研究者在 NUS 和 selfie 視頻數(shù)據(jù)集上驗(yàn)證了該方法的有效性。此外,大量的實(shí)驗(yàn)結(jié)果表明,該研究提出的方法優(yōu)于以往的視頻穩(wěn)定方法。

本研究的主要貢獻(xiàn)如下:

將神經(jīng)渲染技術(shù)應(yīng)用于視頻穩(wěn)定中,以緩解對(duì)流不準(zhǔn)確的敏感性問(wèn)題;

提出了一種混合融合機(jī)制,用于在特征和圖像級(jí)別上組合來(lái)自多幀的信息,并通過(guò)消融研究系統(tǒng)地驗(yàn)證了各種設(shè)計(jì)選擇;

在兩個(gè)公共數(shù)據(jù)集上展示了與代表性視頻穩(wěn)定技術(shù)相比較而言,該研究所提出的方法具有良好性能。

算法實(shí)現(xiàn)

本研究提出的視頻穩(wěn)定方法一般分為三個(gè)階段:1)運(yùn)動(dòng)估計(jì);2)運(yùn)動(dòng)平滑;3) 幀扭曲以及渲染。該研究重點(diǎn)集中在第三階段,即渲染高質(zhì)量的幀而不需要任何裁剪。算法不依賴于特定的運(yùn)動(dòng)估計(jì) / 平滑技術(shù)。

研究假設(shè)從真實(shí)相機(jī)空間到虛擬相機(jī)空間的扭曲場(chǎng)可用于每一幀視頻。對(duì)于給定的輸入視頻,首先對(duì)每幀的圖像特征進(jìn)行編碼,在特定的目標(biāo)時(shí)間戳處將相鄰幀扭曲到虛擬攝像機(jī)空間,然后融合這些特征來(lái)渲染一個(gè)穩(wěn)定的幀。

手機(jī)拍視頻最怕抖,只能靠AI拯救了

圖 3:融合多個(gè)幀的設(shè)計(jì)選擇。

為了合成全幀穩(wěn)定的視頻,需要對(duì)輸入的不穩(wěn)定視頻中多個(gè)相鄰幀的內(nèi)容進(jìn)行對(duì)齊和融合。如圖 3 所示,主要包括三個(gè)部分:

傳統(tǒng)的全景圖像拼接(或基于圖像的渲染)方法通常在圖像級(jí)別對(duì)扭曲(穩(wěn)定)的圖像進(jìn)行融合。在對(duì)齊比較準(zhǔn)確時(shí)圖像級(jí)融合效果良好,但在流估計(jì)不可靠時(shí)可能產(chǎn)生混合偽影;

可以將圖像編碼為抽象的 CNN 特征,在特征空間中進(jìn)行融合,并學(xué)習(xí)到一個(gè)解碼器,可將融合后的特征轉(zhuǎn)換為輸出幀。這種方法對(duì)流不準(zhǔn)確性具有較好的魯棒性,但通常會(huì)產(chǎn)生過(guò)度模糊的圖像;

該研究提出的算法結(jié)合了這兩種策略的優(yōu)點(diǎn)。首先提取抽象的圖像特征(公式(6));然后融合多幀扭曲的特征。對(duì)于每一個(gè)源幀,將融合后的特征映射和各個(gè)扭曲的特征一起解碼為輸出幀和相關(guān)的置信度映射。最后使用公式(8)中生成圖像的加權(quán)平均值生成最終輸出幀。

扭曲和融合

扭曲:在虛擬像機(jī)空間中,扭曲相鄰幀,使其與目標(biāo)幀對(duì)齊。因?yàn)橐呀?jīng)有了從目標(biāo)幀到關(guān)鍵幀的扭曲場(chǎng),以及從關(guān)鍵幀到相鄰幀的估計(jì)光流,然后可以通過(guò)鏈接流向量來(lái)計(jì)算從目標(biāo)幀到相鄰幀的扭曲場(chǎng)。因此可以使用向后扭曲來(lái)扭曲相鄰幀 I_n 以對(duì)齊目標(biāo)幀。

由于遮擋或超出邊界,目標(biāo)幀中的一些像素在鄰近幀中不可見(jiàn)。因此,該研究計(jì)算每個(gè)相鄰幀的可見(jiàn)性掩碼 {}∈ω,來(lái)表示一個(gè)像素在源幀中是否有效(標(biāo)記為 1)。該研究使用[Sundaram 等人. 2010] 方法來(lái)識(shí)別遮擋像素(標(biāo)記為 0)。

融合空間:研究者探討了幾種融合策略來(lái)處理對(duì)齊的幀。首先,他們可以在圖像空間中直接混合扭曲的顏色幀產(chǎn)生輸出穩(wěn)定幀,如圖 3(a)所示。這種圖像空間融合方法在圖像拼接、視頻外插和新視角合成中很常用。

為了結(jié)合圖像空間和特征空間最佳融合,該研究提出了一種用于視頻穩(wěn)定的混合空間融合機(jī)制(圖 3(c))。與特征空間融合相似,該研究首先從每個(gè)相鄰幀中提取高維特征,然后利用流對(duì)特征進(jìn)行扭曲。之后學(xué)習(xí) CNN 來(lái)預(yù)測(cè)最能融合特征的混合權(quán)重。研究者將融合后的特征映射和每個(gè)相鄰幀的扭曲特征連接起來(lái),形成圖像解碼器輸入。圖像解碼器學(xué)習(xí)預(yù)測(cè)目標(biāo)幀和每個(gè)相鄰幀的置信圖。最后采用圖像空間融合的方法,根據(jù)預(yù)測(cè)權(quán)重對(duì)所有預(yù)測(cè)的目標(biāo)幀進(jìn)行融合,得到最終的穩(wěn)定幀。

混合空間融合和特征空間融合的核心區(qū)別在于圖像解碼器的輸入。下圖 5(b)中的圖像解碼器僅將融合特征作為輸入來(lái)預(yù)測(cè)輸出幀。融合的特征映射已經(jīng)包含來(lái)自多個(gè)幀的混合信息。因此,圖像解碼器可能難以合成銳利的圖像內(nèi)容。相比之下,圖 5(c)中的圖像解碼器以融合的特征映射為指導(dǎo),從扭曲的特征重構(gòu)目標(biāo)幀。實(shí)證研究發(fā)現(xiàn),這提高了輸出幀的銳度,同時(shí)避免了重影和毛刺偽影。

手機(jī)拍視頻最怕抖,只能靠AI拯救了

圖 5:不同混合空間的效果。

實(shí)驗(yàn)結(jié)果

控制變量實(shí)驗(yàn)

融合功能。該研究使用圖像空間融合、特征空間融合和混合空間融合來(lái)訓(xùn)練所提出的模型。對(duì)于圖像空間融合,該研究還包括兩種傳統(tǒng)的融合方法:多波段融合和圖切割。結(jié)果如下表 1 所示:

手機(jī)拍視頻最怕抖,只能靠AI拯救了

量化評(píng)估

該研究使用以前提出的一些 SOTA 視頻穩(wěn)定算法對(duì)所提出的方法進(jìn)行了評(píng)估,結(jié)果如下表 4 所示:

手機(jī)拍視頻最怕抖,只能靠AI拯救了

視覺(jué)比較

在下圖 10 中展示了該研究所用方法的一個(gè)穩(wěn)定框架和來(lái)自 Selfie 數(shù)據(jù)集的最新方法。該方法生成的全幀穩(wěn)定視頻具有較少的視覺(jué)偽影。

手機(jī)拍視頻最怕抖,只能靠AI拯救了

圖 10:與 SOTA 方法的視覺(jué)效果對(duì)比。

由結(jié)果可得,該研究提出的融合方法不會(huì)受到嚴(yán)重裁剪幀邊界的影響,并且渲染穩(wěn)定幀時(shí)的偽影明顯少于 DIFRINT。

運(yùn)行時(shí)間分析

該研究在基于 CPU 方法 [Grundmann et al. 2011; Liu et al. 2013; Yu and Ramamoorthi 2018] 以及 i7-8550U CPU 筆記本上對(duì)運(yùn)行時(shí)間進(jìn)行了實(shí)驗(yàn)。此外,該研究還在基于 GPU 方法 [Choi and Kweon 2020; Wang et al. 2018; Yu and Ramamoorthi 2020]以及 Nvidia Tesla V100 GPU 上對(duì)運(yùn)行時(shí)間進(jìn)行了實(shí)驗(yàn)。測(cè)試視頻的幀分辨率為 854×480。結(jié)果如下表 5 所示:

手機(jī)拍視頻最怕抖,只能靠AI拯救了

 

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2021-05-13 05:23:39

手機(jī)應(yīng)用PictureClea

2020-07-01 10:49:33

蘋(píng)果iPhone 124G

2021-10-25 11:08:51

AI 數(shù)據(jù)人工智能

2024-09-18 09:00:40

2023-06-05 09:00:02

2020-05-19 07:57:20

PythonExcel大數(shù)據(jù)

2024-03-21 14:03:01

AI訪談

2018-12-17 16:34:02

華為云

2021-12-02 15:14:02

ffmpeg視頻Python

2020-01-17 08:45:07

AI 數(shù)據(jù)人工智能

2023-11-20 22:02:54

開(kāi)源模型

2012-04-01 17:03:52

2024-02-28 20:45:04

人工智能英偉達(dá)

2015-01-13 15:07:13

金屬三星Tizen

2023-12-12 13:52:00

數(shù)據(jù)訓(xùn)練

2024-02-26 00:00:00

Linux技巧工具

2009-09-10 09:50:47

ASP.NET MVC

2020-07-31 17:23:05

人工智能醫(yī)療技術(shù)

2018-04-03 11:47:16

AI手機(jī)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)