自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

新聞 算法
來(lái)自北京郵電大學(xué)和英特爾中國(guó)研究院的研究團(tuán)隊(duì)創(chuàng)新性地利用超分辯率算法定義了網(wǎng)絡(luò)視頻傳輸任務(wù),減小了網(wǎng)絡(luò)視頻傳輸?shù)膸拤毫Α?/div>

 [[421986]]

互聯(lián)網(wǎng)視頻在過(guò)去幾年發(fā)生了爆發(fā)式增長(zhǎng),這給視頻傳輸基礎(chǔ)設(shè)施帶來(lái)了巨大的負(fù)擔(dān)。網(wǎng)絡(luò)視頻傳輸系統(tǒng)的質(zhì)量很大程度上取決于網(wǎng)絡(luò)帶寬。受客戶端 / 服務(wù)器日益增長(zhǎng)的計(jì)算能力和深度學(xué)習(xí)的最新進(jìn)展的啟發(fā),一些工作提出將深度神經(jīng)網(wǎng)絡(luò) (DNN) 應(yīng)用于視頻傳輸系統(tǒng)的工作,以提高視頻傳輸質(zhì)量。這些 DNN 的方法將一整個(gè)視頻平均分成一些視頻段,然后傳輸?shù)头直媛实囊曨l段和其對(duì)應(yīng)的 context-aware 模型到客戶端,客戶端用這些訓(xùn)練好的模型推理對(duì)應(yīng)的低分辨率視頻段。通過(guò)這種方式,可以在有限的互聯(lián)網(wǎng)帶寬下獲得更好的用戶體驗(yàn)質(zhì)量 (QoE)。其中,傳輸一段長(zhǎng)視頻需要同時(shí)傳輸多個(gè)超分辨率模型。

近日,來(lái)自北京郵電大學(xué)和英特爾中國(guó)研究院的研究者首先探索了不同視頻段所對(duì)應(yīng)的不同模型間的關(guān)系,然后設(shè)計(jì)了一種引入內(nèi)容感知特征調(diào)制(Content-aware Feature Modulation,CaFM)模塊的聯(lián)合訓(xùn)練框架,用來(lái)壓縮視頻傳輸中所需傳輸?shù)哪P痛笮 T撗芯康姆椒ㄗ屆恳粋€(gè)視頻段只需傳輸原模型參數(shù)量的 1%,同時(shí)還達(dá)到了更好的超分效果。該研究進(jìn)行了大量的實(shí)驗(yàn)在多種超分辨率 backbone、視頻時(shí)長(zhǎng)和超分縮放因子上展現(xiàn)了該方法的優(yōu)勢(shì)和通用性。另外,該方法也可以被看作是一種新的視頻編解碼方式。在相同的帶寬壓縮下,該方法的性能(PSNR)優(yōu)于商用的 H.264 和 H.265,體現(xiàn)了在行業(yè)應(yīng)用中的潛能。

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法
  • 論文鏈接:http://arxiv.org/abs/2108.08202
  • GitHub 地址:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

與當(dāng)前單圖像超分辨率 (SISR)和視頻超分辨率 (VSR)的方法相比,內(nèi)容感知 DNN 利用神經(jīng)網(wǎng)絡(luò)的過(guò)擬合特性和訓(xùn)練策略來(lái)實(shí)現(xiàn)更高的性能。具體來(lái)說(shuō),首先將一個(gè)視頻分成幾段,然后為每段視頻訓(xùn)練一個(gè)單獨(dú)的 DNN。低分辨率視頻段和對(duì)應(yīng)的模型通過(guò)網(wǎng)絡(luò)傳輸給客戶端。不同的 backbone 都可以作為每個(gè)視頻段的模型。與 WebRTC 等商業(yè)視頻傳輸技術(shù)相比,這種基于 DNN 的視頻傳輸系統(tǒng)取得了更好的性能。

盡管將 DNN 應(yīng)用于視頻傳輸很有前景,但現(xiàn)有方法仍然存在一些局限性。一個(gè)主要的限制是它們需要為每個(gè)視頻段訓(xùn)練一個(gè) DNN,從而導(dǎo)致一個(gè)長(zhǎng)視頻有大量單獨(dú)的模型。這為實(shí)際的視頻傳輸系統(tǒng)帶來(lái)了額外的存儲(chǔ)和帶寬成本。在本文中,研究者首先仔細(xì)研究了不同視頻段的模型之間的關(guān)系。盡管這些模型在不同的視頻段上實(shí)現(xiàn)了過(guò)擬合,但該研究觀察到它們的特征圖之間存在線性關(guān)系,并且可以通過(guò)內(nèi)容感知特征調(diào)制(CaFM)模塊進(jìn)行建模。這促使研究者設(shè)計(jì)了一種方法,使得模型可以共享大部分參數(shù)并僅為每個(gè)視頻段保留私有的 CaFM 層。然而,與單獨(dú)訓(xùn)練的模型相比,直接微調(diào)私有參數(shù)無(wú)法獲得有競(jìng)爭(zhēng)力的性能。因此,研究者進(jìn)一步設(shè)計(jì)了一個(gè)巧妙的聯(lián)合訓(xùn)練框架,該框架同時(shí)訓(xùn)練所有視頻段的共享參數(shù)和私有參數(shù)。通過(guò)這種方式,與單獨(dú)訓(xùn)練的多個(gè)模型相比,該方法可以獲得相對(duì)更好的性能。

該研究的主要貢獻(xiàn)包括:

  • 提出了一種新穎的內(nèi)容感知特征調(diào)制(CaFM)模塊的聯(lián)合訓(xùn)練框架,用于網(wǎng)絡(luò)間的視頻傳輸;
  • 對(duì)各種超分辨率 backbone、視頻時(shí)間長(zhǎng)度和縮放因子進(jìn)行了廣泛的實(shí)驗(yàn),證明了該方法的優(yōu)勢(shì)和通用性;
  • 在相同的帶寬壓縮下,與商業(yè) H.264 和 H.265 標(biāo)準(zhǔn)進(jìn)行比較,由于過(guò)度擬合的特性,該方法展示了更有潛力的結(jié)果。

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

圖 1

方法

神經(jīng)網(wǎng)絡(luò)視頻傳輸是在傳輸互聯(lián)網(wǎng)視頻時(shí)利用 DNN 來(lái)節(jié)省帶寬。與傳統(tǒng)的視頻傳輸系統(tǒng)不同,它們用低分辯率視頻和內(nèi)容感知模型取代了高分辨率視頻。如上圖所示,整個(gè)過(guò)程包括三個(gè)階段:(i)在服務(wù)器上對(duì)每個(gè)視頻段的模型進(jìn)行訓(xùn)練;(ii) 將低分辨率視頻段與內(nèi)容感知模型一起從服務(wù)器傳送到客戶端;(iii) 客戶端上對(duì)低分辨率視頻進(jìn)行超分工作。但是,該過(guò)程需要為每個(gè)視頻段傳輸一個(gè)模型,從而導(dǎo)致額外的帶寬成本。所以該研究提出了一種壓縮方法,利用 CaFM 模塊結(jié)合聯(lián)合訓(xùn)練的方式,將模型參數(shù)壓縮為原本的 1%。

動(dòng)機(jī)和發(fā)現(xiàn)

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

圖 2

該研究將視頻分成 n 段,并相應(yīng)地為這些視頻段訓(xùn)練 n 個(gè) SR 模型 S1、S2 ...Sn。然后通過(guò)一張隨機(jī)選擇的輸入圖片(DIV2K) 來(lái)分析 S1、S2...Sn 模型間的關(guān)系。該研究在圖 2 中可視化了 3 個(gè) SR 模型的特征圖。每張圖像代表某個(gè)通道( channel)的特征圖,為了簡(jiǎn)單起見(jiàn),該研究只可視化了一層 SR 模型。具體來(lái)說(shuō),該研究將特征圖表示為

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

,其中 i 表示第 i 個(gè)模型,j 表示第 j 個(gè) 通道,k 表示 SR 模型 的第 k 層卷積。對(duì)于隨機(jī)選擇的圖像,可以計(jì)算

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

之間的余弦距離,來(lái)衡量這兩組特征圖之間的相似度。對(duì)于圖 2 中的特征圖,該研究計(jì)算了

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

之間的余弦距離矩陣。如圖 3 所示,研究者觀察到雖然 S1 , S2 ...Sn 是在不同的視頻段上訓(xùn)練的,但根據(jù)圖 3 中矩陣的對(duì)角線值可以看出“對(duì)應(yīng)通道之間的余弦距離非常小”。該研究計(jì)算了 S1、S2 和 S3 之間所有層的余弦距離的平均值,結(jié)果分別約為 0.16 和 0.04。這表明雖然在不同視頻段上訓(xùn)練得到了不同的 SR 模型,但是

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

之間的關(guān)系可以通過(guò)線性函數(shù)近似建模。這也是該研究提出 CaFM 模塊的動(dòng)機(jī)。

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

圖 3

內(nèi)容感知特征調(diào)制模塊(CaFM)

該研究將內(nèi)容感知特征調(diào)制 (CaFM) 模塊引入基線模型(EDSR),以私有化每個(gè)視頻段的 SR 模型。整體框架如圖 4 所示。正如上文動(dòng)機(jī)中提到的,CaFM 的目的是操縱特征圖并使模型去擬合不同的視頻段。因此,不同段的模型可以共享大部分參數(shù)。該研究將 CaFM 表示為 channel-wise 線性函數(shù):

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

其中 x_j 是第 j 個(gè)輸入特征圖,C 是特征通道的數(shù)量,a_j 和 b_j 分別是 channel-wise 的縮放和偏置參數(shù)。該研究添加 CaFM 來(lái)調(diào)制基線模型的每個(gè)卷積層的輸出特征。以 EDSR 為例,CaFM 的參數(shù)約占 EDSR 的 0.6%。因此,對(duì)于具有 n 個(gè)段的視頻,可以將模型的大小從 n 個(gè) EDSR 減少到 1 個(gè)共享 EDSR 和 n 個(gè)私有 CaFM 模塊。因此,與基線方法相比,該方法可以顯著降低帶寬和存儲(chǔ)成本。

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

圖 4

聯(lián)合訓(xùn)練

正如上文中所介紹的,該研究可以利用 CaFM 去替換每個(gè)視頻段的 SR 模型。但是通過(guò)在一個(gè) SR 模型上微調(diào)n 個(gè) CaFM 模塊的方式很難將精度提升到直接訓(xùn)練 n 個(gè) SR 模型的 PSNR。因此該研究提出了一種聯(lián)合訓(xùn)練的框架,該框架可以同時(shí)訓(xùn)練 n 個(gè)視頻段。公式可以表示為:

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

對(duì)于 SR 圖片

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

,i 表示第 i 個(gè)視頻段,s 表示該視頻段中的第 s 個(gè) sample。公式中 W_s 表示共享的參數(shù),W_i 表示每個(gè)視頻段私有的參數(shù)。對(duì)于每個(gè)視頻段,可以這樣計(jì)算損失函數(shù):

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

在訓(xùn)練過(guò)程中,該研究從視頻段中統(tǒng)一采樣圖像來(lái)構(gòu)建訓(xùn)練數(shù)據(jù)。所有圖像用于更新共享參數(shù) W_s,而第 i 個(gè)視頻段的圖像用于更新相應(yīng)的 CaFM 參數(shù) W_i。

VSD4K 數(shù)據(jù)集

Vimeo-90K 和 REDS 等公共視頻超分?jǐn)?shù)據(jù)集僅包含相鄰幀序列(時(shí)常太短),不適用于視頻傳輸任務(wù)。因此,該研究收集了多個(gè) 4K 視頻來(lái)模擬實(shí)際的視頻傳輸場(chǎng)景。該研究使用標(biāo)準(zhǔn)的雙三次插值來(lái)生成低分辨率視頻。研究者選擇了六個(gè)流行的視頻類(lèi)別來(lái)構(gòu)建 VSD4K,其中包括: 游戲、vlog、采訪、體育競(jìng)技、舞蹈、城市風(fēng)景等。每個(gè)類(lèi)別由不同的視頻長(zhǎng)度組成,包括:15 秒、30 秒、45 秒、1 分鐘、2 分鐘、5 分鐘等。VSD4K 數(shù)據(jù)集的詳細(xì)信息可在論文的 Appendix 中閱讀,同時(shí) VSD4K 數(shù)據(jù)集已在github項(xiàng)目中公開(kāi)。

定性 & 定量分析

主實(shí)驗(yàn)對(duì)比

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

根據(jù)上表可以清晰地看到,在不同的視頻和超分尺度上該方法 (Ours) 不僅可以追趕上訓(xùn)練 n 個(gè)模型 (S1-n) 的精度,并且可以在峰值信噪比上實(shí)現(xiàn)精度超越。注:M0 表示不對(duì)長(zhǎng)視頻進(jìn)行分段,在整段視頻上只訓(xùn)練一個(gè)模型。

VS codec

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

該部分實(shí)驗(yàn)對(duì)本文提出的方法和傳統(tǒng) codec 方法 (調(diào)低碼率做壓縮) 進(jìn)行了定量比較。根據(jù)上表可以清晰地看到 (紅色表示第一名,藍(lán)色表示第二名),在相同的傳輸大小下(Storage),該方法(Ours) 在大多數(shù)情況下可以超越 H264 和 H265。同時(shí)視頻的長(zhǎng)度越長(zhǎng),SR 模型所占傳輸大小的比例越小,該方法的優(yōu)勢(shì)越明顯。

定性比較

參數(shù)量?jī)H為原來(lái)1%,北郵等利用超分算法提出高性能視頻傳輸方法

總體而言,該論文創(chuàng)新性地利用超分辯率算法定義網(wǎng)絡(luò)視頻傳輸任務(wù),目的是減少網(wǎng)絡(luò)視頻傳輸?shù)膸拤毫?。利用?nèi)容感知特征調(diào)制 (CaFM) 模塊結(jié)合聯(lián)合訓(xùn)練的方式,對(duì)每個(gè)視頻段對(duì)應(yīng)的模型參數(shù)量進(jìn)行壓縮(1%)。為后續(xù)的研究者,提供了新的研究方向。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2020-09-22 15:17:59

谷歌Android技術(shù)

2009-11-30 18:15:59

evdo路由器

2023-11-26 16:08:11

VR視頻

2013-05-21 10:19:35

雙絞線同軸視頻傳輸

2010-03-16 18:36:17

無(wú)線視頻傳輸技術(shù)

2013-09-22 09:50:57

QoS服務(wù)質(zhì)量QoS

2014-08-25 14:12:44

光纖

2023-09-25 09:58:25

AI框架

2020-12-21 10:00:49

算法模型優(yōu)化

2011-04-12 10:40:54

雙絞線同軸電纜

2012-11-20 16:12:55

WLAN視頻無(wú)線局域網(wǎng)

2022-01-05 10:33:56

開(kāi)發(fā)者技能DeepMind

2011-07-08 11:02:23

思科視頻傳輸

2023-07-18 17:59:38

2010-06-10 23:25:44

IP-Lab郵電大學(xué)Juniper Net

2011-01-07 10:36:45

802.11n無(wú)線LAN無(wú)線局域網(wǎng)

2011-10-18 13:58:32

高性能web

2019-04-08 10:09:04

CPU緩存高性能

2023-09-11 13:31:00

AI模型

2009-02-27 14:46:09

AjaxGWT開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)