自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI驅(qū)動(dòng)的超分辨技術(shù)落地實(shí)踐

作者：網(wǎng)易云信 2021-01-06 15:16:33

人工智能深度學(xué)習(xí)

近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，基于AI的超分辨技術(shù)在圖像恢復(fù)和圖像增強(qiáng)領(lǐng)域呈現(xiàn)出廣闊的應(yīng)用前景，受到了學(xué)術(shù)界和工業(yè)界的關(guān)注和重視。

近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，基于AI的超分辨技術(shù)在圖像恢復(fù)和圖像增強(qiáng)領(lǐng)域呈現(xiàn)出廣闊的應(yīng)用前景，受到了學(xué)術(shù)界和工業(yè)界的關(guān)注和重視。但是，在RTC視頻領(lǐng)域中，很多AI算法并不能滿足實(shí)際場(chǎng)景下的應(yīng)用需求。本文將著眼于AI技術(shù)從研究到部署的落地問(wèn)題，分享超分辨技術(shù)在RTC領(lǐng)域落地應(yīng)用所面臨的機(jī)遇與挑戰(zhàn)。

一、超分辨技術(shù)概述

1. 超分辨技術(shù)的提出

超分辨這一概念最早是在20世紀(jì)60年代由Harris和Goodman提出的，是指從低分辨率圖像，通過(guò)某種算法或模型生成高分辨圖像的技術(shù)，并且盡可能地恢復(fù)出更多細(xì)節(jié)信息，也稱為頻譜外推法。但是在研究初期，頻譜外推法只是用于一些假設(shè)條件下的仿真，并沒(méi)有得到廣泛的認(rèn)可；直到單張圖像的超分辨方法提出后，超分辨技術(shù)才開(kāi)始得到廣泛的研究和應(yīng)用。目前，它已經(jīng)成為圖像增強(qiáng)乃至計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向。

2．超分辨技術(shù)的分類

單張圖像的超分辨方法根據(jù)原理不同，可以分為基于插值、基于重構(gòu)和基于學(xué)習(xí)的方法。前面兩種方法分別由于算法原理簡(jiǎn)單以及應(yīng)用場(chǎng)景受限，在實(shí)際場(chǎng)景中的超分辨效果并不理想；基于學(xué)習(xí)的方法，是實(shí)際效果最好的超分辨方法，其核心包括兩個(gè)部分：算法模型的建立，以及訓(xùn)練集的選取。根據(jù)算法模型和訓(xùn)練集，基于學(xué)習(xí)的方法又可以分為傳統(tǒng)學(xué)習(xí)方法和深度學(xué)習(xí)方法。一般來(lái)說(shuō)，傳統(tǒng)學(xué)習(xí)方法的算法模型比較簡(jiǎn)單，訓(xùn)練集也比較小。深度學(xué)習(xí)方法一般是指采用大量數(shù)據(jù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)方法，也是目前學(xué)術(shù)界研究的熱點(diǎn)。因此接下來(lái)我將重點(diǎn)介紹基于深度學(xué)習(xí)的超分辨方法的發(fā)展過(guò)程。

3. DL-based SR

SRCNN是深度學(xué)習(xí)方法在超分辨問(wèn)題的首次嘗試，是一個(gè)比較簡(jiǎn)單的卷積網(wǎng)絡(luò)，由3個(gè)卷積層構(gòu)成，每個(gè)卷積層負(fù)責(zé)不同的職能。第一個(gè)卷積層的作用主要是負(fù)責(zé)提取高頻特征，第二個(gè)卷積層則負(fù)責(zé)完成從低清特征到高清特征的非線性映射，最后一個(gè)卷積層的作用是重建出高分辨率的圖像。SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單，超分辨效果也有待改善，不過(guò)它確立了深度學(xué)習(xí)方法在處理超分辨這類問(wèn)題時(shí)的基本思想。后來(lái)的深度學(xué)習(xí)方法，基本都遵循這一思想去進(jìn)行超分辨的重建。

后來(lái)的 ESPCN、FSRCNN等網(wǎng)絡(luò)基于SRCNN進(jìn)行了一些改進(jìn)，網(wǎng)絡(luò)層數(shù)仍然比較淺，卷積層數(shù)不會(huì)超過(guò)10，超分辨的效果也不是特別理想。因?yàn)樵诋?dāng)時(shí)，深度卷積網(wǎng)絡(luò)的訓(xùn)練是存在問(wèn)題的。一般對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，當(dāng)網(wǎng)絡(luò)層數(shù)增加的時(shí)候，性能也會(huì)增加，但在實(shí)際應(yīng)用中，人們發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)層數(shù)增加到了一定程度，由于反向傳播原理，就會(huì)出現(xiàn)梯度消失的問(wèn)題，導(dǎo)致網(wǎng)絡(luò)收斂性變差，模型性能降低。這個(gè)問(wèn)題直到ResNet提出殘差網(wǎng)絡(luò)結(jié)構(gòu)之后，才得到比較好的解決。

VDSR是殘差網(wǎng)絡(luò)以及殘差學(xué)習(xí)思想在超分辨問(wèn)題上的首次應(yīng)用，將超分辨網(wǎng)絡(luò)的層數(shù)首次增加到了20層，優(yōu)點(diǎn)是利用殘差學(xué)習(xí)的方式，直接學(xué)習(xí)殘差特征，網(wǎng)絡(luò)收斂會(huì)比較快，超分辨效果也更好。后來(lái)一些卷積神經(jīng)網(wǎng)絡(luò)提出了更復(fù)雜的結(jié)構(gòu)，比如SRGAN提出使用生成式對(duì)抗網(wǎng)絡(luò)來(lái)生成高分辨的圖像，SRGAN由2部分組成，一個(gè)是生成網(wǎng)絡(luò)，另一個(gè)是判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)的作用是根據(jù)一張低分辨率的圖像來(lái)生成一張高分辨的圖像，而判別網(wǎng)絡(luò)的作用是將生成網(wǎng)絡(luò)生成的高分辨圖像判定為假，這樣網(wǎng)絡(luò)在訓(xùn)練的時(shí)候，生成網(wǎng)絡(luò)和判定網(wǎng)絡(luò)兩者之間不斷博弈，最終達(dá)到平衡，從而生成細(xì)節(jié)紋理比較逼真的高分辨圖像，具有更好的主觀視覺(jué)效果。其他深度卷積網(wǎng)絡(luò)方法比如SRDenseNet、EDSR、RDN，使用了更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，網(wǎng)絡(luò)的卷積層越來(lái)越深，在單張圖像上的超分辨效果也越來(lái)越好。

超分辨技術(shù)發(fā)展的總體趨勢(shì)，基本上可以概括為從傳統(tǒng)方法，到深度學(xué)習(xí)方法，從簡(jiǎn)單的卷積網(wǎng)絡(luò)方法到深度殘差網(wǎng)絡(luò)方法。在這個(gè)過(guò)程中，超分辨模型結(jié)構(gòu)越來(lái)越復(fù)雜，網(wǎng)絡(luò)層次越來(lái)越深，單張圖像的超分辨效果也越來(lái)越好，不過(guò)這也會(huì)有一定的問(wèn)題。

二、實(shí)時(shí)視頻任務(wù)的需求與SR的挑戰(zhàn)

在RTC領(lǐng)域，對(duì)于視頻處理任務(wù)來(lái)說(shuō)，大多是直播和會(huì)議等即時(shí)通信場(chǎng)景，對(duì)算法的實(shí)時(shí)性要求比較高，所以視頻處理算法的實(shí)時(shí)性是優(yōu)先考慮的。然后是算法的實(shí)用性，由于用戶在使用直播或會(huì)議時(shí)，攝像頭采集到的視頻質(zhì)量有時(shí)比較低下，可能包含很多噪點(diǎn)；另外視頻在編碼傳輸時(shí)會(huì)先進(jìn)行壓縮，壓縮的過(guò)程也會(huì)導(dǎo)致圖像畫(huà)質(zhì)退化，所以RTC實(shí)際應(yīng)用場(chǎng)景比較復(fù)雜，而很多視頻處理方法，比如超分辨算法在研究中的是比較理想的場(chǎng)景。最后，如何提升用戶尤其是移動(dòng)端用戶的體驗(yàn)，減少算法的計(jì)算資源占用，適用更多終端和設(shè)備，也是視頻任務(wù)所必須考慮的。

對(duì)于這些需求，目前的超分辨方法尤其是基于深度學(xué)習(xí)的超分辨方法是存在很多問(wèn)題的。目前學(xué)術(shù)界關(guān)于超分辨的研究大多還是局限在理論階段，圖像超分，尤其是視頻超分如果要大規(guī)模落地的話，必須要去解決一些實(shí)際問(wèn)題。首先是網(wǎng)絡(luò)模型的問(wèn)題，目前很多深度學(xué)習(xí)方法為了追求更好的超分辨效果，采用的模型規(guī)模比較龐大，參數(shù)量越來(lái)越多，會(huì)耗費(fèi)大量的計(jì)算資源，在很多實(shí)際場(chǎng)景無(wú)法實(shí)時(shí)處理。其次是深度學(xué)習(xí)模型的泛化能力問(wèn)題，對(duì)于各種深度學(xué)習(xí)模型來(lái)說(shuō)，都會(huì)存在訓(xùn)練集適配的問(wèn)題，在訓(xùn)練的時(shí)候所使用的訓(xùn)練集不同，在不同場(chǎng)景上的表現(xiàn)也不同，用公開(kāi)數(shù)據(jù)集訓(xùn)練的模型，在實(shí)際應(yīng)用場(chǎng)景中未必會(huì)有同樣良好的表現(xiàn)。最后是真實(shí)場(chǎng)景下超分效果的問(wèn)題，目前學(xué)術(shù)界的超分方法，大都是關(guān)于比較理想的場(chǎng)景，完成從下采樣圖像到高分辨圖像的重建，但在真實(shí)場(chǎng)景中，圖像退化不僅包括下采樣因素，還會(huì)有很多其他因素，比如圖像壓縮、噪點(diǎn)、模糊等。

綜上而言，目前基于AI的超分辨方法，在RTC視頻任務(wù)中，所面臨的主要挑戰(zhàn)可以概括為，如何憑借規(guī)模比較小的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)具有良好真實(shí)效果的視頻質(zhì)量增強(qiáng)，也就是怎么樣“既叫馬兒跑得快，又讓馬兒少吃草”。

三、視頻超分辨技術(shù)的發(fā)展方向

首先，深度學(xué)習(xí)方法依然會(huì)是超分辨算法的主流。

因?yàn)閭鹘y(tǒng)的方法在超分辨任務(wù)上的效果不夠理想，細(xì)節(jié)比較差。深度學(xué)習(xí)方法為超分辨提供了一條新的思路。近年來(lái)基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨方法，逐漸成為主流方法，效果也在不斷改善。

從上圖可以看到，近幾年來(lái)，基于AI的超分辨方法相對(duì)于傳統(tǒng)方法的論文數(shù)量呈現(xiàn)出一邊倒的局面，并且這種局面在未來(lái)幾年還會(huì)進(jìn)一步擴(kuò)大。因?yàn)殡m然存在一些問(wèn)題，但隨著一些輕量級(jí)網(wǎng)絡(luò)的出現(xiàn)，深度學(xué)習(xí)方法將來(lái)在落地應(yīng)用方面可能會(huì)有更大的突破，這些問(wèn)題也將會(huì)得以解決，深度學(xué)習(xí)方法依然會(huì)是超分辨的主流研究方向。

其次，一些參數(shù)較小的輕量級(jí)網(wǎng)絡(luò)，在推動(dòng)超分算法落地方面，會(huì)發(fā)揮更大的作用。

因?yàn)槟壳案鞣N深度卷積網(wǎng)絡(luò)方法，比如EDSR、RDN這類深度殘差網(wǎng)絡(luò)難以滿足視頻實(shí)時(shí)傳輸?shù)男枰恍┍容^小的輕量級(jí)網(wǎng)絡(luò)對(duì)于實(shí)時(shí)任務(wù)會(huì)有更好的效果。

第三，將來(lái)的超分辨方法會(huì)更加聚焦真實(shí)場(chǎng)景任務(wù)。

學(xué)術(shù)領(lǐng)域的SR方法多是針對(duì)下采樣問(wèn)題進(jìn)行超分，在真實(shí)場(chǎng)景下的表現(xiàn)并不是很好，在真實(shí)場(chǎng)景中，圖像退化因素是各種各樣的，一些比較有針對(duì)性的方法，比如包含壓縮損失、編碼損失以及各種噪聲的超分辨任務(wù)，可能會(huì)更加實(shí)用。

四、網(wǎng)易云信AI超分算法

在RTC領(lǐng)域中，由于視頻文件過(guò)于龐大，我們需要對(duì)其進(jìn)行編碼，然后再傳輸?shù)浇邮斩私獯a播放。由于編碼的本質(zhì)是對(duì)視頻的壓縮，當(dāng)網(wǎng)絡(luò)比較差時(shí)，編碼量化參數(shù)會(huì)比較大，會(huì)造成嚴(yán)重的壓縮，導(dǎo)致輸出圖像產(chǎn)生塊效應(yīng)和其他失真，造成畫(huà)質(zhì)模糊。這種情況下，如果直接將解碼后的視頻進(jìn)行超分，壓縮損失也會(huì)被放大，超分效果往往不夠理想。針對(duì)這些問(wèn)題，網(wǎng)易云信提出了基于編碼損失復(fù)原的視頻超分辨方法，采用數(shù)據(jù)驅(qū)動(dòng)和網(wǎng)絡(luò)設(shè)計(jì)并重的策略，通過(guò)數(shù)據(jù)處理模擬真實(shí)失真場(chǎng)景，并且從模型設(shè)計(jì)到工程化實(shí)現(xiàn)進(jìn)行層層優(yōu)化，對(duì)于制約AI超分技術(shù)的兩大問(wèn)題有了一定的突破，在模型實(shí)時(shí)性和真實(shí)場(chǎng)景超分效果方面取得了不錯(cuò)的效果。

以上就是網(wǎng)易云信在推進(jìn)AI驅(qū)動(dòng)的超分技術(shù)落地應(yīng)用方面的一些實(shí)踐經(jīng)驗(yàn)，希望對(duì)大家有所啟發(fā)和參考。

責(zé)任編輯：張燕妮來(lái)源：博客園

AI 技術(shù)驅(qū)動(dòng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="rjbys"><p id="rjbys"></p></blockquote>

<cite id="rjbys"></cite>

<blockquote id="rjbys"><i id="rjbys"></i></blockquote>