自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI驅(qū)動(dòng)的超分辨技術(shù)落地實(shí)踐

人工智能 深度學(xué)習(xí)
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于AI的超分辨技術(shù)在圖像恢復(fù)和圖像增強(qiáng)領(lǐng)域呈現(xiàn)出廣闊的應(yīng)用前景,受到了學(xué)術(shù)界和工業(yè)界的關(guān)注和重視。

 近年來(lái),隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于AI的超分辨技術(shù)在圖像恢復(fù)和圖像增強(qiáng)領(lǐng)域呈現(xiàn)出廣闊的應(yīng)用前景,受到了學(xué)術(shù)界和工業(yè)界的關(guān)注和重視。但是,在RTC視頻領(lǐng)域中,很多AI算法并不能滿足實(shí)際場(chǎng)景下的應(yīng)用需求。本文將著眼于AI技術(shù)從研究到部署的落地問(wèn)題,分享超分辨技術(shù)在RTC領(lǐng)域落地應(yīng)用所面臨的機(jī)遇與挑戰(zhàn)。

一、超分辨技術(shù)概述

1. 超分辨技術(shù)的提出

超分辨這一概念最早是在20世紀(jì)60年代由Harris和Goodman提出的,是指從低分辨率圖像,通過(guò)某種算法或模型生成高分辨圖像的技術(shù),并且盡可能地恢復(fù)出更多細(xì)節(jié)信息,也稱為頻譜外推法。但是在研究初期,頻譜外推法只是用于一些假設(shè)條件下的仿真,并沒(méi)有得到廣泛的認(rèn)可;直到單張圖像的超分辨方法提出后,超分辨技術(shù)才開(kāi)始得到廣泛的研究和應(yīng)用。目前,它已經(jīng)成為圖像增強(qiáng)乃至計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向。

2.超分辨技術(shù)的分類

單張圖像的超分辨方法根據(jù)原理不同,可以分為基于插值、基于重構(gòu)和基于學(xué)習(xí)的方法。前面兩種方法分別由于算法原理簡(jiǎn)單以及應(yīng)用場(chǎng)景受限,在實(shí)際場(chǎng)景中的超分辨效果并不理想;基于學(xué)習(xí)的方法,是實(shí)際效果最好的超分辨方法,其核心包括兩個(gè)部分:算法模型的建立,以及訓(xùn)練集的選取。根據(jù)算法模型和訓(xùn)練集,基于學(xué)習(xí)的方法又可以分為傳統(tǒng)學(xué)習(xí)方法和深度學(xué)習(xí)方法。一般來(lái)說(shuō),傳統(tǒng)學(xué)習(xí)方法的算法模型比較簡(jiǎn)單,訓(xùn)練集也比較小。深度學(xué)習(xí)方法一般是指采用大量數(shù)據(jù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)方法,也是目前學(xué)術(shù)界研究的熱點(diǎn)。因此接下來(lái)我將重點(diǎn)介紹基于深度學(xué)習(xí)的超分辨方法的發(fā)展過(guò)程。

3. DL-based SR

SRCNN是深度學(xué)習(xí)方法在超分辨問(wèn)題的首次嘗試,是一個(gè)比較簡(jiǎn)單的卷積網(wǎng)絡(luò),由3個(gè)卷積層構(gòu)成,每個(gè)卷積層負(fù)責(zé)不同的職能。第一個(gè)卷積層的作用主要是負(fù)責(zé)提取高頻特征,第二個(gè)卷積層則負(fù)責(zé)完成從低清特征到高清特征的非線性映射,最后一個(gè)卷積層的作用是重建出高分辨率的圖像。SRCNN的網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單,超分辨效果也有待改善,不過(guò)它確立了深度學(xué)習(xí)方法在處理超分辨這類問(wèn)題時(shí)的基本思想。后來(lái)的深度學(xué)習(xí)方法,基本都遵循這一思想去進(jìn)行超分辨的重建。

后來(lái)的 ESPCN、FSRCNN等網(wǎng)絡(luò)基于SRCNN進(jìn)行了一些改進(jìn),網(wǎng)絡(luò)層數(shù)仍然比較淺,卷積層數(shù)不會(huì)超過(guò)10,超分辨的效果也不是特別理想。因?yàn)樵诋?dāng)時(shí),深度卷積網(wǎng)絡(luò)的訓(xùn)練是存在問(wèn)題的。一般對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),當(dāng)網(wǎng)絡(luò)層數(shù)增加的時(shí)候,性能也會(huì)增加,但在實(shí)際應(yīng)用中,人們發(fā)現(xiàn)當(dāng)網(wǎng)絡(luò)層數(shù)增加到了一定程度,由于反向傳播原理,就會(huì)出現(xiàn)梯度消失的問(wèn)題,導(dǎo)致網(wǎng)絡(luò)收斂性變差,模型性能降低。這個(gè)問(wèn)題直到ResNet提出殘差網(wǎng)絡(luò)結(jié)構(gòu)之后,才得到比較好的解決。

VDSR是殘差網(wǎng)絡(luò)以及殘差學(xué)習(xí)思想在超分辨問(wèn)題上的首次應(yīng)用,將超分辨網(wǎng)絡(luò)的層數(shù)首次增加到了20層,優(yōu)點(diǎn)是利用殘差學(xué)習(xí)的方式,直接學(xué)習(xí)殘差特征,網(wǎng)絡(luò)收斂會(huì)比較快,超分辨效果也更好。后來(lái)一些卷積神經(jīng)網(wǎng)絡(luò)提出了更復(fù)雜的結(jié)構(gòu), 比如SRGAN提出使用生成式對(duì)抗網(wǎng)絡(luò)來(lái)生成高分辨的圖像,SRGAN由2部分組成,一個(gè)是生成網(wǎng)絡(luò),另一個(gè)是判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)的作用是根據(jù)一張低分辨率的圖像來(lái)生成一張高分辨的圖像,而判別網(wǎng)絡(luò)的作用是將生成網(wǎng)絡(luò)生成的高分辨圖像判定為假,這樣網(wǎng)絡(luò)在訓(xùn)練的時(shí)候,生成網(wǎng)絡(luò)和判定網(wǎng)絡(luò)兩者之間不斷博弈,最終達(dá)到平衡,從而生成細(xì)節(jié)紋理比較逼真的高分辨圖像,具有更好的主觀視覺(jué)效果。其他深度卷積網(wǎng)絡(luò)方法比如SRDenseNet、EDSR、RDN,使用了更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)的卷積層越來(lái)越深,在單張圖像上的超分辨效果也越來(lái)越好。

超分辨技術(shù)發(fā)展的總體趨勢(shì),基本上可以概括為從傳統(tǒng)方法,到深度學(xué)習(xí)方法,從簡(jiǎn)單的卷積網(wǎng)絡(luò)方法到深度殘差網(wǎng)絡(luò)方法。在這個(gè)過(guò)程中,超分辨模型結(jié)構(gòu)越來(lái)越復(fù)雜,網(wǎng)絡(luò)層次越來(lái)越深,單張圖像的超分辨效果也越來(lái)越好,不過(guò)這也會(huì)有一定的問(wèn)題。

二、實(shí)時(shí)視頻任務(wù)的需求與SR的挑戰(zhàn)

在RTC領(lǐng)域,對(duì)于視頻處理任務(wù)來(lái)說(shuō),大多是直播和會(huì)議等即時(shí)通信場(chǎng)景,對(duì)算法的實(shí)時(shí)性要求比較高,所以視頻處理算法的實(shí)時(shí)性是優(yōu)先考慮的。然后是算法的實(shí)用性,由于用戶在使用直播或會(huì)議時(shí),攝像頭采集到的視頻質(zhì)量有時(shí)比較低下,可能包含很多噪點(diǎn);另外視頻在編碼傳輸時(shí)會(huì)先進(jìn)行壓縮,壓縮的過(guò)程也會(huì)導(dǎo)致圖像畫(huà)質(zhì)退化,所以RTC實(shí)際應(yīng)用場(chǎng)景比較復(fù)雜,而很多視頻處理方法,比如超分辨算法在研究中的是比較理想的場(chǎng)景。最后,如何提升用戶尤其是移動(dòng)端用戶的體驗(yàn),減少算法的計(jì)算資源占用,適用更多終端和設(shè)備,也是視頻任務(wù)所必須考慮的。

對(duì)于這些需求,目前的超分辨方法尤其是基于深度學(xué)習(xí)的超分辨方法是存在很多問(wèn)題的。目前學(xué)術(shù)界關(guān)于超分辨的研究大多還是局限在理論階段,圖像超分,尤其是視頻超分如果要大規(guī)模落地的話,必須要去解決一些實(shí)際問(wèn)題。首先是網(wǎng)絡(luò)模型的問(wèn)題,目前很多深度學(xué)習(xí)方法為了追求更好的超分辨效果,采用的模型規(guī)模比較龐大,參數(shù)量越來(lái)越多,會(huì)耗費(fèi)大量的計(jì)算資源,在很多實(shí)際場(chǎng)景無(wú)法實(shí)時(shí)處理。其次是深度學(xué)習(xí)模型的泛化能力問(wèn)題,對(duì)于各種深度學(xué)習(xí)模型來(lái)說(shuō),都會(huì)存在訓(xùn)練集適配的問(wèn)題,在訓(xùn)練的時(shí)候所使用的訓(xùn)練集不同,在不同場(chǎng)景上的表現(xiàn)也不同,用公開(kāi)數(shù)據(jù)集訓(xùn)練的模型,在實(shí)際應(yīng)用場(chǎng)景中未必會(huì)有同樣良好的表現(xiàn)。最后是真實(shí)場(chǎng)景下超分效果的問(wèn)題,目前學(xué)術(shù)界的超分方法,大都是關(guān)于比較理想的場(chǎng)景,完成從下采樣圖像到高分辨圖像的重建,但在真實(shí)場(chǎng)景中,圖像退化不僅包括下采樣因素,還會(huì)有很多其他因素,比如圖像壓縮、噪點(diǎn)、模糊等。

綜上而言,目前基于AI的超分辨方法,在RTC視頻任務(wù)中,所面臨的主要挑戰(zhàn)可以概括為,如何憑借規(guī)模比較小的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)具有良好真實(shí)效果的視頻質(zhì)量增強(qiáng),也就是怎么樣“既叫馬兒跑得快,又讓馬兒少吃草”。

三、視頻超分辨技術(shù)的發(fā)展方向

首先,深度學(xué)習(xí)方法依然會(huì)是超分辨算法的主流。

因?yàn)閭鹘y(tǒng)的方法在超分辨任務(wù)上的效果不夠理想,細(xì)節(jié)比較差。深度學(xué)習(xí)方法為超分辨提供了一條新的思路。近年來(lái)基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨方法,逐漸成為主流方法,效果也在不斷改善。

從上圖可以看到,近幾年來(lái),基于AI的超分辨方法相對(duì)于傳統(tǒng)方法的論文數(shù)量呈現(xiàn)出一邊倒的局面,并且這種局面在未來(lái)幾年還會(huì)進(jìn)一步擴(kuò)大。因?yàn)殡m然存在一些問(wèn)題,但隨著一些輕量級(jí)網(wǎng)絡(luò)的出現(xiàn),深度學(xué)習(xí)方法將來(lái)在落地應(yīng)用方面可能會(huì)有更大的突破,這些問(wèn)題也將會(huì)得以解決,深度學(xué)習(xí)方法依然會(huì)是超分辨的主流研究方向。

其次,一些參數(shù)較小的輕量級(jí)網(wǎng)絡(luò),在推動(dòng)超分算法落地方面,會(huì)發(fā)揮更大的作用。

因?yàn)槟壳案鞣N深度卷積網(wǎng)絡(luò)方法,比如EDSR、RDN這類深度殘差網(wǎng)絡(luò)難以滿足視頻實(shí)時(shí)傳輸?shù)男枰恍┍容^小的輕量級(jí)網(wǎng)絡(luò)對(duì)于實(shí)時(shí)任務(wù)會(huì)有更好的效果。

第三,將來(lái)的超分辨方法會(huì)更加聚焦真實(shí)場(chǎng)景任務(wù)。

學(xué)術(shù)領(lǐng)域的SR方法多是針對(duì)下采樣問(wèn)題進(jìn)行超分,在真實(shí)場(chǎng)景下的表現(xiàn)并不是很好,在真實(shí)場(chǎng)景中,圖像退化因素是各種各樣的,一些比較有針對(duì)性的方法,比如包含壓縮損失、編碼損失以及各種噪聲的超分辨任務(wù),可能會(huì)更加實(shí)用。

四、網(wǎng)易云信AI超分算法

在RTC領(lǐng)域中,由于視頻文件過(guò)于龐大,我們需要對(duì)其進(jìn)行編碼,然后再傳輸?shù)浇邮斩私獯a播放。由于編碼的本質(zhì)是對(duì)視頻的壓縮,當(dāng)網(wǎng)絡(luò)比較差時(shí),編碼量化參數(shù)會(huì)比較大,會(huì)造成嚴(yán)重的壓縮,導(dǎo)致輸出圖像產(chǎn)生塊效應(yīng)和其他失真,造成畫(huà)質(zhì)模糊。這種情況下,如果直接將解碼后的視頻進(jìn)行超分,壓縮損失也會(huì)被放大,超分效果往往不夠理想。針對(duì)這些問(wèn)題,網(wǎng)易云信提出了基于編碼損失復(fù)原的視頻超分辨方法,采用數(shù)據(jù)驅(qū)動(dòng)和網(wǎng)絡(luò)設(shè)計(jì)并重的策略,通過(guò)數(shù)據(jù)處理模擬真實(shí)失真場(chǎng)景,并且從模型設(shè)計(jì)到工程化實(shí)現(xiàn)進(jìn)行層層優(yōu)化,對(duì)于制約AI超分技術(shù)的兩大問(wèn)題有了一定的突破,在模型實(shí)時(shí)性和真實(shí)場(chǎng)景超分效果方面取得了不錯(cuò)的效果。

以上就是網(wǎng)易云信在推進(jìn)AI驅(qū)動(dòng)的超分技術(shù)落地應(yīng)用方面的一些實(shí)踐經(jīng)驗(yàn),希望對(duì)大家有所啟發(fā)和參考。

 

責(zé)任編輯:張燕妮 來(lái)源: 博客園
相關(guān)推薦

2024-08-05 09:24:33

2018-07-12 10:08:31

圖像超分辨率重建技術(shù)原理

2020-06-03 07:59:12

2023-02-28 12:12:21

語(yǔ)音識(shí)別技術(shù)解碼器

2021-10-02 11:06:42

AI人工智能

2024-02-20 14:20:36

人工智能自動(dòng)化

2021-01-06 15:07:02

HarmonyOS實(shí)踐應(yīng)用開(kāi)發(fā)

2023-07-26 08:11:04

ChatGPT技術(shù)產(chǎn)品

2022-12-09 18:58:10

2022-05-31 10:21:41

人工智能AI

2023-05-31 14:34:43

2022-01-17 17:01:23

深度學(xué)習(xí)圖像人工智能

2023-12-27 18:46:05

云原生容器技術(shù)

2016-12-27 16:09:36

聯(lián)想超融合

2023-11-13 17:35:55

系統(tǒng)技術(shù)

2022-08-16 14:25:19

??AISummit

2023-03-30 18:39:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)