北大&火山引擎奪冠!CLIC視頻壓縮挑戰(zhàn)賽結(jié)果公布,中國(guó)團(tuán)隊(duì)表現(xiàn)亮眼
想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:
隨著以深度學(xué)習(xí)為代表的新一代人工智能技術(shù)不斷取得突破,學(xué)術(shù)界與工業(yè)界逐漸意識(shí)到人工智能技術(shù)在圖像、視頻壓縮領(lǐng)域的巨大應(yīng)用潛力。
基于深度學(xué)習(xí)的圖像視頻壓縮技術(shù)被視為超越傳統(tǒng)壓縮技術(shù)能力極限、取得突破性進(jìn)展的明日之星。
近日,第六屆深度學(xué)習(xí)圖像壓縮挑戰(zhàn)賽(以下將簡(jiǎn)稱“CLIC大賽”)比賽結(jié)果公布,由火山引擎多媒體實(shí)驗(yàn)室與北大組成的聯(lián)合參賽平臺(tái)b-2在高碼率視頻壓縮和低碼率視頻壓縮兩個(gè)賽道均奪得主客觀指標(biāo)冠軍?;谏疃葘W(xué)習(xí)技術(shù),b-2平臺(tái)提出了一項(xiàng)“傳統(tǒng)-智能混合解決方案”。
傳統(tǒng)—智能混合解決方案
b-2 平臺(tái)在充分理解傳統(tǒng)壓縮技術(shù)與深度學(xué)習(xí)壓縮技術(shù)的各自原理的基礎(chǔ)上,發(fā)揮兩種技術(shù)路線的各自優(yōu)勢(shì),取長(zhǎng)補(bǔ)短,將二者有機(jī)融合成為一個(gè)整體,形成了獨(dú)具特色的傳統(tǒng)——智能混合解決方案。
傳統(tǒng)編碼模塊在業(yè)界已有傳統(tǒng)編碼框架基礎(chǔ)上,加入了非對(duì)稱四叉樹劃分等創(chuàng)新技術(shù)。智能編碼模塊則引入了基于深度學(xué)習(xí)的環(huán)路濾波等技術(shù)。
△非對(duì)稱四叉樹劃分結(jié)構(gòu);(a)H1型水平UQT,(b)H2型水平UQT,(c)V1型垂直UQT,(d)V2型垂直UQT。
編碼單元?jiǎng)澐质腔旌弦曨l編碼框架的基礎(chǔ),決定著編碼單元的基本形狀和尺寸。靈活的劃分方法能更有效地表達(dá)視頻豐富的紋理和運(yùn)動(dòng),對(duì)編碼性能的提升起著至關(guān)重要的作用。
團(tuán)隊(duì)提出了非對(duì)稱四叉樹 (UQT) 劃分結(jié)構(gòu),旨在提高視頻的編碼效率。與現(xiàn)有的四叉樹(Quad Tree, QT),二叉樹(Binary Tree, BT),三叉樹(Ternary Tree, TT)劃分結(jié)構(gòu)相比,UQT通過一次劃分生成的子編碼單元能觸及更深的劃分深度,能更有效地捕捉視頻豐富的細(xì)節(jié)特性。
此外,UQT生成的子塊形狀是無法通過 QT 、BT、TT組合實(shí)現(xiàn)的,一定程度上彌補(bǔ)了現(xiàn)有劃分的不足,豐富了劃分的表達(dá)。
△環(huán)路濾波網(wǎng)絡(luò)結(jié)構(gòu)示意圖,包括網(wǎng)絡(luò)的輸入,濾波與輸出模塊
傳統(tǒng)視頻編碼中采用環(huán)路濾波器去除編碼失真,縮小原始圖像與重建之間的失真,例如經(jīng)典的去塊濾波、樣本自適應(yīng)偏移和自適應(yīng)環(huán)路濾波等。
參賽平臺(tái)提出了一種基于殘差卷積網(wǎng)絡(luò)的增強(qiáng)型環(huán)路濾波技術(shù),有機(jī)地將環(huán)路濾波技術(shù)與深度學(xué)習(xí)技術(shù)結(jié)合在一起,在網(wǎng)絡(luò)結(jié)構(gòu)中與模型訓(xùn)練中充分利用傳統(tǒng)視頻編碼的先驗(yàn)信息,提升環(huán)路濾波效率。
網(wǎng)絡(luò)輸入方面,除重建像素外,團(tuán)隊(duì)將編碼過程中的預(yù)測(cè)信息、劃分信息、邊界強(qiáng)度以及量化參數(shù)等作為增強(qiáng)信息供深度網(wǎng)絡(luò)學(xué)習(xí),豐富先驗(yàn)知識(shí),使得網(wǎng)絡(luò)能更好地感知壓縮失真。
在分層參考的編碼結(jié)構(gòu)中,待編碼幀將參考已重建的高質(zhì)量幀。團(tuán)隊(duì)提出對(duì)不同時(shí)域?qū)哟螏褂玫臑V波器采用迭代訓(xùn)練的方式,獲取最接近真實(shí)編碼的訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)更高性能的濾波。
此外,每個(gè)條帶及最大編碼單位均可以在多個(gè)濾波模型中自適應(yīng)地選擇率失真性能最優(yōu)的網(wǎng)絡(luò)模型,并將選擇信息傳輸?shù)浇獯a端。
△CLIC視頻壓縮賽道基于MOS的排行榜
CLIC大賽由電氣與電子工程師協(xié)會(huì)IEEE主辦,從誕生開始就獲得了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。
2023年CLIC大賽暫停一屆,本屆大賽依托于數(shù)據(jù)壓縮領(lǐng)域的頂級(jí)會(huì)議 Data Compression Conference (DCC)再次舉辦。本屆DCC中,火山引擎多媒體實(shí)驗(yàn)室有8篇論文入選。此外,這也是該團(tuán)隊(duì)自2022年CLIC大賽高碼率視頻壓縮和低碼率視頻壓縮兩個(gè)賽道奪冠后,再次蟬聯(lián)。
火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國(guó)際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國(guó)際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國(guó)際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。