自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="dvteq"></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

作者：機(jī)器之心編譯 2021-08-11 15:38:28

新聞人工智能

來(lái)自谷歌的研究者提出了一種基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法，該方法優(yōu)于以前的神經(jīng)視頻壓縮方法，并且在用戶研究中與 HEVC 性能相當(dāng)。

通常，視頻壓縮的目標(biāo)是通過(guò)利用時(shí)間和空間冗余來(lái)降低存儲(chǔ)視頻所需的比特率，同時(shí)保留視覺(jué)內(nèi)容，目前廣泛使用的方法是非神經(jīng)標(biāo)準(zhǔn)編解碼器（例如 H.264/AVC 、H.265/HEVC）。一些研究表明，神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)視頻壓縮方面取得了更好的進(jìn)展，最新的方法在峰值信噪比（PSNR）方面可以與 HEVC 相媲美，或者在 MS-SSIM 方面優(yōu)于 HEVC。然而，因?yàn)楹苌儆醒芯空甙l(fā)布重制后的視頻，這些方法尚未在主觀視覺(jué)質(zhì)量方面進(jìn)行評(píng)估。

來(lái)自谷歌的研究者提出了一種基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法，該方法優(yōu)于以前的神經(jīng)視頻壓縮方法，并且在用戶研究中與 HEVC 性能相當(dāng)。研究者提出了減少時(shí)間累積誤差的方法，該累積誤差由遞歸幀壓縮引起，該方法使用隨機(jī)移位和非移位，由頻譜分析驅(qū)動(dòng)。論文詳細(xì)介紹了網(wǎng)絡(luò)設(shè)計(jì)的選擇以及重要性，并闡述了在用戶研究中評(píng)估視頻壓縮方法的挑戰(zhàn)。

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

論文地址：https://arxiv.org/pdf/2107.12038.pdf

本文主要貢獻(xiàn)包括：

該研究提出了首個(gè)在視覺(jué)質(zhì)量方面與 HEVC 具有競(jìng)爭(zhēng)性的神經(jīng)壓縮方法，這是在用戶研究中衡量的。研究表明，在 PSNR 方面具有競(jìng)爭(zhēng)力的方法在視覺(jué)質(zhì)量方面的表現(xiàn)要差得多；
該研究提出了一種減少展開(kāi)時(shí)時(shí)間誤差累積的技術(shù)，該技術(shù)通過(guò)隨機(jī)移動(dòng)殘差輸入，然后保持輸出不變，激勵(lì)頻譜分析，研究表明該技術(shù)在系統(tǒng)和 toy 線性 CNN 模型中具備有效性；
該研究探索了由用戶研究測(cè)量的視覺(jué)質(zhì)量與可用視頻質(zhì)量指標(biāo)之間的相關(guān)性。為了促進(jìn)未來(lái)的研究，研究者發(fā)布了對(duì) MCL-JCV 視頻數(shù)據(jù)集的重建以及從用戶研究中獲得的所有數(shù)據(jù)（附錄 B 中的鏈接）。

研究方法

下圖為該研究使用的網(wǎng)絡(luò)架構(gòu)，其中 x = {x_1, x_2, . . . } 為幀序列，x_1 為初始幀 (I)。該研究在低延遲模式下操作，因此可以從先前的幀中預(yù)測(cè)后續(xù) (P) 幀，設(shè)

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

是重建視頻。

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

灰色框是中間張量的可視化結(jié)果?；揖€左側(cè)是 I-frame 分支（藍(lán)色代表用 CNN 學(xué)習(xí)），右側(cè)是 P-frame 分支（綠色代表用 CNN 學(xué)習(xí)）。虛線在解碼期間沒(méi)有被激活，判別器 D_I、D_P 僅在訓(xùn)練期間激活。CNN 的大小粗略地表明了它們的容量。SG 是停止梯度操作，Blur 是尺度空間模糊，Warp 是雙三次扭曲， UFlow 是凍結(jié)光流模型。

研究者采用以下策略來(lái)獲得高保真重建視頻：

在 I-frame 中合成可信的細(xì)節(jié)；
盡可能清晰地傳遞這些可信細(xì)節(jié)；
對(duì)于出現(xiàn)在 P-frame 中的新內(nèi)容，研究者希望能夠合成可信細(xì)節(jié)。

論文中的公式是基于 HiFiC 的。使用條件 GAN，其中生成器和判別器都可以訪問(wèn)額外的標(biāo)簽：公式假設(shè)數(shù)據(jù)點(diǎn) x 和標(biāo)簽 s 遵循聯(lián)合分布 p(x, s)。生成器將樣本 y ∼ p(y) 映射到分布 p(x|y)，而判別器用來(lái)預(yù)測(cè)給定對(duì) (x, s) 是否來(lái)自 p(x|s) 而不是來(lái)自生成器。

在設(shè)置中需要處理幀序列和重建。在 HiFiC 之后，研究者在潛在 y 上調(diào)節(jié)生成器和判別器，對(duì)于 I-frame，y = yI，對(duì)于 P-frame，y = y_t,r。為了簡(jiǎn)化問(wèn)題，該研究的目標(biāo)是對(duì)每幀分布進(jìn)行匹配，即對(duì)于 T 長(zhǎng)度的視頻序列，目標(biāo)是獲得一個(gè)模型 s.t.：

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

通過(guò)隨機(jī)移位展開(kāi)時(shí)防止錯(cuò)誤累積

正如文中所提到的，「低延遲」設(shè)置的循環(huán)性質(zhì)在時(shí)域中的泛化具有挑戰(zhàn)性，這可能會(huì)發(fā)生錯(cuò)誤傳播。理想情況下，只要研究評(píng)估的內(nèi)容至少 T = 60 幀，就可以使用序列進(jìn)行訓(xùn)練，但實(shí)際上由于內(nèi)存限制，這在當(dāng)前硬件上是不可行的。雖然我們最多可以將 T = 12 放入加速器中，但這樣會(huì)使訓(xùn)練模型會(huì)變得非常慢。

為了加速原型設(shè)計(jì)和訓(xùn)練新模型，以及防止展開(kāi)（unrolling）問(wèn)題，該研究采用以下訓(xùn)練方案。

1) 僅在隨機(jī)選擇的幀上訓(xùn)練 E_I 、 G_I 、 D_I ，1 000000 step。

2) 凍結(jié) E_I、G_I、D_I ，并從 E_I 、G_I 初始化 E_res、G_res 權(quán)重。使用分階段展開(kāi)（ staged unrolling ）訓(xùn)練 E_flow、G_flow、E_res、G_res、D_P 450000step，即使用 T = 2 直到 80k step，T = 3 直到 300step，T = 4 直到 350step，T = 6 直到 400k，T = 9 直到 450k。

該研究將其分為步驟 1) 和 2)，因?yàn)榻?jīng)過(guò)訓(xùn)練的 E_I、 G_I 可以重新用于 P-frame 分支的許多變體，并且跨運(yùn)行共享 E_I、 G_I 使其更具可比性。

使用比例控制器在訓(xùn)練期間控制速率：超參數(shù) λ_R 用來(lái)控制比特率和其他損失項(xiàng)（例如 GAN 損失等）之間的權(quán)衡。

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集：訓(xùn)練數(shù)據(jù)包括大約 992000 個(gè)時(shí)間 - 空間裁剪視頻集，每個(gè)視頻集長(zhǎng)度 T 為 12 幀，每幀畫面大小為 256×256，從 YouTube 的公開(kāi)視頻中獲取。這些視頻的分辨率至少為 1080p，長(zhǎng)寬比至少為 16:9，幀率至少為 30 fps。

模型和基準(zhǔn)：基線稱為「MSE-only」，并且該基準(zhǔn)使用了與研究所用一樣的架構(gòu)和訓(xùn)練過(guò)程，但沒(méi)有使用 GAN 損失。實(shí)驗(yàn)還與尺度空間流（Scale-Space Flow，SSF）進(jìn)行了比較，這是最近的神經(jīng)壓縮方法，在 PSNR 方面與 HEVC 相當(dāng)。最后，該研究與無(wú)學(xué)習(xí)的 HEVC 進(jìn)行了比較。

研究者在圖 1 中總結(jié)了評(píng)分者偏好，并在圖 7 中展示了性能指標(biāo)。該研究與三種比特率下的 HEVC 進(jìn)行了比較，結(jié)果證明該研究所用方法與 HEVC 在 0.064 bpp 下具有可比性 (14vs12)，在 0.13bpp 下效果更佳（18vs9），在 0.22bpp 下性能也不錯(cuò)（16vs9）。

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

為了評(píng)估 GAN 損失對(duì)視覺(jué)質(zhì)量的影響，研究者在低速率 (≈ 0.064 bpp) 下將 GAN 損失與 MSE-only 和 SSF 進(jìn)行了比較。如圖 1 所示，在 MSE-only 下，在 30 次結(jié)果中只有 4 次結(jié)果較好，4 次平局，結(jié)果表明了 GAN 損失的重要性，并且 SSF 沒(méi)有一次是首選、沒(méi)有平局。研究者強(qiáng)調(diào) MSE-only 僅在 PSNR 方面與 HEVC 相當(dāng)（圖 7），但在視覺(jué)質(zhì)量方面明顯更差。

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

研究發(fā)現(xiàn)，下列組件對(duì)性能的提升至關(guān)重要：不使用「free latent」會(huì)引起模糊的重建效果，這類似于 MSE-only 基線產(chǎn)生的效果，如圖 3 頂部所示。研究發(fā)現(xiàn)，使用「free latent」而不使用條件判別器也會(huì)導(dǎo)致模糊的重建效果。當(dāng)信息不傳遞給 UFlow 時(shí)，實(shí)驗(yàn)結(jié)果會(huì)得到前后不一致的流，當(dāng)信息傳遞給 UFlow 時(shí)，但沒(méi)有使用流損失正則化（即公式 6），實(shí)驗(yàn)結(jié)果也不理想。因此，刪除任何一個(gè)組件都會(huì)損害時(shí)間一致性，參見(jiàn)圖 3 底部。

開(kāi)啟生成式視頻壓縮：谷歌基于GAN來(lái)實(shí)現(xiàn)，性能與HEVC相當(dāng)

總體來(lái)說(shuō)，沒(méi)有一個(gè)指標(biāo)能夠預(yù)測(cè)圖 1 中的結(jié)果，但是 PIM 和 LPIPS 對(duì)一些比較進(jìn)行了正確的排序。在神經(jīng)圖像壓縮領(lǐng)域已經(jīng)觀察到了這種結(jié)果，其中最好的方法是由人類來(lái)排序的，因?yàn)槟壳斑€沒(méi)有一種度量標(biāo)準(zhǔn)能夠根據(jù)主觀質(zhì)量來(lái)準(zhǔn)確地對(duì)這些方法進(jìn)行排序。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心Pro

谷歌視頻技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="f1gxs"><p id="f1gxs"></p></sub>