自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

新聞 人工智能
來(lái)自谷歌的研究者提出了一種基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法,該方法優(yōu)于以前的神經(jīng)視頻壓縮方法,并且在用戶研究中與 HEVC 性能相當(dāng)。

 [[416911]]

通常,視頻壓縮的目標(biāo)是通過(guò)利用時(shí)間和空間冗余來(lái)降低存儲(chǔ)視頻所需的比特率,同時(shí)保留視覺(jué)內(nèi)容,目前廣泛使用的方法是非神經(jīng)標(biāo)準(zhǔn)編解碼器(例如 H.264/AVC 、H.265/HEVC)。一些研究表明,神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)視頻壓縮方面取得了更好的進(jìn)展,最新的方法在峰值信噪比(PSNR)方面可以與 HEVC 相媲美,或者在 MS-SSIM 方面優(yōu)于 HEVC。然而,因?yàn)楹苌儆醒芯空甙l(fā)布重制后的視頻,這些方法尚未在主觀視覺(jué)質(zhì)量方面進(jìn)行評(píng)估。

來(lái)自谷歌的研究者提出了一種基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的神經(jīng)視頻壓縮方法,該方法優(yōu)于以前的神經(jīng)視頻壓縮方法,并且在用戶研究中與 HEVC 性能相當(dāng)。研究者提出了減少時(shí)間累積誤差的方法,該累積誤差由遞歸幀壓縮引起,該方法使用隨機(jī)移位和非移位,由頻譜分析驅(qū)動(dòng)。論文詳細(xì)介紹了網(wǎng)絡(luò)設(shè)計(jì)的選擇以及重要性,并闡述了在用戶研究中評(píng)估視頻壓縮方法的挑戰(zhàn)。

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

論文地址:https://arxiv.org/pdf/2107.12038.pdf

本文主要貢獻(xiàn)包括:

  • 該研究提出了首個(gè)在視覺(jué)質(zhì)量方面與 HEVC 具有競(jìng)爭(zhēng)性的神經(jīng)壓縮方法,這是在用戶研究中衡量的。研究表明,在 PSNR 方面具有競(jìng)爭(zhēng)力的方法在視覺(jué)質(zhì)量方面的表現(xiàn)要差得多;
  • 該研究提出了一種減少展開(kāi)時(shí)時(shí)間誤差累積的技術(shù),該技術(shù)通過(guò)隨機(jī)移動(dòng)殘差輸入,然后保持輸出不變,激勵(lì)頻譜分析,研究表明該技術(shù)在系統(tǒng)和 toy 線性 CNN 模型中具備有效性;
  • 該研究探索了由用戶研究測(cè)量的視覺(jué)質(zhì)量與可用視頻質(zhì)量指標(biāo)之間的相關(guān)性。為了促進(jìn)未來(lái)的研究,研究者發(fā)布了對(duì) MCL-JCV 視頻數(shù)據(jù)集的重建以及從用戶研究中獲得的所有數(shù)據(jù)(附錄 B 中的鏈接)。

研究方法

下圖為該研究使用的網(wǎng)絡(luò)架構(gòu),其中 x = {x_1, x_2, . . . } 為幀序列,x_1 為初始幀 (I)。該研究在低延遲模式下操作,因此可以從先前的幀中預(yù)測(cè)后續(xù) (P) 幀,設(shè)

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

是重建視頻。

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

灰色框是中間張量的可視化結(jié)果?;揖€左側(cè)是 I-frame 分支(藍(lán)色代表用 CNN 學(xué)習(xí)),右側(cè)是 P-frame 分支(綠色代表用 CNN 學(xué)習(xí))。虛線在解碼期間沒(méi)有被激活,判別器 D_I、D_P 僅在訓(xùn)練期間激活。CNN 的大小粗略地表明了它們的容量。SG 是停止梯度操作,Blur 是尺度空間模糊,Warp 是雙三次扭曲, UFlow 是凍結(jié)光流模型。

研究者采用以下策略來(lái)獲得高保真重建視頻:

  • 在 I-frame 中合成可信的細(xì)節(jié);
  • 盡可能清晰地傳遞這些可信細(xì)節(jié);
  • 對(duì)于出現(xiàn)在 P-frame 中的新內(nèi)容,研究者希望能夠合成可信細(xì)節(jié)。

論文中的公式是基于 HiFiC 的。使用條件 GAN,其中生成器和判別器都可以訪問(wèn)額外的標(biāo)簽:公式假設(shè)數(shù)據(jù)點(diǎn) x 和標(biāo)簽 s 遵循聯(lián)合分布 p(x, s)。生成器將樣本 y ∼ p(y) 映射到分布 p(x|y),而判別器用來(lái)預(yù)測(cè)給定對(duì) (x, s) 是否來(lái)自 p(x|s) 而不是來(lái)自生成器。

在設(shè)置中需要處理幀序列和重建。在 HiFiC 之后,研究者在潛在 y 上調(diào)節(jié)生成器和判別器,對(duì)于 I-frame,y = yI,對(duì)于 P-frame,y = y_t,r。為了簡(jiǎn)化問(wèn)題,該研究的目標(biāo)是對(duì)每幀分布進(jìn)行匹配,即對(duì)于 T 長(zhǎng)度的視頻序列,目標(biāo)是獲得一個(gè)模型 s.t.:

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

通過(guò)隨機(jī)移位展開(kāi)時(shí)防止錯(cuò)誤累積

正如文中所提到的,「低延遲」設(shè)置的循環(huán)性質(zhì)在時(shí)域中的泛化具有挑戰(zhàn)性,這可能會(huì)發(fā)生錯(cuò)誤傳播。理想情況下,只要研究評(píng)估的內(nèi)容至少 T = 60 幀,就可以使用序列進(jìn)行訓(xùn)練,但實(shí)際上由于內(nèi)存限制,這在當(dāng)前硬件上是不可行的。雖然我們最多可以將 T = 12 放入加速器中,但這樣會(huì)使訓(xùn)練模型會(huì)變得非常慢。

為了加速原型設(shè)計(jì)和訓(xùn)練新模型,以及防止展開(kāi)(unrolling)問(wèn)題,該研究采用以下訓(xùn)練方案。

1) 僅在隨機(jī)選擇的幀上訓(xùn)練 E_I 、 G_I 、 D_I ,1 000000 step。

2) 凍結(jié) E_I、G_I、D_I ,并從 E_I 、G_I 初始化 E_res、G_res 權(quán)重。使用分階段展開(kāi)( staged unrolling )訓(xùn)練 E_flow、G_flow、E_res、G_res、D_P 450000step,即使用 T = 2 直到 80k step,T = 3 直到 300step,T = 4 直到 350step,T = 6 直到 400k,T = 9 直到 450k。

該研究將其分為步驟 1) 和 2),因?yàn)榻?jīng)過(guò)訓(xùn)練的 E_I、 G_I 可以重新用于 P-frame 分支的許多變體,并且跨運(yùn)行共享 E_I、 G_I 使其更具可比性。

使用比例控制器在訓(xùn)練期間控制速率:超參數(shù) λ_R 用來(lái)控制比特率和其他損失項(xiàng)(例如 GAN 損失等)之間的權(quán)衡。

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集:訓(xùn)練數(shù)據(jù)包括大約 992000 個(gè)時(shí)間 - 空間裁剪視頻集,每個(gè)視頻集長(zhǎng)度 T 為 12 幀,每幀畫面大小為 256×256,從 YouTube 的公開(kāi)視頻中獲取。這些視頻的分辨率至少為 1080p,長(zhǎng)寬比至少為 16:9,幀率至少為 30 fps。

模型和基準(zhǔn):基線稱為「MSE-only」,并且該基準(zhǔn)使用了與研究所用一樣的架構(gòu)和訓(xùn)練過(guò)程,但沒(méi)有使用 GAN 損失。實(shí)驗(yàn)還與尺度空間流(Scale-Space Flow,SSF)進(jìn)行了比較,這是最近的神經(jīng)壓縮方法,在 PSNR 方面與 HEVC 相當(dāng)。最后,該研究與無(wú)學(xué)習(xí)的 HEVC 進(jìn)行了比較。

研究者在圖 1 中總結(jié)了評(píng)分者偏好,并在圖 7 中展示了性能指標(biāo)。該研究與三種比特率下的 HEVC 進(jìn)行了比較,結(jié)果證明該研究所用方法與 HEVC 在 0.064 bpp 下具有可比性 (14vs12),在 0.13bpp 下效果更佳(18vs9),在 0.22bpp 下性能也不錯(cuò)(16vs9)。

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

為了評(píng)估 GAN 損失對(duì)視覺(jué)質(zhì)量的影響,研究者在低速率 (≈ 0.064 bpp) 下將 GAN 損失與 MSE-only 和 SSF 進(jìn)行了比較。如圖 1 所示,在 MSE-only 下,在 30 次結(jié)果中只有 4 次結(jié)果較好,4 次平局,結(jié)果表明了 GAN 損失的重要性,并且 SSF 沒(méi)有一次是首選、沒(méi)有平局。研究者強(qiáng)調(diào) MSE-only 僅在 PSNR 方面與 HEVC 相當(dāng)(圖 7),但在視覺(jué)質(zhì)量方面明顯更差。

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

研究發(fā)現(xiàn),下列組件對(duì)性能的提升至關(guān)重要:不使用「free latent」會(huì)引起模糊的重建效果,這類似于 MSE-only 基線產(chǎn)生的效果,如圖 3 頂部所示。研究發(fā)現(xiàn),使用「free latent」而不使用條件判別器也會(huì)導(dǎo)致模糊的重建效果。當(dāng)信息不傳遞給 UFlow 時(shí),實(shí)驗(yàn)結(jié)果會(huì)得到前后不一致的流,當(dāng)信息傳遞給 UFlow 時(shí),但沒(méi)有使用流損失正則化(即公式 6),實(shí)驗(yàn)結(jié)果也不理想。因此,刪除任何一個(gè)組件都會(huì)損害時(shí)間一致性,參見(jiàn)圖 3 底部。

開(kāi)啟生成式視頻壓縮:谷歌基于GAN來(lái)實(shí)現(xiàn),性能與HEVC相當(dāng)

總體來(lái)說(shuō),沒(méi)有一個(gè)指標(biāo)能夠預(yù)測(cè)圖 1 中的結(jié)果,但是 PIM 和 LPIPS 對(duì)一些比較進(jìn)行了正確的排序。在神經(jīng)圖像壓縮領(lǐng)域已經(jīng)觀察到了這種結(jié)果,其中最好的方法是由人類來(lái)排序的,因?yàn)槟壳斑€沒(méi)有一種度量標(biāo)準(zhǔn)能夠根據(jù)主觀質(zhì)量來(lái)準(zhǔn)確地對(duì)這些方法進(jìn)行排序。

 

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2022-12-19 14:46:53

視頻方法

2009-08-06 08:50:27

視頻壓縮技術(shù)谷歌On2

2021-07-20 10:16:24

人工智能自然語(yǔ)言技術(shù)

2017-05-08 10:52:09

2023-12-18 08:57:22

GAN網(wǎng)絡(luò)

2021-03-11 15:00:05

編碼視頻壓縮

2018-03-29 09:42:11

谷歌微軟視頻壓縮

2022-10-09 15:26:45

人工智能ML機(jī)器學(xué)習(xí)

2024-04-08 11:32:12

深度學(xué)習(xí)圖像

2009-08-29 11:03:10

2023-08-02 10:17:06

谷歌AI

2023-08-26 21:38:04

Kuma框架CSS

2023-03-01 09:07:44

前端監(jiān)控異常

2020-06-24 07:50:56

抖音特效移動(dòng)應(yīng)用

2024-03-20 12:27:48

模型訓(xùn)練

2020-06-15 14:18:05

數(shù)據(jù)平臺(tái)架構(gòu)

2023-08-23 10:10:05

VMwareNVIDIA

2019-08-12 14:46:56

Web服務(wù)器性能

2016-05-19 10:19:51

谷歌地圖CSS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)