清華大學提出視頻去模糊領域適應方案,硬盤里的珍藏電影可以更清晰了 精華
引言:視頻動態(tài)場景中的模糊問題及其挑戰(zhàn)
這篇論文主要研究了動態(tài)場景視頻去模糊技術,旨在消除拍攝過程中產(chǎn)生的不想要的模糊瑕疵。然而,盡管之前的視頻去模糊方法取得了顯著的成果,但由于訓練和測試視頻之間的域差距,導致在真實世界場景中的表現(xiàn)大幅下降。為了解決這個問題,作者提出了一種基于模糊模型的域自適應方案,通過測試時的模糊來實現(xiàn)去模糊模型在未知域的微調(diào)。首先,作者提出了一個相對清晰度檢測模塊,用于從模糊的輸入圖像中識別出相對清晰的區(qū)域,并將它們視為偽清晰圖像。然后,利用模糊模型根據(jù)測試時的偽清晰圖像生成模糊圖像。為了根據(jù)目標數(shù)據(jù)分布合成模糊圖像,作者提出了一個域自適應模糊條件生成模塊,為模糊模型創(chuàng)建域特定的模糊條件。最后,生成的偽清晰和模糊對用于微調(diào)去模糊模型以獲得更好的性能。
論文標題:Domain-adaptive Video Deblurring via Test-time Blurring
機構:National Yang Ming Chiao Tung University, Taiwan; National Tsing Hua University, Taiwan; National Chengchi University, Taiwan; Qualcomm Technologies, Inc., San Diego
論文鏈接:https://arxiv.org/pdf/2407.09059.pdf
提出的域適應方法概述
1. 域適應的必要性
由于攝像機設置和拍攝場景的多樣性,不同的視頻可能呈現(xiàn)出不同的模糊模式,這些模式在訓練階段可能未被模型見過,從而導致模型在實際應用中效果下降。域適應方法通過調(diào)整模型以適應新的域特性,有助于提升模型在未見領域的性能。
2. 方法的核心組件:相對銳度檢測模塊和域適應模糊條件生成模塊
相對銳度檢測模塊(RSDM)用于從模糊視頻中檢測出相對清晰的區(qū)域,這些區(qū)域被視為偽銳利圖像。域適應模糊條件生成模塊(DBCGM)則根據(jù)這些偽銳利圖像和視頻中的運動線索,生成與目標域特定模糊條件相匹配的模糊圖像。這些生成的模糊圖像隨后用于微調(diào)去模糊模型,以適應目標域的特性,從而在推理時實現(xiàn)域適應。
相對銳度檢測模塊(RSDM)詳解
1. 模塊的功能與工作原理
相對銳度檢測模塊(RSDM)的主要功能是從模糊視頻中提取相對清晰的區(qū)域,這些區(qū)域被視為偽清晰圖像用于域適應。該模塊包括一個模糊強度估計器(Blur Magnitude Estimator, BME),它能夠預測每個像素的模糊程度,并生成一個模糊強度圖。這個圖通過一個自適應的銳度閾值進行二值化處理,以篩選出相對清晰的區(qū)域。這些區(qū)域隨后被裁剪出來,用于后續(xù)的域適應模糊處理。
2. 模糊強度估計器的設計與優(yōu)化
模糊強度估計器采用了一個五階段的編解碼器設計,其中包括多尺度特征融合(Multi-Scale Feature Fusion, MSFF)。這種設計能夠有效地從不同尺度捕捉圖像特征,提高模糊強度的預測精度。為了優(yōu)化這個估計器,使用了GoPro數(shù)據(jù)集進行訓練,該數(shù)據(jù)集通過高速攝像機拍攝連續(xù)的清晰幀來合成模糊圖像,從而為模糊強度提供了真實的訓練基準。
域適應模糊條件生成模塊(DBCGM)詳解
1. 生成域特定模糊條件的方法
域適應模糊條件生成模塊(DBCGM)利用從相對銳度檢測模塊(RSDM)獲得的偽清晰圖像,結合ID-Blau模糊模型,生成與目標域中存在的模糊模式一致的模糊圖像。該模塊包括模糊方向估計器(Blur Orientation Estimator)和模糊強度估計器(BME),它們共同工作以生成域特定的模糊條件。這些條件反映了視頻中連續(xù)幀間的運動信息和曝光過程中的模糊強度。
2. 利用連續(xù)幀的運動信息優(yōu)化模糊效果
DBCGM通過分析連續(xù)幀之間的運動軌跡圖來優(yōu)化模糊效果。這一過程涉及到預訓練的光流網(wǎng)絡,用于計算相鄰幀之間的運動。通過這種方式,可以更準確地模擬實際視頻拍攝過程中的運動模糊,生成更自然、與目標域一致的模糊圖像。這些圖像隨后用于微調(diào)去模糊模型,以提高其在未知域中的表現(xiàn)。
實驗設置與驗證
1. 使用的數(shù)據(jù)集和模型
在本研究中,我們使用了GoPro數(shù)據(jù)集來優(yōu)化ID-Blau模型和模糊度量估計器(BME)。GoPro數(shù)據(jù)集包含了由高速攝像機拍攝的連續(xù)清晰幀合成的模糊圖像。此外,我們還采用了四種先進的視頻去模糊模型,包括ESTRNN、MMP-RNN、DSTNet和Shift-Net,以驗證我們提出的域適應方法的有效性。這些模型原本訓練于合成數(shù)據(jù)集,而我們將其在五個真實世界的視頻去模糊數(shù)據(jù)集上進行微調(diào),包括BSD的三個子集和RealBlur以及RBVD測試集。
2. 實驗結果與分析
我們的域適應方法在五個真實世界的視頻去模糊數(shù)據(jù)集上均顯著提高了視頻去模糊模型的性能。具體來說,與基線模型相比,我們的方法在BSD-1ms8ms、BSD-2ms16ms、BSD-3ms24ms、RealBlur和RBVD測試集上分別提高了4.61dB、3.90dB、2.57dB、1.92dB和2.31dB的平均峰值信噪比(PSNR)。這些結果證明了我們的域適應方法能夠有效地利用生成的域適應訓練對,對原始訓練于合成數(shù)據(jù)集的去模糊模型進行有效微調(diào)。
本文轉載自 ??AI論文解讀??,作者:柏企科技圈
