都在談端到端的輸出,怎么提高端到端輸入的質(zhì)量?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
文章:RMFA-Net: A Neural ISP for Real RAW to RGB Image Reconstruction
鏈接:https://arxiv.org/abs/2406.11469
問題引出
圖像信號處理器(ISP)是一種專門設(shè)計的系統(tǒng),用于從CMOS傳感器捕獲的原始數(shù)據(jù)重建RGB圖像?,F(xiàn)有ISP系統(tǒng)是基于傳統(tǒng)算法的,依賴于對傳感器的深入理解和復雜的調(diào)試,這限制了它們在自動駕駛和機器人等領(lǐng)域的適用性。雖然在基于人眼視覺的標準下,傳統(tǒng)算法取得了較好的效果,但在視覺感知系統(tǒng)中無法很好適配?;谏疃葘W習的ISP算法作為一種具有顯著潛力和多功能性的方法出現(xiàn)。近年來,越來越多的人對開發(fā)基于學習的算法以設(shè)計高效且高性能的ISP算法產(chǎn)生了興趣,這些算法可以針對特定領(lǐng)域的需求量身定制。
然而,現(xiàn)有算法并未充分考慮raw數(shù)據(jù)的特定特性,如黑電平和CFA,這可能會在處理不當時對紋理和顏色產(chǎn)生負面影響。此外,raw數(shù)據(jù)中的不均勻曝光也未被仔細考慮,導致對比度和亮度信息無法準確恢復?,F(xiàn)有算法在數(shù)據(jù)處理的時候,破壞了原始數(shù)據(jù)中的高頻信息,導致高頻細節(jié)難以回復,同時會帶來模糊等問題。本文介紹了RMFA-Net以解決這些問題。我們進行顯示黑電平校正以減輕暗場景中的顏色偏移。為了保留高頻信息并防止錯位,我們提出了一種新的三通道分離模式。為了解決不均勻曝光的問題,我們個基于Retinex理論的設(shè)計了色調(diào)映射模塊,從而最終獲得更好的圖像效果。
框架介紹
Figure 1 RMFA-Net網(wǎng)絡結(jié)構(gòu)
圖1(a)提供了本文所提出的深度學習架構(gòu)的示意圖。該網(wǎng)絡分為三個主要部分:輸入模塊,RMFA模塊棧,以及輸出模塊。輸入模塊接受大小為256 × 256 × 3的圖像作為輸入,并將深度從3擴展到統(tǒng)一的寬度。在這一部分中,使用了兩個卷積層,卷積核大小為3 × 3。需要注意的是,tanh函數(shù)被用來將結(jié)果映射到區(qū)間(?1, 1) 。第二部分由多個RMFA模塊組成。第三部分是輸出模塊,其中使用一個卷積層,緊接著是sigmoid激活函數(shù)來生成輸出。
關(guān)鍵組件介紹
RMFA模塊
RMFA模塊是我們模型的基本構(gòu)建塊,如圖1(b)所示。其包含幾個子模塊:
- 高頻信息提取分支:這個子分支專注于從輸入數(shù)據(jù)中提取高頻信息。它利用大小為1 × 1的卷積核來捕捉圖像中的細節(jié)。通過使用較小的卷積核,網(wǎng)絡能夠有效地捕捉高頻紋理并保留重建圖像中的復雜細節(jié)。
- 低頻分支:這個子分支負責捕獲輸入數(shù)據(jù)中的低頻信息。它利用大小為3×3的較大卷積核來捕捉更廣泛的特征并平滑圖像。較大的卷積核允許網(wǎng)絡捕獲低頻紋理,例如整體色彩和色調(diào)變化,并確保重建的圖像保持視覺上的美觀
- 色調(diào)映射模塊:模塊紋理模塊和色調(diào)映射模塊的輸出首先被連接在一起。隨后,使用一個卷積層將特征圖的數(shù)量映射到原始深度寬度。
- 注意力模塊。RMFA模塊的最后添加了channel attention和spatial attention模塊。同時添加了skip connection連接。
作為一個多功能的構(gòu)建塊,RMFA模塊可以無縫地集成到各種架構(gòu)中,增強我們模型的靈活性和適應性
通道模式
Figure 2:3通道模式
如圖2所示,在之前的工作中,通常的做法是將4通道模式,在這種模式下,綠色通道進一步分為Gr和Gb通道。這種額外的分離相當于對綠色通道進行下采樣,這會破壞raw數(shù)據(jù)中的高頻信息。
此外,4通道模式會引起像素錯位。如圖2(a)中的黑框所示,四個通道中相同位置的像素實際上對應于原始raw數(shù)據(jù)中的2×2鄰域。這種錯位可能導致模糊,影響圖像質(zhì)量
本文設(shè)計了一種新方法,如圖2(c)所示。我們將Bayer raw數(shù)據(jù)分為三個通道(R、G、B),每個通道保留raw數(shù)據(jù)的大小。對于未采樣的像素,我們用1填充。因此,G通道的采樣率保持不變,盡可能保留高頻紋理信息。我們相信這種方法將更有助于網(wǎng)絡準確地重建高頻信息。
量化指標
我們在公開數(shù)據(jù)集上測試我們的效果,PSNR和SSIM兩個指標都超越了sota結(jié)果+1db。同時我們網(wǎng)絡參數(shù)也控制在較小的范圍內(nèi)。如表1所示
Table 1:結(jié)果對比
總結(jié)
在本文中,我們提出了名為RMFA-Net的Neural ISP網(wǎng)絡,這是一種用于RAW到RGB圖像重建的新型深度學習模型。我們在公開數(shù)據(jù)集上證明了我們算法的有效性。其在PSNR和SSIM等圖像指標超過了sota結(jié)果1個Db。RMFA-Net在重建亮度、顏色、紋理和整體圖像細節(jié)方面有著更為出色的表現(xiàn)。
此外,我們還提供了一些額外的細節(jié)和結(jié)果,包括數(shù)據(jù)處理細節(jié)、網(wǎng)絡結(jié)構(gòu)細節(jié)、各處理模塊作用對比分析等。這些額外信息進一步證明了我們方法的有效性和實用性。我們希望我們的工作能夠啟發(fā)未來關(guān)于Neural ISP系統(tǒng)的研究