阿里達(dá)摩院提出開源AI圖片上色模型DDColor:可以為黑白照片、人物、動漫風(fēng)景等一鍵上色!
本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
DDColor 可以為歷史黑白老照片提供生動自然的著色。它甚至可以對動漫游戲中的風(fēng)景進(jìn)行著色/重新著色,將您的動畫風(fēng)景轉(zhuǎn)變?yōu)楸普娴默F(xiàn)實(shí)生活風(fēng)格!
相關(guān)鏈接
- 項(xiàng)目:github.com/piddnad/DDColor
- Demo:replicate.com/piddnad/ddcolor
- 論文:arxiv.org/abs/2212.11613
論文閱讀
摘要
圖像著色是一個具有挑戰(zhàn)性的問題,由于 多模態(tài)不確定性和高病態(tài)性。直接 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常會導(dǎo)致錯誤 語義色彩和色彩豐富度低。雖然基于轉(zhuǎn)換器的方法可以提供更好的結(jié)果,但它們經(jīng)常依賴 在人工設(shè)計的先驗(yàn)上,泛化能力差,而且會引入色差效應(yīng)。
為了解決這些問題,我們提出了一個端到端 圖像著色用雙解碼器方法。我們的方法包括一個像素解碼器和一個基于查詢的顏色 譯碼器。前者恢復(fù)圖像的空間分辨率 而后者則利用豐富的視覺特征進(jìn)行細(xì)化 顏色查詢,從而避免手工制作的先驗(yàn)
我們兩個解碼器一起工作,以建立之間的相關(guān)性 通過交叉注意進(jìn)行顏色和多尺度語義表征,顯著緩解了顏色出血效應(yīng)。此外,還引入了一種簡單而有效的色彩損失來增強(qiáng)色彩的豐富度。大量的實(shí)驗(yàn)表明,DDColor在數(shù)量上都比現(xiàn)有的最先進(jìn)的作品具有優(yōu)越的性能 和定性。
方法
視覺對比。新的著色方法DDColor,能夠產(chǎn)生更自然的著色效果 與現(xiàn)有方法相比,在包含多個對象和不同背景的復(fù)雜場景中進(jìn)行生動的著色。
方法概述
我們提出的模型DDColor以端到端的方式對灰度圖像xL進(jìn)行著色。我們首先使用骨干網(wǎng)絡(luò)提取其特征,然后將其輸入到像素解碼器中以恢復(fù)空間結(jié)構(gòu) 圖像的。同時,顏色解碼器對不同尺度的視覺特征進(jìn)行顏色查詢,學(xué)習(xí)語義感知的顏色表示
結(jié)構(gòu)
彩色解碼器塊。以圖像特征和顏色查詢作為輸入,顏色解碼器塊建立相關(guān)性 通過交叉注意、自我注意和前饋操作在語義和顏色表征之間進(jìn)行。
簡而言之,DDColor使用多尺度視覺特征來優(yōu)化可學(xué)習(xí)的顏色標(biāo)記(即顏色查詢),并在自動圖像著色上實(shí)現(xiàn)最先進(jìn)的性能。
實(shí)驗(yàn)
DDColor可以為歷史黑白老照片提供生動自然的著色。
它甚至可以對動畫游戲中的風(fēng)景進(jìn)行著色/重新著色,將您的動畫風(fēng)景轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)生活中的風(fēng)格!
總結(jié)
在這項(xiàng)工作中,我們提出了一種端到端圖像著色方法。DDColor的關(guān)鍵在于兩個解碼器的設(shè)計:顏色解碼器,它通過使用基于查詢的轉(zhuǎn)換器來學(xué)習(xí)語義感知的顏色查詢產(chǎn)生多尺度視覺特征以優(yōu)化顏色查詢。我們的方法在這兩方面都超越了以前的方法性能和生成現(xiàn)實(shí)和語義一致的著色的能力。