英偉達開源「Imaginaire」:九大圖像及視頻合成方法
圖像和視頻等視覺數(shù)據(jù)的生成是機器學(xué)習和計算機視覺領(lǐng)域重要的研究問題之一。近幾年,英偉達提出了 SPADE、MUNIT 等多個圖像及視頻合成模型。
近日,英偉達又開源了一個新的 PyTorch 庫「Imaginaire」,共包含 9 種英偉達開發(fā)的圖像及視頻合成方法。
項目地址:https://github.com/NVlabs/imaginaire
這九種方法分別為:
有監(jiān)督的圖像到圖像轉(zhuǎn)換
1、pix2pixHD
2、SPADE/GauGAN
無監(jiān)督的圖像到圖像轉(zhuǎn)換
1、UNIT
2、MUNIT
3、FUNIT
4、COCO-FUNIT
視頻到視頻轉(zhuǎn)換
1、vid2vid
2、fs-vid2vid
3、wc-vid2vid
pix2pixHD
「pix2pixHD」是 pix2pix 的升級版本,具備高分辨率圖像和語義處理功能,主要解決了深度圖像合成編輯中的質(zhì)量及分辨率問題。

項目主頁:https://tcwang0509.github.io/pix2pixHD/

論文鏈接:https://arxiv.org/pdf/1711.11585.pdf
在這篇論文中,來自英偉達和 UC 伯克利的研究者提出了一種使用條件 GAN 從語義標簽圖上合成高分辨率照片級逼真圖像的方法。此前,條件 GAN 已經(jīng)有了很廣泛的應(yīng)用,但生成結(jié)果均為低分辨率并與現(xiàn)實差異較大。因此,研究者使用了一種新的對抗損失、多尺度生成器和判別器架構(gòu)來生成 2048x1024 的結(jié)果。此外,研究者為該框架擴展了兩個附加功能。首先,合并了對象實例分割信息,實現(xiàn)了刪除 / 添加對象和更改對象類別等操作;其次,提出了一種在相同輸入下生成多種結(jié)果的方法,讓使用者可以編輯對象外觀。該論文被 CVPR 2018 接收。
SPADE/GauGAN
在 GTC 2019 上,英偉達展示了一款交互應(yīng)用「GauGAN」。它可以輕松地將粗糙的涂鴉變成逼真的杰作,令人嘆為觀止,效果堪比真人攝影師作品。GauGAN 應(yīng)用主要使用的技術(shù),就是英偉達的 SPADE。

項目主頁:https://nvlabs.github.io/SPADE/

論文地址:https://arxiv.org/pdf/1903.07291.pdf
在這篇論文中,來自 UC 伯克利、英偉達、MIT CSALL 的研究者提出了一種空間自適應(yīng)歸一化方法,在給定輸入語義布局的情況下,實現(xiàn)了一種簡單有效的逼真圖像合成層。以前的方法直接將語義布局作為輸入提供給深度網(wǎng)絡(luò),然后通過卷積、歸一化和非線性層處理深度網(wǎng)絡(luò)。實驗表明,這種方法并不是最優(yōu)的,因為歸一化層傾向于「洗去」語義信息。為了解決這個問題,研究者提出使用輸入布局,通過空間自適應(yīng)的、學(xué)習的轉(zhuǎn)換來調(diào)節(jié)歸一化層中的激活函數(shù)。在幾個具有挑戰(zhàn)性的數(shù)據(jù)集上的實驗表明,與現(xiàn)有方法相比,該方法在視覺保真度和與輸入布局的對齊方面具有優(yōu)勢。最后,該模型允許用戶控制合成圖像的語義和風格。該論文被 CVPR 2019 接收為 Oral 論文。
UNIT
項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/unit

論文地址:https://arxiv.org/abs/1703.00848
UNIT(Unsupervised image-to-image translation)旨在通過使用來自單個域中邊緣分布的圖像來學(xué)習不同域中圖像的聯(lián)合分布。由于要達到給定的邊緣分布需要一個聯(lián)合分布的無限集,因此如果沒有其他假設(shè),就無法從邊緣分布推斷聯(lián)合分布。為了解決這個問題,研究者提出了一個共享潛在空間的假設(shè),并提出了一個基于耦合 GAN 的無監(jiān)督圖像到圖像轉(zhuǎn)換框架。
MUNIT
無監(jiān)督圖像到圖像轉(zhuǎn)換是計算機視覺領(lǐng)域一個重要而富有挑戰(zhàn)的問題:給定源域(source domain)中的一張圖像,需要在沒有任何配對圖像數(shù)據(jù)的情況下,學(xué)習出目標域(target domain)中其對應(yīng)圖像的條件分布。雖然條件分布是多模態(tài)的,但此前方法都引入了過于簡化的假設(shè),而將其作為一個確定性的一對一映射,因此無法在特定的源域圖像中生成富有多樣性的輸出結(jié)果。
項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/munit

論文地址:https://arxiv.org/abs/1804.04732
在這篇論文中,康奈爾大學(xué)和英偉達的研究者提出了多模態(tài)無監(jiān)督圖像到圖像轉(zhuǎn)換 MUNT 框架。研究者假設(shè),圖像表征可以分解為一個具有域不變性(domain-invariant)的內(nèi)容碼(content code)和一個能刻畫域特有性質(zhì)的風格碼(style code)。為了將圖像轉(zhuǎn)化到另一個域中,研究者將:1. 原圖像的內(nèi)容碼,2. 從目標域中隨機抽取的某個風格碼 進行重組,并分析了 MUNT 框架,并建立了相應(yīng)的理論結(jié)果。大量實驗表明,將 MUNT 與其他 SOTA 方法相比具備優(yōu)越性。最后,通過引入一個風格圖像(style image)樣例,使用者可以利用 MUNT 來控制轉(zhuǎn)化的輸出風格。
FUNIT
項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/funit

論文地址:https://arxiv.org/abs/1905.01723
雖然此前無監(jiān)督圖像到圖像轉(zhuǎn)換算法在很多方面都非常成功,尤其是跨圖像類別的復(fù)雜外觀轉(zhuǎn)換,但根據(jù)先驗知識從新一類少量樣本中進行泛化的能力依然無法做到。具體來說,如果模型需要在某些類別上執(zhí)行圖像轉(zhuǎn)換,那么這些算法需要所有類別的大量圖像作為訓(xùn)練集。也就是說,它們不支持 few-shot 泛化??傮w而言有以下兩方面的限制:
其一,這些方法通常需要在訓(xùn)練時看到目標類的大量圖像;
其二,用于一個轉(zhuǎn)換任務(wù)的訓(xùn)練模型在測試時無法應(yīng)用于另一個轉(zhuǎn)換任務(wù)。
在這篇論文中,英偉達的研究者提出一種 Few-shot 無監(jiān)督圖像到圖像轉(zhuǎn)換(FUNIT)框架。該框架旨在學(xué)習一種新穎的圖像到圖像轉(zhuǎn)換模型,從而利用目標類的少量圖像將源類圖像映射到目標類圖像。也就是說,該模型在訓(xùn)練階段從未看過目標類圖像,卻被要求在測試時生成一些目標類圖像。
COCO-FUNIT
項目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/coco_funit

論文地址:https://nvlabs.github.io/COCO-FUNIT/paper.pdf
COCO-FUNIT 之前的圖像到圖像變換模型在模擬不可見域的外觀時很難保留輸入圖像的結(jié)構(gòu),這被稱為內(nèi)容丟失問題。當輸入圖像和示例圖像中對象的姿勢有較大差異時,這個問題尤其嚴重。為了解決這個問題,研究者提出了一種新的 few-shot 的圖像變換模型,即 COCO-FUNIT。
vid2vid
2018 年,英偉達聯(lián)合 MIT CSAIL 開發(fā)出了直接視頻到視頻的轉(zhuǎn)換系統(tǒng)。該系統(tǒng)不僅能用語義分割掩碼視頻合成真實街景視頻,分辨率達到 2K,能用草圖視頻合成真實人物視頻,還能用姿態(tài)圖合成真人舞蹈視頻。此外,在語義分割掩碼輸入下,只需換個掩碼顏色,該系統(tǒng)就能直接將街景中的樹變成建筑。
項目主頁:https://tcwang0509.github.io/vid2vid/

論文地址:https://arxiv.org/abs/1808.06601
在這篇論文中,來自英偉達和 MIT 的研究者提出了一種新型的生成對抗網(wǎng)絡(luò)框架下的視頻到視頻合成方法。通過精心設(shè)計生成器和判別器架構(gòu),結(jié)合空間 - 時間對抗目標函數(shù),研究者在多種輸入視頻格式下生成了高分辨率、時間連貫的照片級視頻,其中多種形式的輸入包括分割掩碼、草圖和姿態(tài)圖。在多個基準上的實驗結(jié)果表明,相對于強基線,本文方法更具優(yōu)越性,該模型可以合成長達 30 秒的 2K 分辨率街景視頻,與當前最佳的視頻合成方法相比具備顯著的優(yōu)勢。研究者將該方法應(yīng)用到未來視頻預(yù)測中,表現(xiàn)均超越其他方法。該論文被 NeurIPS 2018 接收。
Few-shot vid2vid
「vid2vid」旨在將人體姿態(tài)或分割掩模等輸入的語義視頻,轉(zhuǎn)換為逼真的輸出視頻,但它依然存在以下兩種局限:其一,現(xiàn)有方法極其需要數(shù)據(jù)。訓(xùn)練過程中需要大量目標人物或場景的圖像;其二,學(xué)習到的模型泛化能力不足。姿態(tài)到人體(pose-to-human)的 vid2vid 模型只能合成訓(xùn)練集中單個人的姿態(tài),不能泛化到訓(xùn)練集中沒有的其他人。
2019 年,英偉達又推出了新的「few-shot vid2vid」框架,僅借助少量目標示例圖像就能合成之前未見過的目標或場景的視頻,在跳舞、頭部特寫、街景等場景中都能得到逼真的結(jié)果。

項目主頁:https://nvlabs.github.io/few-shot-vid2vid/

論文地址:https://arxiv.org/pdf/1910.12713.pdf
在這篇論文中,英偉達的研究者提出了一種 few-shot vid2vid 框架,該框架在測試時通過利用目標主體的少量示例圖像,學(xué)習對以前未見主體或場景的視頻進行合成。
借助于一個利用注意力機制的新型網(wǎng)絡(luò)權(quán)重生成模塊,few-shot vid2vid 模型實現(xiàn)了在少樣本情況下的泛化能力。研究者進行了大量的實驗驗證,并利用人體跳舞、頭部特寫和街景等大型視頻數(shù)據(jù)集與強基準做了對比。
實驗結(jié)果表明,英偉達提出的 few-shot vid2vid 框架能夠有效地解決現(xiàn)有方法存在的局限性。該論文被 NeurIPS 2019 接收。
World Consistent vid2vid
「World Consistent vid2vid」是英偉達在 2020 年 7 月推出的一種視頻到視頻合成方法。vid2vid 視頻編碼方法能夠?qū)崿F(xiàn)短時間的時間一致性,但在長時間的情況下不能時間一致性。這是因為對 3D 世界渲染方式缺乏了解,并且只能根據(jù)過去的幾幀來生成每一幀。
項目主頁:https://nvlabs.github.io/wc-vid2vid/

論文地址:https://arxiv.org/pdf/2007.08509.pdf
在這篇論文中,英偉達的研究者引入了一個新的視頻渲染框架,該框架能夠在渲染過程中有效利用過去生成的所有幀,來改善后續(xù)視頻的合成效果。研究者利用「制導(dǎo)圖像」,并進一步提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以利用存儲在制導(dǎo)圖像中的信息。一系列實驗結(jié)果表明,該方法具備良好表現(xiàn),輸出視頻在 3D 世界渲染上是一致的。