自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

頂刊TPAMI 2023！生成式AI與圖像合成綜述發(fā)布！

作者：CVer 2023-09-11 12:04:20

人工智能智能汽車

這些生成式AI方法是如何生成以假亂真的視覺(jué)效果？又是如何利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)實(shí)現(xiàn)畫作、3D生成以及其他創(chuàng)造性任務(wù)的呢？我們的綜述論文將會(huì)給您提供這些問(wèn)題的答案。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

生成式AI作為當(dāng)前人工智能領(lǐng)域的前沿技術(shù)，已被廣泛的應(yīng)用于各類視覺(jué)合成任務(wù)。

隨著DALL-E2，Stable Diffusion和DreamFusion的發(fā)布，AI作畫和3D合成實(shí)現(xiàn)了令人驚嘆的視覺(jué)效果并且在全球范圍內(nèi)的爆炸式增長(zhǎng)。這些生成式AI技術(shù)深刻地拓展了人們對(duì)于AI圖像生成能力的認(rèn)識(shí)，那么這些生成式AI方法是如何生成以假亂真的視覺(jué)效果？又是如何利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)實(shí)現(xiàn)畫作、3D生成以及其他創(chuàng)造性任務(wù)的呢？我們的綜述論文將會(huì)給您提供這些問(wèn)題的答案。

論文：https://arxiv.org/abs/2112.13592

GitHub地址：

https://github.com/fnzhan/Generative-AI

項(xiàng)目地址：https://fnzhan.com/Generative-AI/

在第一章節(jié)，該綜述描述了多模態(tài)圖像合成與編輯任務(wù)的意義和整體發(fā)展，以及本論文的貢獻(xiàn)與總體結(jié)構(gòu)。

在第二章節(jié)，根據(jù)引導(dǎo)圖片合成與編輯的數(shù)據(jù)模態(tài)，該綜述論文介紹了比較常用的視覺(jué)引導(dǎo)，文字引導(dǎo)，語(yǔ)音引導(dǎo)，還有近期DragGAN提出的控制點(diǎn)引導(dǎo)等，并且介紹了相應(yīng)模態(tài)數(shù)據(jù)的處理方法。

在第三章節(jié)，根據(jù)圖像合成與編輯的模型框架，該論文對(duì)目前的各種方法進(jìn)行了分類，包括基于GAN的方法，擴(kuò)散模型方法，自回歸方法，和神經(jīng)輻射場(chǎng)（NeRF）方法。

由于基于GAN的方法一般使用條件GAN和 GAN 反演，因此該論文進(jìn)一步根據(jù) 控制條件的融合方式，模型的結(jié)構(gòu)，損失函數(shù)設(shè)計(jì)，多模態(tài)對(duì)齊，和跨模態(tài)監(jiān)督進(jìn)行了詳細(xì)描述。

近期，火熱的擴(kuò)散模型也被廣泛應(yīng)用于多模態(tài)合成與編輯任務(wù)。例如效果驚人的DALLE-2和Imagen都是基于擴(kuò)散模型實(shí)現(xiàn)的。相比于GAN，擴(kuò)散式生成模型擁有一些良好的性質(zhì)，比如靜態(tài)的訓(xùn)練目標(biāo)和易擴(kuò)展性。該論文依據(jù)條件擴(kuò)散模型和預(yù)訓(xùn)練擴(kuò)散模型對(duì)現(xiàn)有方法進(jìn)行了分類與詳細(xì)分析。

相比于基于GAN和擴(kuò)散模型的方法，自回歸模型方法能夠更加自然的處理多模態(tài)數(shù)據(jù)，以及利用目前流行的Transformer模型。自回歸方法一般先學(xué)習(xí)一個(gè)向量量化編碼器將圖片離散地表示為token序列，然后自回歸式地建模token的分布。由于文本和語(yǔ)音等數(shù)據(jù)都能表示為token并作為自回歸建模的條件，因此各種多模態(tài)圖片合成與編輯任務(wù)都能統(tǒng)一到一個(gè)框架當(dāng)中。

以上方法主要聚焦于2D圖像的多模態(tài)合成與編輯。近期隨著神經(jīng)輻射場(chǎng)（NeRF）的迅速發(fā)展，3D感知的多模態(tài)合成與編輯也吸引了越來(lái)越多的關(guān)注。由于需要考慮多視角一致性，3D感知的多模態(tài)合成與編輯是更具挑戰(zhàn)性的任務(wù)。本文針對(duì)單場(chǎng)景優(yōu)化NeRF，生成式NeRF兩種方法對(duì)現(xiàn)有工作進(jìn)行了分類與總結(jié)。

隨后，該綜述對(duì)以上四種模型方法的進(jìn)行了比較和討論?？傮w而言，相比于GAN，目前最先進(jìn)的模型更加偏愛(ài)自回歸模型和擴(kuò)散模型。而NeRF在多模態(tài)合成與編輯任務(wù)的應(yīng)用為這個(gè)領(lǐng)域的研究打開(kāi)了一扇新的窗戶。

在第四章節(jié)，該綜述匯集了多模態(tài)合成與編輯領(lǐng)域流行的數(shù)據(jù)集以及相應(yīng)的模態(tài)標(biāo)注，并且針對(duì)各模態(tài)典型任務(wù)（語(yǔ)義圖像合成，文字到圖像合成，語(yǔ)音引導(dǎo)圖像編輯）對(duì)當(dāng)前方法進(jìn)行了定量的比較。同時(shí)也對(duì)多種模態(tài)同時(shí)控制生成的結(jié)果進(jìn)行了可視化。

在第五章節(jié)，該綜述對(duì)此領(lǐng)域目前的挑戰(zhàn)和未來(lái)方向進(jìn)行了探討和分析，包括大規(guī)模的多模態(tài)數(shù)據(jù)集，準(zhǔn)確可靠的評(píng)估指標(biāo)，高效的網(wǎng)絡(luò)架構(gòu)，以及3D感知的發(fā)展方向。

在第六和第七章節(jié)，該綜述分別闡述了此領(lǐng)域潛在的社會(huì)影響和總結(jié)了文章的內(nèi)容與貢獻(xiàn)。

原文鏈接：https://mp.weixin.qq.com/s/T8vFK2iRSLb_E1hJ6pzuGA

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

AI 深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)