自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

爆火DragGAN正式開源,GitHub近18k星!清華校友帶GAN逆襲,大象一秒P轉(zhuǎn)身

人工智能 新聞
就在剛剛,引爆AI繪圖圈的DragGAN,正式發(fā)布了開源代碼!

上個月,一項名為「Drag Your GAN」的核彈級研究,在AI繪圖圈炸響。

論文由MPII、MIT、賓大、谷歌等機構(gòu)的學(xué)者聯(lián)合發(fā)布,并且已被SIGGRAPH 2023錄用。

從此,我們只需一拖一拽,就能實現(xiàn)完美P圖了,哪里不準修哪里!

圖片圖片

拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對?修!

而就在剛剛,團隊正式放出了官方代碼!

圖片圖片

項目地址:https://github.com/XingangPan/DragGAN

首先,需要下載預(yù)訓(xùn)練StyleGAN2的權(quán)重:

sh scripts/download_model.sh

如果想嘗試StyleGAN-Human和Landscapes HQ(LHQ)數(shù)據(jù)集,則需要將下載的權(quán)重放到./checkpoints目錄下。

接著,啟動DragGAN GUI來編輯GAN生成的圖像:

sh scripts/gui.sh

如果要編輯真實圖像,則需要使用像PTI這樣的工具執(zhí)行GAN反演。然后將新的潛在代碼和模型權(quán)重加載到GUI中。

有網(wǎng)友在上手試用后表示,只會占用大約6G顯存,但是使用效果不是很理想,坐等后續(xù)改進。

圖片圖片

GAN逆襲歸來,一秒把大象P轉(zhuǎn)身

顧名思義,通過DragGAN,我們可以任意拖動圖像進行編輯,無論是對象的形狀、布局、姿態(tài)、表情、位置、大小,都可以做到精準控制。

圖片圖片

項目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

在確定關(guān)鍵點的起始和終止位置之后,再根據(jù)對象的物理結(jié)構(gòu),用GAN生成符合邏輯的圖像,一張?zhí)舨怀銎凭`的圖就做好了。

圖片圖片

比如,輕輕一拖動,就能想把耷拉著的狗耳朵提起來,讓狗狗從站著變成趴下,以及讓狗狗瞬間張嘴微笑。

圖片圖片

模特的姿勢可以隨意改變,短褲可以變成九分褲,短袖可以變長袖。

圖片圖片

湖邊的樹可以瞬間長高,湖里的倒影也跟著一起改變。

圖片圖片

原圖中的太陽沒露臉?無所謂,DragGAN會給你造個日出。

圖片圖片

對此網(wǎng)友調(diào)侃稱,現(xiàn)在甲方提出「讓大象轉(zhuǎn)個身」的要求,終于可以實現(xiàn)了。

DragGAN:圖像處理新時代

在這項工作中,團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點精確「拖動」至目標點。

圖片圖片

DragGAN主要包括以下兩個主要組成部分:

1. 基于特征的運動監(jiān)控,驅(qū)動操作點向目標位置移動

2. 一個新的點跟蹤方法,利用區(qū)分性的GAN特征持續(xù)定位操作點的位置

通過DragGAN,任何人都可以對像素進行精確的控制,進而編輯如動物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。

由于這些操作在GAN的學(xué)習(xí)生成圖像流形上進行,因此它們傾向于生成逼真的輸出,即使在富有挑戰(zhàn)性的場景下也是如此,例如被遮擋的內(nèi)容和變形的圖像。

定性和定量的對比表明,DragGAN在圖像操作和點跟蹤任務(wù)中,都明顯優(yōu)于先前的方法。

拖拽編輯

在DragGAN的加持下,用戶只需要設(shè)置幾個操作點(紅點),目標點(藍點),以及可選的表示可移動區(qū)域的mask(亮區(qū))。然后,模型就會自動完成后續(xù)的圖像生成,

其中,動態(tài)監(jiān)控步驟會讓操作點(紅點)向目標點(藍點)移動,點追蹤步驟則通過更新操作點來追蹤圖像中的對象。此過程會一直持續(xù),直到操作點達到其相應(yīng)的目標點。

圖片圖片

流程

具體來說,團隊通過在生成器的特征圖上的位移修補損失來實現(xiàn)動態(tài)監(jiān)控,并在相同的特征空間中通過最近鄰搜索進行點追蹤。

圖片圖片

方法

值得注意的是,用戶可以通過添加mask的方式,來控制需要編輯的區(qū)域。

可以看到,當(dāng)狗的頭部被mask時,在編輯后的圖像中,只有頭部發(fā)生了移動,而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話,整個狗的身體也會跟著移動。

這也顯示出,基于點的操作通常有多種可能的解決方案,而GAN會傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。

圖片圖片

mask的效果

在真實圖像的編輯中,團隊應(yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛空間,然后分別編輯姿勢、頭發(fā)、形狀和表情。

圖片圖片

圖片圖片

真實圖像的處理

不僅如此,DragGAN還具有強大的泛化能力,可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如,一個張得巨大的嘴,以及一個被極限放大的車輪。

圖片圖片

泛化能力

作者介紹

Xingang Pan

論文一作Xingang Pan,目前已經(jīng)正式成為了南洋理工大學(xué)計算機科學(xué)與工程學(xué)院的助理教授。

研究方向主要集中在生成式AI模型、AI與人類協(xié)同內(nèi)容生成、3D/視頻編輯和生成、神經(jīng)場景表示和渲染,以及物理感知內(nèi)容生成。

在此之前,他于2016年在清華大學(xué)獲得學(xué)士學(xué)位,2021年在香港中文大學(xué)多媒體實驗室獲得博士學(xué)位,導(dǎo)師是湯曉鷗教授。隨后在馬克斯·普朗克計算機科學(xué)研究所從事了博士后研究,由Christian Theobalt教授指導(dǎo)。

Lingjie Liu

圖片

Lingjie Liu是賓夕法尼亞大學(xué)計算機和信息科學(xué)系的Aravind K. Joshi助理教授,負責(zé)賓大計算機圖形實驗室,同時也是通用機器人、自動化、傳感和感知(GRASP)實驗室的成員。

在此之前,她是馬克斯·普朗克計算機科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-26 09:45:56

AI模型

2023-10-04 19:52:33

模型論文

2023-05-22 07:29:59

AIDragGAN

2023-11-17 15:50:27

AI訓(xùn)練

2023-06-01 16:56:50

AI女友

2023-08-07 13:36:26

開源智能

2023-12-11 19:08:59

AI模型

2022-07-11 09:59:19

GitHub開源

2019-10-30 15:27:28

Google谷歌Alphabet

2020-11-27 15:35:18

GitHubVue.js開發(fā)

2021-01-20 09:09:04

微信張小龍視頻號

2020-03-13 10:18:43

GitHub 技術(shù)開源

2023-06-20 16:05:58

AI代碼

2013-07-23 09:42:21

IBMNetflix

2025-01-13 08:20:00

AI模型訓(xùn)練

2024-07-10 12:41:40

數(shù)據(jù)訓(xùn)練

2016-03-08 11:11:35

2019-10-30 10:27:41

GitHub代碼開發(fā)者

2024-03-25 14:58:49

微軟研究

2021-04-09 16:25:00

GitHub代碼開發(fā)者
點贊
收藏

51CTO技術(shù)棧公眾號