自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DragGAN開源三天Star量23k,這又來一個DragDiffusion

人工智能 新聞
動動鼠標(biāo),讓圖片變「活」,成為你想要的模樣。

在 AIGC 的神奇世界里,我們可以在圖像上通過「拖曳」的方式,改變并合成自己想要的圖像。比如讓一頭獅子轉(zhuǎn)頭并張嘴:

圖片

實現(xiàn)這一效果的研究出自華人一作領(lǐng)銜的「Drag Your GAN」論文,于上個月放出并已被 SIGGRAPH 2023 會議接收。

一個多月過去了,該研究團隊于近日放出了官方代碼。短短三天時間,Star 量便已突破了 23k,足可見其火爆程度。

圖片圖片

GitHub 地址:https://github.com/XingangPan/DragGAN

無獨有偶,今日又一項類似的研究 —— DragDiffusion 進入了人們的視線。此前的 DragGAN 實現(xiàn)了基于點的交互式圖像編輯,并取得像素級精度的編輯效果。但是也有不足,DragGAN 是基于生成對抗網(wǎng)絡(luò)(GAN),通用性會受到預(yù)訓(xùn)練 GAN 模型容量的限制。

在新研究中,新加坡國立大學(xué)和字節(jié)跳動的幾位研究者將這類編輯框架擴展到了擴散模型,提出了 DragDiffusion。他們利用大規(guī)模預(yù)訓(xùn)練擴散模型,極大提升了基于點的交互式編輯在現(xiàn)實世界場景中的適用性。

雖然現(xiàn)在大多數(shù)基于擴散的圖像編輯方法都適用于文本嵌入,但 DragDiffusion 優(yōu)化了擴散潛在表示,實現(xiàn)了精確的空間控制。

圖片圖片

  • 論文地址:https://arxiv.org/pdf/2306.14435.pdf
  • 項目地址:https://yujun-shi.github.io/projects/dragdiffusion.html

研究者表示,擴散模型以迭代方式生成圖像,而「一步」優(yōu)化擴散潛在表示足以生成連貫結(jié)果,使 DragDiffusion 高效完成了高質(zhì)量編輯。

他們在各種具有挑戰(zhàn)性的場景(如多對象、不同對象類別)下進行了廣泛實驗,驗證了 DragDiffusion 的可塑性和通用性。相關(guān)代碼也將很快放出、

下面我們看看 DragDiffusion 效果如何。

首先,我們想讓下圖中的小貓咪的頭再抬高一點,用戶只需將紅色的點拖拽至藍色的點就可以了:

圖片

接下來,我們想讓山峰變得再高一點,也沒有問題,拖拽紅色關(guān)鍵點就可以了:

圖片圖片

還想讓雕塑的頭像轉(zhuǎn)個頭,拖拽一下就能辦到:

圖片圖片

讓岸邊的花,開的范圍更廣一點:

圖片

方法介紹

本文提出的 DRAGDIFFUSION 旨在優(yōu)化特定的擴散潛變量,以實現(xiàn)可交互的、基于點的圖像編輯。

為了實現(xiàn)這一目標(biāo),該研究首先在擴散模型的基礎(chǔ)上微調(diào) LoRA,以重建用戶輸入圖像。這樣做可以保證輸入、輸出圖像的風(fēng)格保持一致。

接下來,研究者對輸入圖像采用 DDIM inversion(這是一種探索擴散模型的逆變換和潛在空間操作的方法),以獲得特定步驟的擴散潛變量。

在編輯過程中,研究者反復(fù)運用動作監(jiān)督和點跟蹤,以優(yōu)化先前獲得的第 t 步擴散潛變量,從而將處理點的內(nèi)容「拖拽(drag)」到目標(biāo)位置。編輯過程還應(yīng)用了正則化項,以確保圖像的未掩碼區(qū)域保持不變。

最后,通過 DDIM 對優(yōu)化后的第 t 步潛變量進行去噪,得到編輯后的結(jié)果。總體概覽圖如下所示:

圖片圖片

實驗結(jié)果

給定一張輸入圖像,DRAGDIFFUSION 將關(guān)鍵點(紅色)的內(nèi)容「拖拽」到相應(yīng)的目標(biāo)點(藍色)。例如在圖(1)中,將小狗的頭轉(zhuǎn)過來,圖(7)將老虎的嘴巴合上等等。

圖片圖片

下面是更多示例演示。如圖(4)將山峰變高,圖(7)將筆頭變大等等。

圖片圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-06-14 08:42:00

2021-06-03 11:51:20

Windows操作系統(tǒng)功能

2021-04-07 14:52:43

開源技術(shù) 軟件

2020-08-18 14:48:00

AI 數(shù)據(jù)人工智能

2021-12-23 10:59:30

開源技術(shù) 軟件

2023-08-28 07:26:01

2013-11-18 18:00:17

2022-02-15 15:48:03

GitHub工具圖像

2020-12-09 14:18:46

AI 技術(shù)馬賽克

2025-04-24 09:21:00

2018-09-08 08:41:21

Python 3API框架API Star

2024-04-03 12:18:45

AI訓(xùn)練

2022-02-24 13:08:12

前端開發(fā)視頻

2025-02-24 12:22:13

DeepSeek開源模型

2023-12-13 09:31:10

開源系統(tǒng)

2020-11-04 09:56:13

開源技術(shù) go

2015-07-29 10:00:16

開源項目

2012-07-30 09:40:52

Lua

2014-10-21 10:25:50

程序員

2015-06-01 06:42:50

開源公司三大教訓(xùn)
點贊
收藏

51CTO技術(shù)棧公眾號