自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無(wú)需點(diǎn)跟蹤,克服DragGAN缺陷!中科大聯(lián)合上海AI Lab發(fā)布FreeDrag:可穩(wěn)定拖動(dòng)語(yǔ)義內(nèi)容

人工智能 新聞
FreeDrag無(wú)需點(diǎn)跟蹤,即可實(shí)現(xiàn)更高質(zhì)量的拖動(dòng)編輯效果!

近日,在AIGC的廣闊世界里出現(xiàn)了一個(gè)火熱的圖像編輯方法—即通過(guò)在給定圖像上通過(guò)把語(yǔ)義內(nèi)容從原位置(handle point)拖動(dòng)到目標(biāo)位置(target point)的方式進(jìn)行精細(xì)的定制化編輯操作。

比如可以實(shí)現(xiàn)「讓貓咪對(duì)你wink」的神奇操作:

圖片

這一驚人效果來(lái)自于發(fā)表在SIGGRAPH 2023會(huì)議上的 [Drag Your GAN] 論文(簡(jiǎn)稱為DragGAN)。

并且DragGAN的代碼一經(jīng)發(fā)出就在短短幾周內(nèi)狂攬30K star,引發(fā)廣大網(wǎng)友的「Drag熱潮」。

有了DragGAN的加持,各種AI畫(huà)圖工具的「阿喀琉斯之踵」再也不是弱點(diǎn),哪里不滿意就只修哪里!

近日,中科大和上海AI Lab的研究者們又發(fā)布了一項(xiàng)相關(guān)研究—FreeDrag。

圖片圖片

Paper:https://arxiv.org/abs/2307.04684

Code:https://github.com/LPengYang/FreeDrag

Project Page:https://lin-chen.site/projects/freedrag/

研究結(jié)果表明,先前的DragGAN由兩個(gè)交替迭代進(jìn)行的過(guò)程構(gòu)成:

1. 運(yùn)動(dòng)監(jiān)督(motion supervision)過(guò)程指導(dǎo)handle point向著對(duì)應(yīng)的target point進(jìn)行移動(dòng);

2. 點(diǎn)跟蹤(point tracking)過(guò)程則負(fù)責(zé)定位移動(dòng)后handle point的精確位置從而為下次移動(dòng)提供方向和約束特征。

因此DragGAN 嚴(yán)重依賴于點(diǎn)跟蹤的精確性。然而,點(diǎn)跟蹤的策略本質(zhì)上是不穩(wěn)定的,因?yàn)樗[式地假設(shè)每次移動(dòng)后在默認(rèn)的搜索區(qū)域內(nèi)有且僅有一個(gè)點(diǎn)完美繼承了handle point的特征。

這個(gè)假設(shè)會(huì)在以下兩種情況下失效:

1. 圖像內(nèi)容發(fā)生劇烈變化導(dǎo)致的跟蹤丟失

圖片圖片

DragGAN 由于內(nèi)容突變發(fā)生跟蹤點(diǎn)丟失

2. 搜索區(qū)域內(nèi)的相似點(diǎn)導(dǎo)致的跟蹤錯(cuò)誤,例如輪廓線和馬腿等。

圖片圖片

DragGAN 由于相似點(diǎn)的存在發(fā)生錯(cuò)誤的點(diǎn)跟蹤

錯(cuò)誤的點(diǎn)跟蹤會(huì)為下一次移動(dòng)提供錯(cuò)誤的方向和約束特征,造成誤差累積從而損害編輯的質(zhì)量。

方法介紹

為了防止不穩(wěn)定的點(diǎn)跟蹤過(guò)程不可避免地?fù)p害圖像編輯的質(zhì)量,中國(guó)科學(xué)技術(shù)大學(xué)和上海AI Lab的研究者們共同提出FreeDrag, 一種以特征為導(dǎo)向的基于點(diǎn)的交互式編輯框架。

FreeDrag通過(guò)引入自適應(yīng)更新的模板特征,模糊定位和線性搜索技術(shù),在無(wú)需進(jìn)行精確點(diǎn)跟蹤的情況下即可實(shí)現(xiàn)更加穩(wěn)定可靠的拖動(dòng)編輯。

圖片 圖 2 FreeDrag 的流程圖


圖片

圖 3 DragGAN的點(diǎn)跟蹤和FreeDrag 點(diǎn)定位的比較。

DragGAN 要求精確定位的位置,而FreeDrag 通過(guò)約束特征差異限制定位點(diǎn)在附近,但不要求確定的具體位置。

動(dòng)態(tài)更新的模板特征

圖片圖片

 研究者們首先提出了動(dòng)態(tài)更新的模板特征技術(shù)來(lái)緩解跟蹤點(diǎn)丟失問(wèn)題。模板特征通過(guò)衡量每次移動(dòng)的質(zhì)量來(lái)決定是否更新,即通過(guò)控制λ的值來(lái)決定每次更新的比例。

更大的λ意味著更大的更新程度。移動(dòng)質(zhì)量越高更新程度越大。移動(dòng)質(zhì)量通過(guò)衡量移動(dòng)結(jié)束后圖片處的特征圖片和上一次的模板特征值圖片的 L1 距離 (圖片) 來(lái)度量,圖片越小說(shuō)明移動(dòng)質(zhì)量越高。

模板特征的更新過(guò)程不依賴于handle point 的位置和特征,從而擺脫了對(duì)精確的點(diǎn)跟蹤的負(fù)擔(dān),同時(shí)自適應(yīng)的更新策略帶來(lái)的平滑性賦予了模板特征更好的魯棒性來(lái)克服劇烈的內(nèi)容變化,避免編輯內(nèi)容的異常丟失。

模糊定位和線性搜索

緊接著,研究者們提出模糊定位和線性搜索技術(shù)來(lái)緩解跟蹤點(diǎn)模糊問(wèn)題。FreeDrag 通過(guò)移動(dòng)距離d和特征差異l來(lái)為每次的移動(dòng)定位適合的目標(biāo)點(diǎn),即公式(10)。

定位主要分為三種情況:繼續(xù)向target point移動(dòng)(移動(dòng)質(zhì)量高);保持當(dāng)前位置不動(dòng)(移動(dòng)不徹底),點(diǎn)回退(移動(dòng)異常)。

相比于DragGAN要求的精確的點(diǎn)跟蹤,公式(10)搜尋的定位點(diǎn)是“模糊”因?yàn)樗⒉灰笏褜andle point的準(zhǔn)確位置,而是通過(guò)約束特征差異確保定位點(diǎn)在handle point附近, 因此擺脫了精確定位的負(fù)擔(dān)。

此外,公式(10) 只在原始handle point 和 target point 形成的直線上進(jìn)行點(diǎn)搜索,這種線性搜索策略有效地緩解了相鄰區(qū)域內(nèi)相似點(diǎn)的干擾,保障了運(yùn)動(dòng)監(jiān)督的可靠性,進(jìn)一步提高點(diǎn)移動(dòng)的穩(wěn)定性。 

實(shí)驗(yàn)對(duì)比

DragGAN 和 FreeDrag 在各類場(chǎng)景上的對(duì)比如下圖(圖4)所示,可以發(fā)現(xiàn)FreeDrag可以有效地防止handle point的異常消失(如圖4第一個(gè)例子中消失的嘴巴和第二個(gè)例子中消失的眼鏡),同時(shí)有力地避免了由于內(nèi)容突變和相似點(diǎn)干擾導(dǎo)致的異常編輯,保障了點(diǎn)移動(dòng)的可靠性(如圖4第三個(gè)例子中大象的眼睛和第四個(gè)例子中的馬腿)。

此外,從圖4的(5)-(8)例子可以觀察到FreeDrag 可以通過(guò)穩(wěn)定的點(diǎn)移動(dòng)更有效更精確地實(shí)現(xiàn)預(yù)定的編輯目標(biāo)。進(jìn)一步的,在各類場(chǎng)景上的大量實(shí)驗(yàn)(圖5) 充分驗(yàn)證了FreeDrag 可以通過(guò)穩(wěn)定的點(diǎn)移動(dòng)實(shí)現(xiàn)更高的編輯質(zhì)量,助力交互式的基于點(diǎn)的圖像編輯達(dá)到新的高度。

圖片圖片

圖 4 DragGAN 和 FreeDrag 在各類場(chǎng)景上的對(duì)比圖


圖片

圖 5 DragGAN 和 FreeDrag 在更多場(chǎng)景下的對(duì)比圖

左邊兩張圖分別為原始圖片和編輯目標(biāo)(紅色為handle point, 藍(lán)色為target point),右邊分別為DragGAN 和FreeDrag的處理過(guò)程

圖片圖片

圖片圖片

動(dòng)態(tài)過(guò)程:https://lin-chen.site/projects/freedrag/

對(duì)于拖動(dòng)大象眼睛的例子,可以觀察到,DragGAN 在移動(dòng)大象眼睛的過(guò)程中發(fā)生了圖像布局的突變?cè)斐牲c(diǎn)跟蹤丟失,點(diǎn)跟蹤丟失導(dǎo)致無(wú)法為之后的運(yùn)動(dòng)提供有效的運(yùn)動(dòng)監(jiān)督,進(jìn)而無(wú)法實(shí)現(xiàn)預(yù)定的編輯目的。

相比而言,得益于動(dòng)態(tài)更新的模板特征的平滑性,F(xiàn)reeDrag 可以更好地避免圖像內(nèi)容的急劇變化,從而更可靠地將眼部特征拖向預(yù)定的位置。

對(duì)于拖動(dòng)馬腿的例子,可以觀察到, DragGAN在移動(dòng)馬腿過(guò)程中發(fā)生了錯(cuò)誤的點(diǎn)跟蹤,從而為之后的運(yùn)動(dòng)監(jiān)督提供了錯(cuò)誤的優(yōu)化方向,進(jìn)而降低了圖像質(zhì)量,這種錯(cuò)誤會(huì)在多次迭代中累計(jì)導(dǎo)致編輯結(jié)果質(zhì)量的急劇下降。

相比而言, FreeDrag 的模糊定位和線性搜索策略有效地緩解了相似點(diǎn)的干擾,為點(diǎn)移動(dòng)提供了可靠的監(jiān)督信號(hào),從而高質(zhì)量地實(shí)現(xiàn)預(yù)定的編輯目的。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2016-06-14 15:46:33

高德

2025-04-01 09:20:00

模型預(yù)測(cè)AI

2023-03-17 07:59:57

AI數(shù)字化

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2013-06-19 11:32:32

計(jì)算性能ISCHPC

2025-03-03 08:00:00

小紅書(shū)AI圖像檢測(cè)模型AI

2024-09-18 11:00:00

AI工具數(shù)據(jù)

2024-12-02 10:40:00

AI模型

2025-02-20 13:50:00

AI生成訓(xùn)練

2024-06-17 07:10:00

2022-03-28 10:32:28

AI功能手勢(shì)

2024-11-06 13:03:49

2012-11-23 10:15:55

SCC12全球超級(jí)計(jì)算大會(huì)

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2024-04-07 09:00:00

數(shù)據(jù)模型

2017-03-23 17:09:45

2023-08-21 13:49:00

圖像技術(shù)

2021-12-06 09:53:09

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能

2021-11-17 16:13:45

IBM 處理器量子

2024-09-26 10:04:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)