自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一行字實現(xiàn)3D換臉!UC伯克利提出「Chat-NeRF」,說句話完成大片級渲染

人工智能
只需要一行字的黑科技!UC伯克利提出Instruct-NeRF2NeRF,一鍵圖像編輯進階一鍵3D場景編輯。

由于神經(jīng)3D重建技術(shù)的發(fā)展,捕獲真實世界3D場景的特征表示從未如此簡單。

然而,在此之上的3D場景編輯卻一直未能有一個簡單有效的方案。

最近,來自UC伯克利的研究人員基于此前的工作InstructPix2Pix,提出了一種使用文本指令編輯NeRF場景的方法——Instruct-NeRF2NeRF。

圖片

論文地址:https://arxiv.org/abs/2303.12789

利用Instruct-NeRF2NeRF,我們只需一句話,就能編輯大規(guī)模的現(xiàn)實世界場景,并且比以前的工作更真實、更有針對性。

比如,想要他有胡子,臉上就會出現(xiàn)一簇胡子!

圖片

或者直接換頭,秒變成愛因斯坦。

圖片

此外,由于模型能不斷地使用新的編輯過的圖像更新數(shù)據(jù)集,所以場景的重建效果也會逐步得到改善。

NeRF + InstructPix2Pix = Instruct-NeRF2NeRF

具體來說,人類需要給定輸入圖像,以及告訴模型要做什么的書面指令,隨后模型就會遵循這些指令來編輯圖像。

實現(xiàn)步驟如下:

  1. 在訓(xùn)練視角下從場景中渲染出一張圖像。
  2. 使用InstructPix2Pix模型根據(jù)全局文本指令對該圖像進行編輯。
  3. 用編輯后的圖像替換訓(xùn)練數(shù)據(jù)集中的原始圖像。
  4. NeRF模型按照往常繼續(xù)進行訓(xùn)練。

圖片


實現(xiàn)方法

相比于傳統(tǒng)的三維編輯,NeRF2NeRF是一種新的三維場景編輯方法,其最大的亮點在于采用了「迭代數(shù)據(jù)集更新」技術(shù)。

雖然是在3D場景上進行編輯,但論文中使用2D而不是3D擴散模型來提取形式和外觀先驗,因為用于訓(xùn)練3D生成模型的數(shù)據(jù)非常有限。

這個2D擴散模型,就是該研究團隊不久前開發(fā)的InstructPix2Pix——一款基于指令文本的2D圖像編輯模型,輸入圖像和文本指令,它就能輸出編輯后的圖像。

然而,這種2D模型會導(dǎo)致場景不同角度的變化不均勻,因此,「迭代數(shù)據(jù)集更新」應(yīng)運而生,該技術(shù)交替修改NeRF的「輸入圖片數(shù)據(jù)集」,并更新基礎(chǔ)3D表征。

這意味著文本引導(dǎo)擴散模型(InstructPix2Pix)將根據(jù)指令生成新的圖像變化,并將這些新圖像用作NeRF模型訓(xùn)練的輸入。因此,重建的三維場景將基于新的文本引導(dǎo)編輯。

在初始迭代中,InstructPix2Pix通常不能在不同視角下執(zhí)行一致的編輯,然而,在NeRF重新渲染和更新的過程中,它們將會收斂于一個全局一致的場景。

總結(jié)而言,NeRF2NeRF方法通過迭代地更新圖像內(nèi)容,并將這些更新后的內(nèi)容整合到三維場景中,從而提高了3D場景的編輯效率,還保持了場景的連貫性和真實感。

圖片

可以說,UC伯克利研究團隊的此項工作是此前InstructPix2Pix的延伸版,通過將NeRF與InstructPix2Pix結(jié)合,再配合「迭代數(shù)據(jù)集更新」,一鍵編輯照樣玩轉(zhuǎn)3D場景!

仍有局限,但瑕不掩瑜

不過,由于Instruct-NeRF2NeRF是基于此前的InstructPix2Pix,因此繼承了后者的諸多局限,例如無法進行大規(guī)??臻g操作。

此外,與DreamFusion一樣,Instruct-NeRF2NeRF一次只能在一個視圖上使用擴散模型,所以也可能會遇到類似的偽影問題。

下圖展示了兩種類型的失敗案例:

(1)Pix2Pix無法在2D中執(zhí)行編輯,因此NeRF2NeRF在3D中也失敗了;

(2)Pix2Pix在2D中可以完成編輯,但在3D中存在很大的不一致性,因此NeRF2NeRF也沒能成功。

圖片

再比如下面這只「熊貓」,不僅看起來非常兇悍(作為原型的雕像就很兇),而且毛色多少也有些詭異,眼睛在畫面移動時也有明顯的「穿?!?。

圖片

自從ChatGPT,Diffusion, NeRFs被拉進聚光燈之下,這篇文章可謂充分發(fā)揮了三者的優(yōu)勢,從「AI一句話作圖」進階到了「AI一句話編輯3D場景」。

盡管方法存在一些局限性,但仍瑕不掩瑜,為三維特征編輯給出了一個簡單可行的方案,有望成為NeRF發(fā)展的里程碑之作。

一句話編輯3D場景

最后,再看一波作者放出的效果。

不難看出,這款一鍵PS的3D場景編輯神器,不論是指令理解能力,還是圖像真實程度,都比較符合預(yù)期,未來也許會成為學(xué)術(shù)界和網(wǎng)友們把玩的「新寵」,繼ChatGPT后打造出一個Chat-NeRFs。

圖片

圖片

即便是隨意改變圖像的環(huán)境背景、四季特點、天氣,給出的新圖像也完全符合現(xiàn)實邏輯。

原圖:

圖片

秋天:

圖片


雪天:

圖片

沙漠:

圖片

暴風雨:

圖片

參考資料:???https://instruct-nerf2nerf.github.io?

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-03-21 09:35:39

自然語言

2009-11-04 09:06:51

2025-01-22 15:21:00

2021-12-27 15:25:24

神經(jīng)網(wǎng)絡(luò)AI算法

2023-05-31 16:15:51

模型圖像

2024-10-29 09:57:13

2021-04-14 15:03:16

數(shù)據(jù)性能存儲

2024-08-19 14:05:00

2023-04-07 09:28:31

模型訓(xùn)練

2024-03-25 08:30:00

AI數(shù)據(jù)

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2018-10-09 14:00:41

SQL深度學(xué)習神經(jīng)網(wǎng)絡(luò)

2023-04-04 13:17:00

GPUCMU開源

2025-04-18 08:42:52

模型推理AI

2022-03-28 13:25:42

AI扶貧機器之心

2023-12-16 09:49:18

2023-05-04 14:55:02

模型AI

2024-04-07 00:45:00

開源模型

2020-04-10 12:30:16

3D圖片代碼

2023-08-05 13:45:46

模型AI
點贊
收藏

51CTO技術(shù)棧公眾號