自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大譚平團(tuán)隊(duì)突破3D生成領(lǐng)域關(guān)鍵性問題,讓多頭怪不再出現(xiàn)

人工智能 新聞
譚平團(tuán)隊(duì)和騰訊、華南理工共同合作的 SweetDreamer 重點(diǎn)解決文本生成 3D 物體中的多視角不一致性問題,通過改進(jìn) 2D 擴(kuò)散模型,成功將文本轉(zhuǎn)化為高質(zhì)量的 3D 對(duì)象,實(shí)現(xiàn)了文本到 3D 生成的重大突破。

生成模型在圖像生成領(lǐng)域取得了巨大的成功,但將這一技術(shù)擴(kuò)展到 3D 領(lǐng)域一直面臨著重重挑戰(zhàn)。典型的多頭怪問題,即文本生成3D中多視角一致性問題,一直得不到很好的解決。譚平團(tuán)隊(duì)最新的研究論文都致力于解決這一基礎(chǔ)問題,為這一領(lǐng)域帶來了突破和創(chuàng)新。

譚平博士是香港科技大學(xué)電子與計(jì)算機(jī)工程系教授。他曾經(jīng)擔(dān)任阿里巴巴達(dá)摩院XR實(shí)驗(yàn)室負(fù)責(zé)人,人工智能實(shí)驗(yàn)室計(jì)算機(jī)視覺首席科學(xué)家。于近期創(chuàng)立公司光影煥像,依然專注在3D領(lǐng)域,將自己多年的研究成果進(jìn)行轉(zhuǎn)化。

論文 "SweetDreamer" 采用3D數(shù)據(jù)對(duì)2D擴(kuò)散模型進(jìn)行Alignment,成功實(shí)現(xiàn)文本生成高質(zhì)量3D模型的任務(wù),解決幾何不一致問題。通過賦予 2D 模型視角感知能力和引入規(guī)范坐標(biāo)映射(CCM),它有效地對(duì)齊了 3D 幾何結(jié)構(gòu),保留了多樣化高質(zhì)量物體的生成能力,并在人類評(píng)估中取得了 85% 以上的一致性,遠(yuǎn)超以往方法(僅 30% 左右),為文本到 3D 生成領(lǐng)域帶來了新的技術(shù)突破。

圖片

  • 論文地址:https://arxiv.org/pdf/2310.02596.pdf
  • 論文網(wǎng)站:https://sweetdreamer3d.github.io/

論文 "Ctrl-Room" 采用了兩階段生成方式,即 "布局生成階段" 和 "外觀生成階段",解決了文本生成 3D 室內(nèi)場(chǎng)景的多視角不一致性問題。在布局生成階段,該方法生成了合理的室內(nèi)布局,考慮到了家具類型和位置,以及墻壁、門窗等因素。而在外觀生成階段,它生成了全景圖像,確保了不同視角圖像之間的一致性,從而保證了 3D 房間結(jié)構(gòu)和家具排列的合理性。"Ctrl-Room" 甚至允許用戶對(duì)生成的 3D 房間進(jìn)行靈活編輯,包括調(diào)整家具大小、位置和語義類別等操作,以及替換或修改家具。

圖片

論文地址:https://arxiv.org/abs/2310.03602v1

論文網(wǎng)址:https://fangchuan.github.io/ctrl-room.github.io/

接下來,我們一起來看看這兩篇論文的關(guān)鍵內(nèi)容。

SweetDreamer

譚平團(tuán)隊(duì)和騰訊、華南理工共同合作的 SweetDreamer 重點(diǎn)解決文本生成 3D 物體中的多視角不一致性問題,通過改進(jìn) 2D 擴(kuò)散模型,成功將文本轉(zhuǎn)化為高質(zhì)量的 3D 對(duì)象,實(shí)現(xiàn)了文本到 3D 生成的重大突破。

“SweetDreamer” 的核心貢獻(xiàn)在于解決了文本到 3D 生成中的多視圖不一致性問題。團(tuán)隊(duì)指出,現(xiàn)有方法中的主要問題來自幾何不一致性,即在將 2D 結(jié)果提升到 3D 世界時(shí),由于 2D 模型僅學(xué)習(xí)視角無關(guān)的先驗(yàn)知識(shí),導(dǎo)致多視圖不一致性問題。這種問題主要表現(xiàn)為幾何結(jié)構(gòu)的錯(cuò)位,而解決這些錯(cuò)位結(jié)構(gòu)可以顯著減輕生成結(jié)果中的問題。因此,研究團(tuán)隊(duì)通過使 2D 擴(kuò)散模型具備視角感知能力,并生成規(guī)范坐標(biāo)映射(CCM),從而在提升過程中與 3D 幾何結(jié)構(gòu)對(duì)齊,解決了這一問題。

論文中的方法只使用了粗略的 3D 信息,只需要少量的 3D 數(shù)據(jù)。這種方式不僅解決了幾何不一致性問題,還保留了 2D 擴(kuò)散模型生成從未見過的多樣化高質(zhì)量物體的能力。 

最終,他們的方法在人類評(píng)估中取得了 85% 以上的一致性,遠(yuǎn)超過以往的方法 30% 左右的結(jié)果,這意味著他們的方法在文本到 3D 生成領(lǐng)域?qū)崿F(xiàn)了新的技術(shù)突破。這一研究不僅對(duì)于 3D 生成具有重要意義,還對(duì)于虛擬現(xiàn)實(shí)、游戲開發(fā)、影視制作領(lǐng)域等有著廣泛的應(yīng)用前景,為實(shí)現(xiàn)更高質(zhì)量、更多樣化的 3D 生成打開了新的可能性。

方法介紹

“SweetDreamer” 的核心目標(biāo)是解決多視角不一致性的問題。這個(gè)問題主要可以從兩個(gè)角度來看:幾何不一致性問題,以及外觀不一致性問題。團(tuán)隊(duì)通過研究發(fā)現(xiàn),大多數(shù) 3D 不一致性問題的主要原因是幾何結(jié)構(gòu)的錯(cuò)位,因此這項(xiàng)技術(shù)的主要目標(biāo)是通過改進(jìn) 2D 先驗(yàn)?zāi)P?,使其能夠生?3D 一致的幾何結(jié)構(gòu),同時(shí)保持模型的通用性。

為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)提出了一種方法,即通過與 3D 數(shù)據(jù)集中的規(guī)范坐標(biāo)映射(CCM)對(duì)齊的方式,確保 2D 擴(kuò)散模型中的幾何先驗(yàn)?zāi)軌蛘_生成 3D 一致的幾何結(jié)構(gòu)。這項(xiàng)技術(shù)依賴 3D 數(shù)據(jù)集,并假設(shè)數(shù)據(jù)集中的模型都具有規(guī)范的方向和標(biāo)準(zhǔn)化的尺寸。然后,從隨機(jī)角度渲染深度圖,并將其轉(zhuǎn)換為規(guī)范坐標(biāo)。需要注意的是,這個(gè)過程的目標(biāo)是對(duì)齊幾何先驗(yàn),而不是生成幾何細(xì)節(jié)。 

最后,通過對(duì) 2D 擴(kuò)散模型進(jìn)行微調(diào),就能夠在指定的視角下生成規(guī)范坐標(biāo)圖,從而對(duì)齊 2D 擴(kuò)散模型中的幾何先驗(yàn)。這些對(duì)齊的幾何先驗(yàn)(AGP)可以輕松集成到各種文本到 3D 生成管道中,從而顯著減輕了不一致性問題,最終產(chǎn)生高質(zhì)量和多樣化的 3D 內(nèi)容。

圖片

“SweetDreamer” 的關(guān)鍵步驟如下:

  • 規(guī)范坐標(biāo)映射(CCM)。首先,為了簡(jiǎn)化建模過程,研究人員假設(shè)在訓(xùn)練數(shù)據(jù)中,同一類別的所有物體都遵循規(guī)范的方向。然后,他們將物體的大小歸一化,使得其包圍框的最大范圍長(zhǎng)度為 1,并且位于原點(diǎn)的中心。此外,他們還對(duì)從物體渲染的坐標(biāo)映射進(jìn)行了各向異性縮放,以增強(qiáng)不同視角下薄結(jié)構(gòu)的空間坐標(biāo)差異,從而改善了對(duì) 3D 結(jié)構(gòu)的感知。
  • 相機(jī)信息注入。雖然規(guī)范坐標(biāo)映射包含粗略的視角信息,但研究人員發(fā)現(xiàn)擴(kuò)散模型難以有效利用它。因此,他們將相機(jī)信息注入模型以提高視角感知。這個(gè)步驟的目的是生成粗略的幾何結(jié)構(gòu),而不是準(zhǔn)確的 3D 模型。
  • 微調(diào) 2D 擴(kuò)散模型。在獲得規(guī)范坐標(biāo)映射和相應(yīng)的相機(jī)參數(shù)之后,研究人員微調(diào) 2D 擴(kuò)散模型,以在特定視角條件下生成規(guī)范坐標(biāo)映射,最終對(duì)齊 2D 擴(kuò)散模型中的幾何先驗(yàn)。

這一技術(shù)不僅解決了多視角 3D 結(jié)構(gòu)一致,并且保持了 2D 擴(kuò)散模型的靈活性和豐富性,可以被集成到不同的渲染管線中。團(tuán)隊(duì)在文中展示了兩種不同的渲染管線,分別是基于神經(jīng)輻射場(chǎng)(NeRF)的 DreamFusion 和基于傳統(tǒng)三角網(wǎng)格的 Fantasia3D。

圖片

基于神經(jīng)輻射場(chǎng)的管線:團(tuán)隊(duì)對(duì) 3D 對(duì)象進(jìn)行體素渲染,以獲取 RGB 圖像,并將其輸入到擴(kuò)散模型以計(jì)算 SDS 損失。在優(yōu)化期間,團(tuán)隊(duì)渲染規(guī)范坐標(biāo)映射(CCM),并將其輸入到對(duì)齊幾何先驗(yàn)(AGP),以計(jì)算幾何 SDS 損失來更新 NeRF 的幾何分支。

基于傳統(tǒng)三角網(wǎng)格的管線:這里只需要添加一個(gè)額外的并行分支,將對(duì)齊幾何先驗(yàn)(AGP)納入原始流程的幾何建模監(jiān)督中。在優(yōu)化的時(shí)候,團(tuán)隊(duì)將對(duì)齊幾何先驗(yàn)(AGP)在粗略和精細(xì)幾何建模階段都作為額外的監(jiān)督引入,就可以輕松獲得高質(zhì)量和視角一致的結(jié)果。

實(shí)驗(yàn)結(jié)果呈現(xiàn)

通過將 AGP 集成到文本生成 3D 的網(wǎng)絡(luò)中,結(jié)果得到了顯著改善。原始的方法容易受到多視角不一致性的干擾,而生成多頭、多手等幾何結(jié)構(gòu)錯(cuò)亂的結(jié)果。團(tuán)隊(duì)發(fā)現(xiàn)新的方法對(duì)結(jié)果有明顯的提升,生成的結(jié)果明顯具有高度的 3D 一致性。

團(tuán)隊(duì)的定量評(píng)估著重于評(píng)估 3D 結(jié)果的多視角一致性。具體而言,團(tuán)隊(duì)隨機(jī)選擇了 80 個(gè)文本提示,執(zhí)行文本到 3D 合成,生成了每種方法的 80 個(gè)結(jié)果。然后手動(dòng)檢查和統(tǒng)計(jì) 3D 不一致性(例如,多個(gè)頭、手或腿)的出現(xiàn)次數(shù),并報(bào)告成功率,即 3D 一致對(duì)象的數(shù)量除以生成結(jié)果的總數(shù)。結(jié)果表明,SweetDreamer 在兩種渲染管線中的成功率都超過了 85%,而之前的方法只有大約 30%。

圖片

團(tuán)隊(duì)認(rèn)為,盡管同時(shí)期的工作 MVDream 也可以解決多視角不一致性問題,但它容易過擬合有限的 3D 數(shù)據(jù),擴(kuò)散模型的泛化性能受到影響。例如使用提示詞 “一張豬背著背包的圖像”,MVDream 會(huì)漏掉 “背包” 的存在。相比而言,AGP 的結(jié)果有更豐富的外觀,這是因?yàn)?AGP 僅對(duì)幾何建模產(chǎn)生影響,而不會(huì)影響由擴(kuò)散模型從數(shù)十億真實(shí)圖像中學(xué)到的強(qiáng)大的外觀先驗(yàn)。

Ctrl-Room

譚平團(tuán)隊(duì)和南開大學(xué)共同合作的 Ctrl-Room 重點(diǎn)解決文本生成 3D 室內(nèi)場(chǎng)景中的多視角不一致性問題,通過解耦布局和外觀,可以用文字提示實(shí)現(xiàn)逼真的 3D 室內(nèi)場(chǎng)景生成,而且還可以對(duì)室內(nèi)物品進(jìn)行靈活編輯,包括調(diào)整大小和移動(dòng)位置等操作。

"Ctrl-Room" 的核心貢獻(xiàn)在于方法采用了一種創(chuàng)新的兩階段生成方式,分別是 "布局生成階段" 和 "外觀生成階段"。在布局生成階段,該方法可以生成合理的室內(nèi)布局,包括各種家具類型和位置,甚至考慮到了有門窗的墻壁。這一階段的關(guān)鍵是采用了一種全面的場(chǎng)景代碼參數(shù)化方法,將房間表示為一組對(duì)象,每個(gè)對(duì)象由一個(gè)向量表示,其中包括其位置、大小、語義類別和方向。

在外觀生成階段,該方法生成了室內(nèi)場(chǎng)景的外觀,將其呈現(xiàn)為全景圖像。與以往的文本生成全景圖方法不同,這一方法明確遵循了室內(nèi)布局約束,能夠確保各個(gè)不同視角圖像之間的一致性,確保了 3D 房間結(jié)構(gòu)和家具排列的合理性。

最重要的是,由于布局與外觀分離的設(shè)計(jì),"Ctrl-Room" 允許對(duì)生成的 3D 房間進(jìn)行靈活編輯。用戶可以輕松地調(diào)整家具物品的大小、語義類別和位置。這一方法甚至允許用戶通過指令或鼠標(biāo)點(diǎn)擊來替換或修改家具,而無需昂貴的特定于編輯的訓(xùn)練。

方法介紹

這項(xiàng)技術(shù)分為兩個(gè)關(guān)鍵階段:布局生成階段和外觀生成階段。在布局生成階段,團(tuán)隊(duì)通過一種全面的場(chǎng)景代碼來描述室內(nèi)場(chǎng)景,并利用擴(kuò)散模型學(xué)習(xí)其分布。這樣就可以從文字輸入中生成房間的整體結(jié)構(gòu),包括墻壁和各種物品的位置和大小。用戶可以隨心所欲地編輯這些物品,拖拽它們、調(diào)整它們的類型、位置或大小,以滿足用戶的個(gè)性化需求。

在外觀生成階段,團(tuán)隊(duì)通過一個(gè)經(jīng)過預(yù)訓(xùn)練的擴(kuò)散模型生成室內(nèi)場(chǎng)景的紋理,將室內(nèi)布局轉(zhuǎn)化為全景圖。為了確保圖像的左右連貫,團(tuán)隊(duì)提出了一種新的循環(huán)一致性采樣方法,使室內(nèi)場(chǎng)景看起來更加真實(shí)。最終,通過估算生成的全景圖的深度圖來獲得帶紋理貼圖的 3D 場(chǎng)景。

圖片

“Ctrl-Room” 的關(guān)鍵步驟如下:

1. 布局生成階段

這個(gè)階段的主要目標(biāo)是從文本輸入中創(chuàng)建室內(nèi)三維場(chǎng)景的布局。與以往方法不同,團(tuán)隊(duì)不僅僅考慮了家具,還包括了墻壁、門和窗戶等要素,以更全面地定義室內(nèi)場(chǎng)景的布局。

團(tuán)隊(duì)將室內(nèi)場(chǎng)景中的各個(gè)元素編碼成一種統(tǒng)一的格式,并將其稱為 “場(chǎng)景代碼”。這個(gè)代碼包含了室內(nèi)場(chǎng)景中所有元素的信息,包括它們的位置、尺寸、朝向和類別。然后團(tuán)隊(duì)利用這個(gè)場(chǎng)景代碼來構(gòu)建一個(gè)擴(kuò)散模型,用于學(xué)習(xí)場(chǎng)景布局的分布。

這個(gè)模型通過逐漸向場(chǎng)景代碼添加高斯噪聲來創(chuàng)建一個(gè)離散時(shí)間的馬爾可夫鏈。噪聲逐漸增加,直到最終的分布呈現(xiàn)高斯分布。然后,通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來反向這個(gè)過程,從添加了噪聲的場(chǎng)景代碼中還原出干凈的場(chǎng)景代碼。這個(gè)過程能夠?qū)⑽谋据斎朕D(zhuǎn)化為具體的場(chǎng)景布局,為后續(xù)的場(chǎng)景生成和編輯提供了基礎(chǔ)。

在布局生成階段的末尾,場(chǎng)景代碼被表示為一組不同語義類型的包圍盒,這些包圍盒將用于后續(xù)的交互式編輯,允許用戶根據(jù)自己的需求自定義 3D 場(chǎng)景。

2. 外觀生成階段

這個(gè)階段旨在根據(jù)室內(nèi)場(chǎng)景的布局信息生成合適的全景圖像,以表現(xiàn)其外觀。過去有的方法采用增量式的方式,逐步生成不同視角的圖像來合成全景圖,但容易受到多視角不一致性的影響,導(dǎo)致最終的全景圖不能保持合理的房間結(jié)構(gòu)。這里團(tuán)隊(duì)利用了 ControlNet 技術(shù),根據(jù)布局的結(jié)果一次性生成整個(gè)全景圖,可以更好保持房間結(jié)構(gòu)。

為了實(shí)現(xiàn)這一點(diǎn),團(tuán)隊(duì)將包圍盒表示的布局轉(zhuǎn)換成了語義分割全景圖。然后,研究團(tuán)隊(duì)對(duì) ControlNet 進(jìn)行了微調(diào),使用了結(jié)構(gòu)化 3D 數(shù)據(jù)集來增強(qiáng)訓(xùn)練數(shù)據(jù)。團(tuán)隊(duì)還引入了 "循環(huán)一致采樣" 的概念,以確保生成的全景圖在左右兩側(cè)無縫連接。

3.交互編輯

這個(gè)模塊允許用戶通過更改物體包圍盒的位置、語義類別和大小來修改生成的三維室內(nèi)場(chǎng)景。這一編輯過程需要實(shí)現(xiàn)兩個(gè)目標(biāo),即根據(jù)用戶的輸入改變內(nèi)容,并保持未編輯部分的外觀一致性。

這個(gè)編輯過程分為兩個(gè)步驟,填充步驟和優(yōu)化步驟。填充步驟是為了將物體移動(dòng)后露出部分進(jìn)行填充。而優(yōu)化步驟是為了保持被移動(dòng)過的家具、物品的外觀一致性。

實(shí)驗(yàn)結(jié)果呈現(xiàn)

研究人員使用了包含 3,500 個(gè)由專業(yè)藝術(shù)家設(shè)計(jì)的房屋的 3D 室內(nèi)場(chǎng)景數(shù)據(jù)集 Structured3D 對(duì)模型進(jìn)行評(píng)估。為了評(píng)估方法,研究人員選取了 4,961 個(gè)臥室和 3,039 個(gè)客廳,其中 80% 用于訓(xùn)練,其余用于測(cè)試。

相比以往的算法,例如 Text2Room 和 MVDiffusion,Ctrl-Room 能夠更好保持房間結(jié)構(gòu)。而 Text2Room 和 MVDiffusion 往往在不同視角的圖像中反復(fù)生成同一個(gè)物體,例如在客廳中多次重復(fù)壁爐、電視機(jī),在臥室中多次重復(fù)床等顯著性高的物體。因此這些方法生成的場(chǎng)景往往從全局結(jié)構(gòu)上看非?;靵y。而 Ctrl-Room 通過顯示的引入房間布局的生成,并用布局引導(dǎo)最終室內(nèi)場(chǎng)景的生成,可以非常好的解決這個(gè)問題。

圖片

為了衡量生成的全景圖像的質(zhì)量,團(tuán)隊(duì)使用了 Frechet Inception Distance (FID)、CLIP Score (CS) 和 Inception Score (IS) 等指標(biāo)。此外,研究人員還比較了生成 RGB 全景圖像的時(shí)間成本,以及生成的 3D 室內(nèi)場(chǎng)景的質(zhì)量,包括 CLIP Score (CS) 和 Inception Score (IS)。

Ctrl-Room 在生成全景圖像方面表現(xiàn)出色。它在 FID 指標(biāo)上取得了最佳成績(jī),并大幅領(lǐng)先其他對(duì)比方法,這意味著它能更好地捕捉房間的外觀,因?yàn)樗苤覍?shí)地恢復(fù)房間布局。而 CS 指標(biāo)對(duì)房間內(nèi)物體的數(shù)目并不敏感,即便一個(gè)臥室中生成了 3-4 張床 CS 指標(biāo)也可以很高,因此不能準(zhǔn)確評(píng)價(jià)場(chǎng)景生成。與此同時(shí),Ctrl-Room 在生成時(shí)間方面表現(xiàn)出色,相對(duì)于其他方法,它需要更短的時(shí)間。

團(tuán)隊(duì)還進(jìn)行了用戶研究,詢問了 61 名用戶對(duì)最終室內(nèi)場(chǎng)景的感知質(zhì)量和 3D 結(jié)構(gòu)完整性進(jìn)行評(píng)分。Ctrl-Room 技術(shù)也被用戶認(rèn)為在房間布局結(jié)構(gòu)和家具排列方面具有更清晰的優(yōu)勢(shì)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-31 12:29:11

AI模型

2023-09-21 12:33:31

3DAI

2024-01-29 06:50:00

3D模型

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2024-09-20 16:20:00

2010-09-26 10:12:18

虛擬機(jī)

2018-05-14 08:55:58

自動(dòng)駕駛數(shù)據(jù)人工智能

2025-01-07 13:19:48

模型AI訓(xùn)練

2025-02-24 10:40:00

3D模型生成

2025-04-02 09:50:00

機(jī)器人訓(xùn)練數(shù)據(jù)

2023-05-16 14:17:00

數(shù)字人

2024-07-16 12:02:11

2011-08-10 22:47:18

2023-12-07 10:37:55

3D框架AI

2017-01-16 15:41:03

私有混合云指標(biāo)

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2021-03-11 17:11:28

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-03-27 09:26:30

2023-05-29 10:39:00

AI算法

2024-08-14 16:30:00

3D AIGC
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)