自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst

發(fā)布于 2024-7-22 07:26

瀏覽

0收藏

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2407.11394
github鏈接：https://dream-catalyst.github.io/

亮點直擊：
本文通過將DDS解釋為SDEdit過程，提出了一種3D編輯的一般公式，并提出了一種用于快速編輯和質(zhì)量改進的專門公式。
在一般的3D編輯任務(wù)中采用了遞減時間步采樣，這是一種在3D生成任務(wù)中常用的加速訓(xùn)練速度的采樣算法，解決了以往工作中面臨的挑戰(zhàn)。
首次引入FreeU用于3D編輯，以增強可編輯性，克服重新加權(quán)編輯目標(biāo)公式中固有的權(quán)衡。
編輯的速度和質(zhì)量優(yōu)于當(dāng)前最先進的NeRF編輯方法。

得分蒸餾采樣（SDS）因其固有的3D一致性，在文本驅(qū)動的3D編輯任務(wù)中已成為一種有效的框架。然而，現(xiàn)有基于SDS的3D編輯方法由于偏離擴散模型的采樣動態(tài)，導(dǎo)致訓(xùn)練時間過長且結(jié)果質(zhì)量低下。在本文中，本文提出了DreamCatalyst，這是一種將基于SDS的編輯解釋為擴散反向過程的新穎框架。本文的目標(biāo)函數(shù)考慮了采樣動態(tài)，因此使DreamCatalyst的優(yōu)化過程成為編輯任務(wù)中擴散反向過程的近似。

DreamCatalyst旨在減少訓(xùn)練時間并提高編輯質(zhì)量。DreamCatalyst提供了兩種模式：

快速模式，僅需約25分鐘即可編輯NeRF場景；
高質(zhì)量模式，在不到70分鐘內(nèi)產(chǎn)生優(yōu)質(zhì)結(jié)果。具體來說，本文的高質(zhì)量模式在速度和質(zhì)量方面均優(yōu)于當(dāng)前最先進的NeRF編輯方法。

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

DREAMCATALYST

動機

本文旨在設(shè)計一個目標(biāo)函數(shù)，類似于PDS（Perceptual Diffusion Sampling），包含一個顯式的強身份保留項，同時與擴散時間步的作用對齊，并允許應(yīng)用遞減時間步采樣。為了實現(xiàn)這一目標(biāo)，必須在大噪聲擾動中強調(diào)身份保留，并通過重新加權(quán)公式12中的每一項，在小擾動水平上不發(fā)生偏離。然而，隨機潛在匹配的公式本質(zhì)上隱含了一個身份保留項和DDS（Diffusion-Denoising Score Matching）損失的梯度，使其無法直接調(diào)整系數(shù)。因此，本文提供了DDS的新解釋，并通過這一視角引入PDS的一般公式來重新加權(quán)這些項。

此外，本文提出了一種專門的公式，與擴散時間步的角色對齊，并支持遞減時間步采樣。這種專門的公式主要有兩個優(yōu)點：

通過考慮擴散時間步的作用，本文的公式可以生成細節(jié)豐富的3D編輯結(jié)果；
通過擴散友好的采樣，遞減時間步采樣極大地減少了訓(xùn)練時間。

PDS 的一般公式

本文揭示了反向SDEdit過程和DDS（Diffusion-Denoising Score Matching）之間的關(guān)系。DreamCatalyst的關(guān)鍵見解是，DDS的目標(biāo)等同于基于單步DDIM（Denoising Diffusion Implicit Models）的SDEdit采樣。

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

上述公式通過解決隨機采樣噪聲的隨機微分方程（SDEs）實現(xiàn)隨機編輯。然而，最近的編輯研究利用DDIM反演來保留源身份。通過結(jié)合SDEdit和DDIM調(diào)度來保留源身份，基于DDIM的SDEdit采樣定義為：

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

盡管SDEdit的單步去噪過程在擴散過程中通過公式13已經(jīng)很清楚，但受到Dreamsampler（Kim等人，2024年）的啟發(fā)，本文可以將該過程解釋為如下的優(yōu)化問題：

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

其中：

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

基于 SDS 的擴散友好編輯

在本節(jié)中，本文提出了一個專門的公式（公式18），該公式考慮了擴散時間步的作用以及與遞減時間步采樣的對齊問題。DreamCatalyst中的公式設(shè)計旨在滿足兩個條件：

在高時間步中強身份保留
在低時間步中減少身份保留。

第一個條件是，在高時間步中強身份保留，可以減少源特征在高噪聲擾動水平下的信息丟失。這個條件使得可以利用遞減時間步采樣。第二個條件是，在低時間步中弱身份保留，這有助于在擴散過程中合成細節(jié)。滿足這兩個條件的DreamCatalyst專門公式如下：

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

其中，

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

本文注意到，滿足兩個條件能夠?qū)崿F(xiàn)有效的3D編輯，如上圖1所示。本文將更優(yōu)設(shè)計選擇的探索留給未來的工作。

使用 FREEU 增強可編輯性

盡管使用所提出的損失函數(shù)的SDEdit過程改善了編輯質(zhì)量，但目標(biāo)函數(shù)的設(shè)計因固有的權(quán)衡而僅能帶來有限的改進。在編輯任務(wù)中，可編輯性和身份保留是眾所周知的權(quán)衡。修改模型架構(gòu)提供了一種替代方法來增強編輯質(zhì)量，帶來了僅通過損失函數(shù)設(shè)計無法實現(xiàn)的性能提升。

本文引入了在3D編輯中使用FreeU，以在不增加額外內(nèi)存使用和計算成本的情況下增強可編輯性。FreeU通過放大包含大量低頻信息的骨干特征來抑制高頻特征。放大骨干特征強調(diào)了低頻特征，從而相對減少了高頻特征的影響。結(jié)果，通過抑制高頻特征，提高了可編輯性，因為高頻特征的銳利特性被平滑處理，邊緣特征被削弱。此外，身份保留對應(yīng)于低頻域，通過放大骨干特征得以維持。綜上所述，F(xiàn)reeU在不犧牲身份保留的情況下增強了可編輯性。

REAMCATALYST 中的文本指導(dǎo)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

定性評估

在下圖 4 中，本文展示了與基線方法的定性比較。雖然基線方法產(chǎn)生的背景模糊且過度飽和，但 DreamCatalyst 很好地保留了源場景的背景。此外，與基線方法相比，DreamCatalyst 合成了更詳細、更逼真的編輯結(jié)果（例如，基線方法生成的郁金香模糊且缺乏細節(jié)）。PDS 似乎可以很好地編輯主體，但其結(jié)果往往過度飽和且不夠逼真，背景更容易模糊或改變顏色。因此，DreamCatalyst 在保持源場景身份的同時，具有更優(yōu)越的可編輯性，超越了其他基線。

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

定量評估

本文使用 CLIP 方向相似度、CLIP 圖像相似度和美學(xué)評分來評估 DreamCatalyst 和基線方法。CLIP 方向相似度衡量圖像與文本的對齊程度，CLIP 圖像相似度評估身份保留的水平，美學(xué)評分則表示編輯質(zhì)量。如下表 1 和下圖 5 所示，DreamCatalyst 在所有指標(biāo)上均獲得最高分。此外，本文還測量了每種方法的編輯時間。為了公平比較，本文將所有方法的分辨率設(shè)置為相同。DreamCatalyst 的快速模式比最新的基于 SDS 的編輯方法 PDS 快約 23 倍，高質(zhì)量模式則比 PDS 快約 8 倍。盡管 IN2N 在二維空間中進行編輯，比直接的三維編輯方法所需時間更少，但即使在高質(zhì)量模式下，DreamCatalyst 仍比 IN2N 快 1.85 倍。

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

用戶研究

本文進行了用戶研究，如下表 2 所示，因為專門用于評估 2D 圖像的指標(biāo)不足以評估 3D 場景。對于每個問題，參與者被要求從基線方法和 DreamCatalyst 的結(jié)果中選擇最佳視頻。本文選擇了 15 個文本提示來評估三個標(biāo)準(zhǔn)：（1）提示對齊，（2）整體質(zhì)量和（3）身份保留。每個標(biāo)準(zhǔn)的問題如下：（1）“在編輯視頻時，哪個視頻最符合文本提示并展示高質(zhì)量？”（2）“在編輯視頻時，哪個視頻展示了最佳的編輯質(zhì)量？”和（3）“在編輯源視頻時，哪個編輯過的視頻最好地保留了源視頻的背景和身份？”為了收集人類偏好數(shù)據(jù)，本文利用亞馬遜 Mechanical Turk 對 50 名參與者進行了調(diào)查。結(jié)果表明，DreamCatalyst 在所有標(biāo)準(zhǔn)上都比基線方法更受歡迎，優(yōu)勢明顯。

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

消融實驗

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst-AI.x社區(qū)

減少時間步采樣。 在本節(jié)中，本文展示了減少時間步采樣的有效性。為了公平比較，實驗設(shè)置相同，每次使用 500 次迭代，除了時間步采樣算法外。如上圖 6 所示，減少時間步采樣的編輯結(jié)果收斂到細節(jié)豐富的結(jié)果，而隨機時間步采樣的結(jié)果則表現(xiàn)出過飽和的顏色，并且在相同編輯時間內(nèi)未能保持背景一致性。因此，減少時間步采樣可以更快地收斂。

結(jié)論

本文提出了一種用于3D編輯的通用公式，通過揭示反向SDEdit過程和DDS之間的關(guān)系。基于這一公式，本文引入了DreamCatalyst，它考慮了擴散過程的動態(tài)性，通過基于SDS的方法作為反向SDEdit過程來編輯3D場景。此外，本文建議在分數(shù)蒸餾中使用FreeU，以克服公式中固有的可編輯性和身份保留之間的權(quán)衡。結(jié)果表明，DreamCatalyst實現(xiàn)了快速且高質(zhì)量的3D編輯。通過比較分析和用戶研究，本文證明了DreamCatalyst在性能和編輯速度上均超越了最先進的方法。

本文轉(zhuǎn)自 AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/e7rLes_M8mLic1q30PjY1A??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Meta 聯(lián)合紐約大學(xué)和華盛頓大學(xué)提出MetaCLIP，帶你揭開CLIP的高質(zhì)量數(shù)據(jù)之謎。

輕薄滴假象 ? 2471瀏覽 ? 0回復(fù)
七個高質(zhì)量潤色論文和文章的指令

數(shù)師兄 ? 3258瀏覽 ? 0回復(fù)
DiT架構(gòu)大一統(tǒng)：一個框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩

輕薄滴假象 ? 2659瀏覽 ? 0回復(fù)
高質(zhì)量3D生成最有希望的一集？GaussianCube在三維生成中全面超越NeRF

輕薄滴假象 ? 2613瀏覽 ? 0回復(fù)
僅需1分鐘，文本生成高質(zhì)量3D模型—Meta 3D-Gen

Aceryt ? 2926瀏覽 ? 0回復(fù)
3D版"裁縫"開源來襲！Tailor3D:自定義3D編輯和資產(chǎn)生成（港大&上海AI-Lab&港中文）

angel ? 2381瀏覽 ? 0回復(fù)
大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS

NLP工作站 ? 3503瀏覽 ? 0回復(fù)
編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！

angel ? 2249瀏覽 ? 0回復(fù)
3D人體重建新SOTA！清華&騰訊等重磅發(fā)布MagicMan：單一圖像生成高質(zhì)量人體新突破

angel ? 2930瀏覽 ? 0回復(fù)
英偉達提出LATTE3D：大規(guī)模高質(zhì)量的Amortized文本到增強3D 合成

angel ? 2494瀏覽 ? 0回復(fù)
3D生成基礎(chǔ)模型來了！只需5秒，高質(zhì)量3D資產(chǎn)規(guī)?；?！南洋理工等重磅開源3DTopia-XL

angel ? 2290瀏覽 ? 0回復(fù)
生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

angel ? 1991瀏覽 ? 0回復(fù)
革新3D材質(zhì)生成！Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

angel ? 2436瀏覽 ? 0回復(fù)
釋放你的想象！支持25種復(fù)雜編輯類型！浙大等提出AnyEdit：統(tǒng)一高質(zhì)量圖像編輯框架

angel ? 3025瀏覽 ? 0回復(fù)
賈佳亞團隊新作MagicMirror：生成身份一致且高質(zhì)量個性化視頻，效果驚艷！

angel ? 2174瀏覽 ? 0回復(fù)
3D頭像資產(chǎn)生產(chǎn)又出SOTA! 加州默塞德&Adobe發(fā)布FaceLift：身份保持極佳！

angel ? 2273瀏覽 ? 0回復(fù)
直擊痛點，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 1602瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時代 ? 832瀏覽 ? 0回復(fù)
關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進行數(shù)據(jù)召回——召回策略的研究

AI探索時代 ? 206瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： YYDS！數(shù)字人終于實現(xiàn)穿、脫衣自由!上大、騰訊等提出3D服裝合成新方法：ClotheDreamer

下一篇：我的發(fā)型我做主！上交聯(lián)合Tiamat發(fā)布首個基于擴散的商業(yè)級發(fā)型移植框架：Stable-Hair！

社區(qū)精華內(nèi)容

目錄

<sub id="dtjpw"><p id="dtjpw"></p></sub>