自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<form id="c8tiu"><optgroup id="c8tiu"></optgroup></form>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

3D 版 SORA 來了！DreamTech 推出全球首個原生 3D-DiT 大模型 Direct3D

作者：機器之心 2024-06-17 12:33:34

人工智能新聞

這是首個公開發(fā)布的原生三維生成路線的 3D 大模型，通過采用 3D Diffusion Transformer (3D-DiT)，解決了長期以來困擾行業(yè)的高質量三維內容生成難題。

2024 年 5 月，DreamTech 官宣了其高質量 3D 生成大模型 Direct3D，并公開了相關學術論文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。

鏈接：https://arxiv.org/abs/2405.14832

這是首個公開發(fā)布的原生三維生成路線的 3D 大模型，通過采用 3D Diffusion Transformer (3D-DiT)，解決了長期以來困擾行業(yè)的高質量三維內容生成難題。

堅持原生 3D 技術路線并取得突破

此前，3D AIGC 通常采用的技術路線是 2D-to-3D lifting，即通過 2D 圖像模型升維得到 3D 模型，代表性方案包括早期以 Google 公司提出的 DreamFusion 為代表的 Score Distillation Sampling (SDS) ，以及以 Adobe 公司提出的 Instant3D 為代表的 Large Reconstruction Model (LRM)。雖然 3D 數據被逐步引入模型訓練過程以提升質量，但 2D 升維技術存在多頭多面、空腔、遮擋等固有問題，現有解決方案難以滿足商業(yè)應用對通用三維生成的要求。

去年初，業(yè)內部分人員開始嘗試原生 3D 路線，即不經過中間的多視角 2D 圖片或者多視角迭代優(yōu)化直接獲得 3D 模型，這條技術路線可以避開 2D 升維的缺陷，展現了獲取高質量、無畸形、無殘缺、可商用 3D 內容的潛力。原生 3D 路線在原理上相較 2D 升維方法具有顯著的優(yōu)勢，然而，其模型訓練及算法開發(fā)一直存在諸多挑戰(zhàn)，其中最關鍵的問題有：

高效的 3D 模型表征：圖像和視頻可以直接通過 2D/2.5D 的矩陣表征壓縮獲得 latent feature，相比之下， 3D 數據拓撲復雜、表征維度更高。如何對三維數據進行高效壓縮，進而對 3D latent space 進行三維數據分布的分析與學習，是一直困擾行業(yè)人員的難題。
高效的 3D 訓練架構: DiT 架構最先應用在圖像生成領域并取得了巨大成功，包括 Stable Diffusion 3 (SD3)、Hunyuan-DiT 都采用了 DiT 架構；在視頻生成領域，OpenAI SORA 采用 DiT 架構成功實現遠超 Runway 和 Pika 的視頻生成效果；而在 3D 生成領域，受限于復雜拓撲與三維表征方法，原始的 DiT 架構無法直接應用于 3D mesh 生成。
高質量大規(guī)模 3D 訓練數據: 3D 訓練數據的質量和規(guī)模直接決定了生成模型的質量及泛化能力，行業(yè)內普遍認為至少需要千萬規(guī)模的高質量 3D 訓練數據才可以達到 3D 大模型的訓練要求。然而 3D 數據在全世界范圍內都極其缺乏，盡管有諸如 ObjaverseXL 這樣千萬規(guī)模級別的 3D 訓練數據集，但其中絕大多數都是低質量的簡單結構，可用的高質量 3D 數據占比不足 5%。如何獲得足夠數量的高質量的 3D 數據是一個世界性的難題。

針對以上核心難題，DreamTech 提出了全球首個原生 3D-DiT 大模型 Direct3D。通過廣泛的實驗驗證，Direct3D 的三維模型生成質量顯著超越了目前主流的 2D 升維方法，這主要得益于以下三點：

D3D-VAE: Direct3D 提出了類似 OpenAI SORA 的 3D VAE (Variational Auto-Encoder) 來提取 3D 數據的 latent feature，將 3D 數據的表征復雜度從原本的 N^3 降低到了 n^2 (n<<N) 的緊湊 3D latent space，并通過 decoder 網絡實現了對原始 3D mesh 近乎無損的恢復。通過使用 3D latent feature，Direct3D 將原本訓練 3D-DiT 的運算和內存需求量降低了超過兩個數量級，使得大規(guī)模 3D-DiT 模型訓練成為了可能。
D3D-DiT: Direct3D 采用了 DiT 架構并對原始 DiT 進行了改進優(yōu)化，引入了針對輸入圖像的語義級與像素級對齊模塊，可實現輸出模型與任意輸入圖像的高度對齊。
DreamTech 3D 數據引擎: Direct3D 在訓練中使用了大量高質量 3D 數據，這些數據絕大部分由 DreamTech 自研的數據合成引擎制作而成。DreamTech 合成引擎建立了數據清洗、標注等全自動數據處理流程，已積累生產了超過 2000 萬的高質量 3D 數據，補全了原生 3D 算法落地的最后一塊拼圖。值得一提的是，OpenAI 在 2023 年 Shap-E 和 Point-E 的訓練過程中嘗試使用了百萬規(guī)模的 3D 合成數據，而對比 OpenAI 的數據合成方案，DreamTech 合成的 3D 數據規(guī)模更大，且質量更高。

采用 DiT 架構

3D 領域再次驗證 Scaling Law

技術架構上，Direct3D 采用與 OpenAI SORA 相似的 Diffusion Transformer (DiT)。DiT 架構是當前最先進的 AIGC 大模型架構，結合了 Diffusion 與 Transformer 兩大架構的優(yōu)勢，滿足可擴展（Scalable）的要求，即提供給模型更多的數據量及更多的大模型參數量，DiT 可達到甚至超越人類的生成質量。目前 DiT 技術的實踐項目包括圖像生成方向上的 Stable Diffusion 3 (Stablility AI，2024 年 2 月)、Hunyuan-DiT (騰訊，2024 年 5 月)，視頻生成方向上的 SORA (OpenAI, 2024 年 2 月)，DreamTech 的 Direct3D 則是全球首個公開的 3D 內容生成方向上的 DiT 實踐。

DiT 架構符合并多次驗證了 Scaling Law。

在大語言模型上，Scaling Law 已經充分證明了有效性，隨著參數量和訓練數據的增加，大模型的智能程度將極大提高；在圖像生成領域上，從 SD1 的參數量 0.8B 到 SD3 的 8B， Dall-E 3 參數量 12B，都展示了 Scaling Law 的有效性；在視頻生成領域，SORA 相比 Runway、Pika 等，據推測其技術實現上主要是將模型架構換成了 DiT，以及在模型參數量與訓練數據上都提升了一個數量級，展示了震驚世界的生成效果，無論是視頻分辨率、視頻時長還是視頻生成質量都得到了極大提升。

3D 領域也是如此，Direct3D-1B 向行業(yè)展示了首個可行的原生 3D-DiT 架構，利用自研的高質量數據合成引擎，增加訓練數據量及增大模型參數量，生成結果穩(wěn)步提升，未來 3D 生成領域將由 Direct3D (或其衍生架構) 完全取代現有的 LRM 或 SDS 方案。目前，DreamTech 團隊正在穩(wěn)步推進 Direct3D 的 scale up，計劃年底前推出 15B 參數的 Direct3D-XL，同時將訓練模型的高質量 3D 數據增加 5 倍以上，3D 生成屆時將迎來里程碑時刻。

3D 內容生成質量達到商用級別

隨著 Direct3D 的推出，3D 生成領域大步跨越進入了商用時代。以 3D 打印為例，使用 SDS、LRM 等技術方案生成的模型都會存在如下問題：

模型幾何結構扭曲，容易出現多頭多尾；
模型存在很多尖銳的毛刺；
表面過度平滑，缺少細節(jié)；
mesh 面片數少，精細結構無法保證。

這些問題的存在導致此前各類方案生成的模型無法在 3D 打印機中正常打印，還需要人工進行調整修補。Direct3D 因為采取的是原生 3D 技術路線，訓練集中僅使用 3D 數據，其所生成的 3D 模型質量也更接近原始質量，完美解決了幾何結構、模型精度、表面細節(jié)、mesh 面片數量等核心問題。Direct3D 所生成的模型質量已經超出了家用打印機的精度上限，只有更高規(guī)格的商用及工業(yè)打印機才能充分還原所生成模型的精細度。

此前， SDS、LRM 等技術方案受限于 3D 模型特征表達形式，一般生成的模型 mesh 面片數都在 5-20 萬左右，且很難再提高，然而在商業(yè)使用中，3D 模型的 mesh 面片數量往往需要達到 100-500 萬以上。Direct3D 提出了更精細的 3D 特征表達范式，使得所生成的模型 mesh 面片數沒有上限，可以達到并超過 1000 萬，滿足各類商業(yè)場景需要。

隨著 Direct3D 模型參數量及訓練數據量的增加，3D 生成可以應用到的行業(yè)會越來越多，包括萬億級別的游戲、動漫行業(yè)，預計在 2025 年底之前，3D 生成將實現大部分游戲、動畫、影視建模的替代工作，在各行業(yè)大規(guī)模投入使用。

Direct3D 實踐

基于 Direct3D 大模型，DreamTech 推出了兩款嘗鮮產品，目前已經開放申請測試（點擊閱讀原文，跳轉：www.neural4d.com）。

其一是面向 C 端用戶的 Animeit!，Animeit! 可將用戶輸入的任意圖片 / 文字對象轉換為二次元風格的高質量 3D 人物形象，并且 3D 人物具備骨骼節(jié)點以用于動作綁定，在 Animeit! 上用戶可以與個性化的 3D AI 伙伴直接對話并進行動作交互。

Animeit! 所生成的二次元角色精細度極高，臉部輪廓細節(jié)清晰可辨，手部細節(jié)凸顯、手指粒粒分明，這是此前的 3D 生成技術路線無法達到的質量水平，已可用于二次元社區(qū) MMD 制作。

另一款產品則為面向創(chuàng)作者的 3D 內容創(chuàng)作平臺，用戶可以像使用 Midjourney 這類平臺一樣，通過文本描述在 1 分鐘之內獲得高質量 3D 模型，不需要等待長時間的 refinement；用戶也可以僅上傳單張圖片，稍作等待即可獲得高質量且還原精準的 3D 模型。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<thead id="mmayj"></thead>

<center id="mmayj"><b id="mmayj"></b></center>

<wbr id="mmayj"><menu id="mmayj"></menu></wbr>

<tfoot id="mmayj"><pre id="mmayj"><ins id="mmayj"></ins></pre></tfoot>

<abbr id="mmayj"><rp id="mmayj"></rp></abbr>