單圖直出CAD工程文件!CVPR 2025新研究解決AI生成3D模型“不可編輯”痛點
單張圖直接就能生成可編輯的CAD工程文件!
來自魔芯科技、NTU等的研究人員提出圖生3D新框架,名為CADCrafter。
CADCrafter和過去得到網(wǎng)格(Mesh)或3D高斯?jié)姙R(3DGS)的圖生3D方法大不相同。
不管是零件渲染圖,還是拍攝的3D打印零件,甚至是隨意拍攝的日常生活中的物體,CADCrafter均能夠生成的對應(yīng)的原始CAD文件(以CAD指令的方式表示,包括表征每個幾何特征的指令和對應(yīng)參數(shù))。
并且通過CAD編譯器進行編譯,可得到直接生產(chǎn)加工的3D文件(如STP格式的文件)。
用戶可以通過編輯CAD指令實現(xiàn)對物體的編輯(下圖右)。
實驗中,從落地實用性、表面質(zhì)量等特點來看,CADCrafter相較于目前的圖生3D方法均有顯著提升。
這項研究的作者來自KOKONI 3D(魔芯科技)、新加坡南洋理工大學(xué)、新加坡A*STAR、西湖大學(xué)、德州大學(xué)奧斯汀分校和浙江大學(xué)。
通訊作者為魔芯科技創(chuàng)始人Tianrun Chen和新加坡A*STAR研究科學(xué)家Fayao Liu。
論文已被CVPR 2025接收。
以下是更多細節(jié)。
從圖像到高質(zhì)量CAD模型的端到端生成流程
在現(xiàn)實世界中,大多數(shù)人造物體最初都是通過計算機輔助設(shè)計(CAD)軟件以參數(shù)化的方式建模的。
然而,如今大熱的3D AI生成內(nèi)容(3D AIGC)技術(shù),例如TRELLIS等方法,大多仍依賴于“網(wǎng)格模型”(Mesh)作為基礎(chǔ)。
問題也隨之而來。
相比CAD的參數(shù)化設(shè)計,網(wǎng)格模型不僅難以理解,更難精確編輯。用戶想要修改一個小部件的尺寸?在CAD中只需調(diào)整參數(shù),在網(wǎng)格模型中卻可能要大動干戈。
而且,這些AI生成的網(wǎng)格模型表面常常不夠光滑,邊緣也不夠銳利,尤其是使用像Marching Cubes這樣的算法從隱式函數(shù)轉(zhuǎn)換生成網(wǎng)格時,幾何質(zhì)量更容易受到影響。
這種粗糙不清的表面,在需要高質(zhì)量渲染或動畫的應(yīng)用中,顯得格外捉襟見肘。
相比之下,CAD的參數(shù)化模型則提供了極高的可控性和精度。它們允許用戶直接通過參數(shù)調(diào)整幾何形狀,實現(xiàn)快速且精準的修改,大大提升了設(shè)計的靈活性與可解釋性。
CADCrafter就率先嘗試了從Image-to-Mesh到Image-to-CAD的范式轉(zhuǎn)變。
方法概述如下:
1. 基于VAE與Diffusion Transformer的隱空間生成框架
CADCrafter采用了一種結(jié)合VAE與擴散模型的兩階段生成架構(gòu)。
首先,團隊訓(xùn)練了一個變分自編碼器(VAE),將CAD指令序列映射到一個結(jié)構(gòu)化的隱空間。
接著,在該隱空間中引入條件擴散生成過程:基于Diffusion Transformer(DiT)架構(gòu),訓(xùn)練一個擴散生成大模型,輸入條件為用戶提供的圖像,從而實現(xiàn)圖像引導(dǎo)下的CAD隱空間采樣與生成。
2. 蒸餾策略:從多視圖到單視圖的高效建模轉(zhuǎn)移
考慮到從單張圖像重建CAD模型的挑戰(zhàn)性,團隊首先構(gòu)建了一個多視圖輸入的DiT生成模型,以更穩(wěn)定地學(xué)習(xí)圖像到CAD空間的映射關(guān)系。
隨后,通過引入蒸餾機制(使用Ldistill損失),將多視圖模型的知識遷移到單視圖模型中,從而實現(xiàn)了僅基于單張圖像進行高質(zhì)量CAD生成的能力。
3. 引入基于DPO的可編譯性代碼檢查機制
在CAD生成過程中,CAD指令還需經(jīng)過CAD內(nèi)核(CAD Kernel)解析,才能生成可視的3D模型。
然而,若生成指令存在語義錯誤,例如不閉合曲線等問題,模型構(gòu)建將直接失敗。
為解決這一關(guān)鍵挑戰(zhàn),作者設(shè)計了一個代碼合理性判別模塊,用于判斷生成的CAD代碼是否能夠被成功編譯。
作者進一步采用DPO(Direct Preference Optimization)損失,引導(dǎo)模型傾向于生成更可編譯、幾何結(jié)構(gòu)完整的CAD指令,從而顯著提升最終3D模型生成的成功率與實用性。
渲染零件、拍攝的3D打印零件等均能重建
研究團隊選取多個標準CAD模型,使用KOKONI SOTA 3D打印機將其打印成實物,并通過拍照獲取圖像輸入。
實驗表明,CADCrafter能夠基于單張圖像,準確生成結(jié)構(gòu)清晰、符合幾何特征的CAD建模指令,其生成效果在細節(jié)還原度方面優(yōu)于現(xiàn)有方法。
拍攝日常生活中的物體,CADCrafter也能直接生成其設(shè)計制造時可用的工程文件,其表面平面度、棱角等細節(jié)均符合物體被生產(chǎn)加工制造時的特點(良好表面、尺寸和幾何特征均可編輯)。
這一成果不僅展示了CADCrafter在建模精度上的突破,也展現(xiàn)了其在實際應(yīng)用場景中的可行性。
例如,在制造與維修領(lǐng)域,工程師可通過拍攝現(xiàn)有零件照片,快速生成可編輯的CAD模型,進而加速原型設(shè)計或零件重建流程。
團隊相信,CADCrafter為AI輔助工業(yè)設(shè)計提供了新的解決方案,其從Image-to-Mesh到Image-to-CAD的范式轉(zhuǎn)變,有助于推動圖像驅(qū)動的AI 3D建模向真正可落地應(yīng)用邁出關(guān)鍵一步。