Stable Diffusion變身3D神器!一個(gè)LoRA將2D圖像轉(zhuǎn)3D模型
在Stable Diffusion當(dāng)中,只需加入一個(gè)LoRA就能根據(jù)圖像創(chuàng)建3D模型了?
港科大(廣州)與趣丸科技合作推出了全新三維生成大模型——Kiss3DGen,創(chuàng)新性地將3D生成與成熟的圖像生成模型進(jìn)行了對(duì)齊。
并且與主流2D擴(kuò)散模型技術(shù)(如ControlNet、Flux-Redux)兼容協(xié)同,無(wú)需額外訓(xùn)練即可即插即用。
△由Kiss3DGen生成的場(chǎng)景
即使在有限的訓(xùn)練數(shù)據(jù)條件下,Kiss3DGen仍能生成高質(zhì)量的3D資產(chǎn),減少對(duì)大規(guī)模數(shù)據(jù)的依賴(lài),同時(shí)在靈活性和性能方面表現(xiàn)出色。
目前,Kiss3DGen單獨(dú)使用效果已優(yōu)于現(xiàn)有開(kāi)源方法,而且在與現(xiàn)有方法相結(jié)合后,性能可進(jìn)一步增強(qiáng)。
將3D生成轉(zhuǎn)換為2D生圖
Kiss3DGen的核心創(chuàng)新點(diǎn)在充分利用現(xiàn)有2D圖像生成模型的知識(shí)與框架,將多視圖圖像和對(duì)應(yīng)法線貼圖拼接成三維聚合圖(3D Bundle Image),把傳統(tǒng)3D生成問(wèn)題轉(zhuǎn)化為2D圖像生成任務(wù)。
這種方式無(wú)需調(diào)整現(xiàn)有2D模型的結(jié)構(gòu),能夠最大程度繼承其成熟的技術(shù)優(yōu)勢(shì)。
具體流程可分為兩大步驟:
- 三維聚合圖生成:利用DiT(Diffusion Transformer)模型的全局感知能力,高效生成高度對(duì)齊的多視圖圖像及對(duì)應(yīng)法線貼圖,無(wú)需調(diào)整2D模型結(jié)構(gòu),即可繼承其成熟技術(shù)優(yōu)勢(shì)。
- Mesh與紋理重建:利用生成的法線貼圖進(jìn)行Mesh重建,通過(guò)圖像部分生成對(duì)應(yīng)的貼圖。整個(gè)過(guò)程無(wú)需額外訓(xùn)練,可直接使用現(xiàn)有重建方法完成高質(zhì)量3D資產(chǎn)生成。
在訓(xùn)練階段,需要構(gòu)建高質(zhì)量文本-3D數(shù)據(jù)集,使用LoRA技術(shù)對(duì)預(yù)訓(xùn)練的文本-圖像擴(kuò)散模型(如Flux或SD3.5)進(jìn)行微調(diào),生成高度符合文本描述的三維聚合圖。
而生成階段又可以分為兩個(gè)環(huán)節(jié)——
首先利用訓(xùn)練好的模型,根據(jù)輸入文本提示,生成包含3D模型多視角信息的三維聚合圖。
然后,通過(guò)LRM或球體初始化方法粗略重建幾何和紋理,再通過(guò)網(wǎng)格優(yōu)化與紋理投影技術(shù)(如ISOMER),精確重建3D模型的幾何形狀和紋理細(xì)節(jié)。
團(tuán)隊(duì)簡(jiǎn)介
該研究的作者為林堅(jiān)濤、楊鑫以及陳美羲,他們是來(lái)自于香港科技大學(xué)(廣州)ENVISION實(shí)驗(yàn)室的碩博生。
本工作由趣丸科技資助,由陳穎聰教授帶領(lǐng)碩博研究團(tuán)隊(duì)與趣丸科技聯(lián)合打造。
陳穎聰,香港科技大學(xué)(廣州)人工智能學(xué)域助理教授,博導(dǎo),受?chē)?guó)家人才計(jì)劃青年項(xiàng)目資助,他長(zhǎng)期致力于計(jì)算機(jī)視覺(jué)和視覺(jué)生成模型的研究,已在TPAMI、CVPR、ICCV、ECCV等頂級(jí)會(huì)議和期刊發(fā)表五十余篇論文。
陳教授的研究方向包括三維生成與重建、圖像視頻生成等,并多次以第一作者身份在頂級(jí)會(huì)議上做口頭報(bào)告。
他的研究成果屢獲大獎(jiǎng),包括ICCV 2023最佳論文提名和中國(guó)圖像圖形學(xué)會(huì)自然科學(xué)獎(jiǎng)一等獎(jiǎng)。
同時(shí),陳教授也在多個(gè)學(xué)術(shù)會(huì)議和期刊中擔(dān)任程序委員會(huì)成員或?qū)徃迦?,并與多個(gè)科技公司建立了深入的合作關(guān)系。
論文:https://arxiv.org/abs/2503.01370
代碼:https://github.com/EnVision-Research/Kiss3DGen
項(xiàng)目主頁(yè):https://ltt-o.github.io/Kiss3dgen.github.io
在線體驗(yàn):https://gen3d.funnycp.com
實(shí)驗(yàn)室主頁(yè):https://envision-research.hkust-gz.edu.cn/index.html