自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Stability.ai開源3D模型,僅需0.5秒就能快速生成

發(fā)布于 2024-8-5 10:07
瀏覽
0收藏

著名開源大模型平臺Stability.ai開源了3D生成模型——Stable Fast 3D(以下簡稱“SF3D”)。


用戶通過圖片僅需0.5秒就能快速生成高質(zhì)量3D模型,還包括UV展開網(wǎng)格、材質(zhì)參數(shù)、具有減少照明烘焙的反照率顏色,以及可選的四邊形或三角形重網(wǎng)格等,這也是目前最快的3D生成模型。


開源地址:https://github.com/Stability-AI/stable-fast-3d

huggingface:https://huggingface.co/stabilityai/stable-fast-3d

Stability.ai開源3D模型,僅需0.5秒就能快速生成-AI.x社區(qū)

在傳統(tǒng)的3D重建模型中,變換器通常輸出較低分辨率的Triplane表示,這會導(dǎo)致在高頻和高對比度紋理場景中出現(xiàn)明顯的混疊偽影,在實際應(yīng)用中效果較差需要頻繁的手動處理才能使用。


而SF3D是基于TripoSR架構(gòu),通過引入多個新模塊來改進輸出質(zhì)量。增強的Transformer網(wǎng)絡(luò)預(yù)測更高分辨率的三平面,有助于減少混疊偽影。該網(wǎng)絡(luò)從DINO切換到改進的DINOv2以獲取圖像標記,低分辨率(64×64)的三平面會引入明顯偽影,而通過提高分辨率可以緩解這一問題。

Stability.ai開源3D模型,僅需0.5秒就能快速生成-AI.x社區(qū)

還受PointInfinity的啟發(fā),增強的Transformer網(wǎng)絡(luò)輸出更高分辨率的三平面,例如,通過避免在更高分辨率三平面標記上的自注意力,使復(fù)雜度與輸入大小呈線性關(guān)系,從而產(chǎn)生96×96分辨率、1024通道的三平面,進一步通過打亂輸出特征的維度。


為了增強反射對象的輸出網(wǎng)格外觀,在渲染時生成更好的模型材質(zhì),SF3D通過 “Material Net”的網(wǎng)絡(luò)來實現(xiàn)這一點,該網(wǎng)絡(luò)從輸入圖像中預(yù)測整個物體的單一金屬和粗糙度值。


為了穩(wěn)定訓(xùn)練并防止直接回歸時的網(wǎng)絡(luò)崩潰,SF3D采用了一種概率預(yù)測方法,預(yù)測Beta分布的參數(shù),并通過最小化對數(shù)似然來訓(xùn)練網(wǎng)絡(luò)。

Stability.ai開源3D模型,僅需0.5秒就能快速生成-AI.x社區(qū)

SF3D還引入了“Light Net”的網(wǎng)絡(luò)來預(yù)測輸入圖像中的光照,從而解決因光照變化(如陰影)導(dǎo)致的問題。


Light Net通過使用從變換器得到的高分辨率Triplane來預(yù)測球形高斯照明圖。這種巧妙設(shè)計允許SF3D在渲染時考慮到3D空間關(guān)系和物體表面的照明變化,從而生成沒有混入光照效果的均勻物體。


SF3D使用了一種光照解耦損失函數(shù),確保學(xué)習(xí)到的照明與訓(xùn)練數(shù)據(jù)中觀察到的照明條件一致,從而解決了外觀和陰影之間的歧義。


為了全面評估SF3D的性能,研究人員選擇了GSO和OmniObject3D作為主要的數(shù)據(jù)集。這些數(shù)據(jù)集包含了多種類型的3D對象,能夠充分測試SF3D在不同場景下的表現(xiàn)。為了確保測試的公正性和可比性,所有比較方法都在相同的硬件環(huán)境下運行。

Stability.ai開源3D模型,僅需0.5秒就能快速生成-AI.x社區(qū)

并將SF3D與OpenLRM、TripoSR、LGM、CRM、InstantMesh和ZeroShape知名3D模型進行了綜合對比。結(jié)果顯示,SF3D優(yōu)于當前主流3D模型,能夠重建準確的形狀產(chǎn)生更詳細的紋理,并且視覺質(zhì)量更高。

Stability.ai開源3D模型,僅需0.5秒就能快速生成-AI.x社區(qū)

本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/bR2KI0k231ErvKS80JfKRA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦