謝賽寧等新作上線,多模態(tài)理解生成大一統(tǒng)!思路竟與GPT-4o相似?
在不久之前機(jī)器之心報(bào)道文章《3D領(lǐng)域DeepSeek「源神」啟動(dòng)!國(guó)產(chǎn)明星創(chuàng)業(yè)公司,一口氣開(kāi)源八大項(xiàng)目》中,我們?cè)榻B到,國(guó)內(nèi)專注于構(gòu)建通用 3D 大模型的創(chuàng)業(yè)公司 VAST 將持續(xù)開(kāi)源一系列 3D 生成項(xiàng)目。
近日,新的開(kāi)源項(xiàng)目它來(lái)了,包括針對(duì)任意三維模型生成完整可編輯部件的 HoloPart 與通用自動(dòng)綁定框架 UniRig。
今天,就讓我們一起圍觀下這兩個(gè)新的3D開(kāi)源項(xiàng)目。
HoloPart:為任意三維模型生成完整、可編輯的部件
- 論文標(biāo)題:HoloPart: Generative 3D Part Amodal Segmentation
- 論文地址: https://arxiv.org/abs/2504.07943
- 項(xiàng)目主頁(yè): https://vast-ai-research.github.io/HoloPart
- 代碼地址: https://github.com/VAST-AI-Research/HoloPart
- Demo: https://huggingface.co/spaces/VAST-AI/HoloPart
- huggingface daily paper:https://huggingface.co/papers/2504.07943
3D 內(nèi)容生產(chǎn)面臨的一個(gè)關(guān)鍵痛點(diǎn),是三維模型的部件及編輯挑戰(zhàn)。
你是否曾嘗試編輯網(wǎng)上下載的、掃描得到的、或是 AI 生成的三維模型?它們往往是「一整坨」的幾何體,想要調(diào)整、驅(qū)動(dòng)或重新賦予某個(gè)獨(dú)立部件(比如椅子腿、角色眼鏡)不同的材質(zhì)都極其困難。
現(xiàn)有的三維部件分割技術(shù)能識(shí)別出屬于不同部件的可見(jiàn)表面塊,但往往得到的是破碎、不完整的碎片,這極大地限制了它們?cè)趯?shí)際內(nèi)容創(chuàng)作中的應(yīng)用價(jià)值。
HoloPart 引入了一項(xiàng)新任務(wù):三維部件完整語(yǔ)義分割(3D Part Amodal Segmentation)——它不僅是將三維形狀分解為可見(jiàn)的表面塊,而是分解成其背后完整的、包含語(yǔ)義信息的部件,甚至能推斷出被遮擋部分的幾何結(jié)構(gòu),即使部分被遮擋也能生成完整部件。
開(kāi)發(fā)者可以在huggingface上試玩。
「看見(jiàn)」完整部件
HoloPart 是一種新型擴(kuò)散模型,由 VAST 和港大聯(lián)合研發(fā)。受到非模式化感知(Amodal Perception,即人類即使在物體部分被遮擋時(shí)也能感知到完整物體的能力)的啟發(fā),研究團(tuán)隊(duì)通過(guò)一個(gè)實(shí)用的兩階段方法來(lái)實(shí)現(xiàn):
- 初始分割:首先,利用現(xiàn)有的先進(jìn)方法(如 SAMPart3D)獲得初始的表面塊(即不完整的部件)。
- HoloPart 部件補(bǔ)全:這是關(guān)鍵所在。將不完整的部件塊,連同整個(gè)形狀的上下文信息一起,輸入到新穎的 HoloPart 模型中。HoloPart 基于強(qiáng)大的擴(kuò)散變換器(Diffusion Transformer)架構(gòu),能夠生成該部件完整且合理的 3D 幾何形狀。
HoloPart 工作原理
HoloPart 不僅僅是「填補(bǔ)空洞」。它基于 TripoSG 三維生成基礎(chǔ)模型的生成先驗(yàn)構(gòu)建,通過(guò)在大型數(shù)據(jù)集(如 Objaverse)上進(jìn)行廣泛預(yù)訓(xùn)練,并在部件 - 整體數(shù)據(jù)上進(jìn)行專門微調(diào),從而獲得了對(duì)三維幾何的深刻理解。
針對(duì)部件補(bǔ)全這一特定任務(wù),HoloPart 對(duì) TripoSG 的擴(kuò)散變換器架構(gòu)進(jìn)行了適配。其關(guān)鍵創(chuàng)新在于雙重注意力機(jī)制:
- 局部注意力(Local Attention):聚焦于輸入表面塊的精細(xì)幾何細(xì)節(jié),確保補(bǔ)全后的部件與可見(jiàn)幾何無(wú)縫銜接。
- 上下文感知注意力(Context - Aware Attention):關(guān)注整體形狀以及該部件在其中的位置。這一關(guān)鍵步驟確保補(bǔ)全的部件在全局上是合理的——保持比例、語(yǔ)義和整體形狀的一致性。
這使得 HoloPart 能夠智能地重建隱藏的幾何細(xì)節(jié),即使對(duì)于復(fù)雜部件或存在嚴(yán)重遮擋的情況,也能尊重物體的整體結(jié)構(gòu)。
在該項(xiàng)目中,研究團(tuán)隊(duì)還利用 ABO 和 PartObjaverse - Tiny 數(shù)據(jù)集建立了新的基準(zhǔn)測(cè)試來(lái)評(píng)估這項(xiàng)新任務(wù)。實(shí)驗(yàn)證明,在處理這種具有挑戰(zhàn)性的部件補(bǔ)全任務(wù)時(shí),HoloPart 的性能顯著優(yōu)于現(xiàn)有的各種先進(jìn)形狀補(bǔ)全方法。
從效果上看,差異是肉眼可見(jiàn)的:其他方法在處理復(fù)雜結(jié)構(gòu)時(shí)常常失敗或產(chǎn)生不連貫的結(jié)果,而 HoloPart 則能持續(xù)生成高質(zhì)量、高保真的完整部件,并與原始形狀完美契合。
解鎖下游應(yīng)用
通過(guò)生成完整的部件,HoloPart 解鎖了一系列以前難以甚至無(wú)法自動(dòng)實(shí)現(xiàn)的強(qiáng)大應(yīng)用:
- 直觀編輯:輕松抓取、縮放、移動(dòng)或替換完整部件(如圖中的戒指、圖中的汽車編輯)。
- 便捷的材質(zhì)分配:將紋理或材質(zhì)清晰地賦予給完整的組件。
- 適用于動(dòng)畫的資產(chǎn):生成適合綁定和動(dòng)畫制作的部件。
- 更智能的幾何處理:通過(guò)處理連貫的部件,實(shí)現(xiàn)更魯棒的網(wǎng)格重劃分 (Remeshing) 等幾何操作。
- 部件感知的生成:這項(xiàng)工作為未來(lái)能夠在部件層面創(chuàng)建或操縱三維形狀的生成模型奠定了基礎(chǔ)。
- 幾何超分辨率:HoloPart 甚至展示了通過(guò)用高數(shù)量的 token 來(lái)表征部件,從而提升部件細(xì)節(jié)的潛力。
統(tǒng)一模型綁定萬(wàn)物:UniRig 通用自動(dòng)綁定框架
- 論文標(biāo)題:One Model to Rig Them All: Diverse Skeleton Rigging with UniRig
- 論文鏈接:https://zjp-shadow.github.io/works/UniRig/static/supp/UniRig.pdf
- 代碼地址:https://github.com/VAST-AI-Research/UniRig
- 項(xiàng)目主頁(yè):https://zjp-shadow.github.io/works/UniRig/
- HuggingFace 主頁(yè):https://huggingface.co/VAST-AI/UniRig
核心方法:自回歸預(yù)測(cè)與創(chuàng)新的 Tokenization
UniRig 的核心在于借鑒了驅(qū)動(dòng)語(yǔ)言和圖像生成領(lǐng)域進(jìn)步的大型自回歸模型的力量。
但 UniRig 預(yù)測(cè)的不是像素或文字,而是 3D 骨骼的結(jié)構(gòu)——逐個(gè)關(guān)節(jié)地進(jìn)行預(yù)測(cè)。這種序列化的預(yù)測(cè)過(guò)程是確保生成拓?fù)浣Y(jié)構(gòu)有效骨骼的關(guān)鍵。
實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵創(chuàng)新是骨骼樹(shù) Tokenization (Skeleton Tree Tokenization) 方法。
將具有復(fù)雜關(guān)節(jié)相互依賴關(guān)系的層級(jí)化骨骼結(jié)構(gòu),表示為適合 Transformer 處理的線性序列并非易事。UniRig 的方案高效地編碼了:
- 關(guān)節(jié)坐標(biāo):骨骼關(guān)節(jié)的離散化空間位置。
- 層級(jí)結(jié)構(gòu):明確的父子關(guān)系,確保生成有效的樹(shù)狀結(jié)構(gòu)。
- 骨骼語(yǔ)義:使用特殊 Token 標(biāo)識(shí)骨骼類型(例如,Mixamo 等標(biāo)準(zhǔn)模板骨骼,用于頭發(fā) / 布料模擬的動(dòng)態(tài)彈簧骨骼),這對(duì)于下游任務(wù)和實(shí)現(xiàn)逼真動(dòng)畫至關(guān)重要。
這種優(yōu)化的 Tokenization 方案,與樸素方法相比,序列長(zhǎng)度減少約 30%,使得基于 OPT 架構(gòu)的自回歸模型能夠有效地學(xué)習(xí)骨骼結(jié)構(gòu)的內(nèi)在模式,并以形狀編碼器處理后的輸入模型幾何信息作為條件。
不止骨骼:精準(zhǔn)蒙皮與屬性預(yù)測(cè)
在預(yù)測(cè)出有效的骨骼后,UniRig 采用骨骼 - 表面交叉注意力 (Bone - Point Cross Attention) 機(jī)制來(lái)預(yù)測(cè)每個(gè)頂點(diǎn)的蒙皮權(quán)重。該模塊有效地捕捉了每根骨骼對(duì)其周圍模型表面的復(fù)雜影響,融合了來(lái)自模型和骨骼的幾何特征,并通過(guò)關(guān)鍵的測(cè)地線距離信息增強(qiáng)了空間感知能力。
此外,UniRig 還能預(yù)測(cè)骨骼特定屬性(如彈簧骨骼的剛度和重力影響),使得基于學(xué)習(xí)參數(shù)的、更符合物理規(guī)律的次級(jí)運(yùn)動(dòng)成為可能。研究團(tuán)隊(duì)在訓(xùn)練中通過(guò)可微分的物理模擬對(duì)此進(jìn)行了評(píng)估,以增強(qiáng)最終結(jié)果的真實(shí)感。
Rig - XL 數(shù)據(jù)集:以數(shù)據(jù)驅(qū)動(dòng)泛化能力
強(qiáng)大的模型離不開(kāi)高質(zhì)量數(shù)據(jù)的支撐。為了訓(xùn)練 UniRig 以獲得廣泛的適用性,研究團(tuán)隊(duì)還整理構(gòu)建了 Rig-XL——一個(gè)全新的、包含超過(guò) 14000 個(gè)多樣化已綁定 3D 模型的大規(guī)模數(shù)據(jù)集。
Rig - XL 源自 Objaverse - XL 等資源并經(jīng)過(guò)精心清洗,涵蓋多個(gè)類別(雙足、四足、鳥(niǎo)類、昆蟲(chóng)、靜態(tài)物體等),為訓(xùn)練一個(gè)真正具備泛化能力的綁定模型提供了必要的規(guī)模和多樣性。研究團(tuán)隊(duì)還利用 VRoid 數(shù)據(jù)集進(jìn)一步優(yōu)化模型在處理包含彈簧骨骼的精細(xì)動(dòng)漫風(fēng)格角色上的性能。
業(yè)界最優(yōu)的性能表現(xiàn)
UniRig 顯著提升了自動(dòng)綁定技術(shù)的現(xiàn)有水平:
- 高精度:在多個(gè)關(guān)鍵指標(biāo)上遠(yuǎn)超現(xiàn)有學(xué)術(shù)界和商業(yè)方法,在具有挑戰(zhàn)性數(shù)據(jù)集上,綁定精度(關(guān)節(jié)預(yù)測(cè))提升 215%,動(dòng)畫精度(動(dòng)畫下的網(wǎng)格變形)提升 194%。
- 強(qiáng)通用性:在廣泛的模型類別上展現(xiàn)出魯棒性能——精細(xì)角色、動(dòng)物、復(fù)雜的有機(jī)和無(wú)機(jī)形態(tài)——這些都是以往方法經(jīng)常遇到困難的領(lǐng)域。
- 高魯棒性:生成拓?fù)浜侠淼墓趋篮驼鎸?shí)的蒙皮權(quán)重,在動(dòng)畫驅(qū)動(dòng)下產(chǎn)生優(yōu)于先前學(xué)術(shù)方法及常用商業(yè)工具的變形效果。
- 高效率:優(yōu)化的 Tokenization 和模型架構(gòu)帶來(lái)了實(shí)用的推理速度(1-5 秒)。