自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

提速199倍!清華&哈佛發(fā)布三維語(yǔ)義高斯?jié)姙RLangSplat|CVPR‘24 Highlight

人工智能 新聞
清華&哈佛團(tuán)隊(duì)提出LangSplat,在開放文本目標(biāo)定位和語(yǔ)義分割任務(wù)上達(dá)到SOTA性能。

入選CVPR 2024 Highlight的三維語(yǔ)義高斯?jié)姙R最新成果,查詢速度比之前的SOTA方法LERF快了199倍

清華&哈佛團(tuán)隊(duì)提出LangSplat,在開放文本目標(biāo)定位和語(yǔ)義分割任務(wù)上達(dá)到SOTA性能。

圖片

該工作目前在??(Twitter)上受到廣泛關(guān)注,論文視頻累計(jì)瀏覽量超過(guò)100,000,論文代碼已開源。

圖片


結(jié)合三維高斯?jié)姙R技術(shù)重建三維語(yǔ)義場(chǎng)

人類生活在一個(gè)三維世界中,并通過(guò)文本語(yǔ)言描述三維場(chǎng)景。構(gòu)建三維語(yǔ)義場(chǎng)以支持在三維空間中的開放文本查詢最近越來(lái)越受到關(guān)注。

LangSplat方法結(jié)合三維高斯?jié)姙R技術(shù)重建三維語(yǔ)義場(chǎng),能夠?qū)崿F(xiàn)準(zhǔn)確高效的開放文本查詢。

現(xiàn)有方法在NeRF的基礎(chǔ)上嵌入CLIP語(yǔ)義特征,LangSplat則通過(guò)結(jié)合三維高斯?jié)姙R,在每個(gè)高斯點(diǎn)上編碼了從CLIP提取的語(yǔ)義特征。

LangSpla采用tile-based的三維高斯?jié)姙R技術(shù)來(lái)渲染語(yǔ)義特征,從而避免了NeRF中計(jì)算成本高昂的渲染過(guò)程。

首先訓(xùn)練特定場(chǎng)景下的語(yǔ)義自編碼器,然后在場(chǎng)景特定的低維latent space上學(xué)習(xí)語(yǔ)義特征,而不是直接學(xué)習(xí)高維的CLIP語(yǔ)義特征,從而降低了計(jì)算量。

現(xiàn)有基于NeRF的方法的三維語(yǔ)義場(chǎng)比較模糊,無(wú)法清晰地區(qū)分目標(biāo)的邊界。本文深入研究了這一問(wèn)題,提出使用SAM學(xué)習(xí)多層次語(yǔ)義,在不引入DINO特征的情況下獲得了更準(zhǔn)確的語(yǔ)義場(chǎng)。

廣泛的實(shí)驗(yàn)結(jié)果表明,LangSplat在開放文本目標(biāo)定位和語(yǔ)義分割任務(wù)上的性能顯著超過(guò)了之前的SOTA方法LERF。值得注意的是,LangSplat在1440×1080分辨率的圖像上,查詢速度比LERF快了199倍。

團(tuán)隊(duì)強(qiáng)烈推薦查看在項(xiàng)目主頁(yè)中的更多視頻結(jié)果。

https://langsplat.github.io/

圖片

具體方法

首先來(lái)看LangSplat的主要貢獻(xiàn),分別為:

  • 通過(guò)引入帶有語(yǔ)義特征的3D高斯?jié)姙R來(lái)進(jìn)行三維場(chǎng)景感知。
  • 與以前的方法相比,實(shí)現(xiàn)了顯著的速度提升,使其適合實(shí)時(shí)應(yīng)用。
  • 通過(guò)采用層次語(yǔ)義和新的渲染技術(shù),LangSplat提高了3D語(yǔ)義場(chǎng)的精確度。
  • 通過(guò)使用場(chǎng)景特定的自動(dòng)編碼器,減少了處理高維數(shù)據(jù)所需的計(jì)算和內(nèi)存開銷。

圖片

具體來(lái)說(shuō),采用了如下方法:

層次語(yǔ)義學(xué)習(xí):LangSplat利用Segment Anything Model(SAM)學(xué)習(xí)層次語(yǔ)義,解決了三維語(yǔ)義場(chǎng)的邊界模糊問(wèn)題。

3D語(yǔ)義高斯?jié)姙R:LangSplat引入了一種新的技術(shù),即3D高斯?jié)姙R,它使用包含語(yǔ)義特征嵌入的3D高斯來(lái)表示3D場(chǎng)景。這種方法比NeRF-based的方法渲染過(guò)程更快。

特定場(chǎng)景的語(yǔ)義自編碼器:為了緩解高維語(yǔ)義特征嵌入導(dǎo)致的內(nèi)存out of memory問(wèn)題,LangSplat構(gòu)建特定場(chǎng)景的語(yǔ)義自編碼器將這些文本語(yǔ)義特征降維。

層次語(yǔ)義學(xué)習(xí)

在本文中,團(tuán)隊(duì)利用SAM來(lái)獲得實(shí)例級(jí)的精確對(duì)象掩碼,然后用這些掩碼對(duì)應(yīng)的圖像區(qū)域提取像素對(duì)齊的特征。團(tuán)隊(duì)還明確地建模了SAM定義的語(yǔ)義層次,以解決點(diǎn)模糊性問(wèn)題。

具體來(lái)說(shuō),團(tuán)隊(duì)將一個(gè)32×32點(diǎn)提示的常規(guī)網(wǎng)格輸入SAM,以獲得三個(gè)不同語(yǔ)義層次下的掩碼,分別代表子部分、部分和整體層次的掩碼。

圖片

然后基于SAM預(yù)測(cè)的IoU分值、穩(wěn)定性分值和掩碼之間的重疊率,為每一組掩碼去除冗余的掩碼。

每個(gè)過(guò)濾后的掩碼集合獨(dú)立地根據(jù)其各自的語(yǔ)義層次做全圖分割,從而得到三個(gè)分割圖: Ms,Mp,Mw。

這些分割圖準(zhǔn)確地勾勒出對(duì)象在其層次結(jié)構(gòu)中的邊界,有效地將場(chǎng)景劃分為語(yǔ)義上有意義的區(qū)域。通過(guò)獲得的分割圖,團(tuán)隊(duì)繼續(xù)為每個(gè)分割區(qū)域提取CLIP特征。數(shù)學(xué)上,得到的像素對(duì)齊的語(yǔ)義嵌入是:
圖片
如此,從三維語(yǔ)義場(chǎng)景渲染的每個(gè)像素都具有與其精確語(yǔ)義上下文相匹配的CLIP特征。這種匹配減少了模糊性,提高了基于語(yǔ)義的查詢的準(zhǔn)確性。

此外,由于團(tuán)隊(duì)在“整體”、“部分”和“子部分”層次上都有不同的分割圖,團(tuán)隊(duì)可以直接在這些預(yù)定義的尺度上查詢?nèi)S語(yǔ)義場(chǎng)。這消除了在多個(gè)絕對(duì)尺度上進(jìn)行密集搜索的需要,使查詢過(guò)程更加高效。

3D語(yǔ)義高斯?jié)姙R

在一組2D圖像上獲得語(yǔ)義嵌入后,團(tuán)隊(duì)可以通過(guò)建模3D點(diǎn)和2D像素之間的關(guān)系來(lái)學(xué)習(xí)一個(gè)3D語(yǔ)義場(chǎng)。大多數(shù)現(xiàn)有方法使用NeRFs進(jìn)行3D建模,但它們面臨著耗時(shí)的渲染過(guò)程。

為了解決這個(gè)問(wèn)題,團(tuán)隊(duì)提出了基于3D高斯散射的3D語(yǔ)義場(chǎng)建模方法。這種3D高斯散射方法明確地將3D場(chǎng)景表示為各向異性的3D高斯分布的集合,每個(gè)高斯分布G(x)由均值μ∈R^3和協(xié)方差矩陣∑描述:】
圖片
3D高斯投影到2D圖像平面上后,用基于tile的光柵化策略進(jìn)行渲染:

圖片

其中, ci是第i個(gè)高斯的顏色,N表示瓦片中的高斯數(shù)量, C(v)是在像素 v 處渲染的顏色。

圖片

這里是oi第i個(gè)高斯的不透明度,Gi2D (?)代表投影到二維上的第 i 個(gè)高斯的函數(shù)。

在本文中,團(tuán)隊(duì)提出了3D語(yǔ)義高斯,為每個(gè)高斯增加三個(gè)語(yǔ)義嵌入{fs, fp, fw} 。這些嵌入源自CLIP特征,捕捉了SAM提供的層次語(yǔ)義。增強(qiáng)后的高斯被命名為3D語(yǔ)義高斯。并采用基于tile的光柵化器以保持渲染效率:

圖片

其中, Fl(v)代表在像素 處以語(yǔ)義層次l渲染的語(yǔ)義嵌入。通過(guò)直接將語(yǔ)義信息引入高斯中,團(tuán)隊(duì)使三維語(yǔ)義場(chǎng)能夠響應(yīng)基于文本的查詢。

特定場(chǎng)景的語(yǔ)義自編碼器

作為一種顯式建模方法,表征一個(gè)復(fù)雜場(chǎng)景可能需要數(shù)百萬(wàn)個(gè)3D點(diǎn)。直接在高維的CLIP潛空間直接學(xué)習(xí)高斯的語(yǔ)義特征會(huì)顯著增加內(nèi)存消耗,容易導(dǎo)致“內(nèi)存不足”的問(wèn)題。

為降低內(nèi)存消耗并提高效率,團(tuán)隊(duì)引入了基于場(chǎng)景的語(yǔ)義自編碼器,將場(chǎng)景中的CLIP嵌入映射到低維潛在空間。CLIP模型是通過(guò)4億對(duì)(圖像,文本)訓(xùn)練的,其D維潛在空間可能非常緊湊。

然而,團(tuán)隊(duì)在這里訓(xùn)練的語(yǔ)義場(chǎng)Φ是特定于場(chǎng)景的,這意味著團(tuán)隊(duì)可以利用場(chǎng)景先驗(yàn)知識(shí)壓縮CLIP特征。事實(shí)上,對(duì)于每個(gè)輸入圖像,團(tuán)隊(duì)將獲得由SAM分割的數(shù)百個(gè)掩碼,這顯著少于CLIP訓(xùn)練中使用的圖像數(shù)量。因此,場(chǎng)景中的所有分割區(qū)域在CLIP潛在空間中稀疏分布,使團(tuán)隊(duì)能夠通過(guò)基于場(chǎng)景的自編碼器進(jìn)一步壓縮這些CLIP特征。

實(shí)驗(yàn)結(jié)果

圖片

實(shí)驗(yàn)設(shè)置:實(shí)驗(yàn)測(cè)試了該方法在開放詞匯3D對(duì)象定位和語(yǔ)義分割任務(wù)上的性能,使用的數(shù)據(jù)集包括LERF和3D-OVS。

結(jié)果:LangSplat顯著優(yōu)于先前的最先進(jìn)方法。特別是,它在1440×1080分辨率下比LERF快199倍,顯示出在速度和效率上的顯著提高。

圖片

可視化和消融研究:論文包括了詳細(xì)的可視化和消融研究,展示了LangSplat各組成部分的有效性。

圖片

圖片

項(xiàng)目主頁(yè): https://langsplat.github.io/
論文: https://arxiv.org/pdf/2312.16084.pdf
視頻: https://youtu.be/K_9BBS1ODAc?si=gfo5TrLK-htyWyuT
開源代碼: https://github.com/minghanqin/LangSplat

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-06-28 13:47:17

2024-03-07 08:00:00

高斯?jié)姙R算法排序算法

2025-04-03 10:12:30

2012-02-14 11:07:53

惠普筆記本

2025-03-24 09:41:22

2014-07-24 09:32:31

機(jī)械三維

2025-04-23 08:50:00

3D算法AI

2023-12-11 09:00:00

人工智能3D模型

2022-05-20 15:28:25

3D算法

2024-01-09 09:37:36

自動(dòng)駕駛視覺

2018-07-06 10:49:01

數(shù)據(jù)

2010-09-03 09:28:30

2021-07-13 10:57:14

軟件家居

2013-08-08 13:31:51

歐特克

2025-03-14 12:03:29

2021-05-10 21:34:04

騰訊云存儲(chǔ)

2016-06-06 10:33:08

谷歌

2021-02-17 13:20:51

forpandas語(yǔ)言

2009-11-10 12:55:26

VB.NET三維模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)