自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

懂3D的語言模型來了!UCLA、上交、MIT等聯(lián)合提出3D-LLM:性能大漲9%

人工智能 新聞
從互聯(lián)網(wǎng)上可以輕松獲取海量的二維圖像和相應(yīng)文本的數(shù)據(jù)對(duì),不過三維多模態(tài)數(shù)據(jù)的獲取卻非常困難,網(wǎng)絡(luò)上的三維資產(chǎn)非常稀缺,而且提供文本標(biāo)注也更有挑戰(zhàn)。

大型語言模型(LLM)和視覺語言模型(VLM)在各種評(píng)測(cè)基準(zhǔn)中都展現(xiàn)出了強(qiáng)大的性能,比如可以看圖說話、進(jìn)行常識(shí)推理。

但這些模型的訓(xùn)練過程并沒有引入3D物理世界,也就無法理解更豐富的現(xiàn)實(shí)概念,包括空間關(guān)系、布局、物體反饋等。

最近,加州大學(xué)洛杉磯分校、上海交大、華南理工大學(xué)、麻省理工學(xué)院等機(jī)構(gòu)的研究人員聯(lián)合提出了一個(gè)全新的3D-LLM任務(wù),把3D世界的知識(shí)注入到大型語言模型中,以3D點(diǎn)云及其特征作為輸入,從而可以執(zhí)行各種3D相關(guān)的任務(wù),包括描述生成、3D問題回答、任務(wù)分解、3D輔助對(duì)話、導(dǎo)航等。

論文鏈接:https://arxiv.org/pdf/2307.12981.pdf

基于這個(gè)思路,研究人員設(shè)計(jì)了三種類型的提示機(jī)制,收集了超過30萬的3D語言數(shù)據(jù)來支持上述任務(wù)。

為了有效地訓(xùn)練3D-LLM,首先使用從渲染的多視圖圖像獲得3D特征的3D特征提取器,再用2D VLMs作為模型的骨干來訓(xùn)練3D-LLM網(wǎng)絡(luò);通過引入3D定位機(jī)制,3D-LLM可以更好地捕獲3D空間信息。

在ScanQA上的實(shí)驗(yàn)結(jié)果表明,該模型顯著優(yōu)于最先進(jìn)的基線模型,例如,BLEU-1指標(biāo)上的性能提升達(dá)到9%

此外,在3D描述生成、3D輔助對(duì)話等數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型優(yōu)于2D VLMs

定性結(jié)果也表明,該模型可以執(zhí)行超出現(xiàn)有的LLM和VLM能力范圍的一些任務(wù)。

三維語言數(shù)據(jù)生成

從互聯(lián)網(wǎng)上可以輕松獲取海量的二維圖像和相應(yīng)文本的數(shù)據(jù)對(duì),不過三維多模態(tài)數(shù)據(jù)的獲取卻非常困難,網(wǎng)絡(luò)上的三維資產(chǎn)非常稀缺,而且提供文本標(biāo)注也更有挑戰(zhàn)。

現(xiàn)有的三維語言數(shù)據(jù),如ScanQA、ScanRefer等在數(shù)量和多樣性方面都很有限,而且每個(gè)數(shù)據(jù)集都僅限于一項(xiàng)任務(wù),如何自動(dòng)生成一個(gè)可用于各種三維相關(guān)任務(wù)的三維語言數(shù)據(jù)集非常值得深入研究。

受GPT等大型語言模型的啟發(fā),研究人員提出利用此類模型來收集3D語言數(shù)據(jù)。

具體來說,主要有三種方法來提示純文本GPT模型來生成數(shù)據(jù):

1. 基于boxes-demonstration-instruction的提示。

輸入三維場(chǎng)景中房間和物體的軸對(duì)齊包圍框(AABB),提供場(chǎng)景的語義和空間位置信息,然后向GPT模型提供具體指令,以生成多樣化的數(shù)據(jù)。

研究人員給GPT模型提供0-3個(gè)少樣本演示示例,用來指示生成的數(shù)據(jù)類型。

2. 基于ChatCaptioner的提示。

使用ChatGPT輸入提示詢問一系列關(guān)于圖像的有信息量的問題(informative questions),然后用BLIP-2模型回答這些問題。

為了收集三維相關(guān)數(shù)據(jù),研究人員將不同視角的圖像輸入 BLIP-2,然后要求ChatGPT提問并收集不同區(qū)域的信息,從而形成整個(gè)場(chǎng)景的全局三維描述。

3. 基于revision的提示,可用于將一種三維數(shù)據(jù)遷移到到另一種類型的三維數(shù)據(jù)。

經(jīng)過上述流程,GPT能夠生成各種類型的三維語言數(shù)據(jù),主要基于下列三維資產(chǎn):

1. Objaverse,包含80萬個(gè)三維物體,不過由于語言描述是從在線資源中提取的,未經(jīng)人工檢查,因此大多數(shù)對(duì)象的描述都包括大量噪聲,比如網(wǎng)址等,或是無法生成描述。研究人員利用基于 ChatCaptioner 的提示功能為場(chǎng)景生成高質(zhì)量的 3D 相關(guān)描述。

2. Scannet,包含約1000個(gè)3D室內(nèi)場(chǎng)景的富標(biāo)注數(shù)據(jù)集,提供了場(chǎng)景中物體的語義和邊界框。-

3. Habitat-Matterport (HM3D) ,具身人工智能(embodied AI)的三維環(huán)境數(shù)據(jù)集。HM3DSem為HM3D的200多個(gè)場(chǎng)景進(jìn)一步添加了語義注釋和邊界框。

3D-LLM

3D特征抽取器

訓(xùn)練3D-LLM的第一步是建立有意義的3D特征,使之可以與語言特征相匹配,但由于缺乏大規(guī)模三維資產(chǎn)數(shù)據(jù)集,所以無法采用預(yù)訓(xùn)練的方式學(xué)習(xí)表征。

受到從二維多視角圖像中提取三維特征的方法啟發(fā),研究人員提出通過渲染多個(gè)不同視角的三維場(chǎng)景來提取三維點(diǎn)的特征,并從渲染的圖像特征中構(gòu)建三維特征。

首先提取渲染圖像的像素對(duì)齊密集特征,然后針對(duì)不同類型的三維數(shù)據(jù),設(shè)計(jì)了三種方法從渲染圖像特征中構(gòu)建三維特征:

1. 直接重建(direct reconstruction)

基于3D數(shù)據(jù),使用真實(shí)相機(jī)矩陣,直接從三維數(shù)據(jù)渲染的rgbd圖像中重建點(diǎn)云,將特征直接映射到重建的三維點(diǎn)。

這種方法適用于具有完美相機(jī)姿勢(shì)和內(nèi)在特征的 rgbd 渲染數(shù)據(jù)。

2. 特征融合(feature fusion)

使用gradslam將二維特征融合到三維映射中,與稠密映射方法不同的是,除了深度和顏色之外,模型還融合了其他特征。

這種方法適用于具有噪聲深度圖渲染或噪聲相機(jī)姿勢(shì)和內(nèi)在特征的三維數(shù)據(jù)。

3. 神經(jīng)場(chǎng)(neural field)

利用神經(jīng)voxel場(chǎng)構(gòu)建三維緊湊表征,具體來說,除了密度和顏色外,神經(jīng)場(chǎng)中的每個(gè)voxel都有一個(gè)特征,可以利用 MSE 損失對(duì)射線中的三維特征和像素中的二維特征進(jìn)行對(duì)齊。

這種方法適用于有 RGB 渲染但無深度數(shù)據(jù)的三維數(shù)據(jù),以及有噪聲的相機(jī)姿態(tài)和本征。

訓(xùn)練3D-LLMs

考慮到使用三維特征提取器可以將三維特征映射到與二維圖像相同的特征空間,因此使用這些二維視覺語言模型作為3D-LLM的骨干是合理的。

鑒于三維特征與三維特征抽取器提取的二維特征處于相同的特征空間,而且感知器能夠處理相同特征維度的任意輸入大小,因此任意大小的點(diǎn)云特征也可以輸入到感知機(jī)中。

因此,研究人員使用三維特征提取器在與凍結(jié)圖像編碼器特征相同的特征空間中提取三維特征,然后使用預(yù)訓(xùn)練二維視覺語言模型作為骨干網(wǎng)絡(luò),輸入對(duì)齊的三維特征和收集的3D語言數(shù)據(jù)集來訓(xùn)練3D語言模型。

3D定位機(jī)制

除了建立與語言語義相匹配的三維特征外,捕捉三維空間信息也至關(guān)重要。

研究人員提出了一種三維定位機(jī)制,以提高三維LLMs吸收空間信息的能力。

該機(jī)制由兩部分組成:

1. 用位置嵌入增強(qiáng)三維特征,將所有嵌入串聯(lián)起來作為最終特征

2. 將三維位置放入嵌入詞匯表,用AABB的形式表示邊界框,連續(xù)角坐標(biāo)被統(tǒng)一離散為voxel整數(shù),在語言模型的輸入和輸出嵌入中解凍這些token的權(quán)重。

實(shí)驗(yàn)部分

從ScanQA驗(yàn)證集和測(cè)試集的實(shí)驗(yàn)結(jié)果中可以看到,幾乎所有的評(píng)估指標(biāo)都得到了明顯提升。

例如,對(duì)于BLEU-1指標(biāo),該模型在驗(yàn)證集上比最先進(jìn)的ScanQA模型高出約9%,在測(cè)試集上高出約7%。

這些結(jié)果表明,通過將3D注入LLM,模型生成的答案與真實(shí)答案更為相似。

此外,基于3D的基線使用對(duì)象檢測(cè)器(如 VoteNet)來分割對(duì)象,然后將每個(gè)對(duì)象的特征發(fā)送到它們的模型中,而文中提出的模型輸入是整體3D特征,沒有顯式的對(duì)象表征。

結(jié)果表明,即使沒有明確的對(duì)象表征,該模型也能對(duì)物體及其關(guān)系進(jìn)行視覺推理。

還可以發(fā)現(xiàn),以單視角圖像或多視角圖像作為輸入,二維VLM的性能會(huì)比三維VLM下降很多,也就是說多視角圖像也包含整個(gè)場(chǎng)景的信息,但與3D-LLM相比,3D VLM的性能仍然要低得多,可能是因?yàn)槎嘁暯菆D像的特征是無序的,從而丟失了與3D有關(guān)的信息。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-03-25 08:00:00

3DAI

2025-01-26 10:19:21

2024-12-10 09:40:00

AI3D模型

2012-11-26 12:51:44

木材3D打

2024-06-17 12:33:34

2011-08-26 14:50:23

2025-01-14 09:24:46

2024-10-15 13:07:38

2020-08-26 10:37:21

阿里3D

2023-12-14 12:51:28

LLM3D場(chǎng)景

2011-10-06 13:30:45

宏碁投影儀

2025-03-27 09:26:30

2017-03-22 11:57:57

3D XPoint存儲(chǔ)英特爾

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2023-08-18 08:00:00

游戲開發(fā)3D模型

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2024-11-06 09:47:00

2011-05-26 10:55:39

2024-05-06 12:24:00

模型訓(xùn)練

2024-07-31 15:30:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)