自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自然語(yǔ)言融入NeRF,給點(diǎn)文字就生成3D圖的LERF來(lái)了

人工智能 新聞
NeRF 大家都很熟悉了,但是你聽(tīng)說(shuō)過(guò) LERF 嗎?本文中,來(lái)自 UC 伯克利的研究者將語(yǔ)言嵌入到 NeRF 中,并在 3D 場(chǎng)景中實(shí)現(xiàn)靈活的自然語(yǔ)言查詢。

NeRF(Neural Radiance Fields)又稱神經(jīng)輻射場(chǎng),自從被提出以來(lái),火速成為最為熱門(mén)的研究領(lǐng)域之一,效果非常驚艷。然而,NeRF 的直接輸出只是一個(gè)彩色的密度場(chǎng),對(duì)研究者來(lái)說(shuō)可用信息很少,缺乏上下文就是需要面對(duì)的問(wèn)題之一,其效果是直接影響了與 3D 場(chǎng)景交互界面的構(gòu)建。

但自然語(yǔ)言不同,自然語(yǔ)言與 3D 場(chǎng)景交互非常直觀。我們可以用圖 1 中的廚房場(chǎng)景來(lái)解釋,通過(guò)詢問(wèn)餐具在哪,或者詢問(wèn)用來(lái)攪拌的工具在哪,以這種方式就可以在廚房里找到物體。不過(guò)完成這項(xiàng)任務(wù)不僅需要模型的查詢能力,還需要能夠在多個(gè)尺度上合并語(yǔ)義等。

本文中,來(lái)自 UC 伯克利的研究者提出了一種新穎的方法,并命名為 LERF(Language Embedded Radiance Fields),該方法將 CLIP(Contrastive Language-Image Pre-training)等模型中的語(yǔ)言嵌入到 NeRF 中,從而使得這些類型的 3D 開(kāi)放式語(yǔ)言查詢成為可能。LERF 直接使用 CLIP,無(wú)需通過(guò) COCO 等數(shù)據(jù)集進(jìn)行微調(diào),也不需要依賴掩碼區(qū)域建議。LERF 在多個(gè)尺度上保留了 CLIP 嵌入的完整性,還能夠處理各種語(yǔ)言查詢,包括視覺(jué)屬性(如黃色)、抽象概念(如電流)、文本等,如圖 1 所示。

圖片

論文地址:https://arxiv.org/pdf/2303.09553v1.pdf

項(xiàng)目主頁(yè):https://www.lerf.io/

LERF 可以實(shí)時(shí)交互地為語(yǔ)言提示提取 3D 相關(guān)示圖。例如在一張有小羊和水杯的桌子上,輸入提示小羊、或者水杯,LERF 就可以給出相關(guān) 3D 圖:

圖片

對(duì)于復(fù)雜的花束,LERF 也可以精準(zhǔn)定位:

圖片

 廚房中的不同物體:

圖片

方法

該研究通過(guò)與 NeRF 聯(lián)合優(yōu)化語(yǔ)言場(chǎng)構(gòu)建了新方法 LERF。LERF 將位置和物理尺度作為輸入并輸出單個(gè) CLIP 向量。在訓(xùn)練期間,場(chǎng)(field)使用多尺度特征金字塔(pyramid)進(jìn)行監(jiān)督,該金字塔包含從訓(xùn)練視圖的圖像裁剪(crop)生成的 CLIP 嵌入。這允許 CLIP 編碼器捕獲不同尺度的圖像語(yǔ)境,從而將相同的 3D 位置與不同尺度的語(yǔ)言嵌入相關(guān)聯(lián)。LERF 可以在測(cè)試期間以任意尺度查詢語(yǔ)言場(chǎng)以獲得 3D 相關(guān)性映射。

圖片

由于從多尺度的多個(gè)視圖中提取 CLIP 嵌入,因此通過(guò) LERF 的 3D CLIP 嵌入獲得的文本查詢的相關(guān)性映射與通過(guò) 2D CLIP 嵌入獲得的相比更加本地化(localized),并且是 3D 一致的,可以直接在 3D 場(chǎng)中進(jìn)行查詢,而無(wú)需渲染多個(gè)視圖。

圖片

LERF 需要在以樣本點(diǎn)為中心的體積上學(xué)習(xí)語(yǔ)言嵌入場(chǎng)。具體來(lái)說(shuō),該場(chǎng)的輸出是包含指定體積的圖像裁剪的所有訓(xùn)練視圖的平均 CLIP 嵌入。通過(guò)將查詢從點(diǎn)重構(gòu)為體積,LERF 可以有效地從輸入圖像的粗略裁剪中監(jiān)督密集場(chǎng),這些圖像可以通過(guò)在給定的體積尺度上進(jìn)行調(diào)節(jié)以像素對(duì)齊的方式呈現(xiàn)。

圖片

LERF 本身會(huì)產(chǎn)生連貫的結(jié)果,但生成的相關(guān)性映射有時(shí)可能是不完整的,并且包含一些異常值,如下圖 5 所示。

圖片

為了規(guī)范優(yōu)化的語(yǔ)言場(chǎng),該研究通過(guò)共享瓶頸引入了自監(jiān)督的 DINO。

在架構(gòu)方面,優(yōu)化 3D 中的語(yǔ)言嵌入不應(yīng)該影響底層場(chǎng)景表征中的密度分布,因此該研究通過(guò)訓(xùn)練兩個(gè)獨(dú)立的網(wǎng)絡(luò)來(lái)捕獲 LERF 中的歸納偏置(inductive bias):一個(gè)用于特征向量(DINO、CLIP),另一個(gè)用于標(biāo)準(zhǔn) NeRF 輸出(顏色、密度)。

實(shí)驗(yàn)

為了展示 LERF 處理真實(shí)世界數(shù)據(jù)的能力,該研究收集了 13 個(gè)場(chǎng)景,其中包括雜貨店、廚房、書(shū)店、小雕像等場(chǎng)景。圖 3 選擇了 5 個(gè)具有代表性的場(chǎng)景,展示了 LERF 處理自然語(yǔ)言的能力。

圖片

圖 3

圖 7 為 LERF 與 LSeg 的 3D 視覺(jué)對(duì)比,在標(biāo)定碗里的雞蛋中,LSeg 不如 LERF:

圖片

圖 8 表明,在有限的分割數(shù)據(jù)集上訓(xùn)練的 LSeg 缺乏有效表示自然語(yǔ)言的能力。相反,它僅在訓(xùn)練集分布范圍內(nèi)的常見(jiàn)對(duì)象上表現(xiàn)良好,如圖 7 所示。

圖片

不過(guò) LERF 方法還不算完美,下面為失敗案例,例如在標(biāo)定西葫蘆蔬菜時(shí),會(huì)出現(xiàn)其他蔬菜:

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-01-16 16:05:49

語(yǔ)義云App自然語(yǔ)言

2024-07-16 12:02:11

2012-11-26 12:51:44

木材3D打

2024-07-31 15:30:05

2024-07-04 09:26:16

2025-01-14 09:24:46

2011-08-26 14:50:23

2023-05-26 07:08:05

CSS模糊實(shí)現(xiàn)文字

2024-12-10 15:17:11

2023-09-20 12:13:47

開(kāi)發(fā)模型

2024-03-20 15:51:00

AI數(shù)據(jù)

2020-04-24 10:53:08

自然語(yǔ)言處理NLP是人工智能

2023-06-05 12:49:27

神經(jīng)網(wǎng)絡(luò)AI

2021-08-30 06:20:39

CSS 技巧3D 效果

2021-05-13 07:17:13

Snownlp自然語(yǔ)言處理庫(kù)

2023-06-26 15:11:30

智能家居自然語(yǔ)言

2024-02-29 09:38:13

神經(jīng)網(wǎng)絡(luò)模型

2011-09-22 10:07:52

奧圖碼投影儀

2017-10-19 17:05:58

深度學(xué)習(xí)自然語(yǔ)言

2011-12-21 12:46:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)