自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

給NeRF開透視眼!稀疏視角下用X光進行三維重建,9類算法工具包全開源 | CVPR 2024

人工智能 新聞
本文提出了SAX-NeRF框架,一種專為稀疏視角下X光三維重建設(shè)計的新型NeRF方法,通過Lineformer Transformer和MLG采樣策略顯著提升了新視角合成和CT重建的性能。研究者還建立了X3D數(shù)據(jù)集,并開源了代碼和預(yù)訓(xùn)練模型,為X光三維重建領(lǐng)域的研究提供了寶貴的資源和工具。

眾所周知,X 光由于有著十分強大的穿透力而被廣泛地應(yīng)用于醫(yī)療、安檢、考古、生物、工業(yè)檢測等場景的透射成像。

然而,X 光的輻射作用對人體是有害的,受試者與測試者都會或多或少地收到影響。為了減少 X 光對人體的傷害,人們開始研究稀疏視角下的 X 光重建從而降低在 X 光中的暴露時間。

這主要包含了兩個子任務(wù):

1. 新視角合成,即從一個被掃描物體的一些已拍攝的視角來合成出新的沒有被拍攝過的視角下該物體的投影。

2. CT 重建,即從多視角的 X 光投影中恢復(fù)出密集的三維 CT 體輻射密度 (volume radiodensity)。

輻射密度刻畫的是當 X 光穿透物體時,X 光被吸收或者阻擋的程度大小。如圖 2 所示,自然光成像主要靠的是光線在物體表面的反射。

而 X 光成像主要依靠的是 X 光穿透物體后被吸收或阻擋。換句話說,自然光成像關(guān)注并捕獲的是物體表面的信息如紋理顏色等,而 X 光成像關(guān)注的更多的是物體內(nèi)部的結(jié)構(gòu)和材質(zhì)。

圖1 自然光成像原理對比 X 光成像原理

也正是因為自然光成像和 X 光成像之間的顯著差異,自然光下的 NeRF 方法以及對應(yīng)的公式并不適用于 X 光。

針對 X 光的三維重建問題,本文提出了一種用于稀疏視角下 X 光三維重建的 NeRF 方法。具體而言,主要做兩個任務(wù)。一是 X 光的新視角合成 (Novel View Synthesis, NVS),二是 CT 重建,可以簡單理解為體密度的重建。

圖片

論文鏈接: https://arxiv.org/abs/2311.10959

代碼鏈接: https://github.com/caiyuanhao1998/SAX-NeRF

演示視頻:https://www.youtube.com/watch?v=oVVUaBY61eo

leaderboard: https://paperswithcode.com/dataset/x3d

圖片

X 光三維重建動態(tài) demo

先給大家看一個在新視角合成任務(wù)上的性能對比圖:

圖片

圖2 我們的方法與 SOTA 方法在醫(yī)學(xué)、生物、安檢、工業(yè)場景上的新視角合成性能對比

目前所有的訓(xùn)練測試代碼、預(yù)訓(xùn)練權(quán)重、訓(xùn)練日志、數(shù)據(jù)、測試結(jié)果均已開源。此外,我們已經(jīng)在 paper with code 設(shè)置好了 leaderboard, 歡迎大家來提交結(jié)果。

我們將開源的 github repo 拓展成了一個支持 9 類算法的工具包方便大家的科研工作。除此之外,我還把數(shù)據(jù)可視化的代碼,和造數(shù)據(jù)的代碼也一起公開了,以方便有條件的可以接觸到CT數(shù)據(jù)的朋友可以在自己搜集的數(shù)據(jù)上開展研究。

文中主要做出了以下四點貢獻:

1. 提出了一套全新的能夠同時做 X 光新視角合成與 CT 成像的 NeRF 框架,名為 SAX-NeRF。該框架的訓(xùn)練不需要用的 CT 作為監(jiān)督信號,只使用 X 光片即可。

2. 設(shè)計了一種新的分段式 Transformer,名為 Lineformer,可以捕獲成像物體在三維空間中的復(fù)雜的內(nèi)部結(jié)構(gòu)。據(jù)我們所知,我們的 Lineformer 是首個將 Transformer 應(yīng)用于 X 光渲染的 Transformer。

3. 提出了一種新型的射線采樣策略,名為 MLG sampling,可以從 X 光片上提取出局部和全局的信息。

4. 搜集了首個大規(guī)模的 X 光三維重建數(shù)據(jù)集,涵蓋醫(yī)療、生物、安檢、工業(yè)領(lǐng)域。同時,我們設(shè)計的算法在這個數(shù)據(jù)集上取得了當前最好效果,在 X 光新視角合成和 CT 重建兩大任務(wù)上比之前的最好方法要高出 12.56 和 2.49 dB。

空間坐標系的轉(zhuǎn)換

我們在圓形掃描軌跡錐形 X 光束掃描(circular cone-beam X-ray scanning)場景下研究三維重建問題。空間坐標系的變換關(guān)系如圖 3 所示。

被掃描物體的中心 O 為世界坐標系的原點。掃描儀的中心 S 為相機坐標系的中心。探測器 D 的左上角為圖像坐標系的原點。整個空間坐標系的變換遵循 OpenCV 三維視覺的標準。

圖3 空間坐標系轉(zhuǎn)換關(guān)系示意圖

本文方法

NeRF 從自然光成像到 X 光成像

在自然光成像中,NeRF采用一個 MLP Θ 來擬合的是空間中點的位置 (??,??,??) 和視角 (??,??) 到該點的顏色 (??,??,??) 和體密度 (??) 的隱式映射:

圖片

而在 X 光成像中,并不關(guān)注顏色信息,只需要重建出輻射密度  ??。

同時我們注意到輻射密度屬性與觀測的視角無關(guān)。因此,我們指出,X 光下的 NeRF 公式應(yīng)當為:

圖片

其中的 Θ?? 表示我們 Lineformer 的可學(xué)習(xí)參數(shù)。根據(jù) Beer-Lambert 規(guī)則,一條 X 光射線的強度會沿著它所穿過的物體的輻射密度的積分而呈指數(shù)型衰減。如下公式所示:

圖片

將公式 (3)中的積分離散化,同時將其中的 ??(??(??)) 用我們 Lineformer 預(yù)測的 ???? 替代便可得到預(yù)測的 X 光強度,如公式(4)所示:

圖片

我們的訓(xùn)練監(jiān)督目標是預(yù)測的 X 光強度與真實的 X 光強度之間的均方誤差:

圖片

Lineformer — 分段式 Transformer

我們注意到 X 光的成像過程是沿著穿透物體被吸收或者阻擋,成像物體不同部分的結(jié)構(gòu)和材質(zhì)存在差異,因此 X 光被吸收的程度也不一致。

然而之前的 NeRF 類方法大都使用很常規(guī)的 MLP 網(wǎng)絡(luò)平等地對待沿著射線上的采樣點。如果直接采用 MLP 來擬合公式(3)的話,那 X 光成像的重要性質(zhì)便被忽略了,難以取得很好的效果。

基于此,我們提出了一種新型的分段式 Transformer (Line Segment-based Transformer,簡稱 Lineformer)來擬合 X 光在穿透不同結(jié)構(gòu)時的衰減。

我們的算法框架如圖 4 所示。我們首先采用 MLP sampling 策略采樣出一個 batch 的 X 光射線 ?? 。

對每一條射線,我們采出一組三維點的位置 ?? 。將 ?? 通過一個哈希編碼器 ?? 得到點特征 ??。然后 ?? 經(jīng)過 4 個分段式注意力塊(Line Segment-based Attention Block,簡稱為 LSAB)與兩層全連接層便可得到這些點的輻射密度 ?? 。

圖4 SAX-NeRF 的算法框架圖

LSAB 中最核心的模塊是分段式的多頭自注意力機制(Line Segment-based Multi-head Self-Attention,LS-MSA),其結(jié)構(gòu)如圖 4 (c)所示。將輸入的點特征記為 ??∈????×?? ,將其分為 M 段:

圖片

其中的 ????∈??????×?? 。然后 ???? 會被線性地投影到 ???? 、???? 、???? :

圖片

然后將 ???? 、 ???? 、 ???? 沿著通道維度均勻地分成 k 個頭:

然后在每一個頭內(nèi)計算自相似注意力 ?????? 如下:

然后將計算結(jié)果拼接起來,通過一個全連接層后與一個位置編碼 ???? 相加后得到一段的輸出:

圖片

將 M 段輸出拼接起來便得到總的輸出:

圖片

分析我們的 LS-MSA 計算復(fù)雜度如下:

與采樣的點數(shù) ?? 呈線性相關(guān)。對比全局多頭自注意力機制的計算復(fù)雜度:

與采樣的點數(shù) ?? 呈二次相關(guān)。因此我們的方法計算量比常規(guī)的 Transformer 要小得多。

X 射線采樣策略

由于 RGB 成像中信息普遍比較密集,即一張 RGB 圖像中幾乎每一個像素都傳遞信息。因此,RGB NeRF 在采射線時通常會使用隨機的方式在圖像上采集一批像素點,如圖5 (a) 中的藍色像素所示,每一個像素點對應(yīng)一條射線。

然而這種射線采樣的策略并不適用于 X 光圖片,因為 X 光片有著較大的空間稀疏性。如果隨機采樣的話,可能有一些采樣點不落在成像區(qū)域,如圖 5 (a) 中的像素點 ?????? 。為了解決這個問題,我們設(shè)計了一種高效的射線

圖5 簡單隨機采樣 (a) 與我們的采樣策略 (b) 的對比

采樣策略,名為 MLG sampling,如圖 (b) 所示。首先,我們用一個二值化的掩膜將成像區(qū)域分割出來。然后我們將整個圖像分成互不重疊的小方塊。

然后我們隨機抽選 M 個完全落在成像區(qū)域的小方塊,取出小方塊內(nèi)所有的像素對應(yīng)的射線。在成像區(qū)域的其他位置(除開被選取的小方塊外),我們還再繼續(xù)抽取 N 個像素點對應(yīng)的射線。

將兩次抽取的射線組成一個 ray batch 用作訓(xùn)練。如此采樣得到的射線首先全都穿透被掃描物體,捕獲到被掃描物體的輻射密度信息。同時成塊的區(qū)域還有著豐富的語義上下文信息以幫助三維重建。

實驗結(jié)果

新視角合成

表1 新視角合成的定量實驗結(jié)果對比

圖6 新視角合成的視覺結(jié)果對比

新視角合成任務(wù)上的定量指標和視覺對比分別如表 1 和圖 6 所示。我們的方法比之前最好方法還要高出 12.56 dB。

CT 圖像重建

表2 CT 圖像重建定量指標對比

圖7 CT 圖像重建的視覺對比

CT 圖像重建的定量指標和視覺對比分別如表 2 與圖 7 所示。我們的方法比之前最好的方法要高出 2.5 dB。

總結(jié)與后記

本文針對 X 光三維重建問題,設(shè)計了一套基于 NeRF 的可同時進行 X 光新視角合成與 CT 重建的算法框架 SAX-NeRF。搜集了一個大規(guī)模的 X 光三維重建數(shù)據(jù)集 X3D。

目前我已經(jīng)將開源的 github repo 做成了一套相對完善的 codebase,支持 9 類算法,包含了數(shù)據(jù)生成、可視化的輔助功能函數(shù)代碼。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-16 09:51:47

模型視覺

2021-10-09 15:36:31

技術(shù)研發(fā)三維

2023-10-27 14:54:33

智能駕駛云計算

2024-02-20 09:46:00

模型技術(shù)

2023-12-13 10:14:00

機器視覺技術(shù)

2023-06-02 14:10:05

三維重建

2023-04-03 11:52:51

6D英偉達

2021-03-16 09:53:35

人工智能機器學(xué)習(xí)技術(shù)

2013-04-17 16:22:53

2023-03-21 09:19:42

技術(shù)圖像

2022-09-26 15:18:15

3D智能

2025-03-24 09:41:22

2016-02-16 13:21:33

2023-08-21 10:57:17

3D模型

2022-05-20 15:28:25

3D算法

2024-09-04 09:38:02

2019-05-13 09:22:21

微軟開源機器學(xué)習(xí)

2025-03-14 12:03:29

2023-12-29 09:36:51

三維模型

2024-12-12 08:28:11

點贊
收藏

51CTO技術(shù)棧公眾號