自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于全景圖視覺自注意力模型的室內(nèi)框架估計方法

人工智能 算法
今天分享的主題是基于全景圖視覺自注意力模型的室內(nèi)框架估計方法,此方法主要關注室內(nèi)框架估計(indoor estimation layout estimation)任務,任務輸入2D圖片,輸出圖片所描述場景的三維模型。

一、研究背景

此方法主要關注室內(nèi)框架估計(indoor estimation layout estimation)任務,任務輸入2D圖片,輸出圖片所描述場景的三維模型??紤]到直接輸出三維模型的復雜性,該任務一般被拆解為輸出2D圖像中的墻線、天花板線、地線三種線的信息,再根據(jù)線的信息通過后處理操作重建房間的三維模型。該三維模型可在后期進一步用于室內(nèi)場景復刻、VR看房等具體應用場景。區(qū)別于深度估計方法,該方法基于對室內(nèi)墻線的估計來恢復空間幾何結(jié)構,優(yōu)勢在于可使墻面的幾何結(jié)構較為平整;劣勢則在于無法恢復室內(nèi)場景沙發(fā)、椅子等細節(jié)物品的幾何信息。

根據(jù)輸入圖像的不同,一般可分為基于透視圖和基于全景圖的方法,相較于透視圖,全景圖具有視角較大、圖像信息豐富的特點。由于全景采集設備的普及,全景數(shù)據(jù)日益豐富,因此目前基于全景圖進行室內(nèi)框架估計的算法被廣泛研究。

圖片

相關算法主要包括LayoutNet、HorizonNet、HohoNet及Led2-Net等,這些方法大多基于卷積神經(jīng)網(wǎng)絡,在結(jié)構復雜的位置墻線預測效果較差,如有噪聲干擾、自遮擋等位置會出現(xiàn)墻線不連續(xù)、墻線位置錯誤等預測結(jié)果。在墻線位置估計任務中,僅關注局部特征信息會導致該類錯誤的發(fā)生,需利用全景圖中的全局信息考慮整條墻線的位置分布來估計。CNN方法在提取局部特征任務中表現(xiàn)更優(yōu),Transformer方法更擅長捕捉全局信息,因此可將Transformer方法應用于室內(nèi)框架估計任務以提升任務表現(xiàn)。

圖片

由于訓練數(shù)據(jù)依賴性,單獨應用基于透視圖預訓練的Transformer估計全景圖室內(nèi)框架效果并不理想。PanoViT模型預先將全景圖映射到的特征空間,使用Transformer學習全景圖在特征空間的全局信息,同時考慮全景圖的表觀結(jié)構信息完成室內(nèi)框架估計任務。

圖片

二、方法介紹與結(jié)果展示

1、PanoViT

網(wǎng)絡結(jié)構框架包含4個模塊,分別是Backbone,vision transformer解碼器,框架預測模塊,邊界增強模塊。Backbone模塊將全景圖映射至特征空間,vison transformer編碼器在特征空間中學習全局關聯(lián),框架預測模塊將特征轉(zhuǎn)化為墻線、天花板線、地線信息,后處理可進一步得到房間的三維模型,邊界增強模塊突出全景圖中邊界信息對于室內(nèi)框架估計的作用。

圖片

① Backbone模塊

由于直接使用transformer提取全景圖特征效果不佳,基于CNN的方法的有效性已經(jīng)證明CNN特征可用于預測房屋框架。因此,使用CNN的backbone提取全景圖不同尺度feature map并在feature map中學習全景圖像的全局信息。實驗結(jié)果表明在特征空間中使用transformer的表現(xiàn)大大優(yōu)于直接在全景圖上應用。

圖片

② Vision transformer encoder模塊

Transformer主體架構可主要分為三個模塊,包括patch sampling、patch embedding和transformer的multi-head attention。輸入同時考慮全景圖像特征圖與原始圖像并針對不同輸入采用不同patch sampling方法。原圖使用均勻采樣方法,特征圖采用水平采樣方法。來自HorizonNet的結(jié)論認為在墻線估計任務中水平方向特征具有更高重要性,參考此結(jié)論,embedding過程中對于特征圖特征進行豎直方向壓縮。采用Recurrent PE方法組合不同尺度的特征并在multi-head attention的transformer模型中進行學習,得到與原圖水平方向等長的特征向量,通過不同的decoder head可獲得對應的墻線分布。

圖片

隨機循環(huán)位置編碼(Recurrent Position Embedding)考慮到全景圖沿水平方向位移不改變圖像視覺信息的特征,因此每次訓練時沿著水平軸方向隨機選取初始位置,使得訓練過程更關注不同patch之間的相對位置而非絕對位置。

圖片

③ 全景圖的幾何信息

全景圖中幾何信息的充分利用可有助于室內(nèi)框架估計任務表現(xiàn)的提升。PanoViT模型中的邊界增強模塊強調(diào)如何使用全景圖中的邊界信息,3D Loss則幫助減少全景圖畸變影響。

邊界增強模塊考慮到墻線檢測任務中墻線的線狀特征,圖像中的線條信息重要性突出,因此需要突出邊界信息使得網(wǎng)絡了解圖像中線的分布。使用頻域中邊界增強方法突出全景圖邊界信息,基于快速傅里葉變換得到圖像頻域表示,使用掩膜在頻域空間中進行采樣,基于傅里葉反變換變換回邊界信息被突出的圖像。模塊核心在于掩膜設計,考慮到邊界對應高頻信息,掩膜首先選用高通濾波器;并根據(jù)不同線的不同走向方向采樣不同的頻域方向。該方法相對傳統(tǒng)LSD方法實施簡單且效率更高。圖片

之前工作在全景圖上計算像素距離作為估計誤差,由于全景圖畸變,圖片上的像素距離并不正比于3D世界的真實距離。PanoViT使用3D損失函數(shù),直接在3D空間中計算估計誤差。

圖片

2、模型結(jié)果

使用Martroport3D、PanoContext公共數(shù)據(jù)集進行實驗,使用2DIoU和3DIoU作為評價指標,并與SOTA方法進行對比。結(jié)果顯示PanoViT在兩個數(shù)據(jù)集中的模型評價指標基本達到最優(yōu),在特定指標中略遜于LED2。模型可視化結(jié)果與Hohonet比較可發(fā)現(xiàn),PanoViT可正確識別復雜場景下的墻線走向。在消融實驗中兩兩對比Recurrent PE、邊界增強與3D Loss模塊,可驗證模塊有效性。

圖片

圖片

為了達到更好的模型數(shù)據(jù)集,收集十萬多張室內(nèi)全景圖像自建全景圖像數(shù)據(jù)集,包含各類復雜室內(nèi)場景,并基于自定規(guī)則進行標注,從中選取5053張圖像作為測試數(shù)據(jù)集。在自建數(shù)據(jù)集上測試PanoViT模型與SOTA模型方法表現(xiàn),發(fā)現(xiàn)隨著數(shù)據(jù)量增大,PanoViT模型性能提升顯著。

圖片

三、如何在ModelScope中使用

  • 打開modelscope官網(wǎng):https://modelscope.cn/home。
  • 搜索“全景圖室內(nèi)框架估計”。
  • 點擊快速使用-在線環(huán)境使用-快速體驗,打開notebook。
  • 輸入主頁示例代碼,上傳1024*512的全景圖片,修改圖片加載路徑,運行輸出墻線預測結(jié)果。

圖片

責任編輯:姜華 來源: DataFunTalk
相關推薦

2022-03-25 11:29:04

視覺算法美團

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡算法

2021-06-08 13:28:57

JavaScript開發(fā)代碼

2009-10-15 10:58:05

敏捷開發(fā)全景圖

2021-04-30 14:57:01

區(qū)塊鏈銀行數(shù)據(jù)

2020-09-17 12:40:54

神經(jīng)網(wǎng)絡CNN機器學習

2023-10-16 13:26:00

RDBMS關系數(shù)據(jù)庫

2024-06-28 08:04:43

語言模型應用

2023-07-30 15:42:45

圖神經(jīng)網(wǎng)絡PyTorch

2017-07-07 15:46:38

循環(huán)神經(jīng)網(wǎng)絡視覺注意力模擬

2024-09-19 10:07:41

2023-05-05 13:11:16

2024-12-09 00:00:10

2021-05-07 15:40:36

計算機互聯(lián)網(wǎng) 技術

2019-12-11 18:38:56

騰訊云數(shù)據(jù)智能

2018-05-03 16:27:29

RNN神經(jīng)網(wǎng)絡ResNet

2024-07-04 12:18:21

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2017-10-15 21:43:36

點贊
收藏

51CTO技術棧公眾號