天大、南大發(fā)布LPSNet:無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024
通過無透鏡成像實現3D人體姿態(tài)和形狀估計不僅有利于保護隱私,而且由于設備體積小、結構簡單,可用于軍事等隱秘監(jiān)測場景。
然而,無透鏡系統的成像結果經過了特殊的光學編碼,目前的圖像恢復方法無法得到高質量的圖像,因此無法通過先恢復圖像再重建人體的方式來實現。
針對以上問題,天津大學團隊聯合南京大學在CVPR 2024的工作中提出了端到端的無透鏡成像下的人體三維重建框架LPSNet。
代碼:????https://github.com/xiaonan12138/LPSNet?????項目主頁:????https://cic.tju.edu.cn/faculty/likun/projects/LPSNet????
由于無透鏡成像數據結果經過了特殊的光學編碼,現有的方法無法直接從無透鏡系統的成像結果中提取有效的特征。
為了直接從無透鏡成像數據中提取有效的特征,作者設計了多尺度無透鏡特征解碼器。
除此之外,為了提高人體姿態(tài)估計的準確度,作者加入了雙頭輔助監(jiān)督機制。最后,作者通過實驗驗證了LPSNet可以通過無透鏡成像系統完成3D人體姿態(tài)和形狀估計。圖一展示了部分實驗結果。
圖1 第一行:無透鏡成像數據(右下角小圖為對應場景的RGB圖像,僅供參考),作為LPSNet的輸入;第二行:通過LPSNet得到的3D人體姿態(tài)和形狀,與對應場景圖像的對齊結果展示;第三行:不同視角3D結果展示
方法動機
近年來,無透鏡成像因其隱私保護強、體積小、結構簡單、成本低等諸多優(yōu)點,取得了顯著進步。隨著應用場景的多樣化,人體姿態(tài)估計需要更加小型化和輕量化的成像設備。
無透鏡成像系統正好可以滿足這些優(yōu)點,特別在隱私保護方面。在本文中,作者提出了LPSNet,其目的是通過無透鏡成像系統采集的數據(lensless measurement)來估計3D人體姿態(tài)和形狀,從而實現低成本且具有隱私保護屬性的3D人體姿態(tài)與形狀估計。
圖2 無透鏡人體姿態(tài)與形狀估計方案
不同于傳統相機,無透鏡成像系統將傳統相機中的鏡頭替換成一種輕薄且低成本的光學編碼器。由于無透鏡成像系統特殊的光學編碼方法,可以從無透鏡測量中獲得更多有價值的信息。
現階段,無透鏡成像系統的應用十分廣泛,主要應用于顯微成像、RGB圖像重建等領域。目前還沒有方法可以直接通過無透鏡成像系統估計3D人體姿態(tài)與形狀。
一種直接的方法是通過兩階段的方式完成:如圖2示,首先從無透鏡成像數據中重建RGB圖像,然后從RGB圖像中估計人體三維姿態(tài)和形狀。
然而圖2實驗結果表明,重建的RGB圖像質量不理想,導致局部特征不完整,人體位置偏差明顯。當使用無透鏡成像數據來重建RGB圖像時,結合這些因素會導致不準確的人體姿態(tài)估計。同時,使用這種方法需要消耗大量的計算資源,非常不適合在終端部署。
在這篇論文中,作者的目標是使用無透鏡成像系統來完成端到端的3D人體姿態(tài)和形狀估計,這需要克服兩個主要挑戰(zhàn):
1. 如何有效的從無透鏡成像數據中提取特征用于人體姿態(tài)和形狀估計
- 作者在初期進行的無透鏡人體姿態(tài)估計嘗試中發(fā)現,當從無透鏡成像數據中提取特征估計3D人體姿態(tài)和形狀時,人體四肢的估計精度很差。
為了解決這些挑戰(zhàn),作者提出了LPSNet,這是第一個基于無透鏡成像系統的端到端的人體姿態(tài)和形狀估計框架。
圖3 LPSNet框架總覽
方法思路LPSNet框架總覽LPSNet工作的重點是通過無透鏡成像數據來估計3D人體姿態(tài)和形狀。LPSNet的基本框架如圖3所示,該方法的核心包括以下三個部分:
1. 作者提出了一個多尺度無透鏡特征解碼器(MSFDecoder)它可以有效地解碼由無透鏡成像系統光學編碼的信息;
2. 將MSFDecoder輸出的多尺度特征送入人體參數化模型回歸器中,通過回歸器估計人姿態(tài)和形狀參數;
3. 作者還提出了一個雙頭輔助監(jiān)督機制(DHAS)可以幫助LPSNet提高人體肢體末端的估計精度。多尺度無透鏡特征解碼器
現有的方法無法直接從無透鏡成像數據中提取有效的特征,因此作者設計無透鏡特征解碼器的目標是從無透鏡成像數據中有效的提取多尺度特征,并用于后續(xù)3D人體姿態(tài)和形狀的估計。
在解碼器的內部作者加入了全局感知層
,
的設計靈感來源于HRNet[1]。
全局感知層的內部,不同分支之間的信息交互彌補了通道數量減少所造成的信息損失;全局感知層正是繼承了HRNet[1]的許多優(yōu)點,才能夠始終保持較高的分辨率,這些優(yōu)點對于從無透鏡成像數據中提取特征非常重要。
人體參數化模型回歸
?
作者在本文中使用的人體參數回歸器借鑒了PyMAF[2]的設計。
PyMAF[2]中的人體參數回歸器使用了通過反卷積得到的不同尺度特征,然而使用這種做法,會導致大量有效的信息在不斷的上下采樣過程中丟失,在LPSNet中,作者設計的全局感知層利用了HRNet[1]的結構特性維護了更多全局高分辨率特征。
雙頭輔助監(jiān)督機制
?
從無透鏡成像數據中提取的空間特征圖比較粗糙,含有大量的噪聲,對人體肢體末端的估計仍然存在一定的偏差。為了提高人體肢體末端估計的精度,作者引入了雙頭輔助監(jiān)督機制。
具體來說,作者首先通過上采樣將所有不同尺度的空間特征轉換為相同的尺度,然后將它們連接在一起得到,特征
被用于不同的輔助監(jiān)督頭。
一方面,作者通過Classification層生成熱圖表示來體現二維關鍵點的位置;另一方面,作者還通過IUV Predict層估計密集映射。
雙頭輔助監(jiān)督的損失函數由兩部分組成,可表示為:
1. 關鍵點輔助監(jiān)督
作者使用基于SimCC[3]的方法來預測姿態(tài)關鍵點。這種方法將關鍵點定位作為水平和垂直坐標的分類任務。在訓練過程中,作者沒有估計實際坐標,而是使用兩個向量分表表示和的相關位置信息,同時2D關鍵點真值轉換為同樣的兩個向量來計算損失。
損失函數的表達式為:
式中KL-Loss為Kullback-Leibler散度損失,和分別為處理后2D關鍵點真值。
2.IUV輔助監(jiān)督
模板網格上的頂點可以使用3D表面空間和2D UV空間之間的預定義雙射映射將其映射回2D圖像。密集對應表示包括身體部分P的索引和網格頂點的UV值。
實驗數據集
LPSNet的輸入是無透鏡成像數據,因此經典的人體姿態(tài)估計數據集目前還無法直接使用。為了解決這一問題,作者搭建了一個無透鏡成像系統用于采集實驗數據,該成像系統還具備較為可靠數學模型,可以用于系統仿真。
作者的實驗的數據集來源可分為以下兩個方面:
1)真實數據集:使用無透鏡成像系統采集顯示在屏幕上的圖像作為無透鏡成像數據是目前在無透鏡領域獲取數據集的主要方法。作者使用這種方式收集人體姿態(tài)數據集,包括Human3.6M、MPII、COCO、3DPW和MIP-INF-3DHP數據集。除此之外作者還采集了真實場景的人體數據。
2) 仿真數據集:無透鏡成像系統的成像過程可以通過數學模型表示。作者通過無透鏡成像系統的數學模型將主流人體姿態(tài)數據集轉換為無透鏡成像系統采集的結果。
實驗結果
由于該工作是第一個通過無透鏡成像數據估計3D人體姿勢和形狀的工作,缺少對比的方法,因此作者設計了一個兩階段的baseline進行對比。
Baseline基本結構如圖4所示,作者首先使用了Rego等人提出的無透鏡圖像重建方法[4]重建出RGB圖像,然后使用PyMAF[2]方法從RGB圖像中估計人體三維姿態(tài)與形狀。此外,作者還使用了從無透鏡數據重建的圖像對PyMAF進行微調,記為PyMAF?。
圖4 Baseline基本結構 (上部)重建圖像與原圖像對比(下部)
作者對比了LPSNet、baseline(PyMAF)和baseline(PyMAF?)方法的結果,如圖5,圖6所示??梢钥吹剑琇PSNet的結果相較于兩種baseline有著較為明顯的提升。表1為定量結果,LPSNet在MPJPE和PVE兩個評價指標上優(yōu)于兩個baseline方法。
圖5 不同方法的定性對比結果
圖6 不同方法的定性對比結果(注意:baseline(PyMAF)誤差較大,這里不做誤差分析)
表1 不同方法的定量對比結果
除此之外,作者也提供了較為詳細的消融實驗。圖7展示了定性結果,表2展示了定量結果。通過消融實驗可以看出,使用了作者設計的無透鏡特征解碼器和雙頭輔助監(jiān)督機制后,實驗結果有明顯提升。
圖7 LPSNet消融實驗結果(定性)
表2 LPSNet消融實驗結果(定量)
該工作的demo視頻如下:
作者簡介
葛昊洋,天津大學22級碩士研究生,主要研究方向:三維視覺、無透鏡成像。
馮橋,天津大學21級碩士研究生,主要研究方向:三維視覺、計算機圖形學。
??https://fengq1a0.github.io??
賈海龍,天津大學22級碩士研究生,主要研究方向:三維視覺、無透鏡成像。
李雄政,天津大學19級博士研究生,主要研究方向:三維視覺、人體與衣物重建。
殷祥軍,天津大學19級博士研究生,主要研究方向:無透鏡成像、計算攝像學。
周游,南京大學助理教授,主要研究方向:計算光學與顯微成像。
??https://zhouyou-nju.github.io/??
楊敬鈺,天津大學教授、博導,主要研究方向:計算攝像學、多媒體處理。
李坤(通訊作者),天津大學教授、博導,主要研究方向:三維視覺、多媒體處理。
??http://cic.tju.edu.cn/faculty/likun??
本文轉自 新智元 ,作者:新智元
