自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024

發(fā)布于 2024-6-6 13:40

瀏覽

0收藏

通過無透鏡成像實現3D人體姿態(tài)和形狀估計不僅有利于保護隱私，而且由于設備體積小、結構簡單，可用于軍事等隱秘監(jiān)測場景。

然而，無透鏡系統的成像結果經過了特殊的光學編碼，目前的圖像恢復方法無法得到高質量的圖像，因此無法通過先恢復圖像再重建人體的方式來實現。

針對以上問題，天津大學團隊聯合南京大學在CVPR 2024的工作中提出了端到端的無透鏡成像下的人體三維重建框架LPSNet。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

代碼：????https://github.com/xiaonan12138/LPSNet?????項目主頁：????https://cic.tju.edu.cn/faculty/likun/projects/LPSNet????

由于無透鏡成像數據結果經過了特殊的光學編碼，現有的方法無法直接從無透鏡系統的成像結果中提取有效的特征。

為了直接從無透鏡成像數據中提取有效的特征，作者設計了多尺度無透鏡特征解碼器。

除此之外，為了提高人體姿態(tài)估計的準確度，作者加入了雙頭輔助監(jiān)督機制。最后，作者通過實驗驗證了LPSNet可以通過無透鏡成像系統完成3D人體姿態(tài)和形狀估計。圖一展示了部分實驗結果。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖1 第一行：無透鏡成像數據（右下角小圖為對應場景的RGB圖像，僅供參考），作為LPSNet的輸入；第二行：通過LPSNet得到的3D人體姿態(tài)和形狀，與對應場景圖像的對齊結果展示；第三行：不同視角3D結果展示

方法動機

近年來，無透鏡成像因其隱私保護強、體積小、結構簡單、成本低等諸多優(yōu)點，取得了顯著進步。隨著應用場景的多樣化，人體姿態(tài)估計需要更加小型化和輕量化的成像設備。

無透鏡成像系統正好可以滿足這些優(yōu)點，特別在隱私保護方面。在本文中，作者提出了LPSNet，其目的是通過無透鏡成像系統采集的數據（lensless measurement）來估計3D人體姿態(tài)和形狀，從而實現低成本且具有隱私保護屬性的3D人體姿態(tài)與形狀估計。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖2 無透鏡人體姿態(tài)與形狀估計方案

不同于傳統相機，無透鏡成像系統將傳統相機中的鏡頭替換成一種輕薄且低成本的光學編碼器。由于無透鏡成像系統特殊的光學編碼方法，可以從無透鏡測量中獲得更多有價值的信息。

現階段，無透鏡成像系統的應用十分廣泛，主要應用于顯微成像、RGB圖像重建等領域。目前還沒有方法可以直接通過無透鏡成像系統估計3D人體姿態(tài)與形狀。

一種直接的方法是通過兩階段的方式完成：如圖2示，首先從無透鏡成像數據中重建RGB圖像，然后從RGB圖像中估計人體三維姿態(tài)和形狀。

然而圖2實驗結果表明，重建的RGB圖像質量不理想，導致局部特征不完整，人體位置偏差明顯。當使用無透鏡成像數據來重建RGB圖像時，結合這些因素會導致不準確的人體姿態(tài)估計。同時，使用這種方法需要消耗大量的計算資源，非常不適合在終端部署。

在這篇論文中，作者的目標是使用無透鏡成像系統來完成端到端的3D人體姿態(tài)和形狀估計，這需要克服兩個主要挑戰(zhàn)：

1. 如何有效的從無透鏡成像數據中提取特征用于人體姿態(tài)和形狀估計

作者在初期進行的無透鏡人體姿態(tài)估計嘗試中發(fā)現，當從無透鏡成像數據中提取特征估計3D人體姿態(tài)和形狀時，人體四肢的估計精度很差。

為了解決這些挑戰(zhàn)，作者提出了LPSNet，這是第一個基于無透鏡成像系統的端到端的人體姿態(tài)和形狀估計框架。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖3 LPSNet框架總覽

方法思路LPSNet框架總覽LPSNet工作的重點是通過無透鏡成像數據來估計3D人體姿態(tài)和形狀。LPSNet的基本框架如圖3所示，該方法的核心包括以下三個部分：

1. 作者提出了一個多尺度無透鏡特征解碼器（MSFDecoder）它可以有效地解碼由無透鏡成像系統光學編碼的信息;

2. 將MSFDecoder輸出的多尺度特征送入人體參數化模型回歸器中，通過回歸器估計人姿態(tài)和形狀參數；

3. 作者還提出了一個雙頭輔助監(jiān)督機制（DHAS）可以幫助LPSNet提高人體肢體末端的估計精度。多尺度無透鏡特征解碼器

現有的方法無法直接從無透鏡成像數據中提取有效的特征，因此作者設計無透鏡特征解碼器的目標是從無透鏡成像數據中有效的提取多尺度特征天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū) ，并用于后續(xù)3D人體姿態(tài)和形狀的估計。

在解碼器天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū) 的內部作者加入了全局感知層，的設計靈感來源于HRNet[1]。

全局感知層的內部，不同分支之間的信息交互彌補了通道數量減少所造成的信息損失；全局感知層正是繼承了HRNet[1]的許多優(yōu)點，才能夠始終保持較高的分辨率，這些優(yōu)點對于從無透鏡成像數據中提取特征非常重要。

人體參數化模型回歸

?

作者在本文中使用的人體參數回歸器借鑒了PyMAF[2]的設計。

PyMAF[2]中的人體參數回歸器使用了通過反卷積得到的不同尺度特征，然而使用這種做法，會導致大量有效的信息在不斷的上下采樣過程中丟失，在LPSNet中，作者設計的全局感知層利用了HRNet[1]的結構特性維護了更多全局高分辨率特征。

雙頭輔助監(jiān)督機制

?

從無透鏡成像數據中提取的空間特征圖比較粗糙，含有大量的噪聲，對人體肢體末端的估計仍然存在一定的偏差。為了提高人體肢體末端估計的精度，作者引入了雙頭輔助監(jiān)督機制。

具體來說，作者首先通過上采樣將所有不同尺度的空間特征轉換為相同的尺度，然后將它們連接在一起得到天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū) ，特征被用于不同的輔助監(jiān)督頭。

一方面，作者通過Classification層生成熱圖表示來體現二維關鍵點的位置；另一方面，作者還通過IUV Predict層估計密集映射。

雙頭輔助監(jiān)督的損失函數由兩部分組成，可表示為: 天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

1. 關鍵點輔助監(jiān)督

作者使用基于SimCC[3]的方法來預測姿態(tài)關鍵點。這種方法將關鍵點定位作為水平和垂直坐標的分類任務。在訓練過程中，作者沒有估計實際坐標，而是使用兩個向量分表表示和的相關位置信息，同時2D關鍵點真值轉換為同樣的兩個向量來計算損失。

損失函數的表達式為：

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

式中KL-Loss為Kullback-Leibler散度損失，和分別為處理后2D關鍵點真值。

2.IUV輔助監(jiān)督

模板網格上的頂點可以使用3D表面空間和2D UV空間之間的預定義雙射映射將其映射回2D圖像。密集對應表示包括身體部分P的索引和網格頂點的UV值。

實驗數據集

LPSNet的輸入是無透鏡成像數據，因此經典的人體姿態(tài)估計數據集目前還無法直接使用。為了解決這一問題，作者搭建了一個無透鏡成像系統用于采集實驗數據，該成像系統還具備較為可靠數學模型，可以用于系統仿真。

作者的實驗的數據集來源可分為以下兩個方面:

1）真實數據集：使用無透鏡成像系統采集顯示在屏幕上的圖像作為無透鏡成像數據是目前在無透鏡領域獲取數據集的主要方法。作者使用這種方式收集人體姿態(tài)數據集，包括Human3.6M、MPII、COCO、3DPW和MIP-INF-3DHP數據集。除此之外作者還采集了真實場景的人體數據。

2）仿真數據集：無透鏡成像系統的成像過程可以通過數學模型表示。作者通過無透鏡成像系統的數學模型將主流人體姿態(tài)數據集轉換為無透鏡成像系統采集的結果。

實驗結果

由于該工作是第一個通過無透鏡成像數據估計3D人體姿勢和形狀的工作，缺少對比的方法，因此作者設計了一個兩階段的baseline進行對比。

Baseline基本結構如圖4所示，作者首先使用了Rego等人提出的無透鏡圖像重建方法[4]重建出RGB圖像，然后使用PyMAF[2]方法從RGB圖像中估計人體三維姿態(tài)與形狀。此外，作者還使用了從無透鏡數據重建的圖像對PyMAF進行微調，記為PyMAF?。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖4 Baseline基本結構（上部）重建圖像與原圖像對比（下部）

作者對比了LPSNet、baseline（PyMAF）和baseline（PyMAF?）方法的結果，如圖5，圖6所示?？梢钥吹剑琇PSNet的結果相較于兩種baseline有著較為明顯的提升。表1為定量結果，LPSNet在MPJPE和PVE兩個評價指標上優(yōu)于兩個baseline方法。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖5 不同方法的定性對比結果

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖6 不同方法的定性對比結果（注意：baseline（PyMAF）誤差較大，這里不做誤差分析）

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

表1 不同方法的定量對比結果

除此之外，作者也提供了較為詳細的消融實驗。圖7展示了定性結果，表2展示了定量結果。通過消融實驗可以看出，使用了作者設計的無透鏡特征解碼器和雙頭輔助監(jiān)督機制后，實驗結果有明顯提升。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

圖7 LPSNet消融實驗結果（定性）

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

表2 LPSNet消融實驗結果（定量）

該工作的demo視頻如下：

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

作者簡介

葛昊洋，天津大學22級碩士研究生，主要研究方向：三維視覺、無透鏡成像。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

馮橋，天津大學21級碩士研究生，主要研究方向：三維視覺、計算機圖形學。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

??https://fengq1a0.github.io??

賈海龍，天津大學22級碩士研究生，主要研究方向：三維視覺、無透鏡成像。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

李雄政，天津大學19級博士研究生，主要研究方向：三維視覺、人體與衣物重建。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

殷祥軍，天津大學19級博士研究生，主要研究方向：無透鏡成像、計算攝像學。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

周游，南京大學助理教授，主要研究方向：計算光學與顯微成像。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

??https://zhouyou-nju.github.io/??

楊敬鈺，天津大學教授、博導，主要研究方向：計算攝像學、多媒體處理。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

李坤（通訊作者），天津大學教授、博導，主要研究方向：三維視覺、多媒體處理。

天大、南大發(fā)布LPSNet：無透鏡成像下的人體三維姿態(tài)與形狀估計 | CVPR 2024-AI.x社區(qū)

??http://cic.tju.edu.cn/faculty/likun??

本文轉自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/b_y088dUk-fT_DxDsmgR3A??

標簽

贊

收藏

回復

舉報

回復

相關推薦

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質量單目動態(tài)重建新方法

kcoufee ? 2642瀏覽 ? 0回復
CVPR 2024 | 多模態(tài)大模型幻覺原因找到了！

zhangyannni ? 4731瀏覽 ? 0回復
CVPR 2024 | 北航聯合港大發(fā)布全新文本引導矢量圖形合成方法SVGDreamer

zhangyannni ? 3023瀏覽 ? 0回復
CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 3729瀏覽 ? 0回復
字節(jié)發(fā)布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

Crystalcxt ? 2353瀏覽 ? 0回復
借助神經結構光，浙大實現動態(tài)三維現象的實時采集重建

輕薄滴假象 ? 2364瀏覽 ? 0回復
CVPR 2024 Highlight | 基于單曝光壓縮成像，不依賴生成模型也能從單張圖像中重建三維場景

輕薄滴假象 ? 2392瀏覽 ? 0回復
首個植入人體芯片發(fā)生故障！

echo_ning ? 2290瀏覽 ? 0回復
具身智能體三維感知新鏈條，TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

輕薄滴假象 ? 3184瀏覽 ? 0回復
GaussianCube在三維生成中全面超越NeRF

輕薄滴假象 ? 2613瀏覽 ? 0回復
OpenAI 是如何估計與分析模型計算量的？

angel ? 3450瀏覽 ? 0回復
高維多變量下的Transformer時序預測建模方法

海因斯DK ? 3179瀏覽 ? 0回復
微軟研究院發(fā)布無代碼開發(fā)工具 AUTOGEN STUDIO，簡化多智能體系統的構建與調試

xuxiangda ? 4710瀏覽 ? 0回復
3D人體重建新SOTA！清華&騰訊等重磅發(fā)布MagicMan：單一圖像生成高質量人體新突破

angel ? 2935瀏覽 ? 0回復
Kimi 繪圖大總結，估計 80% 的人都沒試過！

wsp_ping ? 7998瀏覽 ? 0回復
三款出色的無代碼LLM應用程序構建神器

51CTO內容精選 ? 1984瀏覽 ? 0回復
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結與2025年展望

十一月雨_55 ? 8319瀏覽 ? 0回復
從GraphRAG到PIKE-RAG，微軟發(fā)布復雜企業(yè)場景下的私域知識提取與推理新突破

AI博物院 ? 3194瀏覽 ? 0回復
依隆大學暢想數字未來中心：2035年人類未來，AI時代下的人類變革研究報告

歐米伽未來研究所 ? 712瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現 Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： OpenAI前員工預測：2027年AGI降臨！GPT智商飆升，4年從幼兒園躥到高中生

下一篇：清北爸爸輔導數學崩潰瞬間，這個國產大模型有解！AI啟發(fā)問答關鍵情緒穩(wěn)定

社區(qū)精華內容

目錄

<sub id="nyf6a"></sub>

^{<blockquote id="nyf6a"></blockquote>}