精準(zhǔn)高效估計(jì)多人3D姿態(tài),美圖北航分布感知式單階段模型入選CVPR
近日,計(jì)算機(jī)視覺頂會 CVPR 2022 公布了會議錄取結(jié)果,美圖影像研究院(MT Lab)與北京航空航天大學(xué)可樂實(shí)驗(yàn)室(CoLab)聯(lián)合發(fā)表的論文被接收。該論文突破性地提出分布感知式單階段模型,用于解決極具挑戰(zhàn)性的多人 3D 人體姿態(tài)估計(jì)問題。該方法通過一次網(wǎng)絡(luò)前向推理同時(shí)獲取 3D 空間中人體位置信息以及相對應(yīng)的關(guān)鍵點(diǎn)信息,從而簡化了預(yù)測流程,提高了效率。此外,該方法有效地學(xué)習(xí)了人體關(guān)鍵點(diǎn)的真實(shí)分布,進(jìn)而提升了基于回歸框架的精度。
多人 3D 人體姿態(tài)估計(jì)是當(dāng)前的一個(gè)熱點(diǎn)研究課題,也具有廣泛的應(yīng)用潛力。在計(jì)算機(jī)視覺中,基于單張 RGB 圖片的多人 3D 人體姿態(tài)估計(jì)問題通常通過自頂向下或是自底向上的兩階段方法來解決,然而兩階段的方法需忍受大量的冗余計(jì)算以及復(fù)雜的后處理,其低效率深受詬病。此外,已有方法缺少對人體姿態(tài)數(shù)據(jù)分布的認(rèn)知,從而無法準(zhǔn)確地求解從 2D 圖片到 3D 位置這一病態(tài)問題,以上兩點(diǎn)限制了已有方法在實(shí)際場景中的應(yīng)用。
美圖影像研究院(MT Lab)與北京航空航天大學(xué)可樂實(shí)驗(yàn)室(CoLab)在 CVPR 2022 發(fā)表的論文,提出一種分布感知式單階段模型,并利用這一模型從單張 RGB 圖片中估計(jì)多個(gè)人在 3D 相機(jī)空間中的人體姿態(tài)。
該方法將 3D 人體姿態(tài)表示為 2.5D 人體中心點(diǎn)和 3D 關(guān)鍵點(diǎn)偏移量,以適配圖片空間的深度估計(jì),同時(shí)這一表示將人體位置信息和對應(yīng)的關(guān)鍵點(diǎn)信息進(jìn)行了統(tǒng)一,從而使得單階段多人 3D 姿態(tài)估計(jì)成為可能。
論文地址:https://arxiv.org/abs/2203.07697
此外,該方法在模型優(yōu)化過程中對人體關(guān)鍵點(diǎn)的分布進(jìn)行了學(xué)習(xí),這為關(guān)鍵點(diǎn)位置的回歸預(yù)測提供了重要的指導(dǎo)信息,進(jìn)而提升了基于回歸框架的精度。這一分布學(xué)習(xí)模塊可以與姿態(tài)估計(jì)模塊在訓(xùn)練過程中通過最大似然估計(jì)一起學(xué)習(xí),在測試過程中該模塊被移除,不會帶來模型推理計(jì)算量的增加。為了降低人體關(guān)鍵點(diǎn)分布學(xué)習(xí)的難度,該方法創(chuàng)新性地提出了一種迭代更新的策略以逐漸逼近目標(biāo)分布。
該模型以全卷積的方式來實(shí)現(xiàn),可以進(jìn)行端到端的訓(xùn)練和測試。通過這樣一種方式,該算法可以有效且精準(zhǔn)地解決多人 3D 人體姿態(tài)估計(jì)問題,在取得和兩階段方法接近的精度的同時(shí),也大大提升了速度。
背景
多人 3D 人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺中的經(jīng)典問題,它被廣泛應(yīng)用于 AR/VR、游戲、運(yùn)動(dòng)分析、虛擬試衣等。近年來隨著元宇宙概念的興起,更是讓這一技術(shù)備受關(guān)注。目前,通常采用兩階段方法來解決該問題:自頂向下方法,即先檢測圖片多個(gè)人體的位置,之后對檢測到的每個(gè)人使用單人 3D 姿態(tài)估計(jì)模型來分別預(yù)測其姿態(tài);自底向上方法,即先檢測圖片中所有人的 3D 關(guān)鍵點(diǎn),之后通過相關(guān)性將這些關(guān)鍵點(diǎn)分配給對應(yīng)的人體。
盡管兩階段方法取得了良好的精度,但是需要通過冗余的計(jì)算和復(fù)雜的后處理來順序性地獲取人體位置信息和關(guān)鍵點(diǎn)位置信息,這使得速率通常難以滿足實(shí)際場景的部署需求,因此多人 3D 姿態(tài)估計(jì)算法流程亟需簡化。
另一方面,在缺少數(shù)據(jù)分布先驗(yàn)知識的情況下,從單張 RGB 圖片中估計(jì) 3D 關(guān)鍵點(diǎn)位置,特別是深度信息,是一個(gè)病態(tài)問題。這使得傳統(tǒng)的應(yīng)用于 2D 場景的單階段模型無法直接向 3D 場景進(jìn)行擴(kuò)展,因此學(xué)習(xí)并獲取 3D 關(guān)鍵點(diǎn)的數(shù)據(jù)分布是進(jìn)行高精度多人 3D 人體姿態(tài)估計(jì)的關(guān)鍵所在。
為了克服以上問題,該論文提出了一種分布感知式單階段模型(Distribution-Aware Single-stage model, DAS)用于解決基于單張圖片的多人 3D 人體姿態(tài)估計(jì)這一病態(tài)問題。DAS 模型將 3D 人體姿態(tài)表示為 2.5D 人體中心點(diǎn)和 3D 人體關(guān)鍵點(diǎn)偏移,這一表示有效地適配了基于 RGB 圖片域的深度信息預(yù)測。同時(shí),它也將人體位置信息和關(guān)鍵點(diǎn)位置信息進(jìn)行了統(tǒng)一,從而使得基于單目圖片的單階段多人 3D 姿態(tài)估計(jì)方法成為可能。
另外,DAS 模型在優(yōu)化過程中對 3D 關(guān)鍵點(diǎn)的分布進(jìn)行學(xué)習(xí),這為 3D 關(guān)鍵點(diǎn)的回歸提供了極具價(jià)值的指導(dǎo)性信息,從而有效地提升了預(yù)測精度。此外,為了緩解關(guān)鍵點(diǎn)分布估計(jì)的難度,DAS 模型采用了一種迭代更新策略以逐步逼近真實(shí)分布目標(biāo),通過這樣一種方式,DAS 模型可以高效且精準(zhǔn)地從單目 RGB 圖片中一次性獲取多個(gè)人的 3D 人體姿態(tài)估計(jì)結(jié)果。
單階段多人 3D 姿態(tài)估計(jì)模型
在實(shí)現(xiàn)上,DAS 模型基于回歸預(yù)測框架來構(gòu)建,對于給定圖片,DAS 模型通過一次前向預(yù)測輸出圖片中所包含人物的 3D 人體姿態(tài)。DAS 模型將人體中心點(diǎn)表示為中心點(diǎn)置信度圖和中心點(diǎn)坐標(biāo)圖兩部分,如圖 1 (a) 和 (b) 所示,
其中,DAS 模型使用中心點(diǎn)置信度圖來定位 2D 圖片坐標(biāo)系中人體投影中心點(diǎn)的位置,而使用中心點(diǎn)坐標(biāo)圖來預(yù)測 3D 相機(jī)坐標(biāo)系內(nèi)人體中心點(diǎn)的絕對位置。DAS 模型將人體關(guān)鍵點(diǎn)建模為關(guān)鍵點(diǎn)偏移圖,如圖 1 (c) 所示。
圖 1:用于多人 3D 人體姿態(tài)估計(jì)的分布感知式單階段模型流程圖。
DAS 模型將中心點(diǎn)置信度圖建模為二值圖,圖中每個(gè)像素點(diǎn)表示人體中心點(diǎn)是否在該位置出現(xiàn),如果出現(xiàn)則為 1,否則為 0。DAS 模型將中心點(diǎn)坐標(biāo)圖以稠密圖的方式進(jìn)行建模,圖中每個(gè)像素點(diǎn)編碼了出現(xiàn)在該位置的人物中心在 x、y 和 z 方向的坐標(biāo)。關(guān)鍵點(diǎn)偏移圖和中心點(diǎn)坐標(biāo)圖建模方式類似,圖中每個(gè)像素點(diǎn)編碼了出現(xiàn)在該位置的人體關(guān)鍵點(diǎn)相對于人體中心點(diǎn)在 x、y、z 方向的偏移量。DAS 模型可以在網(wǎng)絡(luò)前向過程中以并行的方式輸出以上三種信息圖,從而避免了冗余計(jì)算。
此外,DAS 模型可以使用這三種信息圖簡單地重建出多個(gè)人的 3D 姿態(tài),也避免了復(fù)雜的后處理過程,與兩階段方法相比,這樣一種緊湊、簡單的單階段模型可以取得更優(yōu)的效率。
分布感知學(xué)習(xí)模型
對于回歸預(yù)測框架的優(yōu)化,已有工作多采用傳統(tǒng)的 L1 或者 L2 損失函數(shù),但研究發(fā)現(xiàn)這類監(jiān)督訓(xùn)練實(shí)際上是在假設(shè)人體關(guān)鍵點(diǎn)的數(shù)據(jù)分布滿足拉普拉斯分布或者高斯分布的前提下進(jìn)行的模型優(yōu)化 [12]。然而在實(shí)際場景中,人體關(guān)鍵點(diǎn)的真實(shí)分布極為復(fù)雜,以上簡單的假設(shè)與真實(shí)分布相距甚遠(yuǎn)。
與現(xiàn)有方法不同,DAS 模型在優(yōu)化過程中學(xué)習(xí) 3D 人體關(guān)鍵點(diǎn)分布的真實(shí)分布,指導(dǎo)關(guān)鍵點(diǎn)回歸預(yù)測的過程。考慮到真實(shí)分布不可追蹤的問題,DAS 模型利用標(biāo)準(zhǔn)化流(Normalizing Flow)來達(dá)到對于模型預(yù)測結(jié)果概率估計(jì)的目標(biāo),以生成適合模型輸出的分布,如圖 2 所示。
圖 2:標(biāo)準(zhǔn)化流。
該分布感知模塊可以同關(guān)鍵點(diǎn)預(yù)測模塊一起在訓(xùn)練過程中通過最大似然估計(jì)的方法進(jìn)行學(xué)習(xí),完成學(xué)習(xí)之后,該分布感知模塊會在預(yù)測過程中進(jìn)行移除,這樣一種分布感知式算法可以在不增加額外計(jì)算量的同時(shí)提升回歸預(yù)測模型的精度。
此外,用于人體關(guān)鍵點(diǎn)預(yù)測的特征提取于人體中心點(diǎn)處,這一特征對于遠(yuǎn)離中心點(diǎn)的人體關(guān)鍵點(diǎn)來說表示能力較弱,和目標(biāo)在空間上的不一致問題會引起預(yù)測的較大誤差。為了緩和這一問題,該算法提出了迭代更新策略,該策略利用歷史更新結(jié)果為出發(fā)點(diǎn),并整合中間結(jié)果附近預(yù)測值以逐步逼近最終目標(biāo),如圖 3 所示
圖 3:迭代優(yōu)化策略。
該算法模型通過全卷積網(wǎng)絡(luò)(Fully Convolutional Networks, FCNs)實(shí)現(xiàn),訓(xùn)練和測試過程都可以以端到端的方式進(jìn)行,如圖 4 所示。
圖 4:分布感知式單階段多人 3D 人體姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。
根據(jù)實(shí)驗(yàn)結(jié)果,如圖 5 所示,單階段算法和已有 state-of-the-art 兩階段方法相比,可以取得接近甚至更優(yōu)的精度,同時(shí)可以大幅提升速度,證明了其在解決多人 3D 人體姿態(tài)估計(jì)這一問題上的優(yōu)越性。
圖 5:與現(xiàn)有 SOTA 兩階段算法對比結(jié)果。
詳細(xì)實(shí)驗(yàn)結(jié)果可參考表 1 和表 2。
表 1:CMU Panoptic Studio 數(shù)據(jù)集結(jié)果比較。
表 2:MuPoTS-3D 數(shù)據(jù)集結(jié)果比較。
根據(jù)單階段算法的可視化結(jié)果,如圖 6 所示,該算法能夠適應(yīng)不同的場景,例如姿勢變化、人體截?cái)嘁约半s亂背景等來產(chǎn)生精確的預(yù)測結(jié)果,這進(jìn)一步說明了該算法的健壯性。
圖 6:可視化結(jié)果。
總結(jié)
在本論文中,美圖和北航的研究者們創(chuàng)新性地提出了一種分布感知式單階段模型,用于解決極具挑戰(zhàn)性的多人 3D 人體姿態(tài)估計(jì)問題。與已有的自頂向下和自底向上這種兩階段模型相比,該模型可以通過一次網(wǎng)絡(luò)前向推理同時(shí)獲取人體位置信息以及所對應(yīng)的人體關(guān)鍵點(diǎn)位置信息,從而有效地簡化預(yù)測流程,同時(shí)克服了已有方法在高計(jì)算成本和高模型復(fù)雜度方面的弊端。
另外,該方法成功將標(biāo)準(zhǔn)化流引進(jìn)到多人 3D 人體姿態(tài)估計(jì)任務(wù)中以在訓(xùn)練過程中學(xué)習(xí)人體關(guān)鍵點(diǎn)分布,并提出迭代回歸策略以緩解分布學(xué)習(xí)難度來達(dá)到逐步逼近目標(biāo)的目的。通過這樣一種方式,該算法可以獲取數(shù)據(jù)的真實(shí)分布以有效地提升模型的回歸預(yù)測精度。
研究團(tuán)隊(duì)
本論文由美圖影像研究院(MT Lab)和北京航空航天大學(xué)可樂實(shí)驗(yàn)室(CoLab)研究者們共同提出。美圖影像研究院(MT Lab)是美圖公司致力于計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、增強(qiáng)現(xiàn)實(shí)、云計(jì)算等領(lǐng)域的算法研究、工程開發(fā)和產(chǎn)品化落地的團(tuán)隊(duì),為美圖現(xiàn)有和未來的產(chǎn)品提供核心算法支持,并通過前沿技術(shù)推動(dòng)美圖產(chǎn)品發(fā)展,被稱為「美圖技術(shù)中樞」,曾先后多次參與 CVPR、ICCV、ECCV 等計(jì)算機(jī)視覺國際頂級會議,并斬獲冠亞軍十余項(xiàng)。
引用文獻(xiàn):
[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.
[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.
[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.
[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.
[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ?henbu ?hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.