自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌開(kāi)源基于ML的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

新聞 人工智能 算法
就在不久前,Google 人工智能實(shí)驗(yàn)室宣布,他們?cè)凇笇?shí)時(shí)手部跟蹤」方面取得了新的進(jìn)展,并將這項(xiàng)新技術(shù)運(yùn)用在了 MediaPipe 中,這也是 AI 計(jì)算機(jī)視覺(jué)任務(wù)的一大突破。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

就在不久前,Google 人工智能實(shí)驗(yàn)室宣布,他們?cè)凇笇?shí)時(shí)手部跟蹤」方面取得了新的進(jìn)展,并將這項(xiàng)新技術(shù)運(yùn)用在了 MediaPipe 中,這也是 AI 計(jì)算機(jī)視覺(jué)任務(wù)的一大突破。這一技術(shù)不光可以在手機(jī)上實(shí)現(xiàn)實(shí)時(shí)捕捉性能,甚至可以同時(shí)對(duì)多個(gè)手的動(dòng)作進(jìn)行跟蹤。目前,Google 已經(jīng)將該項(xiàng)目開(kāi)源,并且發(fā)布了相關(guān)博客介紹了這項(xiàng)技術(shù),雷鋒網(wǎng) AI 開(kāi)發(fā)者將其內(nèi)容整理編譯如下。

[[274513]]

概述

能夠?qū)κ值男螤詈瓦\(yùn)動(dòng)軌跡進(jìn)行感知是改善用戶在不同的技術(shù)領(lǐng)域和平臺(tái)上的體驗(yàn)的一個(gè)重要組成部分。例如,它可以實(shí)現(xiàn)手語(yǔ)理解和手勢(shì)控制,還可以使數(shù)字內(nèi)容和信息疊加在增強(qiáng)現(xiàn)實(shí)(AR,https://ai.googleblog.com/search/label/Augmented%20Reality)的物理世界之上。雖然對(duì)我們來(lái)說(shuō)這個(gè)能力是天生的,但強(qiáng)大的實(shí)時(shí)手部感知是一項(xiàng)極具挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)任務(wù),因?yàn)槭滞鶗?huì)自我遮蓋或相互遮擋(例如手指/手掌之間的遮蔽或者握手),而且手部之間也缺乏高對(duì)比度。

我們現(xiàn)在發(fā)布了一種新的手部感知方法,并且在 6 月的 CVPR 2019 大會(huì)上,我們已經(jīng)對(duì)該方法開(kāi)放了預(yù)覽。在這個(gè)方法展示過(guò)程中,我們通過(guò) MediaPipe——一個(gè)開(kāi)放源碼的跨平臺(tái)框架,來(lái)構(gòu)建了處理視頻和音頻等類型的不同模式感知數(shù)據(jù)的框架。

該方法通過(guò)機(jī)器學(xué)習(xí)(ML)從單個(gè)幀中推斷出一只手的 21 個(gè) 3D 關(guān)鍵點(diǎn),從而提供了高保真的手部和手指跟蹤。目前最先進(jìn)的方法主要依靠強(qiáng)大的桌面環(huán)境進(jìn)行推理,而我們的方法可以在手機(jī)端實(shí)現(xiàn)這個(gè)實(shí)時(shí)性能,甚至還可以擴(kuò)展到對(duì)多個(gè)手的同步跟蹤。

我們希望通過(guò)提供該手部感知功能給廣泛的研究和開(kāi)發(fā)社區(qū),能夠有利于大家創(chuàng)造出更多全新的用例,同時(shí)激勵(lì)更多新應(yīng)用程序和新研究途徑的出現(xiàn)。

圖 1 通過(guò) MediaPipe 在手機(jī)上進(jìn)行實(shí)時(shí) 3D 手部感知。我們的解決方案是使用機(jī)器學(xué)習(xí)從一個(gè)視頻幀計(jì)算手的 21 個(gè)三維關(guān)鍵點(diǎn)。圖中深度通過(guò)顏色灰色程度表示。

用于手跟蹤和手勢(shì)識(shí)別的機(jī)器學(xué)習(xí)架構(gòu)

我們的手部跟蹤解決方案使用了一個(gè)機(jī)器學(xué)習(xí)架構(gòu),該架構(gòu)由幾個(gè)模型共同組成:

  • 掌上檢測(cè)器模型(稱為 BlazePalm)。它對(duì)整個(gè)圖像進(jìn)行操作,并返回一個(gè)定向的手部邊界框;

  • 手部標(biāo)志模型。它在掌上探測(cè)器定義的裁剪圖像區(qū)域上操作,并返回高保真的 3D 手部關(guān)鍵點(diǎn);

  • 手勢(shì)識(shí)別器,它將先前計(jì)算的關(guān)鍵點(diǎn)配置分類為一組離散的手勢(shì)。

這種架構(gòu)類似于我們最近發(fā)布的 face mesh ML 模型(https://sites.google.com/view/perception-cv4arvr/facemesh),這個(gè)模型也被其他人用于的姿態(tài)估計(jì)中。將精確裁剪的手掌圖像提供到手部標(biāo)志模型中,可以大大減少更多數(shù)據(jù)(例如旋轉(zhuǎn)、平移和縮放)的需求,從而使網(wǎng)絡(luò)能夠?qū)⑵浯蟛糠中阅苡糜趨f(xié)調(diào)預(yù)測(cè)精度。

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

圖 2 手部感知模型整體架構(gòu)

BlazePalm:實(shí)時(shí)手部/手掌檢測(cè)

為了檢測(cè)手的初始位置,我們使用了一個(gè)名為 BlazePalm 的單鏡頭檢測(cè)器模型(https://arxiv.org/abs/1512.02325)。該模型可用于移動(dòng)實(shí)時(shí)檢測(cè),其方式類似于 BlazeFace(https://arxiv.org/abs/1907.05047),這個(gè)模型也可以在 MediaPipe 中使用。

手部檢測(cè)是一項(xiàng)非常復(fù)雜的任務(wù):我們的模型必須要適應(yīng)不同的手部尺寸,因此它具有相對(duì)于圖像幀更大的范圍 (~20x),并且它能夠檢測(cè)被遮擋以及自遮擋的手部狀態(tài)。

人臉通常具有很高的對(duì)比度,例如在眼睛和嘴部區(qū)域都有明顯的區(qū)別。但由于手部缺乏這樣的特征,因此我們很難僅從其視覺(jué)特征中可靠地檢測(cè)到這些特征。不過(guò)通過(guò)提供額外的信息,如手臂、身體或人的特征,倒是有助于精確的手定位。因此,我們的解決方案使用了不同的策略來(lái)解決上述挑戰(zhàn)。

首先,我們訓(xùn)練了一個(gè)手掌檢測(cè)器來(lái)代替手部探測(cè)器,因?yàn)橥茰y(cè)例如手掌和拳頭這樣剛性物體的邊界框比檢測(cè)手指的關(guān)節(jié)要簡(jiǎn)單得多。此外,由于手掌是較小的物體,我們采用了非最大抑制算法(https://www.coursera.org/lecture/convolutional-neural-networks/non-max-suppression-dvrjH),該算法可以在即使雙手自遮擋的情況(如握手)下,也能夠達(dá)到很好的工作效果。

同時(shí),手掌還可以使用方形邊界框(在 ML 術(shù)語(yǔ)中的錨)來(lái)模擬,忽略其他高寬比,從而將錨的數(shù)量減少 3-5 倍。其次,我們將適用于更大場(chǎng)景上下文感知中的編碼器—解碼器特征提取器用于手部感知這樣的小對(duì)象中(類似于 RetinaNet 辦法,https://arxiv.org/abs/1612.03144)。最后,我們將訓(xùn)練期間的焦損降至最低,從而支持由于高度變化而產(chǎn)生的大量錨點(diǎn)。

利用上述技術(shù),我們實(shí)現(xiàn)了對(duì)手掌的平均檢測(cè)精度為 95.7%;而使用常規(guī)的交叉熵?fù)p失并且在沒(méi)有解碼器的情況下,檢測(cè)精度基準(zhǔn)僅為 86.22%。

手部標(biāo)志模型

在對(duì)整個(gè)圖像進(jìn)行手掌檢測(cè)后,我們隨后的手部標(biāo)志模型通過(guò)回歸對(duì)檢測(cè)到的手部區(qū)域內(nèi)的 21 個(gè) 3D 手關(guān)節(jié)坐標(biāo)進(jìn)行精確的關(guān)鍵點(diǎn)定位,即直接對(duì)坐標(biāo)進(jìn)行預(yù)測(cè)。該模型將學(xué)習(xí)一致的內(nèi)部手勢(shì)表示,甚至對(duì)部分可見(jiàn)的手和自遮擋都表現(xiàn)出了魯棒性。

為了獲得實(shí)時(shí)數(shù)據(jù),我們手工標(biāo)注了 30K 張具有 21 個(gè) 3D 坐標(biāo)的真實(shí)手勢(shì)圖像,如下圖所示(如果存在對(duì)應(yīng)的坐標(biāo),則從圖像深度圖中獲取 Z 值)。為了更好地覆蓋可能的手勢(shì),并提供對(duì)手勢(shì)的幾何形狀的附加監(jiān)督,我們還在不同的背景上渲染了一個(gè)高質(zhì)量的合成手部模型,并將其映射到相應(yīng)的三維坐標(biāo)中。

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

圖 3 第一行圖片為對(duì)齊的手部通過(guò)實(shí)時(shí)標(biāo)注傳遞到跟蹤網(wǎng)絡(luò);第二行圖片為使用實(shí)時(shí)標(biāo)注渲染合成手部圖像。

然而,單純的合成數(shù)據(jù)很難推廣到更廣泛的領(lǐng)域。為了克服這個(gè)問(wèn)題,我們使用了一個(gè)混合訓(xùn)練模式,下面的圖顯示了一個(gè)高級(jí)模型訓(xùn)練圖。

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

圖 4 手部跟蹤網(wǎng)絡(luò)的混合訓(xùn)練模式。裁剪的真實(shí)照片和渲染的合成圖像用作輸入,以預(yù)測(cè) 21 個(gè) 3D 關(guān)鍵點(diǎn)。

下圖展示了根據(jù)訓(xùn)練數(shù)據(jù)的性質(zhì)總結(jié)了回歸的準(zhǔn)確性。使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)都可以顯著提高模型的性能。

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

圖 5 使用合成數(shù)據(jù)和真實(shí)數(shù)據(jù)對(duì)模型性能的影響結(jié)果

手勢(shì)識(shí)別器

在預(yù)測(cè)的手部骨架之上,我們應(yīng)用一種簡(jiǎn)單的算法來(lái)推導(dǎo)手勢(shì)。首先,每個(gè)手指的狀態(tài),例如彎曲或豎直,是由關(guān)節(jié)的累積角度決定的。于是,我們將一組手指狀態(tài)映射到一組預(yù)定義的手勢(shì)上。這種簡(jiǎn)單但有效的技術(shù)可以使我們?cè)诒WC檢測(cè)質(zhì)量的情況下來(lái)估計(jì)基本的靜態(tài)手勢(shì)?,F(xiàn)有的架構(gòu)支持多種文化的手勢(shì)計(jì)數(shù),如美國(guó)、歐洲和中國(guó),以及各種手勢(shì)標(biāo)志,包括「拇指向上」、緊握拳頭、「OK」、「搖滾」和「蜘蛛俠」。

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

圖 6 不同手勢(shì)識(shí)別結(jié)果

通過(guò) MediaPipe 實(shí)現(xiàn)

通過(guò)使用 MediaPipe,我們可以將該感知架構(gòu)建模稱模塊化組件的有向圖(https://en.wikipedia.org/wiki/Directed_graph),稱為 Calculators(計(jì)算器)。Mediapipe 附帶了一組可擴(kuò)展的計(jì)算器,可用于解決各種設(shè)備和平臺(tái)的模型推理、媒體處理算法以及數(shù)據(jù)轉(zhuǎn)換等任務(wù)。而像裁剪、渲染和神經(jīng)網(wǎng)絡(luò)計(jì)算這樣的單個(gè)計(jì)算器,可以獨(dú)立在 GPU 上執(zhí)行。例如,我們?cè)诖蠖鄶?shù)現(xiàn)代手機(jī)上采用 TFLite GPU 推理。

我們用于手部跟蹤的 MediaPipe 架構(gòu)圖如下所示。該圖由兩個(gè)子圖組成——一個(gè)用于手檢測(cè),另一個(gè)用于手部關(guān)鍵點(diǎn)(即標(biāo)志性)計(jì)算。MediaPipe 提供的一個(gè)關(guān)鍵優(yōu)化是只在必要時(shí)運(yùn)行掌上檢測(cè)器(因此該檢測(cè)器的運(yùn)行頻率很低),從而節(jié)省了大量的計(jì)算時(shí)間。

我們通過(guò)從當(dāng)前幀中計(jì)算所得的手部關(guān)鍵點(diǎn)來(lái)推斷后續(xù)視頻幀中的手部位置實(shí)現(xiàn)手部跟蹤,從而無(wú)需在每個(gè)幀上運(yùn)行掌上檢測(cè)器。為了獲得魯棒性,手部跟蹤器模型輸出一個(gè)額外的標(biāo)量,以獲取一只手在輸入裁剪中存在并合理對(duì)齊的置信度。只有當(dāng)置信度低于一定的閾值時(shí),才能將手部檢測(cè)模型重新應(yīng)用到整個(gè)幀中。

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

圖 7 手部標(biāo)志模型的輸出(REJECT_HAND_FLAG)控制何時(shí)觸發(fā)手部檢測(cè)模型。這種行為是通過(guò) MediaPipe 強(qiáng)大的同步構(gòu)建塊實(shí)現(xiàn)的,從而實(shí)現(xiàn)機(jī)器學(xué)習(xí)架構(gòu)的高性能和最佳吞吐量。

該高效的機(jī)器學(xué)習(xí)解決方案可以實(shí)時(shí)運(yùn)行,并且跨越各種不同的平臺(tái)和形式因素。它所包含的復(fù)雜性要比上面的簡(jiǎn)化描述要復(fù)雜得多。為此,我們將在 MediaPipe 框架中開(kāi)源上述手部跟蹤與手勢(shì)識(shí)別方法,并附帶相關(guān)的端到端使用場(chǎng)景和源代碼(https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md),這為研究人員和開(kāi)發(fā)人員提供了一個(gè)完整的堆棧,基于我們的模型可以對(duì)新思想進(jìn)行實(shí)驗(yàn)和原型設(shè)計(jì)。

未來(lái)方向

我們計(jì)劃通過(guò)更強(qiáng)大和穩(wěn)定的跟蹤來(lái)擴(kuò)展這項(xiàng)技術(shù),擴(kuò)大我們能夠可靠檢測(cè)的手勢(shì)數(shù)量,并支持動(dòng)態(tài)手勢(shì)的及時(shí)展開(kāi)。我們相信,發(fā)布這項(xiàng)技術(shù)可以激發(fā)廣大研究和開(kāi)發(fā)人員的新創(chuàng)意和應(yīng)用。我們很期待看到你的創(chuàng)新!

谷歌開(kāi)源基于 ML 的手部跟蹤算法:手機(jī)端實(shí)時(shí)檢測(cè),多個(gè)手勢(shì)同時(shí)捕捉

*MediaPipe

MediaPipe 是一個(gè)跨平臺(tái)框架,用于構(gòu)建應(yīng)用于機(jī)器學(xué)習(xí)流程中的多模態(tài)(例如,視頻,音頻,任何時(shí)間序列數(shù)據(jù))框架。通過(guò)使用 MediaPipe,我們可以將感知流程構(gòu)建為模塊化組件的圖形,包括:推理模型(例如,TensorFlow,TFLite)和媒體處理功能。

MediaPipe 開(kāi)源地址:https://github.com/google/mediapipe/

原文鏈接:

https://ai.googleblog.com/2019/08/on-device-real-time-hand-tracking-with.html

手勢(shì)識(shí)別開(kāi)源地址:

https://github.com/google/mediapipe/blob/master/mediapipe/docs/hand_tracking_mobile_gpu.md

 

責(zé)任編輯:張燕妮 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2024-12-26 17:16:59

2024-06-12 15:59:59

前端JavaScrip識(shí)別

2023-10-06 13:22:50

自動(dòng)駕駛技術(shù)

2020-03-12 14:19:49

AI 數(shù)據(jù)人工智能

2024-09-04 15:42:38

OpenCV開(kāi)發(fā)Python

2025-02-12 08:00:00

AI機(jī)器學(xué)習(xí)學(xué)習(xí)模型

2014-03-25 14:21:18

WebSocket實(shí)時(shí)

2012-10-29 09:55:52

HadoopImpalaDremel

2012-07-10 10:51:45

2025-02-17 07:00:00

ORB對(duì)象跟蹤器計(jì)算機(jī)視覺(jué)

2022-02-10 08:16:52

算法業(yè)務(wù)ODPS

2010-12-24 10:53:35

OSSEC HIDS開(kāi)源

2024-05-27 09:27:02

2022-05-16 10:30:31

AIML存儲(chǔ)

2023-05-03 08:58:46

數(shù)據(jù)庫(kù)開(kāi)源

2025-03-19 13:02:57

2009-05-04 08:53:03

谷歌墨西哥流感

2019-08-21 20:08:34

人工智能手勢(shì)識(shí)別谷歌

2020-05-28 13:43:23

物聯(lián)網(wǎng)廢物管理IOT

2024-06-12 08:10:08

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)