谷歌開源「AI手勢識別」算法:憑一幀圖像識別21個3D點位
實時手形與動作跟蹤方案,一直是手語識別與手勢控制系統(tǒng)中最為核心的組成部分,同時在部分增加現(xiàn)實體驗中也扮演著重要角色。然而,現(xiàn)有技術(shù)往往因為遮擋或者缺乏對比模式等問題的困擾,無法提供理想的可靠性。
面對這一現(xiàn)實挑戰(zhàn),谷歌公司的科學(xué)家們研究出一種新的計算機(jī)視覺方法,用于實現(xiàn)手部感知。作為幕后推手,機(jī)器學(xué)習(xí)技術(shù)為提供了強(qiáng)大助力。根據(jù)介紹,該方案能夠在實機(jī)實驗中僅憑一幀圖像識別出一只手(或者多只手)上的21個3D點位。與目前市面的手勢識別技術(shù)相比,谷歌的全新技術(shù)不需要依賴臺式機(jī)來計算,只要在手機(jī)上就能進(jìn)行實時追蹤,并且還能同時追蹤多只手,可識別遮擋。
早在今年6月,谷歌就在2019計算機(jī)視覺與模式識別大會上公布了此項技術(shù)的預(yù)覽版本。2月之后,谷歌于美國時間8月20日正式宣布將該技術(shù)集成于引入MediaPipe當(dāng)中。MediaPipe是一套開源跨平臺框架,用于構(gòu)建多模應(yīng)用機(jī)器學(xué)習(xí)流水線,可以處理不同模態(tài)(例如視頻與音頻)中的感知數(shù)據(jù)。該項目的源代碼以及端到端使用場景目前都已經(jīng)在GitHub上全面公開。
研究工程師Valentin Bazarevsky和Fan Zhang在博文他們的當(dāng)中寫道:“感知手部形狀與運動姿態(tài)的能力,有望成為改善各類技術(shù)表現(xiàn)及平臺用戶體驗的重要助力。我們希望將這種手部感知功能交付至更為廣泛的研究與開發(fā)社區(qū)處,利用大家的力量共同促進(jìn)創(chuàng)新用例的出現(xiàn),刺激新的應(yīng)用方式并開拓出前所未有的研究途徑。”
據(jù)了解,谷歌的這一技術(shù)包含三套串聯(lián)工作的AI模型:一個手掌探測模型(BlazePalm)用于分析框體并返回手部動作邊框;一個手部標(biāo)記模型(Landmark),用于查看由手掌探測器定義的裁剪后圖像區(qū)域,并返回3D位點;一個手勢識別模型,用于將之前計算得出的位點歸類為一組手勢。
BlazePalm:手部識別絕不像聽起來那么簡單。GlazePalm必須能夠解決手部遮擋這一現(xiàn)實難題。為此,谷歌團(tuán)隊訓(xùn)練出一款手掌探測器BlazePalm——注意,是手掌而不是手部。他們認(rèn)為,對拳頭這類物體進(jìn)行邊界框描繪,在難度上要比跟蹤手指低得多。具體地,BlazePalm可以識別多種不同手掌大小,具備較大的縮放范圍,還能識別手部遮擋,能通過識別手臂、軀干或個人特征等信息準(zhǔn)確定位手部。除此之外,這種方式還有另一大優(yōu)勢,就是能夠很好地兼容握手等特殊場景,利用忽略其它寬高比條件的方形邊框模擬手掌,從而將所需的3D點數(shù)縮減至以往的三分之一到五分之一。據(jù)統(tǒng)計,經(jīng)過訓(xùn)練之后,BlazePalm識別手掌的準(zhǔn)確率可以達(dá)到95.7%。
Landmark:在手掌檢測之后,手部標(biāo)記模型開始接管,負(fù)責(zé)在檢測到的手部區(qū)域之內(nèi)建立21個由手到肘的3D定位坐標(biāo)。在訓(xùn)練當(dāng)中,模型要求研究人員手動注釋多達(dá)3萬份真實場景下的圖像,并立足多種背景對相應(yīng)坐標(biāo)進(jìn)行渲染和映射,最終創(chuàng)建出高質(zhì)量的合成手部模型。據(jù)統(tǒng)計,在經(jīng)過訓(xùn)練后,算法的平均回歸誤差可降低到13.4%。
手勢識別模型:流水線上的最后一步是手勢識別,該模型利用關(guān)節(jié)旋轉(zhuǎn)角度來確定每根手指的狀態(tài)(如彎曲或伸直),并將手指狀態(tài)集合與預(yù)定義的手勢映射起來,進(jìn)而預(yù)測基礎(chǔ)的靜態(tài)手勢。Bazarevsky和Zhang介紹稱,該模型能夠識別來自多種文化(例如美國、歐洲與中國)的算數(shù)手勢,以及握拳、“OK”、“搖滾”、“蜘蛛俠”等常見手勢。
除此之外,這些模型也可以執(zhí)行對應(yīng)的單獨任務(wù),例如利用顯卡進(jìn)行圖像裁剪與渲染,從而節(jié)約計算資源;并且,手掌探測模型只有在必要時才運行——因為在大多數(shù)時段內(nèi),后續(xù)視頻幀內(nèi)的手部位置只憑計算出的手部關(guān)鍵點即可推理得出,不再需要手掌探測器的參與。也就是說,只有當(dāng)推理置信度低于某個閾值時,手部檢測模型才會重新介入。
展望未來,Bazarevsky、Zhang及其團(tuán)隊還計劃建立更強(qiáng)大且、更穩(wěn)定的跟蹤擴(kuò)展技術(shù),同時增加能夠可靠檢測出的手勢數(shù)量,并考慮支持即時動態(tài)手勢識別。他們總結(jié)道:“我們相信,這項技術(shù)的發(fā)布將為研究及開發(fā)者社區(qū)帶來助力,幫助他們發(fā)現(xiàn)更多新的創(chuàng)意與應(yīng)用方向。”