快手上線手部姿態(tài)估計(jì)功能,官方揭秘秒變閃電手背后的奧秘
轉(zhuǎn)動(dòng)一下手指和手掌,鋼鐵俠迅速就完成了戰(zhàn)甲制作,這種神技能讓屏幕外的粉絲們一秒跪服。鋼鐵俠的“純手勢(shì)感應(yīng)”也成為一個(gè)被科技行業(yè)頻繁討論的話題。
那普通人是否也能獲得這種狂拽酷炫吊炸天的操作技能呢?
可以??焓纸o出了答案。
快手上線“裝X神器“:秒變閃電手
隨著技術(shù)的發(fā)展,研發(fā)人員越來(lái)越希望尋找一些不同的人機(jī)交互方式,其中實(shí)時(shí)手部姿態(tài)估計(jì)就是科學(xué)家們重點(diǎn)關(guān)注的研究方向之一 。簡(jiǎn)單的說(shuō),手部姿態(tài)估計(jì)是讓計(jì)算機(jī)理解人體肢體語(yǔ)言的一種手段。通過(guò)該技術(shù),人機(jī)交互不再限于文字接口或者鼠標(biāo)鍵盤(pán)控制的用戶(hù)圖像界面。
近日,快手上線了手部姿態(tài)估計(jì)功能,成為行業(yè)首家。這個(gè)功能給普通人賦予了“裝X神器”:動(dòng)動(dòng)手,就可以實(shí)現(xiàn)酷炫的特效。
用戶(hù)只要按照說(shuō)明做出相應(yīng)的手勢(shì),就可以被加上各種有意思的特效。比如,用戶(hù)可以在視頻中當(dāng)一回真正的“奧特曼”,發(fā)射出動(dòng)感光波球。還可以秒變狼爪、閃電手。展示童年時(shí)傾慕的漫威形象用的大招,通通不是問(wèn)題。
用戶(hù)在使用這款產(chǎn)品拍攝時(shí),算法會(huì)自動(dòng)識(shí)別出手型類(lèi)別,并估計(jì)手部關(guān)鍵點(diǎn)位置。根據(jù)關(guān)鍵點(diǎn)位置和手型類(lèi)別,可以產(chǎn)生不同的特效效果或者跟畫(huà)面內(nèi)容進(jìn)行人機(jī)交互。用戶(hù)既可以通過(guò)手型觸發(fā)相應(yīng)的特效效果,也可以實(shí)現(xiàn)指節(jié)級(jí)精準(zhǔn)控制。
這個(gè)功能上線后,有大量的用戶(hù)嘗試這些新奇的玩法。
揭秘手勢(shì)識(shí)別,快手解決了哪些問(wèn)題?
手勢(shì)識(shí)別技術(shù)由快手2016年組建的Y-Lab團(tuán)隊(duì)手勢(shì)研發(fā)小組研發(fā)。這一年,為了研發(fā)出更多能給用戶(hù)帶來(lái)新奇體驗(yàn)的新技術(shù),快手組建了一支由高學(xué)歷研發(fā)人員組成的隊(duì)伍,研究領(lǐng)域涉及人工智能、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)和增強(qiáng)現(xiàn)實(shí) 等。2018年,為了讓技術(shù)能更好的和產(chǎn)品結(jié)合,快手將Y-Lab更名為Y-tech。
據(jù)Y-tech手勢(shì)研發(fā)組負(fù)責(zé)人介紹,手勢(shì)識(shí)別技術(shù)是指檢測(cè)圖片或視頻中的人手,并預(yù)測(cè)檢出人手的手型以及關(guān)鍵點(diǎn)位置的技術(shù)。
常見(jiàn)的手勢(shì)識(shí)別技術(shù)包括:手型識(shí)別、二維手部姿態(tài)估計(jì)和三維手部姿態(tài)估計(jì)。從手型識(shí)別到三維手部姿態(tài)估計(jì),需要識(shí)別的信息越來(lái)越多,研發(fā)困難指數(shù)級(jí)增加。在上面演示的功能里,就包含了:人手檢測(cè)、手型識(shí)別和二維手部姿態(tài)估計(jì)。
目前手型識(shí)別在業(yè)界已比較成熟,而二維手部姿態(tài)估計(jì)目前還不是很成熟,據(jù)介紹,快手應(yīng)該是業(yè)界首家在移動(dòng)端上應(yīng)用該技術(shù)的公司。而三維手部姿態(tài)估計(jì)技術(shù)難度較大,目前只能通過(guò)特殊的硬件,比如雙目和深度攝像頭才能實(shí)現(xiàn)。
研發(fā)手勢(shì)識(shí)別過(guò)程中,Y-tech團(tuán)隊(duì)積累了很多技術(shù)和解決方案,包括算法策略、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、模型優(yōu)化和底層加速等,這些經(jīng)驗(yàn)也完全可以復(fù)用到其他場(chǎng)景中。
相比于目前人工智能領(lǐng)域落地比較廣泛的人臉識(shí)別,手勢(shì)識(shí)別技術(shù)存在著一些技術(shù)難點(diǎn),Y-tech手勢(shì)研發(fā)負(fù)責(zé)人表示:“手部的自由度很高,自遮擋嚴(yán)重,特征不明顯,相對(duì)人臉會(huì)更難一些。”
以快手為例,目前這一功能可同時(shí)檢測(cè)多手,支持多達(dá)17種手型識(shí)別,并能夠識(shí)別21個(gè)手部二維關(guān)鍵點(diǎn)。為了實(shí)現(xiàn)這些功能,研發(fā)團(tuán)隊(duì)克服了不少難題:
• 人手在相機(jī)中的占比較小,高效的進(jìn)行小目標(biāo)檢測(cè)目前在業(yè)界是很難的問(wèn)題;
• 人手自遮擋嚴(yán)重、關(guān)節(jié)活動(dòng)自由度高;
• 用戶(hù)手機(jī)只有單目圖像,需純靠視覺(jué)算法實(shí)現(xiàn);
• 用戶(hù)手機(jī)攝像頭拍攝質(zhì)量不同,用戶(hù)在擺同樣手型時(shí)方式多樣。
該負(fù)責(zé)人表示,團(tuán)隊(duì)先是改進(jìn)了檢測(cè)算法的框架,提高了小目標(biāo)的檢測(cè)能力,并且根據(jù)人手的特點(diǎn),融合先驗(yàn)知識(shí),降低問(wèn)題復(fù)雜度,達(dá)到了提升預(yù)測(cè)效果。
由于不同用戶(hù)手機(jī)的運(yùn)算能力是不同的,而同一款軟件要想被更多用戶(hù)使用,就要兼顧各種機(jī)型的情況,快手AI實(shí)驗(yàn)室通過(guò)兩方面解決了這一難題:
一、在算法層面,研發(fā)人員設(shè)計(jì)了高效的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且在不同的機(jī)型上采用了不同算法策略;
二、在工程實(shí)現(xiàn)上,通過(guò)快手自研的YCNN對(duì)不同手機(jī)的硬件架構(gòu)做了高度的適配和性能優(yōu)化,能夠使用CPU、GPU、NPU、DSP等多種運(yùn)行模式,解決了AI技術(shù)運(yùn)行受限于用戶(hù)設(shè)備計(jì)算量的問(wèn)題。
下一步:未來(lái)將嘗試三維手部重建
對(duì)于快手來(lái)說(shuō),在手機(jī)應(yīng)用中增加手勢(shì)識(shí)別功能是一項(xiàng)嘗試,功能上肯定是有不少需要完善的地方,研發(fā)團(tuán)隊(duì)告訴我們,目前該產(chǎn)品算法對(duì)運(yùn)動(dòng)模糊和手部重疊的處理還不完善,是接下來(lái)需要重點(diǎn)解決的問(wèn)題,并且未來(lái)團(tuán)隊(duì)會(huì)嘗試在端上進(jìn)行三維手部重建,為更精確的動(dòng)作識(shí)別和交互做技術(shù)儲(chǔ)備。除了在短視頻領(lǐng)域有所應(yīng)用,在游戲、增強(qiáng)現(xiàn)實(shí)、直播、教育等領(lǐng)域應(yīng)用手勢(shì)識(shí)別技術(shù)也將成為一種趨勢(shì),同樣也是快手探索的方向。
手勢(shì)識(shí)別技術(shù)發(fā)展至今,已經(jīng)有不少企業(yè)在不同的領(lǐng)域進(jìn)行過(guò)嘗試,未來(lái)手勢(shì)識(shí)別的應(yīng)用場(chǎng)景也是十分廣闊的,除了小手識(shí)別和運(yùn)動(dòng)模糊等傳統(tǒng)問(wèn)題之外,如何結(jié)合端上雙目攝像頭和深度攝像頭信息提升手勢(shì)識(shí)別效果也將是行業(yè)重點(diǎn)關(guān)注的問(wèn)題。