uSens馬賡宇:當(dāng)人工智能遇上虛擬現(xiàn)實(shí)
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年7月21日-22日,由51CTO主辦的以人工智能為主題的WOTI2017全球創(chuàng)新技術(shù)峰會(huì)在北京富力萬麗酒店隆重舉行。峰會(huì)期間,30+AI明星,數(shù)十場圍繞人工智能主題的精彩演講與圓桌論壇緩緩揭開面紗。除了場內(nèi)的精彩演講,場外還有專門為AI愛好者搭建的動(dòng)手實(shí)驗(yàn)室和科技體驗(yàn)區(qū),這一切都讓本次大會(huì)亮點(diǎn)十足。
7月21日下午WOTI2017主會(huì)場,uSens 技術(shù)研發(fā)副總裁馬賡宇進(jìn)行了主題為《當(dāng)人工智能遇上虛擬現(xiàn)實(shí)》的精彩演講。以下是演講實(shí)錄,讓我們先睹為快!
大家好!我們公司凌感科技,英文名字叫uSens。我們公司專注在VR/AR三維人機(jī)交互核心技術(shù),提供解決方案,并不開發(fā)VR眼鏡、頭盔等產(chǎn)品,但以后大家買的ARVR產(chǎn)品中里面可能會(huì)有我們的技術(shù)。
我先簡單介紹一下我們對(duì)VRAR行業(yè)的理解,VR/AR中的核心技術(shù)首先是沉浸感,VR可以給用戶帶來和手機(jī)不一樣的體驗(yàn),就是沉浸感。首先要交互,在VR里邊,交互技術(shù)不需要鼠標(biāo)鍵盤,大部分使用手柄交互,但是手柄不是最自然的交互方式,未來可能想直接用手抓取,所以現(xiàn)在有裸手手勢(shì)交互方案提供商。
還有位置跟蹤,一些高檔的VR設(shè)備可以提供位置跟蹤,但是這些成本都比較高,而且都需要連接電腦或者主機(jī)才能實(shí)現(xiàn)。另外一個(gè)VR里邊比較重要的是顯示,當(dāng)然我們公司不做顯示方面的產(chǎn)品,顯示技術(shù)不是我們擅長的。所以說我們主要集中在交互技術(shù)。另外一個(gè)重要的沉浸感就是移動(dòng)性,不需要額外再接到什么設(shè)備上,否則它只能在小范圍移動(dòng)。移動(dòng)性就是最好把一體機(jī)或者頭盔戴在頭上,大家就可以體驗(yàn)VR效果。
大眾化最后一個(gè)特點(diǎn)是價(jià)格要低,比較好普及,可以吸引更多用戶來使用它。我們公司主要做的是VR/AR技術(shù),其中HCI是人機(jī)交互界面,我們主要提供有手勢(shì)識(shí)別,還有頭的轉(zhuǎn)向跟蹤,還有頭的位置跟蹤,后兩點(diǎn)可以結(jié)合在一起。右邊是顯示技術(shù),VR/AR顯示技術(shù)不同,但交互技術(shù)可以通用,都是手勢(shì)和位置跟蹤。
未來VR/AR需要解決三個(gè)問題,一個(gè)是產(chǎn)品的碎片化,一個(gè)新的硬件,或者一個(gè)新的產(chǎn)品出來,早期總是會(huì)產(chǎn)生很多碎片,比如現(xiàn)在的AR產(chǎn)品,每個(gè)公司想搶占市場都會(huì)發(fā)布自己的產(chǎn)品,但又不想別的產(chǎn)品進(jìn)來,封閉的環(huán)境,只能玩自己的游戲。還有內(nèi)容的缺乏,手機(jī)端的VR內(nèi)容都是比較單一的,而且體驗(yàn)比較差,還有待技術(shù)的進(jìn)步。
去年、前年大家都說是VR元年,但那個(gè)時(shí)候VR/AR產(chǎn)品都是頭盔,把手機(jī)插在頭盔里可以簡單體驗(yàn)VR效果,但實(shí)際用戶可能就體驗(yàn)一下覺得沒什么意思,這是最初級(jí)的VR體驗(yàn)?,F(xiàn)在一些大廠商都是在進(jìn)一步研發(fā)能帶來更好沉浸感效果的VR技術(shù),下一輪VR產(chǎn)品可能會(huì)給大家?guī)砀玫挠脩趔w驗(yàn)。先說顯示技術(shù),這個(gè)略微帶過一下,因?yàn)椴皇俏覀児狙芯康闹攸c(diǎn)。
顯示技術(shù)里邊比較核心的指標(biāo)是FOV,就是視角。AR顯示大家最詬病的就是視角很小,但是像人眼的視角,如果不考慮余光,實(shí)際上可能有180度,但至少要達(dá)到100度才能感到比較好的沉浸效果。像這三款都是AR眼鏡,還有工業(yè)眼鏡,都是AR的,他們主要的指標(biāo)是FOV、分辨率和硬件尺寸。AR頭盔尺寸比較大,因?yàn)槔锩嬉蟹糯蟮娘@示屏,但VR頭盔以后可能會(huì)做的很小。下面介紹我們的技術(shù)的重點(diǎn)。
交互技術(shù),現(xiàn)在把手勢(shì)分成三類:第一種是符號(hào)型的手勢(shì)進(jìn)行交互,比如這個(gè)人做了一個(gè)OK的手勢(shì),可以通過圖像或者什么方式識(shí)別出來,進(jìn)行交互;第二種是拿著工具,比如這里拿錘子砸釘子,用手柄可以很好的模擬;第三種是用手直接和物體進(jìn)行交互,這個(gè)就需要對(duì)手的三維模型進(jìn)行精確的識(shí)別。
第一種硬件游戲手柄,是游戲機(jī)上最常用的,這三種都實(shí)現(xiàn)不了。第二類,現(xiàn)在VR里常用的是游戲手柄,比較適合拿著一個(gè)物體進(jìn)行交互,比較自然。但是第一種和第三種,手勢(shì)直接交互都是不能實(shí)現(xiàn)。如果要實(shí)現(xiàn)這三種,必須把手的形狀都識(shí)別出來才可以。像hololens,可以識(shí)別兩種手勢(shì),一種是點(diǎn)擊,一種是手張開可以出現(xiàn)菜單,它就是用了符號(hào)手勢(shì)進(jìn)行交互。但是它沒有后面兩個(gè)功能,不能用手精確操作物體,不能用手抓一個(gè)物體。我們公司的產(chǎn)品可以實(shí)現(xiàn)這三種功能。
手的交互技術(shù)應(yīng)用場景非常廣泛,不光是在AR場景,比如游戲里可以用手勢(shì)交互,第二是3D UI,第三是駕駛,虛擬點(diǎn)擊命令。在一些公共場合的顯示環(huán)境下,比如用戶從衛(wèi)生角度考慮,不想直接用手去碰按鈕,這個(gè)時(shí)候有手勢(shì)識(shí)別;還有手術(shù)環(huán)節(jié),醫(yī)療手術(shù)里醫(yī)生不能拿鍵盤拿鼠標(biāo)進(jìn)行交互,因?yàn)橄镜脑?還有在家里廚房做菜的時(shí)候也沒法點(diǎn)屏幕翻菜單。
下面這是我們手勢(shì)識(shí)別在AR上的demo,通過AR眼鏡,這個(gè)手勢(shì)是虛擬的,其他的場景都是真實(shí)場景,通過AR的方式顯示出來,這個(gè)數(shù)字是提供手勢(shì)的,可以識(shí)別手勢(shì),通過指尖和其他東西進(jìn)行交互,把指尖和整個(gè)手的骨架都識(shí)別出來了,這只是一個(gè)技術(shù)演示,是我們?nèi)ツ臧l(fā)布會(huì)上的demo。手勢(shì)識(shí)別和位置跟蹤,右下角是真實(shí)的場景,他在頭盔里看到的是AR場景,手勢(shì)交互我們?cè)缙谝查_發(fā)了一些算法,這是早期的一些視頻。
(播放視頻)
這是我們最早開發(fā)的第一個(gè)版本,用指尖交互,那個(gè)時(shí)候只能識(shí)別手指指尖,可以用指尖在空中進(jìn)行點(diǎn)和畫畫。第二個(gè)版本是識(shí)別手的輪廓了,相機(jī)看到的手的圖像,可以3D把輪廓識(shí)別出來。而且,可以識(shí)別比較快的運(yùn)動(dòng),不光是指尖,任何位置都可以進(jìn)行3D交互。
大概2014年開始,我們用深度學(xué)習(xí)算法來解決手的識(shí)別問題,實(shí)際上手勢(shì)識(shí)別雖然研究這個(gè)的人不多,但它也屬于圖像識(shí)別問題,跟人臉識(shí)別、圖像識(shí)別一樣,都可以用深度學(xué)習(xí)來做。這也有一個(gè)視頻,這是我們用深度學(xué)習(xí)開發(fā)出來的26自由度手勢(shì)識(shí)別算法,用深度學(xué)習(xí)算法我們可以從圖像里邊自動(dòng)把手的關(guān)節(jié)點(diǎn)和關(guān)節(jié)點(diǎn)角度與位置自動(dòng)識(shí)別出來。
我們公司還做了兩方面技術(shù),手勢(shì)識(shí)別和運(yùn)動(dòng)跟蹤。運(yùn)動(dòng)跟蹤研究很長時(shí)間了,最早是在軍事上使用,比如導(dǎo)彈、飛機(jī),需要空中定位位置,優(yōu)化以后用在智能機(jī)器人、無人車和掃地機(jī)器人上。VR/AR也是需要用空間定位技術(shù),研發(fā)和掌握這些空間定位技術(shù)的是這些公司,比如Google Tango,幾年前出的Tango平板,還有Microsoft hololens,高通,一些硬件廠商已經(jīng)拿到他們的參考設(shè)計(jì)進(jìn)行適用,效果很好。前段時(shí)間apple發(fā)布的ARKit,類似的技術(shù)還有Facebook,Snapchat,也想做相關(guān)應(yīng)用。我們公司也完成了AR技術(shù),空間定位技術(shù),我們昨天剛發(fā)布了第一版,昨天也看到聯(lián)想發(fā)布了他們的頭盔,里邊也集成了他們自己的技術(shù),有機(jī)會(huì)大家可以去試一試。
空間定位技術(shù),比較技術(shù),簡單科普一下??臻g定位技術(shù)需要結(jié)合視覺和傳感器兩方面信息,視覺特征,這個(gè)模型大概是這樣的,一個(gè)相機(jī)的成像,通過相機(jī)觀測(cè)一個(gè)3D點(diǎn),可以得到圖像,3D點(diǎn)和圖像滿足下邊投影方程,左邊列了三個(gè)比較常用的問題。第一個(gè)是3D點(diǎn)的位置和3D點(diǎn)的投影,需要解相機(jī)的R、T,都在下面的方程里。XYZ是未知的,其他是已知的,要同時(shí)解空間定位和三角化的問題,已知的只有2D的投影U、V,同樣是這個(gè)范圍之內(nèi)。
空間定位技術(shù)簡單列舉了分類方法,SLAM方法包含兩個(gè)模塊,一個(gè)是Tracking,已知3D點(diǎn)位置;一個(gè)是Mapping,更新3D點(diǎn)的位置。兩種視覺特征,一種是基于圖像特征點(diǎn)的方法,另外是比較經(jīng)典的開源代碼,最近幾年是采用直接法,比較像素灰度差。下面是兩種求解方法,剛才的方程用什么方法求解,一種是濾波的算法,另外一種是基于優(yōu)化的算法,直接優(yōu)化方程解一個(gè)方程組。這些方法目前沒有說哪個(gè)好哪個(gè)不好,在實(shí)際系統(tǒng)里邊用各種方法都可以達(dá)到類似的效果。
剛才說的是視覺方法,實(shí)際上近年這個(gè)方法已達(dá)到實(shí)用的程度,因?yàn)閭鞲衅鞯倪M(jìn)步以及傳感器信號(hào)融合到算法里邊,使得系統(tǒng)得到提升。陀螺儀,左邊這個(gè)圖,中間如果高速旋轉(zhuǎn)的話,整個(gè)設(shè)備旋轉(zhuǎn),但中間轉(zhuǎn)子的方向是不變的,這樣可以得到設(shè)備的旋轉(zhuǎn)方向。但是這種方式可能早期幾百年前的輪船里邊會(huì)用,但現(xiàn)在高精度的陀螺儀都是用激光的方式,用激光陀螺儀,比如導(dǎo)彈在空中飛行幾個(gè)小時(shí),但誤差只有幾百米,或者100米之內(nèi)。
這種激光方式中間有個(gè)激光源,它會(huì)向兩個(gè)方向發(fā)射激光。如果這個(gè)物體靜止不動(dòng)的話,這兩條光線的長度一樣,比較這兩條光線的相差就是0,如果這個(gè)物體旋轉(zhuǎn)的話,這兩個(gè)光路就會(huì)有稍微特別小的變化,中間產(chǎn)生的相差就會(huì)有,通過識(shí)別相差就能知道整個(gè)設(shè)備旋轉(zhuǎn)速度。這里有兩個(gè)扇片,物體旋轉(zhuǎn)的時(shí)候不動(dòng),通過識(shí)別角度就可以知道它的旋轉(zhuǎn)速度。這種微型化的陀螺儀精度會(huì)比激光差很多,如果單獨(dú)用它的話是沒法達(dá)到結(jié)果,所以必須要結(jié)合陀螺儀和視覺信息一起進(jìn)行。
IMU中的陀螺儀輸出的是相鄰相機(jī)的旋轉(zhuǎn)角度。左邊的圖里邊顯示的是有四個(gè)時(shí)段相機(jī),每兩個(gè)相機(jī)之間通過IMU得到它們的旋轉(zhuǎn)角度以及加速度的值,實(shí)際加速度的值不能直接用來估計(jì)它的位置,只能用來估計(jì)速度,所以下面的公式有三個(gè)方程,這三個(gè)方程包含角度、速度和位置。第一個(gè)方程,下一個(gè)時(shí)刻的角度等于上一個(gè)時(shí)刻的角度乘上IMU估計(jì)出來的角度,這里面還包含了一些IMU的漂移以及噪聲;第二個(gè)方程是速度,上一時(shí)刻速度加上重力產(chǎn)生的速度,以及IMU讀出來的加速度;最下面的方程是位置的方程,加上速度產(chǎn)生的位移以及加速度產(chǎn)生的位移,加速度產(chǎn)生的位移就是二分之一立方,中學(xué)物理學(xué)學(xué)過的。所以說,IMU的約束在這個(gè)方程里邊都表示了,剛才介紹的是圖像產(chǎn)生的數(shù),把這些約束都加一起就是IMU和圖像融合得到的一個(gè)系統(tǒng)的方程。
實(shí)際傳感器是有一些問題的。第一個(gè),傳感器的采樣是離散的,而且有漂移,比如圖里邊連續(xù)的線是實(shí)際的加速度,但是IMU采樣是離散的,所以并沒有采樣到,所以結(jié)果是有誤差的;第二個(gè),IMU得到加速度它是包含重力的,實(shí)際上重力產(chǎn)生的加速度是遠(yuǎn)大于一般的移動(dòng)時(shí)候產(chǎn)生的加速度的,所以說要去掉重力就需要精確估計(jì)朝向;第三個(gè),IMU的位置和相機(jī)的位置肯定是不在一起的,它們之間有相對(duì)位移,而且由于工業(yè)生產(chǎn)的原因,它們倆之間會(huì)相差一個(gè)很小的角度,一些研究發(fā)現(xiàn),即使角度差一度,對(duì)最后整個(gè)系統(tǒng)的精度影響也會(huì)很大,所以在線標(biāo)定他們之間的角度和位移;第四個(gè),相機(jī)采樣頻率大概是60、30,但I(xiàn)MU采樣頻率很高,一般都是500、800、1000,采樣頻率、采樣時(shí)間也是不一樣的。
解決這些問題的方法,IMU采樣率比圖像高很多。2016年有人發(fā)表了一篇文章,預(yù)積分的方法,把圖像之間IMU信息都集中起來,當(dāng)成一個(gè)量,這樣就不用細(xì)化每個(gè)幀IMU,據(jù)我所知,這個(gè)在所有系統(tǒng)中都在用;第二個(gè),這個(gè)需要精確的標(biāo)定,如果差很多的話,整個(gè)系統(tǒng)就完全崩潰了,不能工作了;最后一個(gè)技術(shù)也很重要,ATW,人運(yùn)動(dòng)時(shí)候開始,到他看到合成的虛擬場景真的產(chǎn)生運(yùn)動(dòng),這個(gè)時(shí)間要少于20毫秒,人的運(yùn)動(dòng)開始,你看到的光線產(chǎn)生變化,這個(gè)時(shí)間要小于20毫秒,這樣的話VR運(yùn)用中用戶才不會(huì)感到暈。
但是像我們整個(gè)過程,包括很多運(yùn)算,第一個(gè)是圖像獲取的時(shí)間,算法處理的時(shí)間,還有渲染的時(shí)間,渲染的結(jié)果到最后顯示的時(shí)間。這些里面有些是可以預(yù)測(cè)的,有些是可以通過IMU數(shù)據(jù)得到的,有些是只能經(jīng)過預(yù)測(cè)的。像這里面第一個(gè)圈是圖像,算法處理完之后,第二個(gè)時(shí)刻只能得到前面那個(gè)圈時(shí)刻的信息,但實(shí)際上后面這一段是有IMU數(shù)據(jù)的,可以把IMU數(shù)據(jù)集成到這里。所以說在第二個(gè)圈那個(gè)地方它得到的位置相對(duì)來說比較精確,但后面渲染的時(shí)候,渲染時(shí)間和顯示時(shí)間,這個(gè)時(shí)候完全沒有IMU信息,所以只能通過前面的模型把后半段預(yù)測(cè)出來,后面這部分誤差比較大,但是通過這種技術(shù)還是可以明顯的減小延遲,現(xiàn)在商用的VR產(chǎn)品里邊都是用的這種技術(shù)。
我們的產(chǎn)品硬件也經(jīng)過了幾次迭代,從尺寸上和功耗上都比之前小很多,但它的外型都是雙攝像頭,這是一些指標(biāo),紅線標(biāo)出來的是效果影響比較大的。第一個(gè)是分辨率,必須是全局曝光的,手機(jī)里的攝像頭都是快門,曝光時(shí)間不一樣,會(huì)影響精度;第二個(gè)是硬件同步,我們是雙系統(tǒng),所以左右相機(jī)要同時(shí)采圖,而不是分別采圖。
采樣率,我們的產(chǎn)品會(huì)達(dá)到60幀到120幀,快門時(shí)間是0.01到10毫秒。我們這個(gè)產(chǎn)品目標(biāo)是做一個(gè)智能視覺系統(tǒng),現(xiàn)在我們的應(yīng)用在VR/AR場景應(yīng)用,但實(shí)際上它的應(yīng)用可以在下面列舉的一些未來的應(yīng)用,第一個(gè)是在廣告機(jī)上做手勢(shì)識(shí)別,第二個(gè)是車載手勢(shì)識(shí)別以及機(jī)器人和無人機(jī)上也可以用來做空間定位。大概就這些,謝謝大家!
51CTO記者將持續(xù)為您帶來WOTI2017全球創(chuàng)新技術(shù)峰會(huì)前方精彩報(bào)道,敬請(qǐng)期待!
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】