計算機視覺技術(shù)在物聯(lián)網(wǎng)中的發(fā)展與應(yīng)用
By Frank Lee is the co-founder and CEO of Eurika Solutions
計算機視覺的發(fā)展演進(jìn)
我們可以輕松地在日常產(chǎn)品中找到計算機視覺技術(shù)的應(yīng)用,從可以識別手勢的游戲機到可以自動聚焦于人臉的智能手機攝像頭。如今,計算機視覺正在影響我們生活的許多領(lǐng)域。
實際上,計算機視覺在商業(yè)和政府使用中已有悠久的歷史。可以感測各種光譜范圍內(nèi)的光波的光學(xué)傳感器已在許多應(yīng)用中部署:像制造中的產(chǎn)品質(zhì)量檢測,用于環(huán)境管理的遙感或在戰(zhàn)場上收集情報的高分辨率相機。這些傳感器中的一些是固定的,而另一些則附著在移動的物體上,例如衛(wèi)星、無人機和車輛。
過去,這些計算機視覺應(yīng)用中有許多都限于某些封閉的平臺。但是,當(dāng)與IP連接技術(shù)結(jié)合使用時,它們會創(chuàng)建一套以前無法實現(xiàn)的新應(yīng)用。計算機視覺,再加上IP連接性、高級數(shù)據(jù)分析和人工智能,將成為彼此的催化劑,從而引發(fā)物聯(lián)網(wǎng)(IoT)創(chuàng)新和應(yīng)用的革命性飛躍。
推動計算機視覺的多個領(lǐng)域的進(jìn)步
專為視覺設(shè)計的環(huán)境
視力或視覺是人類五種感官中最發(fā)達(dá)的。我們每天都使用它來認(rèn)識我們的朋友、發(fā)現(xiàn)前進(jìn)道路上的障礙、完成任務(wù)并學(xué)習(xí)新事物。我們設(shè)計視覺環(huán)境的物理環(huán)境,有路標(biāo)和信號燈可以幫助我們從一個地方到達(dá)另一個地方;商店有標(biāo)牌來幫助我們找到它們;電腦和電視屏幕顯示我們消費的信息和娛樂??紤]到視覺的重要性,將其擴展到計算機和自動化領(lǐng)域并不是一個大飛躍。
什么是計算機視覺?
計算機視覺始于捕獲和存儲圖像或一組圖像的技術(shù),然后將這些圖像轉(zhuǎn)換為可以進(jìn)一步作用的信息。它由多種技術(shù)共同組成(圖1)。計算機視覺工程是一個跨學(xué)科領(lǐng)域,需要許多這些技術(shù)的跨功能和系統(tǒng)專業(yè)知識。
例如,Microsoft Kinect使用3D計算機圖形算法來使計算機視覺能夠分析和理解三維場景。它允許游戲開發(fā)人員將實時的全身運動捕捉與人工3D環(huán)境合并。除了游戲以外,這還在機器人技術(shù)、虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)應(yīng)用等領(lǐng)域開辟了新的可能性。
傳感器技術(shù)的進(jìn)步也在許多方面超越了傳統(tǒng)的相機傳感器而迅速發(fā)展。最近的一些例子包括:
- 紅外傳感器和激光結(jié)合起來可感應(yīng)深度和距離,這是自動駕駛汽車和3D映射應(yīng)用的關(guān)鍵推動力之一
- 非侵入式傳感器,無需物理接觸即可跟蹤醫(yī)療患者的生命體征
- 高頻攝像頭可以捕捉人眼無法察覺的細(xì)微動作,幫助運動員分析步態(tài)
- 超低功耗和低成本視覺傳感器,可以長時間部署在任何地方
圖1.由多個領(lǐng)域的進(jìn)步推動的計算機視覺。圖片來源:IFA
計算機視覺變得智能
早期應(yīng)用
監(jiān)控行業(yè)是圖像處理技術(shù)和視頻分析的較早采用者之一。視頻分析是計算機視覺的一種特殊用例,其重點是從數(shù)小時的錄像中查找模式。在現(xiàn)實世界中自動檢測和識別預(yù)定義模式的能力代表著數(shù)百個用例的巨大市場機會。
首批視頻分析工具使用手工算法來識別圖像和視頻中的特定功能。它們在實驗室設(shè)置和模擬環(huán)境中都是準(zhǔn)確的。但是,當(dāng)輸入數(shù)據(jù)(例如光照條件和攝像機視圖)偏離設(shè)計假設(shè)時,性能會迅速下降。
研究人員和工程師花了很多年時間開發(fā)和調(diào)整算法,或者提出新的算法來應(yīng)對不同的條件。但是,使用這些算法的攝像機或錄像機仍然不夠堅固。盡管這些年來取得了一些漸進(jìn)的進(jìn)步,但現(xiàn)實世界的糟糕表現(xiàn)限制了該技術(shù)的實用性和采用性。
深度學(xué)習(xí)突破
近年來,深度學(xué)習(xí)算法的出現(xiàn)重新激發(fā)了計算機視覺。深度學(xué)習(xí)使用模仿人類大腦神經(jīng)元的人工神經(jīng)網(wǎng)絡(luò)(ANN)算法。
從2010年代初開始,通過圖形處理單元(GPU)加速的計算機性能已經(jīng)變得足夠強大,足以讓研究人員實現(xiàn)復(fù)雜的人工神經(jīng)網(wǎng)絡(luò)的功能。此外,部分地受視頻站點和流行的IoT設(shè)備驅(qū)動,研究人員擁有龐大的視頻和圖像數(shù)據(jù)庫來訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)。
2012年,一種稱為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度神經(jīng)網(wǎng)絡(luò)(DNN)版本在準(zhǔn)確性上實現(xiàn)了巨大飛躍。這一發(fā)展帶動了人們對計算機視覺工程領(lǐng)域的興趣和興奮?,F(xiàn)在,在需要圖像分類和面部識別的應(yīng)用中,深度學(xué)習(xí)算法甚至超過了人類。更重要的是,就像人類一樣,這些算法具有學(xué)習(xí)和適應(yīng)不同條件的能力。
圖2.場景的語義表示
隨著深度學(xué)習(xí)的發(fā)展,我們正在進(jìn)入認(rèn)知技術(shù)的時代,其中計算機視覺和深度學(xué)習(xí)融合在一起,以解決人腦領(lǐng)域中的高級復(fù)雜問題(圖2)。我們只是在探索一切可能的事物。隨著更快的處理器,更先進(jìn)的機器學(xué)習(xí)算法以及與邊緣設(shè)備的更深入集成,這些系統(tǒng)將繼續(xù)得到改善。計算機視覺將徹底改變物聯(lián)網(wǎng)。
用例增加
其他有趣的用例包括:
- 監(jiān)控作物健康的農(nóng)業(yè)無人機(http://www.slantrange.com/)(圖3)
- 運輸基礎(chǔ)設(shè)施管理(http://www.vivacitylabs.com/)
- 無人機檢查(http://industrialskyworks.com/drone-inspections-services/)
- 下一代家庭安全攝像頭(https://buddyguard.io/)
圖3.從無人機收集的圖像中的植被指數(shù)(來源:Emmetts,www.emmetts.com.au)
這些只是計算機視覺如何在許多領(lǐng)域極大地提高生產(chǎn)力的一些小例子。我們正在進(jìn)入物聯(lián)網(wǎng)發(fā)展的下一階段。在第一階段,我們專注于連接設(shè)備,聚合數(shù)據(jù)和構(gòu)建大數(shù)據(jù)平臺。在第二階段,重點將轉(zhuǎn)移到通過計算機視覺和深度學(xué)習(xí)等技術(shù)使“事物”更加智能,生成更多可操作的數(shù)據(jù)。
挑戰(zhàn)
在讓計算機視覺技術(shù)對大眾更實用和更經(jīng)濟時,有許多問題需要克服:
- 嵌入式平臺需要集成深度神經(jīng)設(shè)計。由于功耗、成本、準(zhǔn)確性和靈活性,很難做出設(shè)計決定。
- 業(yè)界需要標(biāo)準(zhǔn)化,以允許智能設(shè)備和系統(tǒng)相互通信并共享元數(shù)據(jù)。
- 系統(tǒng)不再是數(shù)據(jù)的被動收集器。他們需要以最少的人工干預(yù)就數(shù)據(jù)采取行動。他們需要自己學(xué)習(xí)和即興創(chuàng)作。整個軟件/固件更新過程在機器學(xué)習(xí)時代具有新的意義。
- 黑客可以利用計算機視覺和AI中的新安全漏洞。設(shè)計師需要考慮到這一點。