計算機(jī)視覺的下一大突破在哪?
譯文譯者 | 布加迪
審校 | 重樓
20世紀(jì)50年代的計算機(jī)視覺首批用例可以分析鍵入文本和手寫文本。早期的商業(yè)應(yīng)用程序致力于單個圖像,包括光學(xué)字符識別、圖像分割和對象檢測。人臉識別方面的開創(chuàng)性工作始于20世紀(jì)60年代,科技巨頭們在2010年左右開始推出相關(guān)功能。
計算機(jī)視覺市場規(guī)模在2022年估計為140億美元,預(yù)計從2023年到2030年將以19.6%的年復(fù)合增長率增長。雖然有許多新的計算機(jī)視覺突破和初創(chuàng)公司,但與其他人工智能技術(shù)相比,市場規(guī)模還是很小。比如說,到2032年,生成式人工智能的市場規(guī)模估計將達(dá)到1.3萬億美元。
計算機(jī)視覺的新興用例
如今無論您走到哪里,攝像頭都可能在掃描您,計算機(jī)視覺算法執(zhí)行實(shí)時分析。計算機(jī)視覺的主要用例包括文檔掃描、視頻監(jiān)控、醫(yī)療成像和交通流量檢測。實(shí)時計算機(jī)視覺方面的突破促進(jìn)了自動駕駛汽車的發(fā)展,并推動了無收銀員商店和庫存管理等零售用例的發(fā)展。
您可能碰到過或讀到過諸如此類的面向消費(fèi)者的用例,特別是汽車和消費(fèi)者市場中的計算機(jī)視覺主要應(yīng)用。
您可能不太了解制造業(yè)、建筑業(yè)及其他工業(yè)企業(yè)在如何使用計算機(jī)視覺技術(shù)。這些行業(yè)的企業(yè)通常遲遲不愿投入于技術(shù),但制造、數(shù)字建筑和智能農(nóng)業(yè)等行業(yè)的工業(yè)4.0計劃正在幫助行業(yè)領(lǐng)導(dǎo)者更好地了解新興技術(shù)帶來的機(jī)遇。
減少制造過程中的浪費(fèi)
計算機(jī)視覺在制造業(yè)帶來了重大的機(jī)會,計算機(jī)視覺算法達(dá)到了99%的準(zhǔn)確率??紤]到只有10%的公司使用這項(xiàng)技術(shù),這方面的潛力尤其驚人。工業(yè)領(lǐng)域正在醞釀一場數(shù)字革命,還是這些企業(yè)在采用計算機(jī)視覺技術(shù)方面繼續(xù)落后?
IndustrialML首席執(zhí)行官Arjun Chandar表示,在制造業(yè)中,識別動態(tài)材料的產(chǎn)品質(zhì)量是主要的用例?!敖柚邘实南鄼C(jī)和逐幀運(yùn)用機(jī)器學(xué)習(xí)模型,就可以快速識別生產(chǎn)線上的瑕疵?!?/p>
全球制造商每年浪費(fèi)高達(dá)8萬億美元,計算機(jī)視覺可以幫助監(jiān)控設(shè)備、制造部件和環(huán)境因素,從而幫助制造商減少這些損失。
Chandar表示,許多制造業(yè)用例的底層技術(shù)是主流技術(shù)?!斑@些主要使用2D相機(jī),不過擁有高分辨率和每秒20幀或更高的幀率,還使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)?!?/p>
為了提高準(zhǔn)確性,制造商需要一種策略來充實(shí)這些數(shù)據(jù)。Chandar補(bǔ)充道:“要像在典型的制造環(huán)境中那樣增強(qiáng)訓(xùn)練能力,具有良好產(chǎn)品質(zhì)量的圖像數(shù)量需遠(yuǎn)遠(yuǎn)超過瑕疵。”
消除這個缺口的一種方法是使用合成數(shù)據(jù),這是開發(fā)團(tuán)隊(duì)用來增加測試數(shù)據(jù)多樣性的一種方法。
Syntax數(shù)據(jù)管理和創(chuàng)新合伙人Jens Beck表示,制造商可以從基本的視覺檢查步驟入手,隨后尋求更大的自動化機(jī)會。他說:“我們看到計算機(jī)視覺和人工智能結(jié)合用于視覺檢查,比如在汽車上檢查膠水痕跡。對客戶來說,商業(yè)價值不僅僅在于通過自動化手動步驟來提高整體設(shè)備有效性(OEE),還在于將檢查記入文檔,然后將計算機(jī)視覺集成到制造執(zhí)行系統(tǒng)(MES)中,最終集成到企業(yè)資源規(guī)劃系統(tǒng)(ERP)中?!?/p>
提高工廠車間的安全性
除了質(zhì)量和效率外,計算機(jī)視覺還有助于提高工人的安全性,減少工廠車間及其他工作場所的事故。據(jù)美國勞工統(tǒng)計局聲稱,2021年制造業(yè)有近40萬人受傷和患病。
Synthesis AI的首席執(zhí)行官兼創(chuàng)始人Yashar Behzadi說:“計算機(jī)視覺可以比人員監(jiān)管體系更快速更高效地不斷識別員工面臨的潛在風(fēng)險和威脅,從而提高工人的安全性。計算機(jī)視覺要準(zhǔn)確可靠地做到這點(diǎn),機(jī)器學(xué)習(xí)模型就要使用大量的數(shù)據(jù)進(jìn)行訓(xùn)練;在這些特定的用例中,非結(jié)構(gòu)化數(shù)據(jù)常常以原始、未標(biāo)記的形式出現(xiàn)在機(jī)器學(xué)習(xí)工程師的面前?!?/p>
使用合成數(shù)據(jù)對于安全相關(guān)的用例也很重要,因?yàn)橹圃焐滩惶赡苡兄仫@示潛在安全因素的圖像。Behzadi補(bǔ)充道:“合成數(shù)據(jù)等技術(shù)通過提供準(zhǔn)確標(biāo)記的高質(zhì)量數(shù)據(jù),減輕了機(jī)器學(xué)習(xí)工程師的壓力。這些數(shù)據(jù)可以解釋極端情況,從而節(jié)省時間和金錢,并避免不準(zhǔn)確的數(shù)據(jù)導(dǎo)致的棘手問題?!?/p>
Gramener的物流和供應(yīng)鏈SBU負(fù)責(zé)人Sunil Kardam表示:“計算機(jī)視覺的好處包括實(shí)時分析、提高效率和改進(jìn)決策?!盞ardam分享了另外幾個典型的用例:
- 跟蹤物料移動、識別產(chǎn)品和包裝的瑕疵以及減少浪費(fèi)
- 通過監(jiān)視未授權(quán)人員的行為來落實(shí)協(xié)議
- 簡化文檔處理、優(yōu)化庫存、幫助保險索賠,并實(shí)現(xiàn)高效的物流管理
Kardam認(rèn)為,計算機(jī)視覺依賴攝像頭和先進(jìn)的算法,比如YOLO、Faster R-CNN和OpenCV。他表示,計算機(jī)視覺的機(jī)器學(xué)習(xí)模型“可以在邊緣設(shè)備或云端處理,智能攝像頭和基于云的API提供了強(qiáng)大的功能?!?/p>
監(jiān)測電網(wǎng)
大多數(shù)制造都在室內(nèi)進(jìn)行,工程師對環(huán)境有一定的控制,包括在哪里放置攝像頭以及何時添加照明設(shè)施。需要使用安裝的相機(jī)、無人機(jī)、飛機(jī)和衛(wèi)星分析室外區(qū)域和景觀時,計算機(jī)視覺用例會比較復(fù)雜。
Buzz Solutions的首席技術(shù)官、首席運(yùn)營官兼聯(lián)合創(chuàng)始人Vik Chaudry分享了一個使用無人機(jī)的例子。他說:“計算機(jī)視覺被用來監(jiān)測和識別電網(wǎng)、公用事業(yè)公司和變電站的故障,以確保美國各地有可靠互聯(lián)的電網(wǎng)。依靠從美國各地眾多公用事業(yè)公司收集的數(shù)千個圖像,計算機(jī)視覺可以準(zhǔn)確識別威脅、故障和異常情況?!?/p>
電力線火災(zāi)是一個值得關(guān)注的重要領(lǐng)域。據(jù)美國國家跨部門消防中心聲稱,從1992年到2020年,美國各地發(fā)生了3.2萬多起電線引燃的野火,加州的第二大野火是由電線太靠近一棵樹引起的。公用事業(yè)公司現(xiàn)正在評估人工智能的機(jī)會,以優(yōu)化維修,盡量降低風(fēng)險。
Chaudry說:“由于該軟件使用來自現(xiàn)有公用事業(yè)公司的真實(shí)數(shù)據(jù)和圖像,因此它極其準(zhǔn)確,可以識別來自天氣、維護(hù)不良的基礎(chǔ)設(shè)施和氣溫上升的一系列威脅。這項(xiàng)技術(shù)可以實(shí)現(xiàn)快速高效的維護(hù),同時防止大面積停電和電網(wǎng)引發(fā)的災(zāi)難。”
腦機(jī)接口
展望未來,AAVAA的首席技術(shù)官Naeem Komeilipoor透露了計算機(jī)視覺和新興技術(shù)設(shè)備的新前沿。他說:“在工業(yè)環(huán)境中使用的腦機(jī)接口(BCI)技術(shù)可以作為某些工業(yè)計算機(jī)視覺用例的補(bǔ)充方法,特別是在低能見度、極端溫度或攝像頭使用受限制的危險環(huán)境中?!?/p>
在危險條件下完成維修是一種用例,但更常見的用例是當(dāng)建筑施工、煉油廠工作或其他現(xiàn)場工作需要使用雙手來檢查或操控機(jī)械設(shè)備時。
“以工地上進(jìn)行維修為例。智能眼鏡中使用的BCI技術(shù)提供了一種替代方法,無需外部攝像頭即可跟蹤眼球運(yùn)動,因此工人在艱苦的條件下仍可以正常工作,”Komeilipoor說?!癇CI不依賴攝像頭,而是通過解讀大腦和眼電圖(EOG)等生物信號來監(jiān)測眼球運(yùn)動。這項(xiàng)技術(shù)需要先進(jìn)的信號處理和機(jī)器學(xué)習(xí)算法,以分析通過專門傳感器捕獲的眼球運(yùn)動?!?/p>
原文標(biāo)題:Computer vision's next breakthrough,作者:Isaac Sacolick