自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI 江湖風(fēng)云變幻 計(jì)算機(jī)視覺(jué)路在何方

原創(chuàng)
人工智能
一文了解 2021 計(jì)算機(jī)視覺(jué)領(lǐng)域前沿突破與挑戰(zhàn)。

作者丨張潔

【51CTO.com原創(chuàng)稿件】計(jì)算機(jī)視覺(jué) (Computer Vision, CV) 在人工智能領(lǐng)域里相當(dāng)于人類的眼睛,致力于讓計(jì)算機(jī)能夠像人類一樣,識(shí)別、理解和處理圖像以及視頻中的信息。得益于深度學(xué)習(xí)的興起和發(fā)展,目前 CV 領(lǐng)域進(jìn)展迅速,此項(xiàng)技術(shù)已經(jīng)廣泛應(yīng)用到安防、金融、自動(dòng)駕駛、醫(yī)療等行業(yè),也逐漸成為人工智能領(lǐng)域里應(yīng)用最廣的技術(shù)之一。當(dāng)越來(lái)越多的應(yīng)用場(chǎng)景被挖掘出來(lái)時(shí),也意味著計(jì)算機(jī)視覺(jué)的發(fā)展前景將無(wú)比廣闊。

前沿:進(jìn)展與挑戰(zhàn)

2012 年之后,深度學(xué)習(xí)興起,顛覆了幾乎所有的計(jì)算機(jī)視覺(jué)任務(wù)。其特點(diǎn)是將傳統(tǒng)的特征工程和模型學(xué)習(xí)合為一體,即能夠在學(xué)習(xí)的過(guò)程中進(jìn)行特征設(shè)計(jì)。在過(guò)去的 2021 年里,傳統(tǒng)科技巨頭公司表現(xiàn)依舊令人矚目,不少模型一經(jīng)推出就獲得廣泛關(guān)注。

OpenAI 同時(shí)發(fā)布了兩個(gè)連接文本與圖像的神經(jīng)網(wǎng)絡(luò):CLIP 和 DALL·E ?;谶@兩個(gè)模型,機(jī)器學(xué)習(xí)社區(qū)的開(kāi)發(fā)者在文本與圖像的匹配方面嘗試了很多新的玩法。

谷歌大腦團(tuán)隊(duì)公布了 Vision Transformer(ViT)進(jìn)階版 ViT-G/14,參數(shù)高達(dá) 20 億的 CV 模型,經(jīng)過(guò) 30 億張圖片的訓(xùn)練,刷新了 ImageNet 上最高準(zhǔn)確率記錄——90.45%。

……

此外,過(guò)去一年間 CV 領(lǐng)域的論文發(fā)布也堪稱百花齊放。據(jù)統(tǒng)計(jì),今年的 CVPR(Computer Vision and Pattern Recognition,計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)峰會(huì)之一)舉辦的 12 次會(huì)議共發(fā)表了超過(guò) 1600 篇論文,其中一些新主題來(lái)到了聚光燈下。

其一,使用對(duì)抗樣本學(xué)習(xí)。通過(guò)對(duì)抗性學(xué)習(xí),當(dāng)加入不同級(jí)別的噪聲時(shí),每個(gè)樣本的可靠性可以根據(jù)其預(yù)測(cè)標(biāo)簽的穩(wěn)定性來(lái)估計(jì)。這使模型能夠識(shí)別和關(guān)注對(duì)噪聲更具彈性的樣本,從而降低其對(duì)對(duì)抗性示例的敏感性。

其二,自監(jiān)督和對(duì)比學(xué)習(xí)。自監(jiān)督學(xué)習(xí)是創(chuàng)建數(shù)據(jù)高效人工智能系統(tǒng)的幾種計(jì)劃之一,主要是利用輔助任務(wù)(pretext)從大規(guī)模的無(wú)監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息,通過(guò)這種構(gòu)造的監(jiān)督信息對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而可以學(xué)習(xí)到對(duì)下游任務(wù)有價(jià)值的表征。

其三,視覺(jué)語(yǔ)言模型。VL 使用不同形式的數(shù)據(jù),可以更好地進(jìn)行特征映射和提取。此外,可以使用大量數(shù)據(jù)樣本來(lái)訓(xùn)練這些系統(tǒng)。與自監(jiān)督學(xué)習(xí)類似,學(xué)習(xí)到的特征是通用的,可用于多個(gè)下游任務(wù)。此外,VL 模型可用于學(xué)習(xí)更好的視覺(jué)特征和增強(qiáng)語(yǔ)言表示。

其四,有限數(shù)據(jù)學(xué)習(xí)。弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)有助于減少訓(xùn)練 CV 模型所需的標(biāo)記數(shù)據(jù)量,從而增加這些模型在工業(yè)中的應(yīng)用和采用。弱監(jiān)督學(xué)習(xí)還可以幫助模型在存在噪聲標(biāo)簽的情況下表現(xiàn)得更好。不過(guò),弱監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)都是相對(duì)較新的領(lǐng)域,要在工業(yè)中使用尚需時(shí)日。

商業(yè):潛力無(wú)窮,暗流洶涌

自 2012 年計(jì)算機(jī)視覺(jué)領(lǐng)域出現(xiàn)神經(jīng)網(wǎng)絡(luò)技術(shù)之后,算法進(jìn)行多次穩(wěn)步改進(jìn),在某些視覺(jué)任務(wù)上的性能已經(jīng)可以與人類相媲美,甚至有所超越。隨著計(jì)算機(jī)視覺(jué)技術(shù)日趨成熟,其商業(yè)價(jià)值和發(fā)展?jié)摿σ驳玫搅速Y本市場(chǎng)的普遍認(rèn)同。

根據(jù) Crunchbase 統(tǒng)計(jì),過(guò)去 8 年里約 1800 家計(jì)算機(jī)視覺(jué)創(chuàng)始公司獲得風(fēng)險(xiǎn)投資超 150 億美元。僅就中國(guó)市場(chǎng)來(lái)說(shuō),計(jì)算機(jī)視覺(jué)行業(yè)市場(chǎng)規(guī)模發(fā)展也相當(dāng)迅速,據(jù)前瞻產(chǎn)業(yè)研究院整理,2020 年我國(guó)計(jì)算機(jī)視覺(jué)產(chǎn)品的市場(chǎng)規(guī)模占整個(gè)人工智能行業(yè)的 57%。

就行業(yè)分布來(lái)說(shuō),熱門賽道集中于零售、安防、制造、醫(yī)療。

零售業(yè)可基于場(chǎng)景化營(yíng)銷、商品識(shí)別分析、消費(fèi)者行為分析、防盜損等應(yīng)用,為改善用戶體驗(yàn)、門店運(yùn)營(yíng)智能化改革提供了途徑;安防作為 CV 落地最早的場(chǎng)景之一,在視頻監(jiān)控、智能交通、智慧園區(qū)等領(lǐng)域應(yīng)用廣泛;制造業(yè)對(duì) CV 技術(shù)的使用包括智慧現(xiàn)場(chǎng)安監(jiān)、預(yù)測(cè)性維護(hù)、智能輔助運(yùn)輸和工業(yè)視覺(jué)質(zhì)檢等方向,場(chǎng)景豐富多樣;在醫(yī)療領(lǐng)域,CV 產(chǎn)品和解決方案作為提升現(xiàn)代醫(yī)療診斷和治療水平的重要工具, 使實(shí)施風(fēng)險(xiǎn)低、創(chuàng)傷性小的手術(shù)方案成為可能。

總體而言,計(jì)算機(jī)視覺(jué)和產(chǎn)業(yè)融合的加深,也加速了產(chǎn)業(yè)規(guī)模的增長(zhǎng)。資料顯示,到 2025 年我國(guó)計(jì)算機(jī)視覺(jué)技術(shù)及視覺(jué)核心產(chǎn)品及帶動(dòng)的相關(guān)產(chǎn)業(yè)規(guī)模將達(dá)到 6000 億。不過(guò),這個(gè)賽道固然潛力無(wú)限,但對(duì)于身處這個(gè)賽道的玩家來(lái)說(shuō)依舊暗流洶涌。

2021 年 12 月,在商湯科技上市的關(guān)鍵時(shí)刻,美國(guó)財(cái)政部將其列入“中國(guó)軍工復(fù)合體企業(yè)”清單,美國(guó)投資人被禁止投資商湯科技。而在此前被列入制裁名單的還有與商湯科技并稱“AI 四小龍”的另外 3 家企業(yè)(曠視科技、云從科技、依圖科技)。

當(dāng)前,中美兩國(guó)在科技領(lǐng)域角力日趨激烈。在互聯(lián)網(wǎng)行業(yè)整體發(fā)展放緩的大背景下,美國(guó)對(duì)中國(guó)人工智能公司的打壓無(wú)疑是雪上加霜。截至 2021 年 12 月 31 日,同屬于計(jì)算機(jī)視覺(jué)領(lǐng)域的“AI 四小龍”均已啟動(dòng)上市計(jì)劃,但僅有商湯科技幾經(jīng)波折后在港股成功上市。

四小龍上市之路的曲折多舛,撇開(kāi)外因作用,折射的更多是整個(gè) AI 行業(yè)在商業(yè)化之路上的步履維艱。

AI 發(fā)展幾經(jīng)起落,與其燒錢快、落地難的現(xiàn)實(shí)不無(wú)關(guān)系。以 AI 四小龍為例,他們同處計(jì)算機(jī)視覺(jué)領(lǐng)域,創(chuàng)業(yè)之初產(chǎn)品同質(zhì)化程度較高,落地場(chǎng)景也較多地集中在安防和金融領(lǐng)域,要尋求發(fā)展,開(kāi)發(fā)更多的產(chǎn)品解決方案和落地場(chǎng)景是剛需。但要在更為細(xì)分的賽道力求落地?zé)o疑是更大的挑戰(zhàn),在持續(xù)的業(yè)務(wù)擴(kuò)張、高昂的研發(fā)投入下,落地不及預(yù)期的陰影始終沒(méi)有散去,常年虧損的局面也未有扭轉(zhuǎn)。

計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用落地需要更深入業(yè)務(wù)、更深入行業(yè),加強(qiáng)用戶洞察,滿足千人千面的需求,這要求企業(yè)未來(lái)在重視前沿算法研發(fā)的同時(shí),進(jìn)一步加強(qiáng)算法和商業(yè)應(yīng)用的融合,在產(chǎn)業(yè)落地的深水區(qū),尋求和其他行業(yè)、合作伙伴共建生態(tài),實(shí)現(xiàn)價(jià)值閉環(huán)。

五大趨勢(shì)

縱觀 2021 年計(jì)算機(jī)視覺(jué)領(lǐng)域的整體發(fā)展,英特爾軟件創(chuàng)新者、谷歌開(kāi)發(fā)者專家 Sayak Paul 提出了五大新趨勢(shì)。

趨勢(shì)一:資源更高效的模型(Resource-Efficient Models)

原因:

  • 最先進(jìn)的模型通常很難在輕量設(shè)備(比如手機(jī)、Raspberry Pis 和其他微處理器)上離線運(yùn)行的。
  • 較重的模型往往具有較明顯的延遲(這里表示單個(gè)模型運(yùn)行前向計(jì)算的時(shí)間),并且會(huì)顯著影響基礎(chǔ)設(shè)施的搭建成本。
  • 出于成本、網(wǎng)絡(luò)連接、隱私等問(wèn)題考慮,如果基于云的模型托管不是一個(gè)可選項(xiàng)?

趨勢(shì)二:創(chuàng)造性應(yīng)用的生成式模型

原因:

  • 生成式模型已經(jīng)取得了長(zhǎng)足進(jìn)步。
  • 現(xiàn)在生成式對(duì)抗網(wǎng)絡(luò) (GAN)幾乎可以創(chuàng)建任何以假亂真的圖片。示例請(qǐng)參考https://thisxdoesnotexist.com/
  • 可以實(shí)現(xiàn)多種功能:圖像超分辨率(Image Super-Resolution)、域轉(zhuǎn)移( Domain Transfer)、圖像外擴(kuò)(Extrapolation)、隱式神經(jīng)表示和 CLIP(Implicit Neural Representations and CLIP)

趨勢(shì)三:自監(jiān)督學(xué)習(xí)

原因:

自監(jiān)督學(xué)習(xí)不使用任何 GT 標(biāo)簽(Ground Truth Labeler ),而是使用前置任務(wù)(pretext tasks);然后使用大量未標(biāo)注的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。

與之相比,監(jiān)督學(xué)習(xí)存在這樣一些挑戰(zhàn):

  • 需要大量標(biāo)注數(shù)據(jù)來(lái)推動(dòng)性能提升
  • 標(biāo)注數(shù)據(jù)的人工成本很高,且有可能存在偏差
  • 大規(guī)模的數(shù)據(jù)標(biāo)注與訓(xùn)練需要占用較長(zhǎng)時(shí)間

總體來(lái)說(shuō),未標(biāo)注數(shù)據(jù)的準(zhǔn)備成本非常低,而且在計(jì)算機(jī)視覺(jué)領(lǐng)域,SEER 等(一種自監(jiān)督模型)模型在對(duì)象檢測(cè)和語(yǔ)義分割方面的表現(xiàn)要優(yōu)于監(jiān)督學(xué)習(xí)。

趨勢(shì)四:Transformers 與 Self-Attention 的使用

原因:

Transformers 是一種新的機(jī)器學(xué)習(xí)架構(gòu),采用的是 Self-Attention(自注意力)機(jī)制,其與傳統(tǒng) Attention(注意力)機(jī)制有很大不同。這種方式能通過(guò)量化成對(duì)實(shí)體之間的關(guān)系(pairwise entity interactions),有效獲取源端或目標(biāo)端自身詞與詞之間的依賴關(guān)系,有助于網(wǎng)絡(luò)學(xué)習(xí)對(duì)齊數(shù)據(jù)中的上下文信息。另外,當(dāng) self-attention 與 CNNs 相結(jié)合,會(huì)構(gòu)建強(qiáng)大的 baselines(BoTNet)

與 CNN 相比,Transformer 的優(yōu)勢(shì):

  • 較少的歸納與先驗(yàn),因此可以被認(rèn)為是一種適用于不同學(xué)習(xí)任務(wù)的通用計(jì)算基礎(chǔ)
  • 參數(shù)有效性和性能與 CNNs 相當(dāng)

與 CNN 相比,Transformer 的劣勢(shì):

預(yù)訓(xùn)練時(shí),對(duì)大數(shù)據(jù)機(jī)制的依賴性更強(qiáng)。因?yàn)?transformer 沒(méi)有和 CNNs 那樣的明確定義的先驗(yàn)

趨勢(shì)五:魯棒視覺(jué)模型

視覺(jué)模型容易受到很多因素干擾,影響其性能。

目前主要面臨以下三個(gè)問(wèn)題:

  1. 擾動(dòng)。深度模型對(duì)輸入數(shù)據(jù)中難以察覺(jué)的變化不夠魯棒;
  2. 形變。深度模型會(huì)率先對(duì)高頻出現(xiàn)的區(qū)域做出反應(yīng),使得其容易受到常見(jiàn)的損壞(如模糊、對(duì)比度、縮放等)的影響
  3. 分布外數(shù)據(jù)。

可以提升魯棒性的嘗試:

  • 對(duì)抗訓(xùn)練(Adversarial training):類似于拜占庭容錯(cuò),其基本是讓模型能夠在面臨糟糕情況時(shí)做好自行處理的準(zhǔn)備;
  • 一致性正則話(Consistency regularization):期望模型能夠?qū)τ性肼暤妮斎刖哂幸恢滦?
  • 立即檢測(cè)異常數(shù)據(jù)點(diǎn)。

結(jié)語(yǔ)

計(jì)算機(jī)視覺(jué)帶給機(jī)器的并不止于通過(guò)視覺(jué)理解世界的能力,更是與世界建立聯(lián)系,基于理解進(jìn)行決策,最終實(shí)現(xiàn)交互的路徑。像其他技術(shù)一樣,CV 也經(jīng)歷著缺口、泡沫、泡沫擠出、理性回歸、再度崛起的起起落落,商業(yè)化依舊任重而道遠(yuǎn)。不過(guò)我們依然愿意相信,歷史的車輪永遠(yuǎn)向前,距離計(jì)算機(jī)視覺(jué)普惠人類生活的那一天已經(jīng)不會(huì)太遠(yuǎn)。

附參考資料:

從 CVPR 2021 的論文看計(jì)算機(jī)視覺(jué)的現(xiàn)狀:

https://www.163.com/dy/article/GEUJ8CG50531D9VR.html#post_comment_area

IEEE Fellow 梅濤:視覺(jué)計(jì)算的前沿進(jìn)展與挑戰(zhàn):

https://www.yanxishe.com/blogDetail/28319

2021 年中國(guó)人工智能行業(yè)市場(chǎng)現(xiàn)狀與優(yōu)勢(shì)賽道分析計(jì)算機(jī)視覺(jué)成為千億級(jí)大賽道:

https://baijiahao.baidu.com/s?id=1711947993304727146&wfr=spider&for=pc

Sayak Paul | Deep Learning, Computer Vision, etc.:

https://sayak.dev/

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

 

責(zé)任編輯:武曉燕 來(lái)源: AI深一度
相關(guān)推薦

2010-03-23 12:37:50

微軟瀏覽器

2016-07-26 10:48:47

2010-01-13 17:38:34

交換機(jī)市場(chǎng)

2014-09-25 11:00:22

2009-03-23 09:05:09

IE瀏覽器微軟

2010-03-03 09:38:05

JavaFX

2013-03-14 08:52:19

SDN軟件定義網(wǎng)絡(luò)ONF

2019-01-07 13:21:06

5G芯片廠商

2013-12-17 09:16:45

中國(guó)云計(jì)算大數(shù)據(jù)云計(jì)算部署

2023-07-07 10:53:08

2010-07-27 09:24:21

2014-08-15 13:57:56

2019-08-07 07:19:30

2020-10-27 10:24:31

5G

2023-04-04 08:25:31

計(jì)算機(jī)視覺(jué)圖片

2019-09-11 15:35:18

戴爾

2013-03-14 09:59:26

超級(jí)計(jì)算機(jī)泰坦HPC

2012-08-08 11:10:07

云計(jì)算惠普大數(shù)據(jù)

2020-02-25 20:40:26

高等院校二本就業(yè)

2009-06-24 15:45:32

VB.NET
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)