自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

華為天才少年謝凌曦:關于視覺識別領域發(fā)展的個人觀點!

人工智能 新聞
計算機視覺識別領域的發(fā)展如何?華為天才少年謝凌曦分享了萬字長文,闡述了個人對其的看法。

本文經(jīng)自動駕駛之心公眾號授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

最近,我參加了幾個高強度的學術活動,包括CCF計算機視覺專委會的閉門研討會和VALSE線下大會。經(jīng)過與其他學者的交流,我產(chǎn)生了許多想法,千頭萬緒,便希望把它們整理下來,供自己和同行們參考。當然,受限于個人的水平和研究范圍,文章中一定會存在許多不準確甚至錯誤的地方,當然也不可能覆蓋所有重要的研究方向。我期待與有興趣的學者們進行交流,以充實這些觀點,更好地探討未來發(fā)展方向。

在這篇文章中,我將會著重分析計算機視覺領域,特別是視覺感知(即識別)方向所面臨的困難和潛在的研究方向。

相較于針對具體算法的細節(jié)改進,我更希望探討當前算法(尤其是基于深度學習的預訓練+微調(diào)范式)的局限性和瓶頸,并且由此得出初步的發(fā)展性結(jié)論,包括哪些問題是重要的、哪些問題是不重要的、哪些方向值得推進、哪些方向的性價比較低等。

在開始之前,我先畫出如下思維導圖。為了尋找合適的切入點,我將從計算機視覺和自然語言處理(人工智能中兩個最受關注的研究方向)的區(qū)別開始談起,引出圖像信號的三個根本性質(zhì):信息稀疏性、域間差異性、無限粒度性,并將它們與幾個重要的研究方向相對應。這樣,我們就能更好地了解每個研究方向所處的狀態(tài):它已經(jīng)解決了哪些問題、還有哪些重要的問題沒有解決,然后針對性地分析今后的發(fā)展趨勢。

導圖:CV和NLP的差異、CV三大挑戰(zhàn)及應對方法

CV的三大基本困難和對應研究方向

一直以來,NLP都走在CV的前面。不論是深度神經(jīng)網(wǎng)絡超越手工方法,還是預訓練大模型開始出現(xiàn)大一統(tǒng)的趨勢,這些事情都先發(fā)生在NLP領域,并在不久之后被搬運到了CV領域。這里的本質(zhì)原因是NLP的起點更高:自然語言的基礎單元是單詞,而圖像的基礎單元是像素;前者具有天然的語義信息,而后者未必能夠表達語義。

從根本上說,自然語言是人類創(chuàng)造出來,用于存儲知識和交流信息的載體,所以必然具有高效和信息密度高的特性;而圖像則是人類通過各種傳感器捕捉的光學信號,它能夠客觀地反映真實情況,但相應地就不具有強語義,且信息密度可能很低。

從另一個角度看,圖像空間比文本空間要大得多,空間的結(jié)構(gòu)也要復雜得多。這就意味著,如果希望在空間中采樣大量樣本,并且用這些數(shù)據(jù)來表征整個空間的分布,采樣的圖像數(shù)據(jù)就要比采樣的文本數(shù)據(jù)大許多個數(shù)量級。順帶一提,這也是為什么自然語言預訓練模型比視覺預訓練模型用得更好的本質(zhì)原因——我們在后面還會提到這一點。

根據(jù)上述分析,我們已經(jīng)通過CV和NLP的差別,引出了CV的第一個基本困難,即語義稀疏性。而另外兩個困難,域間差異性和無限粒度性,也多少與上述本質(zhì)差別相關。正是由于圖像采樣時沒有考慮到語義,因而在采樣不同域(即不同分布,如白天和黑夜、晴天和雨天等場景)時,采樣結(jié)果(即圖像像素)與域特性強相關,導致了域間差異性。同時,由于圖像的基本語義單元很難定義(而文本很容易定義),且圖像所表達的信息豐富多樣,使得人類能夠從圖像中獲取近乎無限精細的語義信息,遠遠超出當前CV領域任何一種評價指標所定義的能力,這就是無限粒度性。關于無限粒度性,我曾經(jīng)寫過一篇文章,專門討論這個問題。

https://zhuanlan.zhihu.com/p/376145664

以上述三大基本困難為牽引,我們將業(yè)界近年來的研究方向總結(jié)如下:

  • 語義稀疏性:解決方案為構(gòu)建高效計算模型(神經(jīng)網(wǎng)絡)和視覺預訓練。此處的主要邏輯在于,想要提升數(shù)據(jù)的信息密度,就必須假設數(shù)據(jù)的非均勻分布(信息論)并對其建模(即學習數(shù)據(jù)的先驗分布)。目前,最為高效的建模方式有兩類,一類是通過神經(jīng)網(wǎng)絡架構(gòu)設計,來捕捉數(shù)據(jù)無關的先驗分布(例如卷積模塊對應于圖像數(shù)據(jù)的局部性先驗、transformer模塊對應于圖像數(shù)據(jù)的注意力先驗);一類是通過在大規(guī)模數(shù)據(jù)上的預訓練,來捕捉數(shù)據(jù)相關的先驗分布。這兩個研究方向,也是視覺識別領域最為基礎、受到關注最多的研究方向。
  • 域間差異性:解決方案為數(shù)據(jù)高效的微調(diào)算法。根據(jù)以上分析,網(wǎng)絡體量越大、預訓練數(shù)據(jù)集體量越大,計算模型中存儲的先驗就越強。然而,當預訓練域和目標域的數(shù)據(jù)分布具有較大差異時,這種強先驗反而會帶來壞處,因為信息論告訴我們:提升某些部分(預訓練域)的信息密度,就一定會降低其他部分(預訓練域沒有包含的部分,即預訓練過程中認為不重要的部分)的信息密度?,F(xiàn)實中,目標域很可能部分或者全部落在沒有包含的部分,導致直接遷移預訓練模型的效果很差(即過擬合)。此時,就需要通過在目標域進行微調(diào)來適應新的數(shù)據(jù)分布??紤]到目標域的數(shù)據(jù)體量往往遠小于預訓練域,因而數(shù)據(jù)高效是必不可少的假設。此外,從實用的角度看,模型必須能夠適應隨時變化的域,因而終身學習是必須。
  • 無限粒度性:解決方案為開放域識別算法。無限粒度性包含開放域特性,是更高的追求目標。這個方向的研究還很初步,特別是業(yè)界還沒有能被普遍接受的開放域識別數(shù)據(jù)集和評價指標。這里最本質(zhì)的問題之一,是如何向視覺識別中引入開放域能力??上驳氖?,隨著跨模態(tài)預訓練方法的涌現(xiàn)(特別是2021年的CLIP),自然語言越來越接近成為開放域識別的牽引器,我相信這會是未來2-3年的主流方向。然而,我并不贊成在追求開放域識別的過程中,涌現(xiàn)出的各種zero-shot識別任務。我認為zero-shot本身是一個偽命題,世界上并不存在也不需要zero-shot識別方法。現(xiàn)有的zero-shot任務,都是使用不同方法,將信息泄露給算法,而泄露方式的千差萬別,導致不同方法之間難以進行公平對比。在這個方向上,我提出了一種被稱為按需視覺識別的方法,以進一步揭示、探索視覺識別的無限粒度性。

這里需要做一個補充說明。由于數(shù)據(jù)空間大小和結(jié)構(gòu)復雜度的差異,至少到目前為止,CV領域還不能通過預訓練模型直接解決域間差異的問題,但是NLP領域已經(jīng)接近了這一點。因此,我們看到了NLP學者們利用prompt-based方法統(tǒng)一了幾十上百種下游任務,但是同樣的事情在CV領域并沒有發(fā)生。另外,在NLP中提出來的scaling law,其本質(zhì)在于使用更大的模型來過擬合預訓練數(shù)據(jù)集。也就是說,對于NLP來說,過擬合已經(jīng)不再是一個問題,因為預訓練數(shù)據(jù)集配合小型prompt已經(jīng)足以表征整個語義空間的分布。但是,CV領域還沒有做到這一點,因此還需要考慮域遷移,而域遷移的核心在于避免過擬合。也就是說,在接下來2-3年,CV和NLP的研究重心會有很大的差異,因而將任何一個方向的思維模式生搬硬套在另一個方向上,都是很危險的。

以下簡要分析各個研究方向

方向1a:神經(jīng)網(wǎng)絡架構(gòu)設計

2012年的AlexNet,奠定了深度神經(jīng)網(wǎng)絡在CV領域的基礎。隨后10年(至今),神經(jīng)網(wǎng)絡架構(gòu)設計,經(jīng)歷了從手工設計到自動設計,再回到手工設計(引入更復雜的計算模塊)的過程:

  • 2012-2017年,手工構(gòu)建更深的卷積神經(jīng)網(wǎng)絡,探索一般優(yōu)化技巧。關鍵詞:ReLU、Dropout、3x3卷積、BN、跳躍連接,等。在這個階段,卷積操作是最基本的單元,它對應于圖像特征的局部性先驗。
  • 2017-2020年,自動構(gòu)建更復雜的神經(jīng)網(wǎng)絡。其中,網(wǎng)絡架構(gòu)搜索(NAS)盛行一時,最后定型為基礎工具。在任意給定的搜索空間中,自動設計都能夠達到稍微更好的結(jié)果,且能夠快速適配不同的計算開銷。
  • 2020年至今,起源于NLP的transformer模塊從被引入CV,利用attention機制,補足了神經(jīng)網(wǎng)絡的遠距離建模能力。如今,大部分視覺任務的最優(yōu)結(jié)果,都借助于包含transformer的架構(gòu)所達到。

對于這一方向的未來,我的判斷如下:

  • 如果視覺識別任務沒有明顯改變,那么不論是自動設計,或者加入更復雜的計算模塊,都無法將CV推向新的高度。視覺識別任務的可能改變,大致可以分為輸入和輸出兩個部分。輸入部分的可能改變?nèi)鏴vent camera,它可能會改變規(guī)則化處理靜態(tài)或者時序視覺信號的現(xiàn)狀,催生特定的神經(jīng)網(wǎng)絡結(jié)構(gòu);輸出部分的可能改變,則是某種統(tǒng)一各種識別任務的框架(方向3會談到),它有可能讓視覺識別從獨立任務走向大一統(tǒng),從而催生出一種更適合視覺prompt的網(wǎng)絡架構(gòu)。
  • 如果一定要在卷積和transformer之間做取舍,那么transformer的潛力更大,主要因為它能夠統(tǒng)一不同的數(shù)據(jù)模態(tài),尤其是文本和圖像這兩個最常見也最重要的模態(tài)。
  • 可解釋性是一個很重要的研究方向,但是我個人對于深度神經(jīng)網(wǎng)絡的可解釋性持悲觀態(tài)度。NLP的成功,也不是建立在可解釋性上,而是建立在過擬合大規(guī)模語料庫上。對于真正的AI來說,這可能不是太好的信號。

方向1b:視覺預訓練

作為如今CV領域炙手可熱的方向,預訓練方法被寄予厚望。在深度學習時代,視覺預訓練可以分為有監(jiān)督、無監(jiān)督、跨模態(tài)三類,大致敘述如下:

  • 有監(jiān)督預訓練的發(fā)展相對清晰。由于圖像級分類數(shù)據(jù)最容易獲取,因此早在深度學習爆發(fā)之前,就有了日后奠定深度學習基礎的ImageNet數(shù)據(jù)集,并被沿用至今。ImageNet全集超過1500萬的數(shù)據(jù)規(guī)模,至今沒有被其他非分類數(shù)據(jù)集所超越,因此至今仍是有監(jiān)督預訓練上最常用的數(shù)據(jù)。另外一個原因,則是圖像級分類數(shù)據(jù)引入了較少bias,因而對于下游遷移更加有利——進一步減少bias,就是無監(jiān)督預訓練。
  • 無監(jiān)督預訓練,則經(jīng)歷了曲折的發(fā)展歷程。從2014年開始,出現(xiàn)了第一代基于幾何的無監(jiān)督預訓練方法,如根據(jù)patch位置關系、根據(jù)圖像旋轉(zhuǎn)等進行判斷,同時生成式方法也在不斷發(fā)展(生成式方法可以追溯到更早的時期,此處不贅述)。此時的無監(jiān)督預訓練方法,還顯著地弱于有監(jiān)督預訓練方法。到了2019年,對比學習方法經(jīng)過技術改進,首次顯現(xiàn)出在下游任務上超越有監(jiān)督預訓練方法的潛力,無監(jiān)督學習真正成為CV界關注的焦點。而2021年開始,視覺transformer的興起催生了一類特殊的生成式任務即MIM,它逐漸成為統(tǒng)治性方法。
  • 除了純粹的有監(jiān)督和無監(jiān)督預訓練,還有一類介于兩者之間的方法,是跨模態(tài)預訓練。它使用弱配對的圖像和文本作為訓練素材,一方面避免了圖像監(jiān)督信號帶來的bias,一方面又比無監(jiān)督方法更能學習弱語義。此外,在transformer的加持下,視覺和自然語言的融合也更自然、更合理。

基于上述回顧,我做出如下判斷:

  • 從實際應用上看,應該將不同的預訓練任務結(jié)合起來。也就是說,應當收集混合數(shù)據(jù)集,其中包含少量有標簽數(shù)據(jù)(甚至是檢測、分割等更強的標簽)、中量圖文配對數(shù)據(jù)、大量無任何標簽的圖像數(shù)據(jù),并且在這樣的混合數(shù)據(jù)集上設計預訓練方法。
  • 從CV領域看,無監(jiān)督預訓練是最能體現(xiàn)視覺本質(zhì)的研究方向。即使跨模態(tài)預訓練給整個方向帶來了很大的沖擊,我依然認為無監(jiān)督預訓練非常重要,必須堅持下去。需要指出,視覺預訓練的思路很大程度上受到了自然語言預訓練的影響,但是兩者性質(zhì)不同,因而不能一概而論。尤其是,自然語言本身是人類創(chuàng)造出來的數(shù)據(jù),其中每個單詞、每個字符都是人類寫下來的,天然帶有語義,因此從嚴格意義上說,NLP的預訓練任務不能被視為真正的無監(jiān)督預訓練,至多算是弱監(jiān)督的預訓練。但是視覺不同,圖像信號是客觀存在、未經(jīng)人類處理的原始數(shù)據(jù),在其中的無監(jiān)督預訓練任務一定更難。總之,即使跨模態(tài)預訓練能夠在工程上推進視覺算法,使其達到更好的識別效果,視覺的本質(zhì)問題還是要靠視覺本身來解決。
  • 當前,純視覺無監(jiān)督預訓練的本質(zhì)在于從退化中學習。這里的退化,指的是從圖像信號中去除某些已經(jīng)存在的信息,要求算法復原這些信息:幾何類方法去除的是幾何分布信息(如patch的相對位置關系);對比類方法去除的是圖像的整體信息(通過抽取不同的view);生成類方法如MIM去除的是圖像的局部信息。這種基于退化的方法,都具有一個無法逾越的瓶頸,即退化強度和語義一致性的沖突。由于沒有監(jiān)督信號,視覺表征學習完全依賴于退化,因此退化必須足夠強;而退化足夠強時,就無法保證退化前后的圖像具有語義一致性,從而導致病態(tài)的預訓練目標。舉例說,對比學習從一張圖像中抽取的兩個view如果毫無關系,拉近它們的特征就不合理;MIM任務如果去除了圖像中的關鍵信息(如人臉),重建這些信息也不合理。強行完成這些任務,就會引入一定的bias,弱化模型的泛化能力。未來,應該會出現(xiàn)一種無需退化的學習任務,而我個人相信,通過壓縮來學習是一條可行的路線。

方向2:模型微調(diào)和終身學習

作為一個基礎問題,模型微調(diào)已經(jīng)發(fā)展出了大量的不同的setting。如果要把不同的setting統(tǒng)一起來,可以認為它們無非考慮三個數(shù)據(jù)集,即預訓練數(shù)據(jù)集 Dpre (不可見)、目標訓練集 Dtrain 、目標測試集 Dtest (不可見且不可預測)。根據(jù)對三者之間關系的假設不同,比較流行的setting可以概括如下:

  • 遷移學習:假設Dpre或者 Dtrain 和 Dtest 的數(shù)據(jù)分布大不相同;
  • 弱監(jiān)督學習:假設Dtrain只提供了不完整的標注信息;
  • 半監(jiān)督學習:假設Dtrain只有部分數(shù)據(jù)被標注;
  • 帶噪學習:假設Dtrain的部分數(shù)據(jù)標注可能有誤;
  • 主動學習:假設Dtrain可以通過交互形式標注(挑選其中最難的樣本)以提升標注效率;
  • 持續(xù)學習:假設不斷有新的 Dtrain 出現(xiàn),從而學習過程中可能會遺忘從 Dpre 學習的內(nèi)容;
  • ……

從一般意義上說,很難找到統(tǒng)一的框架來分析模型微調(diào)方法的發(fā)展和流派。從工程和實用角度看,模型微調(diào)的關鍵在于對域間差異大小的事先判斷。如果認為 Dpre 和 Dtrain 的差異可能很大,就要減少從預訓練網(wǎng)絡中遷移到目標網(wǎng)絡中權重的比例,或者增加一個專門的head來適應這種差異;如果認為 Dtrain 和 Dtest 的差異可能很大,就要在微調(diào)過程中加入更強的正則化以防止過擬合,或者在測試過程中引入某種在線統(tǒng)計量以盡量抵消差異。至于上述各種setting,則分別有大量研究工作,針對性很強,此處不再贅述。

關于這個方向,我認為有兩個重要問題:

  • 從孤立的setting向終身學習的統(tǒng)一。從學術界到工業(yè)界,必須拋棄“一次性交付模型”的思維,將交付內(nèi)容理解為以模型為中心,配套有數(shù)據(jù)治理、模型維護、模型部署等多種功能的工具鏈。用工業(yè)界的話說,一個模型或者一套系統(tǒng),在整個項目的生命周期中,必須得到完整的看護。必須考慮到,用戶的需求是多變且不可預期的,今天可能會換個攝像頭,明天可能會新增要檢測的目標種類,等等。我們不追求AI能自主解決所有問題,但是AI算法應該有一個規(guī)范操作流程,讓不懂AI的人能夠遵循這個流程,新增他們想要的需求、解決平時遇到的問題,這樣才能讓AI真正平民化,解決實際問題。對于學術界,必須盡快定義出符合真實場景的終身學習setting,建立起相應的benchmark,推動這一方向的研究。
  • 在域間差異明顯的情況下,解決大數(shù)據(jù)和小樣本的沖突。這又是CV和NLP的不同點:NLP已經(jīng)基本不用考慮預訓練和下游任務的域間差異性,因為語法結(jié)構(gòu)和常見單詞完全一樣;而CV則必須假設上下游數(shù)據(jù)分布顯著不同,以致于上游模型未經(jīng)微調(diào)時,在下游數(shù)據(jù)中無法抽取底層特征(被ReLU等單元直接濾除)。因此,用小數(shù)據(jù)微調(diào)大模型,在NLP領域不是大問題(現(xiàn)在的主流是只微調(diào)prompt),但是在CV領域是個大問題。在這里,設計視覺友好的prompt也許是個好方向,但是目前的研究還沒有切入核心問題。

方向3:無限細粒度視覺識別任務

關于無限細粒度視覺識別(以及類似的概念),目前還沒有很多相關的研究。所以,我以自己的思路來敘述這個問題。我在今年VALSE報告上,對已有方法和我們的proposal做了詳細解讀。以下我給出文字敘述,更詳細的解讀請參考我的專題文章或者我在VALSE上做的報告:

https://zhuanlan.zhihu.com/p/546510418

https://zhuanlan.zhihu.com/p/555377882

首先,我要闡述無限細粒度視覺識別的含義。簡單地說,圖像中包含的語義信息非常豐富,但不具有明確的基本語義單元。只要人類愿意,就可以從一張圖像中識別出越來越細粒度的語義信息(如下圖所示);而這些信息,很難通過有限而規(guī)范的標注(即使花費足夠多的標注成本),形成語義上完整的數(shù)據(jù)集,供算法學習。

圖片即使如ADE20K這樣的精細標注數(shù)據(jù)集,也缺少了大量人類能夠識別的語義內(nèi)容

我們認為,無限細粒度視覺識別是比開放域視覺識別更難,也更加本質(zhì)的目標。我們調(diào)研了已有識別方法,將其分為兩類,即基于分類的方法和語言驅(qū)動的方法,并論述它們無法實現(xiàn)無限細粒度的理由。

  • 基于分類的方法:這包括傳統(tǒng)意義上的分類、檢測、分割等方法,其基本特點是給圖像中的每個基本語義單元(圖像、box、mask、keypoint等)賦予一個類別標簽。這種方法的致命缺陷在于,當識別的粒度增加時,識別的確定性必然下降,也就是說,粒度和確定性是沖突的。舉例說,在ImageNet中,存在著“家具”和“電器”兩個大類;顯然“椅子”屬于“家具”,而“電視機”屬于“家電”,但是“按摩椅”屬于“家具”還是“家電”,就很難判斷——這就是語義粒度的增加引發(fā)的確定性的下降。如果照片里有一個分辨率很小的“人”,強行標注這個“人”的“頭部”甚至“眼睛”,那么不同標注者的判斷可能會不同;但是此時,即使是一兩個像素的偏差,也會大大影響IoU等指標——這就是空間粒度的增加引發(fā)的確定性的下降。
  • 語言驅(qū)動的方法:這包括CLIP帶動的視覺prompt類方法,以及存在更長時間的visual grounding問題等,其基本特點是利用語言來指代圖像中的語義信息并加以識別。語言的引入,確實增強了識別的靈活性,并帶來了天然的開放域性質(zhì)。然而語言本身的指代能力有限(想象一下,在一個具有上百人的場景中指代某個特定個體),無法滿足無限細粒度視覺識別的需要。歸根結(jié)底,在視覺識別領域,語言應當起到輔助視覺的作用,而已有的視覺prompt方法多少有些喧賓奪主的感覺。

上述調(diào)研告訴我們,當前的視覺識別方法并不能達到無限細粒度的目標,而且在走向無限細粒度的路上還會遭遇難以逾越的困難。因此,我們我們想分析人是如何解決這些困難的。首先,人類在大多數(shù)情況下并不需要顯式地做分類任務:回到上述例子,一個人到商場里買東西,不管商場把“按摩椅”放在“家具”區(qū)還是“家電”區(qū),人類都可以通過簡單的指引,快速找到“按摩椅”所在的區(qū)域。其次,人類并不僅限于用語言指代圖像中的物體,可以使用更靈活的方式(如用手指向物體)完成指代,進而做更細致的分析。

結(jié)合這些分析,要達到無限細粒度的目標,必須滿足以下三個條件。

  • 開放性:開放域識別,是無限細粒度識別的一個子目標。目前看,引入語言是實現(xiàn)開放性的最佳方案之一。
  • 特異性:引入語言時,不應被語言束縛,而應當設計視覺友好的指代方案(即識別任務)。
  • 可變粒度性:并非總是要求識別到最細粒度,而是可以根據(jù)需求,靈活地改變識別的粒度。

在這三個條件的牽引下,我們設計出了按需視覺識別任務。與傳統(tǒng)意義上的統(tǒng)一視覺識別不同,按需視覺識別以request為單位進行標注、學習和評測。當前,系統(tǒng)支持兩類request,分別實現(xiàn)了從instance到semantic的分割、以及從semantic到instance的分割,因而兩者結(jié)合起來,就能夠?qū)崿F(xiàn)任意精細程度的圖像分割。按需視覺識別的另一個好處在于,在完成任意數(shù)量的request之后停止下來,都不會影響標注的精確性(即使大量信息沒有被標注出來),這對于開放域的可擴展性(如新增語義類別)有很大的好處。具體細節(jié),可以參看按需視覺識別的文章(鏈接見上文)。

圖片統(tǒng)一視覺識別和按需視覺識別的對比

在完成這篇文章之后,我還在不斷思考,按需視覺識別對于其他方向的影響是什么。這里提供兩個觀點:

  • 按需視覺識別中的request,本質(zhì)上是一種視覺友好的prompt。它既能夠達到詢問視覺模型的目的,又避免了純語言prompt帶來的指代模糊性。隨著更多類型的request被引入,這個體系有望更加成熟。
  • 按需視覺識別,提供了在形式上統(tǒng)一各種視覺任務的可能性。例如,分類、檢測、分割等任務,在這一框架下得到了統(tǒng)一。這一點可能對視覺預訓練帶來啟發(fā)。目前,視覺預訓練和下游微調(diào)的邊界并不清楚,預訓練模型究竟應該適用于不同任務,還是專注于提升特定任務,尚無定論。然而,如果出現(xiàn)了形式上統(tǒng)一的識別任務,那么這個爭論也許就不再重要。順便說,下游任務在形式上的統(tǒng)一,也是NLP領域享有的一大優(yōu)勢。

在上述方向之外

我將CV領域的問題分為三大類:識別、生成、交互,識別只是其中最簡單的問題。關于這三個子領域,簡要的分析如下:

  • 在識別領域,傳統(tǒng)的識別指標已經(jīng)明顯過時,因此人們需要更新的評價指標。目前,在視覺識別中引入自然語言,是明顯且不可逆的趨勢,但是這樣還遠遠不夠,業(yè)界需要更多任務層面的創(chuàng)新。
  • 生成是比識別更高級的能力。人類能夠輕易地識別出各種常見物體,但是很少有人能夠畫出逼真的物體。從統(tǒng)計學習的語言上說,這是因為生成式模型需要對聯(lián)合分布 p(x,y) 進行建模,而判別式模型只需要對條件分布 p(y|x) 進行建模:前者能夠推導出后者,而后者不能推導出前者。從業(yè)界的發(fā)展看,雖然圖像生成質(zhì)量不斷提升,但是生成內(nèi)容的穩(wěn)定性(不生成明顯非真實的內(nèi)容)和可控性仍有待提升。同時,生成內(nèi)容對于識別算法的輔助還相對較弱,人們還難以完全利用虛擬數(shù)據(jù)、合成數(shù)據(jù),達到和真實數(shù)據(jù)訓練相媲美的效果。對于這兩個問題,我們的觀點都是,需要設計更好、更本質(zhì)的評價指標,以替代現(xiàn)有的指標(生成任務上替代FID、IS等,而生成識別任務需要結(jié)合起來,定義統(tǒng)一的評價指標)。
  • 1978年,計算機視覺先驅(qū)David Marr設想,視覺的主要功能,在于建立環(huán)境的三維模型,并且在交互中學習知識。相比于識別和生成,交互更接近人類的學習方式,但是現(xiàn)在業(yè)界的研究相對較少。交互方向研究的主要困難,在于構(gòu)建真實的交互環(huán)境——準確地說,當前視覺數(shù)據(jù)集的構(gòu)建方式來源于對環(huán)境的稀疏采樣,但交互需要連續(xù)采樣。顯然,要想解決視覺的本質(zhì)問題,交互是本質(zhì)。雖然業(yè)界已經(jīng)有了許多相關研究(如具身智能),但是還沒有出現(xiàn)通用的、任務驅(qū)動的學習目標。我們再次重復計算機視覺先驅(qū)David Marr提出的設想:視覺的主要功能,在于建立環(huán)境的三維模型,并且在交互中學習知識。計算機視覺,包括其他AI方向,都應該朝著這個方向發(fā)展,以走向真正的實用。

總之,在不同子領域,單純依靠統(tǒng)計學習(特別是深度學習)的強擬合能力的嘗試,都已經(jīng)走到了極限。未來的發(fā)展,一定建立在對CV更本質(zhì)的理解上,而在各種任務上建立更合理的評價指標,則是我們需要邁出的第一步。

結(jié)語

經(jīng)過幾次密集的學術交流,我能夠明顯地感受到業(yè)界的迷茫,至少對于視覺感知(識別)而言,有意思、有價值的研究問題越來越少,門檻也越來越高。這樣發(fā)展下去,有可能在不久的將來,CV研究會走上NLP的道路,逐漸分化成兩類:

一類使用巨量計算資源進行預訓練,不斷空虛地刷新SOTA;一類則不斷設計出新穎卻沒有實際意義的setting以強行創(chuàng)新。這對于CV領域顯然不是好事。為了避免這種事情,除了不斷探索視覺的本質(zhì)、創(chuàng)造出更有價值的評測指標,還需要業(yè)界增加寬容性,特別是對于非主流方向的寬容性,不要一邊抱怨著研究同質(zhì)化,一邊對于沒有達到SOTA的投稿痛下殺手。當前的瓶頸是所有人共同面對的挑戰(zhàn),如果AI的發(fā)展陷入停滯,沒有人能夠獨善其身。

感謝看到最后。歡迎友善的討論。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2022-08-30 14:59:21

計算機視覺

2023-01-03 08:01:00

2011-11-14 10:56:04

2010-06-17 15:39:27

Grub2 編輯

2013-06-25 10:01:33

項目代碼風格要求項目代碼風格

2021-02-03 17:55:48

科技開發(fā)技術

2020-08-06 09:55:09

華為禁令開發(fā)

2009-05-17 08:20:05

天才少年英特爾ISEF

2021-11-26 09:30:11

華為開發(fā)者技術

2020-05-08 16:03:00

Nature諾貝爾科學

2021-06-09 14:48:04

自動駕駛數(shù)據(jù)人工智能

2021-08-20 11:52:14

CPU芯片計算機

2023-03-20 15:36:50

華為技術

2019-12-13 08:30:02

系統(tǒng)內(nèi)存架構(gòu)

2022-03-14 09:59:39

機器人華為代碼

2019-07-16 16:51:15

AI 數(shù)據(jù)人工智能

2021-10-08 15:36:20

人工智能機器學習技術

2024-02-19 14:03:38

數(shù)據(jù)訓練

2025-03-11 10:12:07

點贊
收藏

51CTO技術棧公眾號