自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用幾何學提升深度學習模型性能,是計算機視覺研究的未來

人工智能 深度學習
深度學習使計算機視覺得以蛻變。如今,絕大多數(shù)問題的最佳解決方案是基于端到端的深度學習模型,尤其是當卷積神經(jīng)網(wǎng)絡(luò)傾向于開箱即用后便深受青睞。但這些模型主要為大型黑箱,其透明度很差。

[[189965]]

深度學習使計算機視覺得以蛻變。如今,絕大多數(shù)問題的最佳解決方案是基于端到端的深度學習模型,尤其是當卷積神經(jīng)網(wǎng)絡(luò)傾向于開箱即用后便深受青睞。但這些模型主要為大型黑箱,其透明度很差。

盡管如此,我們?nèi)耘f在深度學習領(lǐng)域獲得了顯著成果,即研究人員能通過一些數(shù)據(jù)以及使用基本的深度學習 API 所編寫的20 余行代碼來獲得大量容易得到的成果。雖然這些成果很有突破性,但我認為它們往往過于理想化,且缺乏原則性理解。

本篇博文中,我將提出理由證明,人們通常會生硬地應(yīng)用深度學習模型來處理計算機視覺問題,但實際上我們能夠做得更好。我攻讀博士第一年的一些成果便是范例。PoseNet 是我為了研究拍照姿勢而使用深度學習開發(fā)的一個算法。這個問題在計算機視覺領(lǐng)域已被研究了幾十年,有大量優(yōu)秀的相關(guān)理論。但作為博一學生,我天真地應(yīng)用了一個深度學習模型來端到端地研究這個問題,盡管我完全忽視了該問題的理論,卻仍然獲得了不錯的成果。本文末尾我會介紹一些近期研究,它們以更理論化、基于幾何學的方法來看待這個問題,從而對性能做出了極大的提升。

我們正在用盡這些唾手可得的成果,或者用簡單的高級深度學習 API 解決的絕大多數(shù)問題。具體而言,我認為應(yīng)用深度學習的計算機視覺在未來的許多發(fā)展都將源于對幾何學的洞見。

我所言的幾何學是什么?

在計算機視覺中,幾何描述了世界的結(jié)構(gòu)與形狀,具體涉及到如深度、體積、形狀、姿勢、視差、運動以及光流等測量單位。

我認為幾何在視覺模型中舉足輕重,主要由于是它定義了世界的結(jié)構(gòu),并且我們能夠理解這種結(jié)構(gòu)(例如從許多著名教科書中得以理解)。因此很多復雜的關(guān)系(如深度和運動)并不需運用深度學習從頭開始研究。通過構(gòu)建運用這種知識的架構(gòu),我們能在現(xiàn)實中應(yīng)用它們并簡化學習問題。文末的一些例子將展示如何使用幾何來提高深度學習架構(gòu)的性能。

替代范式使用了語義表征。語義表征使用語言來描述世界中的關(guān)系,如我們會描述一個物體為「貓」或「狗」。但我認為幾何對語義而言具有兩個有吸引力的特征:

  1. 幾何能被直接觀察。我們可以通過視覺直接看到世界的幾何外觀。在最基本的層次上,我們可通過幀之間的對應(yīng)像素來直接觀看視頻的運動與深度;其他有趣的例子還有根據(jù)立體視差的陰影或深度來觀察形狀。相較之下,語義表征通常是人類語言所專有的,其標簽對應(yīng)于一組有限的名詞,從而無法直接觀察。
  2. 幾何基于連續(xù)量(continuous quantities),如我們能以米為單位測量深度或以像素為單位測量視差。相較之下,語義表征主要是離散量(discretised quantities)或二元標簽。

為何這些屬性如此重要?原因之一便是它們對無監(jiān)督學習十分有效。

該結(jié)構(gòu)圖是英國劍橋中部附近的幾何運動重建,我用手機攝像制作了它。

無監(jiān)督學習

無監(jiān)督學習是人工智能研究中很令人興奮的領(lǐng)域,它通過非標注數(shù)據(jù)來學習表征和結(jié)構(gòu)。這很使人振奮,因為獲取大量的標簽訓練數(shù)據(jù)十分困難而昂貴。無監(jiān)督學習提供了更加可擴展的框架。

我們可以使用上述的兩個屬性通過幾何學建模無監(jiān)督學習:可觀察性與連續(xù)表征。

例如,去年我最欣賞的論文之一便展示了如何運用幾何學來使用無監(jiān)督訓練研究深度。這個例子很成功地說明了如何將幾何理論和上述屬性相結(jié)合,進而形成一個無監(jiān)督學習的模型。其他研究論文也展示了類似的想法,即將幾何用于運動的無監(jiān)督學習。

我最欣賞的論文之一

語義不夠嗎?

語義在計算機視覺中常常博得許多關(guān)注,因為大量高度引用的突破性論文都來于圖像分類或語義分割。

僅僅依靠語義來設(shè)計世界的表征存在這樣一個問題,即語義是由人類定義的。人工智能系統(tǒng)必須了解語義,從而才能與人類進行交互。 然而,正由于語義是由人類定義的,這些表征便可能不是最優(yōu)的。通過觀察世界中的幾何來直接學習可能更加自然。

不難理解,嬰兒就曾使用初級的幾何學來學習觀看這個世界。根據(jù)美國眼科協(xié)會的統(tǒng)計,在生命的最初 9 個月中,人類學習協(xié)調(diào)眼睛來聚焦并感知深度、顏色與幾何;直到第 12 個月,才會明白如何識別對象和語義。這說明幾何學對于人類視覺的基礎(chǔ)而言十分重要。在將這些洞見納入計算機視覺模型時,我們一定會做得很好。

機器對世界的語義理解(a.k.a. SegNet)。每種顏色代表不同的語義分類,如道路、行人、標志等。

我的近期研究中的幾何示例

我想通過兩個具體示例結(jié)束本文,它們將解釋如何在深度學習中運用幾何學:

1.學習使用 PoseNet 進行重新定位

在本文的介紹中,我舉出的 PoseNet 示例是一個單目 6 自由度(monocular 6-DOF)重新定位算法,它解決了所謂的機器人綁架問題。

在 ICCV 2015 的初稿中,我們通過學習由輸入圖像到 6 自由度拍照中姿勢的端對端映射來解決這個問題,這一方法單純地將問題看作了黑盒子。而在今年的 CVPR 中,我們通過考慮問題的幾何學屬性從而更新了這一方法。我們并未將拍照姿勢與方向值作為單獨的回歸目標,而是使用幾何重現(xiàn)誤差(geometric reprojection error)來一同學習。它說明了世界的幾何性,結(jié)果也得到了顯著改善。

2.用立體視覺預測深度

第二個示例是立體視覺,即以雙目視覺估測深度。我曾有幸參去研究這個問題——在世界最先進的無人機上工作,與 Skydio 度過了一段美好的盛夏。

立體算法通常用于估測物體在一對整齊立體圖像之間的水平位置差異,即視差,其與相應(yīng)像素位置的場景深度成反比。因此它在本質(zhì)上能被簡化為一個匹配問題——找到左右圖像中物體之間的對應(yīng)關(guān)系,并且ni ke yi計算深度。

立體中性能最高的算法主要使用了深度學習,但僅限于構(gòu)建匹配的功能。生產(chǎn)深度估測所需的匹配以及正規(guī)化步驟在很大程度上仍然是人工完成的。

我們提出了GC-Net 架構(gòu),但此次著重的是問題的基礎(chǔ)幾何。眾所周知,在立體中我們可以在 1-D 視差線上通過成本量的形成來估測差異。本文的創(chuàng)新性在于,它展示了如何以可微分的方式將成本量的幾何闡述為回歸模型。本文還具有更多細節(jié)。

這是一篇關(guān)于 GC-Net 架構(gòu)的概述,它運用幾何的清晰表征來預測立體深度。

結(jié)論

我認為本文傳達的關(guān)鍵信息是:

  • 了解解決計算機視覺問題的經(jīng)典方法是值得的(尤其你具有機器學習或數(shù)據(jù)科學背景)。
  • 若能將架構(gòu)結(jié)構(gòu)化以利用問題的幾何屬性,則使用深度學習來研究復雜表征便會更加容易與有效。
責任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-05-02 21:03:04

深度學習幾何學人工智能

2021-03-29 11:52:08

人工智能深度學習

2023-03-28 15:21:54

深度學習計算機視覺

2023-07-07 10:53:08

2019-12-11 13:24:57

深度學習數(shù)據(jù)結(jié)構(gòu)軟件

2020-10-15 14:33:07

機器學習人工智能計算機

2017-11-30 12:53:21

深度學習原理視覺

2023-09-04 15:15:17

計算機視覺人工智能

2023-09-20 09:56:18

深度學習人工智能

2020-04-26 17:20:53

深度學習人工智能計算機視覺

2024-12-13 09:17:45

2023-11-20 22:14:16

計算機視覺人工智能

2019-08-29 11:10:34

深度學習神經(jīng)架構(gòu)人工智能

2020-12-15 15:40:18

深度學習Python人工智能

2020-12-16 19:28:07

深度學習計算機視覺Python庫

2021-08-12 05:41:23

人工智能AI深度學習

2023-09-20 16:31:03

人工智能

2019-11-07 11:29:29

視覺技術(shù)數(shù)據(jù)網(wǎng)絡(luò)

2019-10-17 09:58:01

深度學習編程人工智能

2016-12-23 11:31:52

麻省理工學院深度學習計算機預測未來
點贊
收藏

51CTO技術(shù)棧公眾號