自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

人工智能 深度學習
在這篇文章中,我將嘗試討論一些最有趣的方法:其中一些是做事,并稱之為“不同種類(深度)學習”。我絕不會試圖預測深度學習的未來發(fā)展,而只是呈現(xiàn)給大家一些最近有趣的作品,這可能不會成為人們關注的焦點。

自我監(jiān)督學習的介紹

 

[[251602]]

 

深度學習確實在一定程度上改變了機器學習,特別是在圖像識別任務中。2012年,Alex-net發(fā)起了一項(仍然遠未結束)的競賽,以解決或至少顯著改善了計算機視覺任務。雖然主要思想非常穩(wěn)定(對所有事物都使用深度神經網絡),但研究人員采取了截然不同的方式:

  • 嘗試優(yōu)化模型架構。
  • 嘗試優(yōu)化訓練計劃,例如優(yōu)化程序。
  • 嘗試優(yōu)化數(shù)據,例如順序、大小、多樣性等。

這些研究路徑中的每一個都提高了訓練質量(速度、準確性,有時是一般化),但似乎做同樣的事情可能會導致逐步改進,但不會取得重大突破。

另一方面,在深度學習中不斷增長的工作表明當前方法存在重大缺陷,特別是在泛化方面,例如最近的一個:當對象旋轉時的泛化失?。?/p>

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

所以似乎需要進行更具侵略性的改進?;蛘呖赡軐⒀芯糠秶鷶U展到可能風險更大的領域。

除了上述方法之外,還有一些方向試圖改變。

  • N類別單樣本學習
  • 半監(jiān)督學習
  • 域適應
  • 自我監(jiān)督學習

這些方法采用了一些不同的訓練范式,嘗試更具創(chuàng)造性,或模仿一些類似人類的模式。雖然我們尚未從上述方法(和其他方法)中獲得證據來取得重大突破,但它們確實達到了一些非常重要的結果,并且還教會了我們很多關于訓練過程的知識。

在這篇文章中,我將嘗試討論一些最有趣的方法:其中一些是做事,并稱之為“不同種類(深度)學習”。我絕不會試圖預測深度學習的未來發(fā)展,而只是呈現(xiàn)給大家一些最近有趣的作品,這可能不會成為人們關注的焦點。只可能會為讀者提供一些目的:

  • 您可能有興趣了解您不知道的作品。
  • 您可能會為自己的工作獲得新的想法。
  • 您可以了解您不了解的深度學習中的邏輯部分和任務之間的關系。

本系列的第一部分將講述自我監(jiān)督(self supervised learning)學習,這是我編寫本系列的主要動力之一。

自我監(jiān)督學習

想象一下,你有一個代理人,它可以搜索網絡,并從它遇到的每一個圖像中無縫地學習。這個概念非常有趣,因為如果能夠實現(xiàn),那么深度學習的最大障礙,即注釋數(shù)據將被(部分)刪除。

但是怎么做呢?最初它是在文本中提出的,文本由人類很好地構建,因此有許多概念可以從中學習而沒有任何注釋。預測下一個/上一個單詞是一個突出的例子,就像在單詞嵌入和語言模型任務中所做的那樣。

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

在視覺中,這樣的技巧稍微有點復雜,因為視覺數(shù)據(圖像和視頻)不是人類明確創(chuàng)造的(當然,有些攝影師可能會在他的攝影中加入一定的思考)但不是每一個視頻,并且絕對不是每一個圖像都具有某種可以從中提取信號的邏輯結構。

這難道不是另一種無監(jiān)督學習的形式嗎?確實如此,但它有一個特殊的微妙之處:由于任務受到監(jiān)督(例如分類),但沒有發(fā)生有效的注釋。這個主題是我的最愛,并且迅速成為本文的主題。我不能保證這個會給深度學習帶來最好的成就,但它肯定已經帶來了一些偉大的創(chuàng)意。

這些任務稱為自我監(jiān)督學習。與“弱注釋”不同,“弱注釋”意味著具有不同標簽、標題或標題的圖像,自我監(jiān)督的任務不考慮注釋而是圖像本身。如果您想知道可以從沒有注釋的圖像中學到什么,請繼續(xù)關注。

不用多說,讓我們來看看自我監(jiān)督領域的一些想法:

彩色化

也許圖像中最直觀的信號就是它的顏色。當大多數(shù)計算機化顏色表示有3個通道時,1或2可以無縫地用作注釋。

由于著色舊圖像是一項有趣的任務,因此有許多工作可以解決它。但是,如果我們考慮全自動著色(它符合自我監(jiān)督的標準),那么數(shù)字會減少相當多。

在這種情況下的著色任務形成為“交叉信道編碼器”,這意味著圖像中的一個(或一些)信道用于編碼其他信道。這個概念將在后面的文章中進一步討論。

最引人注目的著色紙是由Richard Zhang和Alexei Efros設計的。

尋址著色任務的常用方法不是使用標準RGB編碼,而是使用Lab顏色空間。在Lab色彩空間中,L代表亮度(B&W強度),用于預測ab通道(a - 綠色到紅色,b - 藍色到黃色)。

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

實驗室編碼著色

正如我們將在我們討論的所有任務中看到的那樣,自我監(jiān)督學習并不像我們在深度學習中習慣的那樣簡單。有些工件會中斷模型實現(xiàn)其設計目標。此外,有時如果不仔細檢查訓練,模型會制作“捷徑”,這將阻礙其推廣到其他任務。

以下是著色任務的一些挑戰(zhàn):

1.著色中的固有歧義:很明顯,對于某些圖像,存在多于一種合理的著色。此問題在訓練和評估中會導致多個問題:

在下面的唐納德特朗普圖像中,窗簾的顏色可以是紅色或藍色(以及許多其他)。唐納德的領帶可以匹配(或不匹配)。給定數(shù)據集中關系和窗簾的不同示例,模型將傾向于對它們進行平均,將這些項目著色為灰色。

 

解決方案:在張的文章中,研究人員將著色視為分類問題,而不是回歸。除了使用特殊的損失函數(shù),他們的模型預測概率分布層而不是圖像的實際顏色,然后將這些概率轉換為顏色- 在Lab空間中的313種可用顏色中:

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

2.偏見:實驗室不是一個均勻分布的空間。由于云層、路面等的高頻率,大多數(shù)解決方案都趨向于較低的數(shù)值。

解決方案:發(fā)生損失函數(shù)的重新加權以解決此問題。

3.評估問題:現(xiàn)在模型可以預測正確的不同答案,例如,如果基礎事實為藍色且模型將選擇紅色,則在標準評估中將被視為錯誤。

解決方案:使用不同的評估方法,其中包括:人類后期分類- “著色圖靈測試”,人們被要求在真實圖像和機器著色圖像之間進行分析。另外,將圖像饋送到圖像分類器中,將結果與真實圖像進行比較。

該模型在Colorization Turing測試中得分為35%,這不是那么糟糕。

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

在這張圖片中,機器著色的狗看起來比原來的更真實

在最近的另一篇論文中,Larson等人同時與Zhang和Efros合作(兩篇論文互相提及),并使用空間局部化的多層切片(超列)和回歸損失。他們試圖通過預測顏色直方圖并從中抽樣來克服模糊性問題:

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

除了使用LAB空間之外,這項工作還嘗試預測Hue / Chroma屬性,這與“HSV”顏色空間有關。

上下文

除了顏色預測之外,下一個最明顯(但也很有創(chuàng)意)的任務是學習圖像結構。更確切地說,試圖預測圖像作物的某些內容。

這個任務的靈感直接來自word2vec,也許我們可以把它稱為圖像的“skip gram”。

但是,在文本中,單詞的數(shù)量僅限于詞匯量的大小,并且可能不會超過100萬。雖然一個一個的像素完成圖像補丁時,它存在于更大的空間中。您可能會說GAN確實如此,但是:

實際上確實存在大量正確的解決方案,因此很難進行推廣。

我們將在接下來的部分會討論GAN。

在這種范式中,實際任務并不是自然而然地出現(xiàn)的:研究人員必須為模型想出“游戲”才能解決。比如通過一些突出的例子:

拼接上下文

填補后的補丁似乎并不能很好地概括,因此研究轉向了類似拼圖的任務。第一個是Doersch和Efros的作品:補丁是從圖像中裁剪出來的,并且訓練模型來對它們的關系進行了分類。用一個例子來簡單的解釋它:

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

就像著色一樣,任務并不簡單。具體來說,模型正在尋找一個“快捷方式”:它并沒有實際學習高級特征及其關系,而是可能學習某些低級特征,例如邊緣和光照關系。這往往暗示了圖像部分。

為了解決這個問題,研究人員在貼片上應用了一些抖動(如圖所示)

研究人員遭受的另一個問題是模型通過一些照明偽像-色差來模擬預測斑點的位置。這意味著在某些相機中,顏色的分布在圖像的不同部分中變化。解決方案:這部分由一些顏色轉換處理,特別是將綠色和洋紅色轉成灰色。

下一個突出的結果是Noroozi和Favaro的這篇論文,一路走來,使用了一個更難的問題,解決了完整的9部分拼圖,但得到了更好的結果:

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

研究人員應用了對補丁進行良好改組的驗證,并對每張圖像進行了多次洗牌。

上下文編碼器

如上所述,文本中的word2vec填寫了缺失的單詞。 在愿景中是否有這樣的嘗試?事實上,有。在本文中,Pathak等人(當然還有Efros)嘗試了一些自動編碼器模型來填充圖像上的裁剪空間。

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

結果表明它實際上是可能的,特別是增加了對抗性損失,成功地避免了處理多種模式(如前所述),從而防止了模糊的“平均”結果。

旋轉

在我們跳到下一級的東西之前,我想提一下這個花絮:旋轉預測。本文接著采用了預測圖像旋轉的創(chuàng)新方法。

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

旋轉預測除了具有創(chuàng)造性之外,相對較快,并且不需要像我們之前看到的其他任務那樣進行任何預先考慮,以克服對瑣碎特征的學習。

論文還探討了一些“注意地圖”,這些圖顯示了他們的網絡側重于圖像的重要部分:頭部、眼睛等。

雖然報告了關于遷移學習到ImageNet分類的最新技術成果(大多數(shù)其他工作與pascal相關),但是評論者在論文中發(fā)現(xiàn)了一些缺陷,因此必須采取一些措施。

泛化

那么我們做了這么多工作之后,我們從中獲得了什么?當然,給黑白圖像上色很好,而解決拼圖可能是一個有趣的演示應用程序,但更大的目標是在主要任務中實現(xiàn)更好的結果- 尤其是分類、檢測和分割。

最常見的基準是VOC Pascal數(shù)據集,當使用imagenet預訓練時,其技術現(xiàn)狀是:

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

目前的結果是:

 

另一種(深度)學習:自我監(jiān)督學習會是下一個重點導向嗎?

 

檢測結果

好吧,似乎我們還沒有達到那一步。雖然自我監(jiān)督的數(shù)據實際上是無限的,但尚未開展挑戰(zhàn)“經典”的基于Imagenet的遷移學習結果的工作。我們將在后面的帖子中討論具體任務的一些不錯的結果。

除了對上述任務的標準概括之外,研究人員利用這組任務的特定功能來嘗試和推廣其他一些任務,例如圖像聚類(最近鄰、可視化數(shù)據挖掘等)

總結

下一個重要步驟將來自自我監(jiān)督學習嗎?也許是,或許不是,但我相信,探索這些不同的方法可以顯著改善深度學習領域,并可能間接地積極影響真正的突破。在下一篇文章中,我們將學習更多的想法和方法,從而產生一些有趣和新穎的結果。 

責任編輯:龐桂玉 來源: 今日頭條
相關推薦

2017-02-19 15:09:47

深度學習機器閱讀

2009-03-28 09:22:12

MID移動OS

2022-02-13 15:49:15

WebAssemblKubernetes容器

2017-06-12 14:04:45

深度學習人工智能

2016-10-24 18:49:01

2016-10-24 11:35:12

2013-05-22 15:31:07

AOP的CGlib實現(xiàn)

2014-09-17 14:37:06

2018-04-18 07:34:58

2016-12-01 14:09:59

2015-11-02 10:32:43

bat騰訊百度

2009-05-12 10:51:22

職場經濟危機裁員

2019-05-21 11:00:33

華為AndroidTensorFlow

2016-07-11 16:18:26

互聯(lián)網

2012-12-31 10:26:37

2017-01-15 17:47:09

5G互聯(lián)網4G

2015-11-02 16:56:12

SDN華為

2023-11-23 15:54:01

人工智能監(jiān)督學習無監(jiān)督學習

2025-01-21 08:11:24

2012-05-25 09:18:03

虛擬化vCloud Archvmware
點贊
收藏

51CTO技術棧公眾號