自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

搜尋失落的信號:無監(jiān)督學(xué)習(xí)面臨的眾多挑戰(zhàn)

開發(fā) 開發(fā)工具
2017 年,在無監(jiān)督學(xué)習(xí)領(lǐng)域發(fā)生了什么?在本文中,我將從個人角度概覽一些最近工作進展的。

搜尋失落的信號:無監(jiān)督學(xué)習(xí)面臨的眾多挑戰(zhàn)

無監(jiān)督特征學(xué)習(xí)的當(dāng)前趨勢概覽:回歸到隨機目標(biāo)的流形學(xué)習(xí),發(fā)掘因果關(guān)系以描述視覺特征,以及在強化學(xué)習(xí)中通過輔助控制任務(wù)增強目的性和通過自我模擬進行預(yù)訓(xùn)練。從無標(biāo)注數(shù)據(jù)中可以挖掘的信息有很多,看起來我們目前的監(jiān)督學(xué)習(xí)只不過是掠過了數(shù)據(jù)蛋糕的表面奶油而已。

2017 年,在無監(jiān)督學(xué)習(xí)領(lǐng)域發(fā)生了什么?在本文中,我將從個人角度概覽一些最近工作進展的。

「無監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中一場曠日持久的挑戰(zhàn),被視為人工智能的關(guān)鍵要素?!筜ann LeCun 解釋道。相當(dāng)程度上,我們在無標(biāo)注數(shù)據(jù)中忽略了非常多的信息,而且通常也認(rèn)為,人類大腦在學(xué)習(xí)的大部分時間中都不是處于監(jiān)督狀態(tài)并能處理無標(biāo)注信息?;蛟S看看下面這幅著名的「Yann LeCun 的蛋糕」,你能得到更好的理解。

事實上,通過相當(dāng)數(shù)量的標(biāo)注樣本訓(xùn)練機器也許對理解我們的學(xué)習(xí)機制很有幫助,但是在尋找現(xiàn)象的內(nèi)部規(guī)律的時候;被反常現(xiàn)象震驚并試圖尋找其中規(guī)律的時候;被好奇心牽動的時候;通過游戲訓(xùn)練技能的時候,這些場景都不需要有人明確地告訴你理論上哪些是好的,哪些是壞的。沒錯,這些例子選取有些隨意,但以上就是我從本文涉及到的論文中找到的一些想法。

下文中提及的所有想法都有共同的基礎(chǔ):從未接觸過的數(shù)據(jù)中找到一種自監(jiān)督的方法是不太可能的。那么,我們需要尋找在沒有標(biāo)簽的數(shù)據(jù)中尋找哪些信號呢?或者說,如何在沒有任何監(jiān)督的情況下學(xué)習(xí)特征呢?

《Unsupervised learning by predicting the noise》這篇論文給出了一個很異乎尋常的答案,就是噪聲。我認(rèn)為這篇論文在今年的 ICML 大會上是最重要的研究之一。論文的構(gòu)想如下:每一個樣本都相當(dāng)于超球面上的一個向量,向量標(biāo)注了數(shù)據(jù)點在其上的位置。實際上,學(xué)習(xí)的過程就相當(dāng)于將圖像和隨機向量匹配對應(yīng),通過在深度卷積網(wǎng)絡(luò)里訓(xùn)練,并通過監(jiān)督學(xué)習(xí)最小化損失函數(shù)。

特別是,訓(xùn)練的過程在以網(wǎng)絡(luò)的參量進行梯度下降和不同圖像的偽目標(biāo)重置之間交替,最終也是為了最小化損失函數(shù)。這里展示的圖像特征的結(jié)果來自 ImageNet。兩者都是在 ImageNet 上訓(xùn)練一個 AlexNet 得到的結(jié)果,左邊的基于目標(biāo)函數(shù),右邊使用的是其提出的無監(jiān)督學(xué)習(xí)方法。

無監(jiān)督學(xué)習(xí)方法

這個方法可以說代表了遷移學(xué)習(xí)算法探索的***進技術(shù)水平,但為什么這種方法能奏效呢?我的解釋是:網(wǎng)絡(luò)學(xué)會了用新的表征空間重新表示超球面上的矩陣。這可稱為一種內(nèi)在的流形學(xué)習(xí)。通過打亂布置進行優(yōu)化是非常關(guān)鍵的方法,畢竟在新的表征空間中,不恰當(dāng)?shù)钠ヅ洳荒軌蚴瓜嗨频膱D像位于相近的位置。此外,正如通常情況一樣,網(wǎng)絡(luò)必須作為一個信息瓶頸。否則,模型會由于容量限制而學(xué)習(xí)成信息不全的一一對應(yīng),給表征增加很多噪聲干擾(感謝 Mevlana 強調(diào)這一點)。

如此富有成效的結(jié)果竟然出自這樣反常的想法-我的意思是,論文的作者就是想要這種效果,看看標(biāo)題就知道了-正是在不斷的強調(diào)著,你不應(yīng)該用標(biāo)注去尋找數(shù)據(jù)中的模式,即使目標(biāo)具有很復(fù)雜的視覺特征。參見論文《Optimizing the Latent Space of Generative Networks》。

從圖像中發(fā)現(xiàn)因果關(guān)系[Lopez-Paz et al. CVPR17] (https://arxiv.org/abs/1605.08179)

我接下來的發(fā)現(xiàn)來自 Léon Bottou 一次極富啟發(fā)性和爭議性的報告 Looking for the missing signal

(https://www.youtube.com/watch?v=DfJeaa--xO0&t=12s)(沒錯,本文作者偷了他的題目)發(fā)現(xiàn)的另外一半來自于他們的 WGAN,是關(guān)于因果關(guān)系的。但是在討論之前,我們先回顧一下看看因果關(guān)系如何與我們的討論聯(lián)系起來。參見論文《Discovering Causal Signals in Images》。

如果你是通過機器學(xué)習(xí)理解因果關(guān)系的,你很快會得出圖中整個區(qū)域缺少了某樣?xùn)|西,而較少關(guān)注它的背景。我們創(chuàng)造了一整套方法,只需要在訓(xùn)練數(shù)據(jù)中關(guān)注它們的聯(lián)系,就可以將它們互相關(guān)聯(lián)并得出預(yù)測結(jié)果。但實際上很多種情況下這都不奏效。如果我們可以在模型訓(xùn)練中加入因果關(guān)系的考慮的話又會如何呢?根本上說,我們可以阻止我們的卷積網(wǎng)絡(luò)宣布圖中的動物是一只獅子,因為背景表明這是一片典型的熱帶大草原嗎?

[[205727]]

很多人都在朝這個方向努力。這篇文章也想證實這樣的觀點,「圖像數(shù)據(jù)的高級統(tǒng)計描述可以理解因果關(guān)系」。更精確的說,作者們猜想,物體特征和非因果特征是緊密聯(lián)系的,而環(huán)境特征和因果特征并不需要互相關(guān)聯(lián)。環(huán)境特征提供背景,而物體特征則是在數(shù)據(jù)集中的邊界特性。在圖中,它們分別指熱帶大草原和獅子的鬣毛。

另一方面,「因果特征是指導(dǎo)致圖中物體如此表現(xiàn)的原因(就是說,那些特征決定了物體的類別標(biāo)簽),而非因果特征則是由圖中物體的表現(xiàn)所導(dǎo)致(就是說,那些特征是由類別標(biāo)簽所決定)?!乖谖覀兊睦又校蚬卣魇菬釒Т蟛菰囊曈X模式,非因果特征是獅子的鬣毛。

他們是怎么進行實驗的呢?太簡短的說明會有偏差,我將盡量避免。首先,我們需要訓(xùn)練一個探測器尋找因果的方向,這個想法源于大量過去工作所證實的,「加法因果模型」會在觀察數(shù)據(jù)中遺留關(guān)于因果方向的統(tǒng)計痕跡,可以依次在學(xué)習(xí)高級時間點的過程中被探測到。(如果聽起來太陌生,我推薦先看看參考文獻)這個想法意在通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)捕捉這些統(tǒng)計痕跡,可以用來辨別因果和非因果特征(進行二進制分類)。

只有擁有了真實因果關(guān)系標(biāo)注的數(shù)據(jù)才能訓(xùn)練這樣的網(wǎng)絡(luò),而這樣的數(shù)據(jù)是很稀有的。但是實際上,通過設(shè)置一對因果變量并以一個記號指示因果關(guān)系,這樣的數(shù)據(jù)是很容易合成的。目前為止,還沒有人這樣使用過數(shù)據(jù)。

第二,兩個版本的圖像,無論是目標(biāo)還是屏蔽目標(biāo)后的圖片,都被標(biāo)準(zhǔn)的深度殘差網(wǎng)絡(luò)特征化。一些目標(biāo)和背景評分都被設(shè)計為特征頂端,作為表示目標(biāo)/背景的信號。

現(xiàn)在我們可以將圖像中物體和環(huán)境通過因果或者非因果關(guān)系聯(lián)系起來。這樣導(dǎo)致的結(jié)果是,舉例來說,「擁有***非因果分?jǐn)?shù)的特征比起擁有***因果分?jǐn)?shù)的特征,表現(xiàn)出更高的物體分?jǐn)?shù)?!雇ㄟ^實驗性的證實這個猜想,結(jié)果暗示了,圖像中的因果性實際上是指物體和背景之間的差異。這個結(jié)果展現(xiàn)了其開辟新的研究領(lǐng)域的潛力,理論上,當(dāng)數(shù)據(jù)的分布改變的時候,一個更好的探測因果方向的算法應(yīng)該能更好的提取和學(xué)習(xí)特征。參見論文:《Causal inference using invariant prediction: identification and confidence intervals》、《Causal Effect Inference with Deep Latent-Variable Models》。

無監(jiān)督輔助任務(wù)的強化學(xué)習(xí):《Reinforcement Learning with Unsupervised Auxiliary Tasks》這篇論文以現(xiàn)在標(biāo)準(zhǔn)看來也許有點不夠新穎,畢竟在本文寫成的時候,它已經(jīng)被引用過 60 次-自 11 月 16 日發(fā)表在 arXiv 上以來。但是實際上針對這個想法已經(jīng)出現(xiàn)了新的工作,而我并非在其基礎(chǔ)上討論更加復(fù)雜的方法,只是由于其基本和新穎的見解而引用了它。

這個方案就是強化學(xué)習(xí)。強化學(xué)習(xí)的主要困難就是獎勵的稀疏和延遲,那么為什么不引進輔助任務(wù)以增強訓(xùn)練信號呢?當(dāng)然是因為,偽獎勵必須和真實目標(biāo)關(guān)聯(lián)并且在執(zhí)行過程中不依賴人為的監(jiān)督。

論文給出了很直接和實在的建議:遍歷所有輔助任務(wù)并增強目標(biāo)函數(shù)(***化獎勵)。在總體表現(xiàn)的意義上,該策略會在整體表現(xiàn)的前提下學(xué)習(xí)。實際上,有一些模型會同時接近于主策略與其他策略,以完成額外任務(wù);這些模型會共享它們的參數(shù)。例如,模型的***層可以共同學(xué)習(xí),將其視覺特征都展開?!缸屩悄荏w平衡提高總體獎勵的表現(xiàn)和提高輔助任務(wù)的表現(xiàn)是很有必要的」。

以下所示是論文中所探索的輔助性任務(wù)。首先是像素控制,智能體通過獨立的決策***的改變輸入圖像的每一個像素點。其基本原理是「感知流中的改變通常和環(huán)境中的重要事件有關(guān)?!挂虼藢W(xué)習(xí)控制改變是很有意義的。第二個是特征控制,智能體被訓(xùn)練預(yù)測價值網(wǎng)絡(luò)的一些中間層的隱藏單元的活化值。這個想法很有趣,「因為一個智能體的決策或者價值網(wǎng)絡(luò)能學(xué)習(xí)提取環(huán)境中任務(wù)相關(guān)的高級特征。」第三個是獎勵預(yù)測,智能體學(xué)習(xí)預(yù)測即時到來的獎勵。這三種輔助任務(wù)通過智能體過去經(jīng)驗緩存的不斷重新體驗來學(xué)習(xí)。

其它細(xì)節(jié)暫且不提,這一整套方法被稱作 UNREAL。在 Atari 游戲和 Labyrint 的測試中,它表現(xiàn)出了很快的學(xué)習(xí)速度,并能做出更好的決策。

論文***的洞見是關(guān)于像素控制的有效性,而不是簡單通過重構(gòu)損失函數(shù)來進行預(yù)測的??梢詫⑦@些行為視為視覺自監(jiān)督,但這是另一種層次的抽象概念。「學(xué)習(xí)重構(gòu)只能讓剛開始的學(xué)習(xí)速度很快,但***得到的效果卻更差。我們的假設(shè)是輸入重構(gòu)會降低***的表現(xiàn)效果,因為它過于關(guān)注重構(gòu)視覺輸入的不相關(guān)部分,而不是能得到獎勵的視覺線索。」

通過非對稱自我模擬的內(nèi)在動機形成和無意識學(xué)習(xí):論文《Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play》。***我想強調(diào)的一篇論文是強化學(xué)習(xí)中關(guān)于輔助任務(wù)的想法。不過,關(guān)鍵是,相比明確的扭曲目標(biāo)函數(shù),智能體被訓(xùn)練完成完整的自我模擬,在確切的范圍內(nèi)可以自動生成更簡單的任務(wù)。

自我模擬的最初形態(tài)是將智能體分離成「兩個獨立的意識」而建立的,分別稱作 Alice 和 Bob。作者假定自我模擬中環(huán)境是(幾乎)可逆的或者是可以重置到初始狀態(tài)的。在這個案例中,Alice 執(zhí)行了一個任務(wù)然后叫 Bob 也做同樣的事,即根據(jù) Alice 結(jié)束任務(wù)時的位置,到達(dá)世界中的同一個可觀測狀態(tài)。例如,Alice 可以走動然后撿起一把鑰匙,打開一扇門,關(guān)掉燈然后停在一個確切的位置;Bob 必須跟隨 Alice 做同樣事情然后和 Alice 停在同一個位置。***,可以想象,這個簡單環(huán)境的根本任務(wù)是在燈打開的時候在房間里拿到旗子。

那些任務(wù)由 Alice 設(shè)定并強迫 Bob 學(xué)會與環(huán)境互動。Alice 和 Bob 都有明確的獎勵函數(shù)。Bob 必須將完成任務(wù)的時間最小化,而在 Bob 完成了任務(wù)的前提下又更費時的時候,Alice 反而能得到更多的獎勵。這些決策的相互作用使他們「自動構(gòu)建起探索的過程」。再次提醒,這是特征學(xué)習(xí)的自我模擬的另一種實現(xiàn)的想法。

他們在幾種環(huán)境中測試了這個想法,并在星際爭霸的無敵人模式中也嘗試了一下。「目標(biāo)任務(wù)是制造新的機槍兵,為了實現(xiàn)目標(biāo),智能體必須按特定的次序進行一系列操作:(i)讓 SCV 去挖礦;(ii)累積足夠的水晶礦,建立一座兵營,以及(iii)一旦兵營建好,開始制造機槍兵。」這其中有多種決策選擇,人工智能可以訓(xùn)練更多 SCV,讓采礦速度加快,或者修建補給站擴充人口上限。在經(jīng)過 200 步的訓(xùn)練后,人工智能每建立一個 就能得到加 1 分的獎勵。

雖然完全匹配真實游戲中的狀態(tài)幾乎是不可能的,Bob 成功與否只取決于游戲中的全局狀態(tài),其中包括了每種單位的編號(包含建筑),以及礦物資源的累積程度。因此 Bob 的目標(biāo)是在自我模擬中,完成 Alice 在最短時間內(nèi)能建造的機槍兵數(shù)量和累積礦物的數(shù)量。在這個方案中,自我模擬確實有助于加快強化學(xué)習(xí),并且在收斂行為上表現(xiàn)上,比起強化學(xué)習(xí)+一個更簡單的決策預(yù)訓(xùn)練的基線方法的組合,要更好:

這里要注意的是圖中并沒有顯示決策預(yù)訓(xùn)練的時間消耗。參見論文《Teacher-Student Curriculum Learning》。

***一提,并不是說無監(jiān)督學(xué)習(xí)就總是困難的,實際上對其行為的測量更為困難。正如 Yoshua Bengio 所說:「我們不知道什么樣的表征才是好的表征。[...] 我們甚至對判定無監(jiān)督學(xué)習(xí)工作好壞的合適的目標(biāo)函數(shù)都沒有一個明確的定義。」

實際上,幾乎所有的關(guān)于無監(jiān)督學(xué)習(xí)都在間接使用監(jiān)督學(xué)習(xí)或者強化學(xué)習(xí)去測量其中的特征是否有意義。在無監(jiān)督學(xué)習(xí)還處在提高訓(xùn)練質(zhì)量和加快訓(xùn)練速度以訓(xùn)練預(yù)測模型的階段的時候,這么做是合理的。但是,在經(jīng)過一個視頻和文本必須使用不可見的數(shù)據(jù)部分進行一般表征之后,一切都不同了。這和遷移學(xué)習(xí)的魯棒性特征的想法如出一轍。

原文:http://giorgiopatrini.org/posts/2017/09/06/in-search-of-the-missing-signals/

【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機器學(xué)習(xí)

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2017-11-09 14:04:22

無監(jiān)督學(xué)習(xí)數(shù)據(jù)缺失數(shù)據(jù)集

2022-06-14 07:07:57

網(wǎng)絡(luò)威脅無監(jiān)督數(shù)據(jù)泄露

2023-11-28 12:03:46

人工智能無監(jiān)督學(xué)習(xí)算法

2019-03-29 14:10:35

無監(jiān)督學(xué)習(xí)機器學(xué)習(xí)人工智能

2023-11-13 15:01:28

機器學(xué)習(xí)

2022-07-17 15:46:24

機器學(xué)習(xí)無監(jiān)督學(xué)習(xí)算法

2022-05-13 11:05:00

網(wǎng)絡(luò)威脅無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)攻擊

2020-08-14 11:00:44

機器學(xué)習(xí)人工智能機器人

2020-08-16 11:34:43

人工智能機器學(xué)習(xí)技術(shù)

2019-10-14 10:40:03

機器學(xué)習(xí)人工智能非監(jiān)督學(xué)習(xí)

2015-10-12 10:37:42

學(xué)習(xí)算法檢測

2020-11-11 09:00:00

機器學(xué)習(xí)技術(shù)人工智能

2017-08-29 14:30:34

2017-09-11 09:20:14

機器學(xué)習(xí)無監(jiān)督學(xué)習(xí)聚類

2022-05-17 16:38:40

數(shù)據(jù)訓(xùn)練

2020-04-07 20:12:36

深度學(xué)習(xí)AI人工智能

2022-06-27 14:53:18

監(jiān)督學(xué)習(xí)機器學(xué)習(xí)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號