自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2020年了,深度學習接下來到底該怎么走?

新聞 深度學習
機器學習資深從業(yè)者 Ajit Rajasekharan 在本文中匯集了深度學習領域各路大佬的想法,并分享了他本人的一些思考。

本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。

在過去的一年,深度學習技術在各個領域一如既往地取得了不少進展。然而當前深度學習技術(本文中稱為深度學習1.0)仍然存在著一些明顯的局限,例如在解決有意識任務方面的不足。那么針對這些局限性,在未來的一年,有哪些可能的解決方案?深度學習又會在哪些方面帶來有希望的突破?

機器學習資深從業(yè)者 Ajit Rajasekharan 在本文中匯集了深度學習領域各路大佬的想法,并分享了他本人的一些思考。

這幅圖總結了最近Yoshua Bengio,Yann LeCun和Leon Bottou 教授在NeurIPS 2019上的演講

盡管深度學習模型在2019年繼續(xù)不斷刷新記錄,在一系列任務,尤其是自然語言處理任務上取得了當前最優(yōu)的結果,2019年不僅是對“深度學習1.0之后又是什么?”這一問題的測驗跨入公眾視野的一年,也是學術界對此問題的研究加快步伐的一年。

一、深度學習1.0 的局限性

深度學習1.0(如上圖,Bengio教授將其稱為“深度學習系統(tǒng) 1”)已經(jīng)成功地解決了人們可以在直觀上(通常以快速無意識、非語言的方式)解決的任務,比方說,直覺感覺到游戲中采取一種特定的行動是好的,或者感知到一張圖片中有一只狗,這些我們可以在不到一秒鐘的時間內(nèi)快速完成任務以及我們慣常解決的任務,都屬于此類。

DL 1.0 模型在某些任務的基準測試中具有超越人類的性能,但即使在這些任務中,也存在一些已知的缺陷:

1、與人類相比,DL 1.0 模型需要大量的訓練數(shù)據(jù)或時間。例如,一個模型須經(jīng)過等效于200年的實時訓練,才能掌握策略游戲StarCraft II。而人類則可以在平均20小時內(nèi)學會駕駛且不易發(fā)生事故。

目前為止,盡管消耗比人類多幾個數(shù)量級的訓練數(shù)據(jù)和時長,我們還沒有訓練出可以完全自動駕駛的汽車。而且對于很多任務,模型還需要從人類標記的數(shù)據(jù)中學習概念。

圖片來自Yann Lecun最近的演講《基于能量的自監(jiān)督學習》。 在某些游戲中需要大量增加模型訓練時間才能達到或超過專業(yè)人類玩家的水平。

2、DL 1.0 模型會犯人類通常不會犯的錯誤。 例如,更改圖像的少量像素(我們的眼睛甚至不會注意到)可能導致模型的分類錯誤。例如人站在電話旁,可能使模型誤認為該人正在打電話。 

這些錯誤似乎源于多種原因:(1)模型在某些情況下做出了虛假關聯(lián);(2)輸入數(shù)據(jù)存在偏差,導致模型輸出受到污染;(3)模型對分布變化的魯棒性不足,在某些情況下,無法處理訓練分布中的罕見情況。

DL 1.0模型會犯的不同類型錯誤。 (a)在左上方的圖中,人類甚至無法察覺的噪聲注入會導致模型分類錯誤。來自2015年論文的對抗樣本圖片。 (b)右圖中的錯誤則是因為模型大部分時間都暴露在電話亭附近的人類撥打電話的場景下,這是由于訓練數(shù)據(jù)集的選擇偏見所致。圖片源自Leon Bottou在2019年10月關于“用因果不變性學習表示”的演講(c)經(jīng)常觀察到的一類錯誤是模型無法將訓練數(shù)據(jù)分布泛化到此分布外數(shù)據(jù),比方說,訓練分布中的罕見事件。下面的圖是黑天鵝效應的一個具體例子:不太可能發(fā)生,但一旦發(fā)生則會造成嚴重后果,比如一輛自動駕駛汽車,暴露于(盡管從訓練數(shù)據(jù)分布的角度來看不太可能發(fā)生的)罕見事件中。圖片源自 Yoshua Bengio在 NeurIPS 2019 上的演講

二、如何實現(xiàn)接近人類水平的 AI ?

答案是目前尚不清楚。具體來說這個問題應該是:我們?nèi)绾谓鉀Q DL 1.0 模型現(xiàn)有的局限性,并克服有意識任務的解決?

一種有前景的方法是從人類中汲取靈感,因為人類除了在解決無意識任務中沒有 DL 1.0 的局限性(樣本效率低下,無法泛化到數(shù)據(jù)分布以外)之外,還擅長于解決有意識的任務(系統(tǒng) 2 的任務),例如邏輯推理、規(guī)劃等任務。

下面列出一些有可能將深度學習研究帶入“深度學習2.0”(有意識的任務解決)的研究方向(這些合理的方法、假設和先驗中,一些已在早期的小規(guī)模實現(xiàn)中成為現(xiàn)實)。

  1. 自監(jiān)督學習:通過預測輸入進行學習

  2. 利用分布式表示的組合能力

  3. 去掉IID(獨立同分布)隨機變量假設

  4. 兩種自監(jiān)督表示學習方法

  5. 注意力機制的作用

  6. 多時間尺度的終身學習

  7. 架構先驗

下面就這些研究方向進行詳細介紹,揭示其本質,并說明它們在克服上述 DL 1.0 缺陷的同時,也極可能是通往有意識的任務解決方案(DL 2.0)之路。

1、自監(jiān)督學習:通過預測輸入進行學習

自監(jiān)督學習本質上是通過輸入數(shù)據(jù)的一部分對輸入數(shù)據(jù)的其他部分進行預測來學習。這些預測可能是對輸入數(shù)據(jù)序列(時間或空間)下一個元素的預測,或者是對序列中缺失值的預測。輸入數(shù)據(jù)的類型可以是一種或多種(圖像,音頻,文本等)。自監(jiān)督學習通過重構輸入的缺失部分進行學習。

我們通過自監(jiān)督學習學得大部分的內(nèi)容。 幾年前,Geoffrey Hinton在一封信里就預測到了這一點:他那時將通過重構輸入數(shù)據(jù)來監(jiān)督自己的學習稱為無監(jiān)督,我們現(xiàn)在為清晰起見稱其為“自監(jiān)督”。

大腦大約有1014個突觸,而我們僅能存活109秒。因此我們擁有的參數(shù)要比數(shù)據(jù)多得多。這啟發(fā)了人類肯定需要大量無監(jiān)督學習的想法。因為感官輸入是我們能獲得每秒105維度約束的唯一處所。

用于自監(jiān)督學習的傳感器數(shù)據(jù)流的價值,除了其絕對數(shù)量(就每秒訓練數(shù)據(jù)量而言)上的價值之外,還有:

  • 它提供了更多的反饋數(shù)據(jù)(由于重構類型不同,反饋即使不是關于全部輸入數(shù)據(jù),也是關于輸入數(shù)據(jù)的一部分),而典型的監(jiān)督學習(反饋是類別值或對每個輸入的幾個數(shù)字)或強化學習(反饋是對模型預測的標量獎勵)的反饋數(shù)據(jù)較少。

  • 來自環(huán)境的傳感器數(shù)據(jù)流是非平穩(wěn)的。這會迫使學習器,更具體地是嵌入在學習器中的編碼器,去學習對象的穩(wěn)定表示以及在不斷變化的環(huán)境中基本不變的概念。環(huán)境固有的非平穩(wěn)性也為學習變化的原因提供了機會。分布外泛化(預測事件未在訓練分布中出現(xiàn))和因果關系習得對于學習器做出生存必需的預測至關重要。本質上,環(huán)境的非平穩(wěn)性通過不斷評估和完善概念的表示和概念之間的因果關系為持續(xù)學習提供了機會。

  • 傳感器流包括在學習中起關鍵作用的智能體(包括學習器在內(nèi))。智能體是環(huán)境的組成部分,并通過干預來改變環(huán)境。在 DL 1.0 中,僅將智能體納入強化學習中。DL 2.0 模型要實現(xiàn)其目標,將智能體納入自監(jiān)督學習中可能是重要的一步。即使是被動的學習者(例如新生兒),在剛出生的幾個月里,也主要通過觀察環(huán)境中其他主體的交互作用來學習。

圖片來自Yann LeCun最近的演講。新生兒童可以用直覺來學習物理知識。例如,9個月左右的嬰兒,即使在我們不去教他們什么是重力的情況下,可以通過觀察周圍的世界了解重力。我們通過一個簡單的實驗知道嬰兒是否能直觀地理解重力,實驗將一個汽車從桌子上推下,但汽車不會掉落(有看不見的細線牽著車子)的現(xiàn)象不會讓一個不到9個月的嬰兒感到驚訝。9個月后的嬰兒則會感到驚訝,因為他們的觀察結果與他們9個月的“內(nèi)部模型”預測車子會掉落的輸出不符。

  • 學習捕獲因果關系的概念的穩(wěn)定表示,使學習者能夠在其計算能力之內(nèi)通過模擬合理的動作序列來預測未來的幾個時間步長的序列,并規(guī)劃未來的動作,以趨利避害(例如學開車時避免在下山時沖下懸崖)。

DL 1.0 中的自監(jiān)督學習

在 DL 1.0自然語言處理(NLP)任務中,自監(jiān)督學習已被證明非常有用并取得成功(能實現(xiàn)最佳性能)。我們有一些可以通過預測句子的下一個單詞或預測從句子中刪除的單詞來學習單詞表示的模型(如BERT,它在 NLP 界稱為無監(jiān)督預訓練,但本質上是自監(jiān)督學習,該模型通過重建輸入的缺失部分來學習)。

但是,DL 1.0語言建模方法僅從文本輸入中學習,而未考慮在其他感官流以及智能體交互的環(huán)境中學習(2018年有論文做此嘗試,感興趣可前往 https://arxiv.org/pdf/1810.08272.pdf 閱讀論文)?;诟泄侪h(huán)境的語言學習賦予單詞更多的上下文和意義,而不僅僅是單詞在句子中上下文的統(tǒng)計(相對于其他單詞在句子中的位置)。

而目前的語言學習大多被局限為僅從文本出發(fā)進行自監(jiān)督學習,不僅需要大量的訓練文本,而且將模型對語言的理解僅限于單詞序列的統(tǒng)計屬性,無法與多感官環(huán)境學習相匹配。(模型無法僅通過學習單詞序列的統(tǒng)計屬性獲得對空間的理解,比如:獎杯無法放入盒子,因為它太大;獎杯無法放入盒子,因為它太??;需要將“它”對應到正確的對象才能正確理解句子,第一個“它”是指獎杯,第二個“它”則是指盒子。)

迄今為止,自監(jiān)督學習在圖像,視頻和音頻方面取得的進展不如在文本方面獲得的成功,盡管在圖像補全(修復),利用 GAN的視頻下一幀預測模型等方面取得了一些成果。但是,從有意識的任務解決角度來看,直接在像素,視頻和音頻的輸入空間中進行預測或許不是正確的方法(我們不會在像素級別上有意識地預測電影接下來會發(fā)生什么,我們在對象或概念級別預測)。

盡管不同的感管輸入對于理解世界具有重要作用,但通過感管模態(tài)進行的輸入預測或許最好在抽象的表示空間中進行,而不是在原始的輸入空間(視頻,音頻等),而上面已經(jīng)提到過的語言理解也是需要從多感官理解世界(最后的附加注釋說明了語言的特殊性質及其在DL 2.0調試中的潛在作用)。

2、利用分布式表示的組合能力

組合性提供了從一組有限的元素中創(chuàng)建更大(指數(shù))組合的能力。

DL 1.0 已通過以下方式利用組合性的指數(shù)增長特點:

  • 分布式表示的每個特征可以參與所有概念的表示,從而實現(xiàn)指數(shù)組合。特征組成的表示是自動學得的。將分布式表示可視化為實值(浮點數(shù)/雙精度數(shù))向量可使其變得具體。向量可以是稠密的(大多數(shù)分量具有非零值)或稀疏的(大多數(shù)分量為零,最極端情況是獨熱向量)。

  • DL 模型的每一計算層都可進一步組合,每層的輸出是前一層輸出的組合。 DL 1.0模型充分利用了這種組合性來學習具有多個層次的表示(例如,NLP模型學會在不同層中捕獲不同層面上的句法和語義相似性)

  • 語言具有 DL 1.0 尚未完全利用的其他可組合級別。例如,語言能編寫出不可能從訓練分布中提取的原創(chuàng)句子,也就是說不僅僅是在訓練分布中出現(xiàn)的概率很小,出現(xiàn)概率甚至可能為零。這是一種比分布外(OOD)泛化更進一步的系統(tǒng)化泛化。最近的語言模型可以生成連貫的新穎文章,具有很高的獨創(chuàng)性,但模型缺乏對基本概念的理解,特別是當這些文章由諸如工程概念組成時。如前所述,這種缺陷可能在一定程度上是由于缺乏扎實的語言理解,并且可能在DL 2.0中得以克服。

  • 組合性無需僅限于創(chuàng)造新的句子,如下圖所示,它也可以是先前概念的原創(chuàng)性組成(盡管語言在某種程度上可以用于描述任何概念)。

DL無法像人類一樣出色地用現(xiàn)有數(shù)據(jù)組成新穎的概念

3、去掉 IID(獨立同分布)隨機變量假設

大多數(shù)DL 1.0模型假定無論是來自訓練集還是測試集的數(shù)據(jù)樣本,都彼此獨立,并從同一分布中提?。↖ID假設,即訓練和測試數(shù)據(jù)集的分布都可以用同一組分布參數(shù)來描述。)

從非靜態(tài)環(huán)境中進行自監(jiān)督學習,智能體與這種環(huán)境交互過程中(根據(jù)其從不斷變化的環(huán)境中學習的本質)需要去掉 IID 假設。

但是,即使是在有監(jiān)督學習的問題中(例如,自動駕駛汽車對圖像/對象的分類/標識),IID假設也可能會成為負擔,因為始終存在模型在訓練中從未見過的現(xiàn)實生活場景,而且這些場景下分類錯誤可能會造成高昂的成本(在自動駕駛汽車的早期版本中已經(jīng)有一些實例)。

盡管用大量駕駛時間的數(shù)據(jù)訓練模型可以減少錯誤,但沒有 IID 假設的學習模型比通過IID假設學得的模型,更有可能更好地處理稀有和分布外的情況。

放棄IID假設的另一個原因是:“通過對數(shù)據(jù)進行混洗使訓練和測試數(shù)據(jù)同質化”的做法在創(chuàng)建訓練模型的數(shù)據(jù)集時就引入了選擇偏差。

為了實現(xiàn)IID,將從不同來源(包含屬性差異)獲得的數(shù)據(jù)進行混洗,然后分為訓練集和測試集。這會破壞信息并引入虛假的關聯(lián)。例如,考慮將圖像分類為?;蝰橊劦睦印D概5恼掌荚诰G色的牧場上,而駱駝則在沙漠中。對模型進行訓練后,模型可能無法對沙灘上的母牛圖片進行分類,因為模型引入了虛假的關聯(lián),將綠色景觀分類為母牛,將土色景觀分類為駱駝。

我們可以通過讓模型學習不同環(huán)境中的不變特征來避免這種情況。例如,我們可以在不同綠色比例的牧場上拍攝奶牛的照片,其中一個牧場90%是綠色,另一個牧場80%是綠色。這樣模型就可以學到牧場和奶牛之間存在很強但變化的相關性,因此不能通過牧場來判斷圖片中的動物是不是奶牛。但是,不管母牛本身處于何種環(huán)境,模型都應該能夠識別它們。

因此,通過利用不同的分布來識別不變屬性,而不是將它們?nèi)炕煸谝黄穑梢苑乐固摷俚年P聯(lián)性。盡管這只是一個例證,但廣泛利用分布變化中的信息并學習變化分布中的不變表示,可能有助于學得魯棒的表示。

順便說一下,與直接確定因果關系變量相比,確定在分布變化中不變的變量相對容易,因此可以將其用作識別因果關系變量的方法,不過挑戰(zhàn)在于找出那些變化的分布中不變的變量。

一個自然的問題是,如果我們放棄IID假設,我們?nèi)绾卧谧兓沫h(huán)境中準確地學習表示?

4、兩種自監(jiān)督表示學習方法

自監(jiān)督表示學習的兩種方法為:

  • 在輸入空間中預測接下來會發(fā)生什么。

  • 在抽象空間中預測接下來會發(fā)生什么。

兩種自監(jiān)督學習方法。在左圖中,通過預測輸入空間的缺失部分來進行表示學習。例如,在從視頻流進行自監(jiān)督學習中,通過使用時間t-1處的圖像幀來預測時間t處的圖像幀。預測器將時間t-1處的幀和潛變量作為輸入來預測時間t處的幀。該模型輸出利用潛變量給出多個預測,然后(在基于能量的模型中)選擇能量最低的預測對(y,y’)。在右圖中,預測發(fā)生在學得的表示c和h所在的抽象空間中。訓練目標函數(shù)V以特定方式使當前狀態(tài)h與過去狀態(tài)c匹配,以保持這兩個狀態(tài)之間的一致性。該目標函數(shù)的實際實現(xiàn)還有待確定,參考部分提供了有關此方法的更多詳細信息。

這兩種方法并不是互斥的,模型也可以同時使用兩種方法學習表示。

1)在輸入空間中預測接下來會發(fā)生什么

這通常是通過一個包含了有關環(huán)境所有未知信息(包括智能體和智能體之間交互信息)的潛變量來實現(xiàn)的,通過訓練模型來預測未來,或者等效地使用重構錯誤作為學習表示的方法來重構未來?;谀芰康哪P褪菍W習此類表示的一種方法。

這種方法把輸入(x)和輸入的預測/重構部分(y)通過一個標量值能量函數(shù)映射到能量平面,并使得學得的輸入數(shù)據(jù)點x和y的表示具有較低的能量。這可以通過兩種途徑來實現(xiàn):

(1)第一種途徑是降低輸入數(shù)據(jù)點(x及其預測y)的能量,同時提高所有其他點的能量(例如,在基于能量的GAN中生成器選擇遠離輸入點所在位置的對比數(shù)據(jù)點)

(2)第二種途徑是(通過網(wǎng)絡結構或某種正則化)將輸入數(shù)據(jù)點的能量大小限制在較低水平。如前所述,環(huán)境中的未知部分通常由一個潛變量(z)反映,通過變化z可以對y進行多個預測,然后選擇具有最低能量的一個預測。

潛變量的信息容量須受到多種方法的限制,例如使?jié)撟兞繚M足稀疏性要求的正則化,添加噪聲等方法。這些潛變量通常是在訓練期間通過編碼器學得的,該編碼器同時接受輸入(x)和要預測的實際數(shù)據(jù)(y')。然后,解碼器利用潛變量和x(實際上,是x的變換版本,變換通過某種神經(jīng)網(wǎng)絡完成)來進行預測。

能量函數(shù)作為成本函數(shù),然后將此函數(shù)的標量輸出用于訓練模型以學習正確的表示。通過解碼器來進行推斷(實際上,編碼器還可以在下面會講到的終生訓練周期中使用)。 Yann LeCun在最近的演講中(https://youtu.be/A7AnCvYDQrU)詳細介紹了這種方法,并展示了這種方法如何使汽車學習在模擬環(huán)境中駕駛(訓練數(shù)據(jù)是現(xiàn)實場景中汽車的行車記錄視頻,模型通過預測在視頻的下一幀中該車與其他車在車道上的位置來學習,成本函數(shù)考慮了該車與其他車之間的距離以及該車是否還在原來的車道上)。

這種方法在本質上是將 DL 1.0模型用于重構輸入的自監(jiān)督學習任務,該任務的反饋信息非常豐富(視頻中的下一個圖像幀,音頻等),而不僅限于標量獎勵(強化學習),或者標簽(有監(jiān)督學習)。

2)在抽象空間中預測接下來會發(fā)生什么

該方法基于如下假設:環(huán)境變化可以由一些因果變量(最終體現(xiàn)為稀疏表示)來解釋,這些因果變量是從高維度表示(類似于DL 1.0中表示的感知空間)中提取的,而高維表示又是通過從環(huán)境中的感官輸入學得的。最后用因果變量的稀疏表示預測未來,也就是說,不是在原始輸入空間中進行預測,而是在所學得的稀疏表示與此表示所衍生的感知空間相一致的空間中進行預測。

這類似于我們計劃從工作地點開車回家,是在非常稀疏(低維度)的空間里進行規(guī)劃路線操作,而不是在車輛行駛中實際感官輸入的空間中進行此操作。

相比于從感知流原始輸入空間中預測,從抽象空間中預測即將會發(fā)生什么具有一些潛在的優(yōu)勢,它不僅可以學得考慮環(huán)境變化的輸入流的更好表示(類似于DL 1.0中的表示),而且還可以學習輸入感知流變化的原因。

本質上,針對分布變化和 OOD 性能訓練這些模型(如參考部分所述,用于學習這些表示的訓練目標函數(shù)該如何設計仍然是一個開放的問題)的做法可用作學習良好低維因果表示的訓練信號。同時,可以通過低維表示來解釋環(huán)境變化的假設對編碼器施加了學習此類表示的約束(可能還需要其他約束)。

已有一些早期工作使用DL方法來找變量(有向圖)之間的因果關系,該關系可用于在兩個隨機變量A和B的聯(lián)合分布P(A,B)的兩個等效因式分解---P(A)P(B/A) 和P(B)P(A/B)之間進行選擇,以最好地捕獲A和B之間的因果關系。具有正確因果因式分解的模型,例如P(A)P(B/A),即當A是B的原因且A受到一些噪聲干擾時,可以更快地適應分布變化。( Yoshua Bengio 最近的演講也詳細介紹了這種方法)。  

雖然這兩種方法大不相同,但它們具有潛在的聯(lián)系。一個聯(lián)系是兩種方法(即使是不同方式的實現(xiàn))都有稀疏性約束。另一個聯(lián)系是因子圖和能量函數(shù)之間的聯(lián)系。

變量之間(在合適的表示空間中的)的聯(lián)合分布是對世界的粗略近似,可以幫助智能體進行計劃、推理、想象等。因子圖可以通過將聯(lián)合分布劃分為多個隨機變量子集(一個變量可以在多個子集中)的函數(shù)來表示聯(lián)合分布。正確的劃分會使能量函數(shù)下降,否則,將劃分放入因子圖中將不是一種明智的做法。

5、注意力機制的作用

盡管注意力本質上是一個加權和,但是在以內(nèi)容驅動的訓練和推理期間權重本身是動態(tài)計算時,這種簡單操作的威力顯而易見。

  • 注意力集中在哪里?

標準前饋神經(jīng)網(wǎng)絡中任何節(jié)點的輸出是該節(jié)點的輸入加權和的非線性函數(shù),該節(jié)點在訓練時學習權重。相反,注意力機制允許即使在利用輸入內(nèi)容進行推理時,也動態(tài)地計算這些權重。這使得在訓練和推理時連接計算層的靜態(tài)權重可以被注意力機制根據(jù)內(nèi)容計算出的動態(tài)權重所代替。

Transformer架構(例如BERT)就使用了這種方法。例如,單詞的向量表示是其鄰居的加權和,權重確定每個鄰居在計算單詞的向量表示時的重要性(也就是注意力集中在哪里),關鍵在于這些權重由依賴句子中的所有單詞的注意頭(BERT模型的每一層中都有多個注意頭)動態(tài)算出。

注意力集中在哪里? 該圖說明了在各層間具有動態(tài)權重邊連接的注意力模型與各層間具有靜態(tài)權重邊連接的普通模型(例如標準FFN)在推理時的比較。 在左側圖中:節(jié)點X的輸出是輸入的加權和,在推理期間,權重w1,w2,w3,w4,w5保持不變,與輸入(A1-A5,B1-B5)無關。 在右側圖中:注意力模型中節(jié)點X的輸出也是輸入的加權和,但權重本身(在訓練和推理期間)是根據(jù)輸入動態(tài)計算的。 這就使得在輸入(A1-A5,B1-B5)不同時權重也會發(fā)生變化,如不同顏色的虛線邊所示。

  • 什么時候集中注意力?

在機器翻譯中,給定由編碼器計算出的一組隱藏狀態(tài),注意力機制將根據(jù)翻譯階段(解碼器隱藏狀態(tài))的不同,在每個時間步中選擇不同數(shù)量的隱藏狀態(tài)矢量(也即決定什么時候集中注意力)來產(chǎn)生翻譯,如下圖所示。

什么時候集中注意力?該圖改源自Jay Alammar關于神經(jīng)機器翻譯的文章(https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)。編碼器的輸出是三個隱藏狀態(tài)向量,在輸出翻譯文本時,兩個解碼狀態(tài)(時間步長4和5)通過注意力機制(A4和A5)選擇了這三個隱藏狀態(tài)向量的不同比例求和。

注意力機制在前面所述“在抽象空間中預測”的方法中起著關鍵作用,用于在大量表示(構成無意識空間的表示)中選擇需要注意的方面以幫助有意識的任務解決。因果推理,規(guī)劃或尋找最佳解決方案的圖搜索都可以作為時間上的序列處理任務,在每個時間步中,都需要用注意力機制來選擇合適的(源于無意識狀態(tài)集的)隱藏狀態(tài)子集。

將噪聲注入到圖遍歷的(用到注意力機制的)下一步選擇中,這為解決方案的搜索(類似于 RL 中的蒙特卡洛樹搜索)開辟了需要探索的方向。更重要的是,可以像 DL 1.0 在翻譯任務中所采取的做法,對序列處理任務合適的注意力掩碼(根據(jù)感官空間表示的函數(shù)動態(tài)計算)能通過學習得到。

注意力不僅可用于有意識的任務解決,而且還可以自上而下的方式潛在地影響任務的后續(xù)感知。這種自上而下的影響是從大腦中汲取的靈感,大腦新皮層(執(zhí)行有意識的處理)的每個功能單元(皮質柱)都具有感覺傳入和傳出的連接,這些連接中的一些與運動區(qū)域有關。一旦輸入中的某些內(nèi)容引起我們的注意,這些連接就會有意識地將感知引導到輸入流的特定部分。例如,從新皮層的感覺區(qū)域到處理音頻輸入的頭部肌肉都有運動連接,一旦有聲音引起我們的注意,我們的頭部就會轉到異常聲音的發(fā)出位置。

圖源自 Yoshua Bengio演講幻燈片(https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view)。有意識的思想自下而上地選擇無意識狀態(tài)中主要的方面,而這又反過來導致注意自上而下地集中在感覺輸入上。

6、多時間尺度的終身學習

多時間尺度的學習和迭代優(yōu)化促進了 OOD 泛化。例如,智能體可以在不同的環(huán)境中學會快速的適應,同時通過較慢的迭代以泛化習得的適應。這種多時間尺度方法是一種學會如何去學習的方式。 

DL 1.0的從業(yè)者通過人來做“學會如何去學習”部分以達到相同的效果,他們通過失敗案例擴展訓練集,并由人類專家來找到更多此類邊緣案例,然后圍繞這些失敗案例持續(xù)地訓練有監(jiān)督的學習模型,最后將訓練好的模型部署到實際應用。

特斯拉的實踐就是這種方法的一個例子,他們在汽車的更新過程中不斷提高自動駕駛能力。這種緩慢地排除罕見事件的方法能否最終將黑天鵝事件發(fā)生的概率降到可以忽略的程度,達到現(xiàn)實中的安全,還有待觀察。

7、架構先驗

“在抽象空間中進行預測”的方法除了依賴于上述注意力機制之外,還可能需要將模型從DL 1.0中對向量處理的機器過渡到對向量集合進行操作的機器,并由動態(tài)重組的神經(jīng)網(wǎng)絡模塊對其進行操作(相關工作 https://arxiv.org/pdf/1909.10893.pdf)。

迄今為止,在輸入空間預測的自監(jiān)督學習方法似乎不需要新的體系結構,很多現(xiàn)有模型大都可以歸為基于能量的模型(例如BERT等語言模型就是基于能量的模型)。自監(jiān)督學習則在很大程度上利用了這些現(xiàn)有架構。

三、實現(xiàn)接近人類水平的 AI 的其他方法

1、混合方法

迄今為止,有許多混合方法的實現(xiàn)將DL 1.0與傳統(tǒng)的符號處理和算法結合在一起。這些混合方法使應用程序能夠利用DL 1.0進行部署。因此,混合方法的重要性不可低估。

所有這些混合方法用在決策用例上時,共同點是它們對 DL 1.0 輸出執(zhí)行進一步的算法處理,通常是將DL 1.0輸出的分布式表示歸結為符號(圖嵌入除外),此時,組合性(符號不像矢量那樣適于組合,我們只能將它們與更多符號組合在一起,例如像語法樹那樣)以及分布式表示中固有的相關性就會丟失。

將 DL 的輸出歸結為符號,然后進行 DL 2.0 任務(例如對這些符號進行推理和規(guī)劃)的混合方法是否能夠讓我們實現(xiàn)人類水平的AI,還有待觀察。

如今,不少人關于混合方法在實現(xiàn)人類水平AI方面是否具有潛力的爭論,可以歸結為:DL 2.0任務可以僅用符號來完成嗎?抑或是有了DL 1.0的分布式表示所帶來的好處,DL 2.0任務是否一定需要分布式表示才可以捕獲相關性?

2、仍然需要從自然智能中獲得更多的先驗知識?

從智能基本計算單元(從硬件的角度)---神經(jīng)元(盡管人工神經(jīng)元僅實現(xiàn)很少一部分生物神經(jīng)元關鍵功能)開始,自然智能已經(jīng)在許多方面啟發(fā)并繼續(xù)影響人工智能的發(fā)展。深度學習繼續(xù)從自然智能中汲取靈感,例如從多層計算(類似于視覺皮層的視覺感知過程)提供的組合性到有意識任務解決的先驗(Yoshua Bengio的論文,https://arxiv.org/pdf/1709.08568.pdf)。

Christos Papadimitriou 在 2019 年發(fā)表的論文(https://ccneuro.org/2019/proceedings/0000998.pdf,盡管論文的核心計算原語根源于生物學家實驗驗證的大腦計算方法中,但它可能會被迅速視為另一種關于大腦的計算模型)強調了上述問題的重要性。暫且先不論想法,我們還能從自然智能的實踐中借鑒一些技巧嗎?

以下面概述的機制為例,蒼蠅(通常代表昆蟲嗅覺系統(tǒng)的硬件和功能)如何僅用一個或兩個樣本就學會識別氣味。將這種學習稱為“高樣本效率”是一種輕描淡寫的說法,“在類固醇上學習”可能更合適。

3、蒼蠅是如何學會識別氣味的?

大約有 50個神經(jīng)元會感覺到氣味,這些神經(jīng)元隨機投射到2000個神經(jīng)元上,形成了的隨機二部圖。用向量的術語來說,由50維矢量捕獲的氣味輸入隨機投影到2000維矢量上,然后抑制神經(jīng)元將其強制變?yōu)槠渲蟹橇阒导s為10%的稀疏矢量。這2000維稀疏矢量可充當蒼蠅對特定氣味的記憶。

圖摘自Christos Papidimitriou的演講(https://youtu.be/_sOgIwyjrOA)。上圖表示蒼蠅如何識別氣味的模型。它們能記住只暴露一兩次的氣味,并且能夠將其推廣到它們學到的知識之外,而且它們只有大約50種不同的氣味傳感器(我們大約有500種;小鼠大約有1500種)。

緊隨上限其后的隨機投影(在硬件中實現(xiàn)),似乎是人類也在使用的有關大腦計算的一個非?;镜墓δ茉Z(Christos的大腦模型主要基于在此基本計算原語的基礎上構建一些簡單的算法操作)。

隨機投影和上限保留相似性(在某些合適的超參數(shù)選擇下)。氣味之間的相似性被捕獲在它們的記憶表示中(突觸權重)。記憶回想喚起了與所學權重有關的激活。蒼蠅有大約50種不同類型的嗅覺傳感器(我們大約有500種,而老鼠有1500種)。將不同氣味映射到捕獲相似性的分布式表示的能力對于果蠅的生存至關重要。

從本質上講,通過這種簡單的生物網(wǎng)絡,可以實現(xiàn)具有非常高的樣本效率(一次或兩次嘗試就學得一種氣味)和分布外的學習(將新的氣味映射到現(xiàn)有的氣味上)。

從Christos Papidimitriou演講摘錄的插圖(https://youtu.be/_sOgIwyjrOA) 說明了隨機投影和上限保留了相似性。大自然似乎找到了最佳的稀疏度,即找到足夠數(shù)量的神經(jīng)元來捕獲語義相似性的同時使活動神經(jīng)元的數(shù)量受到限制,以分離出不同的氣味。

蒼蠅氣味系統(tǒng)設計的一個關鍵方面是表示的稀疏性在信息處理的所有階段強制執(zhí)行。將此與DL模型進行對比,會發(fā)現(xiàn),DL模型的每個輸入會像改變亮度的活動圣誕樹一樣照亮整個模型。

也許從輸入開始就一直執(zhí)行稀疏性(類似于隨機投影和上限等操作原語)將權重更新限制在幾個參數(shù)上,有助于快速學習。同樣,“一起激發(fā)的細胞必定聯(lián)系在一起”的簡單權重更新(學習)規(guī)則具有固有的記憶效率,當與隨機投影和上限結合使用時,有助于隨時間增加的泛化。

 DL模型中的學習依賴于隨機梯度下降和反向傳——迄今為止DL中學習的基礎。也許我們還將對DL模型的學習效率進行根本性的改進,最終達到超越自監(jiān)督學習的DL 2.0目標。

四、最后一點思考

在未來有可能出現(xiàn)一種能夠實現(xiàn)接近甚至超越人類水平的人工智能的全新學習方法。假設這種新方法終將出現(xiàn),則新方法很可能會吸收深度學習的一些核心想法,比如分布式表示,在正確的語義空間中捕獲相關性(DL 1.0)和因果關系(DL 2.0目標)等等。

 

責任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關推薦

2021-01-26 14:07:25

比特幣加密貨幣區(qū)塊鏈

2021-09-29 09:08:09

物聯(lián)網(wǎng)產(chǎn)業(yè)物聯(lián)網(wǎng)IOT

2018-02-09 16:01:11

2013-09-09 10:09:38

蘋果Android

2015-10-26 15:45:33

CIBN

2022-08-18 16:01:22

數(shù)據(jù)泄露網(wǎng)絡攻擊

2024-09-05 10:09:04

2019-06-04 10:03:47

企業(yè)營銷

2020-11-02 09:11:13

開源技術 工程師

2013-08-30 14:57:31

2021-03-25 11:15:27

數(shù)字化轉型IT技術

2020-10-15 09:33:48

網(wǎng)盤

2014-08-06 11:03:48

編程語言

2016-11-04 20:49:57

2016-03-25 11:51:02

2020-07-28 07:58:06

云計算PaaSIaaS

2017-01-18 12:16:37

OpenFlowSDNONF

2023-05-12 14:10:48

商業(yè)建筑物聯(lián)網(wǎng)

2020-08-25 10:41:02

TikTok程序禁令

2020-02-07 09:49:23

職場企業(yè)疫情
點贊
收藏

51CTO技術棧公眾號