自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

新聞 人工智能
在近期舉行的第 43 屆國際信息檢索年會 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主題為《The Next Generation of Neural Networks》的報(bào)告。

 在近期舉行的第 43 屆國際信息檢索年會 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主題為《The Next Generation of Neural Networks》的報(bào)告。

Geoffrey Hinton 是谷歌副總裁、工程研究員,也是 Vector Institute 的首席科學(xué)顧問、多倫多大學(xué) Emeritus 榮譽(yù)教授。2018 年,他與 Yoshua Bengio、Yann LeCun 因?qū)ι疃葘W(xué)習(xí)領(lǐng)域做出的巨大貢獻(xiàn)而共同獲得圖靈獎。

自 20 世紀(jì) 80 年代開始,Geoffrey Hinton 就開始提倡使用機(jī)器學(xué)習(xí)方法進(jìn)行人工智能研究,他希望通過人腦運(yùn)作方式探索機(jī)器學(xué)習(xí)系統(tǒng)。受人腦的啟發(fā),他和其他研究者提出了「人工神經(jīng)網(wǎng)絡(luò)」(artificial neural network),為機(jī)器學(xué)習(xí)研究奠定了基石。

那么,30 多年過去,神經(jīng)網(wǎng)絡(luò)的未來發(fā)展方向在哪里呢?

Hinton 在此次報(bào)告中回顧了神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,并表示下一代神經(jīng)網(wǎng)絡(luò)將屬于無監(jiān)督對比學(xué)習(xí)。

Hinton 的報(bào)告主要內(nèi)容如下:

人工神經(jīng)網(wǎng)絡(luò)最重要的待解難題是:如何像大腦一樣高效執(zhí)行無監(jiān)督學(xué)習(xí)。

目前,無監(jiān)督學(xué)習(xí)主要有兩類方法。

第一類的典型代表是 BERT 和變分自編碼器(VAE),它們使用深度神經(jīng)網(wǎng)絡(luò)重建輸入。但這類方法無法很好地處理圖像問題,因?yàn)榫W(wǎng)絡(luò)最深層需要編碼圖像的細(xì)節(jié)。

另一類方法由 Becker 和 Hinton 于 1992 年提出,即對一個深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩個副本,這樣在二者的輸入是同一圖像的兩個不同剪裁版本時,它們可以生成具備高度互信息的輸出向量。這類方法的設(shè)計(jì)初衷是,使表征脫離輸入的不相關(guān)細(xì)節(jié)。

Becker 和 Hinton 使用的優(yōu)化互信息方法存在一定缺陷,因此后來 Pacannaro 和 Hinton 用一個判別式目標(biāo)替換了它,在該目標(biāo)中一個向量表征必須在多個向量表征中選擇對應(yīng)的一個。

隨著硬件的加速,近期表征對比學(xué)習(xí)變得流行,并被證明非常高效,但它仍然存在一個主要缺陷:要想學(xué)習(xí)具備 N bits 互信息的表征向量對,我們需要對比正確的對應(yīng)向量和 2 N 個不正確的向量。

在演講中,Hinton 介紹了一種處理該問題的新型高效方式。此外,他還介紹了實(shí)現(xiàn)大腦皮層感知學(xué)習(xí)的簡單途徑。

接下來,我們來看 Hinton 演講的具體內(nèi)容。

為什么我們需要無監(jiān)督學(xué)習(xí)?

在預(yù)測神經(jīng)網(wǎng)絡(luò)的未來發(fā)展之前,Hinton 首先回顧了神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)程。

演講一開始,Hinton 先介紹了三種學(xué)習(xí)任務(wù):監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和無監(jiān)督學(xué)習(xí),并重點(diǎn)介紹了無監(jiān)督學(xué)習(xí)的必要性。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

為什么我們需要無監(jiān)督學(xué)習(xí)呢?

Hinton 從生物學(xué)的角度做出了詮釋。他指出,人類大腦有 10^14 個神經(jīng)元突觸,而生命的長度僅有 10^9 秒,因此人類無法完全依賴監(jiān)督學(xué)習(xí)方式完成所有神經(jīng)元訓(xùn)練,因而需要無監(jiān)督學(xué)習(xí)的輔助。

受此啟發(fā),構(gòu)建智能模型也需要無監(jiān)督學(xué)習(xí)。

無監(jiān)督學(xué)習(xí)的發(fā)展歷程

無監(jiān)督學(xué)習(xí)經(jīng)過怎樣的發(fā)展呢?Hinton 為我們介紹了無監(jiān)督學(xué)習(xí)中的常見目標(biāo)函數(shù)。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

緊接著,Hinton 詳細(xì)介紹了自編碼器。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

Hinton 表示,自編碼器是一種利用監(jiān)督學(xué)習(xí)實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)的方式,其目標(biāo)是使最后的重建結(jié)果與數(shù)據(jù)相匹配。編碼器將數(shù)據(jù)向量轉(zhuǎn)換為代碼,解碼器基于代碼生成數(shù)據(jù)。

在高屋建瓴地介紹了自編碼器的定義、訓(xùn)練深度自編碼器之前的難點(diǎn)和現(xiàn)狀之后,Hinton 著重介紹了兩種自編碼器類型:變分自編碼器和 BERT 自編碼器。

使用深度神經(jīng)網(wǎng)絡(luò)重建輸入:VAE 和 BERT

BERT 和變分自編碼器(VAE)是無監(jiān)督學(xué)習(xí)的一類典型代表,它們使用深度神經(jīng)網(wǎng)絡(luò)重建輸入。

變分自編碼器由韋靈思和 Kingma 于 2013 年提出,它使用多層編碼器選擇實(shí)數(shù)代碼,然后用多層解碼器重建數(shù)據(jù)。VAE 的基本構(gòu)造如下圖所示:

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

BERT

是 2018 年谷歌提出的語言表征模型,基于所有層的左、右語境來預(yù)訓(xùn)練深度雙向表征。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

語境信息對 BERT 非常重要,它利用遮蔽語言模型(masked language model,MLM)允許表征融合左右兩側(cè)的語境,從而預(yù)訓(xùn)練深度雙向 Transformer。

Hinton 舉了一個例子:「She scromed him with the frying pan」。在這個句子中,即使你不知道 scromed 的意思,也可以根據(jù)上下文語境進(jìn)行推斷。

視覺領(lǐng)域也是如此。然而,BERT 這類方法無法很好地應(yīng)用到視覺領(lǐng)域,因?yàn)榫W(wǎng)絡(luò)最深層需要編碼圖像的細(xì)節(jié)。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

在探討了以 VAE 和 BERT 為代表的一類無監(jiān)督學(xué)習(xí)方法后,Hinton 為我們介紹了另一類無監(jiān)督學(xué)習(xí)方法。

Becker 和 Hinton 提出最大化互信息方法

那么自編碼器和生成模型有沒有什么替代方案呢?Hinton 表示,我們可以嘗試不再解釋感官輸入(sensory input)的每個細(xì)節(jié),而專注于提取空間或時序一致性的特征。與自編碼器不同,這種方法的好處在于可以忽略噪聲。

然后,Hinton 詳細(xì)介紹了他與 Suzanna Becker 在 1992 年提出的一種提取空間一致性特征的方法。該方法的核心理念是對輸入的兩個非重疊塊(non-overlapping patch)表示之間的顯式互信息進(jìn)行最大化處理。Hinton 給出了提取空間一致性變量的簡單示例,如下圖所示:

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

經(jīng)過訓(xùn)練,Hinton 指出唯一的空間一致性特征是「不一致性」(The Only Spatially Coherent Property is Disparity),所以這也是必須要提取出來的。

他表示這種最大化互信息的方法存在一個棘手的問題,并做出以下假設(shè),即如果只學(xué)習(xí)線性映射,并且對線性函數(shù)進(jìn)行優(yōu)化,則變量將成為分布式的。不過,這種假設(shè)并不會導(dǎo)致太多問題。

以往研究方法回顧

在這部分中,Hinton 先后介紹了 LLE、LRE、SNE、t-SNE 等方法。

局部線性嵌入方法(Locally Linear Embedding, LLE)

Hinton 介紹了 Sam T. Roweis 和 Lawrence K. Saul 在 2000 年 Science 論文《Nonlinear Dimensionality Reduction by Locally Linear Embedding》中提到的局部線性嵌入方法,該方法可以在二維圖中顯示高維數(shù)據(jù)點(diǎn),并且使得非常相似的數(shù)據(jù)點(diǎn)彼此挨得很近。

但需要注意的是,LLE 方法會導(dǎo)致數(shù)據(jù)點(diǎn)重疊交融(curdling)和維度崩潰(dimension collapse)問題。

下圖為 MNIST 數(shù)據(jù)集中數(shù)字的局部線性嵌入圖,其中每種顏色代表不同的數(shù)字:

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

此外,這種長字符串大多是一維的,并且彼此之間呈現(xiàn)正交。

從線性關(guān)系嵌入(LRE)到隨機(jī)鄰域嵌入(SNE)

在這部分中,Hinton 介紹了從線性關(guān)系嵌入(Linear Relational Embedding, LRE)到隨機(jī)鄰域嵌入(Stochastic Neighbor Embedding, SNE)方法的轉(zhuǎn)變。他表示,只有「similar-to」關(guān)系存在時,LRE 才轉(zhuǎn)變成 SNE。

同時,Hinton 指出,可以將 LRE 目標(biāo)函數(shù)用于降維(dimensionality reduction)。

下圖為 SNE 的示意圖,其中高維空間的每個點(diǎn)都有選擇其他點(diǎn)作為其鄰域的條件概率,并且鄰域分布基于高維成對距離(pairwise distance)。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

從隨機(jī)鄰域嵌入(SNE)到 t 分布隨機(jī)鄰域嵌入(t-SNE)

t 分布隨機(jī)鄰域嵌入(t-distributed stochastic neighbor embedding, t-SNE)是 SNE 的一種變體,原理是利用一個 student-distribution 來表示低維空間的概率分布。

Hinton 在下圖中展示了 MNIST 數(shù)據(jù)集中數(shù)字的 t-SNE 嵌入圖,每種顏色代表不同的數(shù)字:

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

在介紹完這些方法之后,Hinton 提出了兩個問題:1)方差約束在優(yōu)化非線性或非參數(shù)映射時為何表現(xiàn)糟糕?2)典型相關(guān)分析或線性判別分析的非線性版本為何不奏效?并做出了解答。

最后,Hinton 提出使用對比損失(contrastive loss)來提取空間或時間一致性的向量表示,并介紹了他與 Ruslan Salakhutdinov 在 2004 年嘗試使用對比損失的探索,以及 Oord、Li 和 Vinyals 在 2018 年使用對比損失復(fù)現(xiàn)這種想法,并用它發(fā)現(xiàn)時間一致性的表示。

Hinton 表示,當(dāng)前無監(jiān)督學(xué)習(xí)中使用對比損失一種非常流行的方法。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

無監(jiān)督對比學(xué)習(xí)的最新實(shí)現(xiàn) SimCLR

在演講最后,Hinton 重點(diǎn)介紹了其團(tuán)隊(duì)使用對比損失提取一致性表示的最新實(shí)現(xiàn) SimCLR,這是一種用于視覺表示的對比學(xué)習(xí)簡單框架,它不僅優(yōu)于此前的所有工作,也優(yōu)于最新的對比自監(jiān)督學(xué)習(xí)算法。

下圖為 SimCLR 的工作原理圖:

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

那么 SimCLR 在 ImageNet 上的 Top-1 準(zhǔn)確率表現(xiàn)如何呢?下圖展示了 SimCLR 與此前各類自監(jiān)督方法在 ImageNet 上的 Top-1 準(zhǔn)確率對比(以 ImageNet 進(jìn)行預(yù)訓(xùn)練),以及 ResNet-50 的有監(jiān)督學(xué)習(xí)效果。

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無監(jiān)督對比學(xué)習(xí)

Hinton 表示,經(jīng)過 ImageNet 上 1% 圖片標(biāo)簽的微調(diào),SimCLR 可以達(dá)到 85.8%的 Top-5 準(zhǔn)確率——在只用 AlexNet 1% 標(biāo)簽的情況下性能超越后者。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-09-18 17:52:10

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2013-07-27 21:28:44

2009-01-11 10:13:39

Stripes開發(fā)框架JSP

2010-03-17 14:37:52

軟交換機(jī)

2016-01-26 11:58:12

2013-06-27 11:21:17

2013-05-10 09:36:04

下一代網(wǎng)絡(luò)銳捷網(wǎng)絡(luò)簡網(wǎng)絡(luò)

2021-05-22 23:01:21

人工智能網(wǎng)絡(luò)安全

2015-10-19 17:15:33

網(wǎng)絡(luò)架構(gòu)/華三

2013-09-09 16:28:36

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2022-06-17 14:48:38

物聯(lián)網(wǎng)住房危機(jī)數(shù)據(jù)

2025-01-03 09:24:10

模型架構(gòu)論文

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2013-05-20 09:47:15

SDN軟件定義網(wǎng)絡(luò)

2014-03-06 10:53:15

2022-07-27 15:49:43

互聯(lián)網(wǎng)網(wǎng)絡(luò)范式人工智能

2009-11-20 08:47:07

路由器技術(shù)

2018-09-25 07:00:50

2018-09-27 18:47:45

AIOpsDevOps
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號