自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

模塊化的機(jī)器學(xué)習(xí)系統(tǒng)就夠了嗎?Bengio師生告訴你答案

人工智能 機(jī)器學(xué)習(xí) 新聞
Bengio 等研究者剛「出爐」的預(yù)印本論文,探討了機(jī)器學(xué)習(xí)系統(tǒng)的一個重要方向問題。

深度學(xué)習(xí)研究者從神經(jīng)科學(xué)和認(rèn)知科學(xué)中汲取靈感,從隱藏單元、輸入方式,到網(wǎng)絡(luò)連接、網(wǎng)絡(luò)架構(gòu)的設(shè)計等,許多突破性研究都基于模仿大腦運(yùn)行策略。毫無疑問,近年來在人工網(wǎng)絡(luò)中,模塊化和注意力經(jīng)常被組合使用,并取得了令人印象深刻的結(jié)果。

事實上,認(rèn)知神經(jīng)科學(xué)研究表明,大腦皮層以模塊化的方式表示知識,不同模塊之間進(jìn)行通信,注意力機(jī)制進(jìn)行內(nèi)容選擇,這也就是上述提到的模塊化和注意力組合使用。在近期的研究中,有人提出,大腦中的這種通信方式可能對深度網(wǎng)絡(luò)中的歸納偏置有意義。這些高級變量之間依賴關(guān)系的稀疏性,將知識分解為盡可能獨(dú)立的可重組片段,使得學(xué)習(xí)更有效率。?

盡管最近的許多研究都依賴于這樣的模塊化體系架構(gòu),但研究者使用了大量的技巧以及體系架構(gòu)修改,這使得解析真正的、可用的體系架構(gòu)原則變得具有挑戰(zhàn)性。

機(jī)器學(xué)習(xí)系統(tǒng)正逐漸顯露出更稀疏、更模塊化架構(gòu)的優(yōu)勢,模塊化架構(gòu)不僅具有良好的泛化性能,而且還能帶來更好的分布外(OoD) 泛化、可擴(kuò)展性、學(xué)習(xí)速度和可解釋性。此類系統(tǒng)成功的一個關(guān)鍵是,用于真實世界設(shè)置的數(shù)據(jù)生成系統(tǒng)被認(rèn)為由稀疏交互部分組成,賦予模型類似的歸納偏置將是有幫助的。然而,由于這些真實世界的數(shù)據(jù)分布是復(fù)雜和未知的,該領(lǐng)域一直缺乏對這些系統(tǒng)進(jìn)行嚴(yán)格的定量評估。

由來自加拿大蒙特利爾大學(xué)的 Sarthak Mittal、Yoshua Bengio、 Guillaume Lajoie 三位研究者撰寫的論文,他們通過簡單且已知的模塊化數(shù)據(jù)分布,對常見的模塊化架構(gòu)進(jìn)行了全面評估。該研究強(qiáng)調(diào)了模塊化和稀疏性的好處,并揭示了在優(yōu)化模塊化系統(tǒng)時面臨挑戰(zhàn)的見解。一作及通訊作者 Sarthak Mittal 為 Bengio 和 Lajoie 的碩士生。

圖片

  • 論文地址:https://arxiv.org/pdf/2206.02713.pdf
  • GitHub 地址:https://github.com/sarthmit/Mod_Arch

具體而言,該研究擴(kuò)展了 Rosenbaum 等人的分析,并提出了一種方法來評估、量化和分析模塊化架構(gòu)的常見組成部分。為此,該研究開發(fā)了一系列基準(zhǔn)和指標(biāo),旨在探索模塊化網(wǎng)絡(luò)的效能。這揭示了有價值的見解,不僅有助于識別當(dāng)前方法的成功之處,還有助于識別這些方法何時以及如何失敗的。

該研究的貢獻(xiàn)可總結(jié)為:

  • 該研究基于概率選擇規(guī)則來開發(fā)基準(zhǔn)任務(wù)和指標(biāo),并用基準(zhǔn)和指標(biāo)來量化模塊化系統(tǒng)中的兩個重要現(xiàn)象:崩潰(collapse)和專業(yè)化(specialization)。
  • 該研究提煉出常用的模塊化歸納偏置,并通過一系列模型進(jìn)行系統(tǒng)地評估,這些模型旨在提取常用的架構(gòu)屬性(Monolithic, Modular, Modular-op、GT-Modular 模型)。
  • 該研究發(fā)現(xiàn),當(dāng)一個任務(wù)中有很多潛在規(guī)則時,模塊化系統(tǒng)中的專業(yè)化可以顯著提高模型性能,但如果只有很少的規(guī)則,則不會如此。
  • 該研究發(fā)現(xiàn),標(biāo)準(zhǔn)的模塊化系統(tǒng)在專注于正確信息的能力和專業(yè)化能力方面往往都不是最優(yōu)的,這表明需要額外的歸納偏置。

定義 / 術(shù)語

本文中,研究者探究了一系列模塊化系統(tǒng)如何執(zhí)行常見的任務(wù),這些任務(wù)由我們稱為規(guī)則數(shù)據(jù)的合成數(shù)據(jù)生成過程制定。他們介紹了關(guān)鍵組成部分的定義,包括(1)規(guī)則以及這些規(guī)則如何形成任務(wù),(2)模塊以及這些模塊如何采用不同的模型架構(gòu),(3)專業(yè)化以及如何評估模型。詳細(xì)設(shè)置如下圖 1 所示。

圖片

規(guī)則。為了正確理解模塊化系統(tǒng)并分析它們的優(yōu)缺點(diǎn),研究者考慮采用的綜合設(shè)置允許對不同的任務(wù)要求進(jìn)行細(xì)粒度的控制。尤其是必須在如下公式 1-3 中展示的數(shù)據(jù)生成分布上學(xué)習(xí)操作,他們稱之為規(guī)則。

圖片

給定上述分布,研究者定義了一個成為其專家的規(guī)則,也即規(guī)則 r 被定義為 p_y(·|x, c = r) ,其中 c 是表示上下文的分類變量,x 是輸入序列。

任務(wù)。任務(wù)是由公式 1-3 中展示的一組規(guī)則(數(shù)據(jù)生成分布)描述。不同的{p_y(· | x, c)}_c 集合意味著不同的任務(wù)。其中對于給定數(shù)量的規(guī)則,研究者在多個任務(wù)上訓(xùn)練模型以消除任何對特定任務(wù)的偏見。

模塊。模塊化系統(tǒng)由一組神經(jīng)網(wǎng)絡(luò)模塊組成,其中每個模塊都對整體輸出做出貢獻(xiàn)。通過如下函數(shù)形式可以看出這一點(diǎn)。

圖片

其中 y_m 表示輸出,p_m 表示 m^th 模塊的激活。

模型架構(gòu)。模型架構(gòu)描述了為模塊化系統(tǒng)的每個模塊或者單片系統(tǒng)的單個模塊選擇什么架構(gòu)。在本文中,研究者考慮采用了多層感知機(jī)(MLP)、多頭注意力(MHA)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。重要的是,規(guī)則(或者數(shù)據(jù)生成分布)進(jìn)行調(diào)整以適用于模型架構(gòu),比如基于 MLP 的規(guī)則。

數(shù)據(jù)生成過程

由于研究者的目標(biāo)是通過合成數(shù)據(jù)來探究模塊化系統(tǒng),因此他們詳細(xì)介紹了基于上文描述的規(guī)則方案的數(shù)據(jù)生成過程。具體地,研究者使用了簡單的混合專家(MoE)風(fēng)格的數(shù)據(jù)生成過程,希望不同的模塊可以專門針對規(guī)則中的不同專家。

他們解釋了適用于三種模型架構(gòu)的數(shù)據(jù)生成過程,它們分別是 MLP、MHA 和 RNN。此外,每個任務(wù)下面都有兩個版本:回歸和分類。

MLP。研究者定義了適用于基于模塊化 MLP 系統(tǒng)的學(xué)習(xí)的數(shù)據(jù)方案。在這一合成數(shù)據(jù)生成方案中,一個數(shù)據(jù)樣本包含兩個獨(dú)立的數(shù)字以及從一些分布中采樣的規(guī)則選擇。不同的規(guī)則生成兩個數(shù)字的不同線性組合以給出輸出,也即線性組合的選擇是根據(jù)規(guī)則進(jìn)行動態(tài)實例化,如下公式 4-6 所示。

圖片

MHA?,F(xiàn)在,研究者定義了針對模塊化 MHA 系統(tǒng)的學(xué)習(xí)而調(diào)整的數(shù)據(jù)方案。因此,他們設(shè)計了具有以下屬性的數(shù)據(jù)生成分布,即每個規(guī)則分別由不同的搜索、檢索概念以及檢索信息的最終線性組合組成。研究者在如下公式 7-11 中用數(shù)學(xué)方法描述了這一過程。

圖片

RNN。對于循環(huán)系統(tǒng),研究者定義了一種線性動態(tài)系統(tǒng)的規(guī)則,其中可以在任何時間點(diǎn)觸發(fā)多個規(guī)則中的一個。在數(shù)學(xué)上,這一過程中如下公式 12-15 所示。

圖片

模型

以往一些工作宣稱端到端訓(xùn)練的模塊系統(tǒng)優(yōu)于單體系統(tǒng),尤其是在分布式環(huán)境中。但是,對于這些模塊化系統(tǒng)的好處以及它們是否真的根據(jù)數(shù)據(jù)生成分布進(jìn)行專業(yè)化處理還沒有詳細(xì)和深度的分析。

因此,研究者考慮了四類允許不同程度專業(yè)化的模型,它們分別是 Monolithic(單體)、Modular(模塊化)、Modular-op 和 GT-Modular。下表 1 展示了這些模型。

圖片

Monolithic。單體系統(tǒng)是一個大型神經(jīng)網(wǎng)絡(luò),它以整體數(shù)據(jù) (x, c) 作為輸入,并依此做出預(yù)測 y^。系統(tǒng)中顯式 baked 的模塊化或稀疏性沒有出現(xiàn)歸納偏置,并完全取決于反向傳播來學(xué)習(xí)解決任務(wù)所需的任何函數(shù)形式。

Modular。模塊化系統(tǒng)由很多模塊組成,每個模塊都是給定架構(gòu)類型(MLP、MHA 或 RNN)的神經(jīng)網(wǎng)絡(luò)。每個模塊 m 將數(shù)據(jù) (x, c) 作為輸入,并計算輸出 y?_m 和置信度分?jǐn)?shù),跨模塊歸一化為激活概率 p_m。

Modular-op。模塊化操作系統(tǒng)與模塊化系統(tǒng)非常相似,僅有一點(diǎn)不同。研究者沒有將模塊 m 的激活概率 p_m 定為 (x, c) 的函數(shù),而是確保激活僅由規(guī)則上下文 C 決定。

GT-Modular。真值模塊化系統(tǒng)作為 oracle 基準(zhǔn),即完美專業(yè)化的模塊化系統(tǒng)。

研究者表明,從 Monolithic 到 GT-Modular,模型越來越多地包含模塊化和稀疏性的歸納偏置。

度量

為了可靠地評估模塊化系統(tǒng),研究者提出了一系列度量,不僅可以衡量此類系統(tǒng)的性能優(yōu)勢,還能通過崩潰和專業(yè)化這兩種重要的形式進(jìn)行評估。

性能。第一組評估度量基于分布內(nèi)和分布外(OoD)設(shè)置中的性能,反映了不同模型在各種任務(wù)上的表現(xiàn)。對于分類設(shè)置,研究者報告了分類誤差;對于回歸設(shè)置,研究者報告了損失。

崩潰。研究者提出了一組度量 Collapse-Avg 和 Collapse-Worst,以此來量化模塊化系統(tǒng)遭遇到的崩潰量(也即模塊未充分利用的程度)。下圖 2 展示了一個示例,可以看到模塊 3 未被使用。

專業(yè)化。為了對崩潰度量做出補(bǔ)充,研究者還提出了以下一組度量,即(1)對齊,(2)適應(yīng)和(3)量化模塊化系統(tǒng)獲得的專業(yè)化程度的逆互信息。

實驗

下圖表明,GT-Modular 系統(tǒng)在大多數(shù)情況下都最優(yōu)(左)的,這表明專業(yè)化是有益處的。我們還看到,在標(biāo)準(zhǔn)端到端訓(xùn)練的模塊化系統(tǒng)和 Monolithic 系統(tǒng)之間,前者的表現(xiàn)優(yōu)于后者但差距不大。這兩個餅圖共同表明,當(dāng)前的端到端訓(xùn)練的模塊化系統(tǒng)沒有實現(xiàn)良好的專業(yè)化,因此在很大程度上是次優(yōu)的。

圖片

然后,該研究查看特定架構(gòu)選擇,并分析它們在越來越多的規(guī)則中的性能和趨勢。 

圖片

圖 4 顯示,雖然完美的專業(yè)化系統(tǒng) (GT-Modular) 會帶來好處,但典型的端到端訓(xùn)練的模塊化系統(tǒng)是次優(yōu)的,不能實現(xiàn)這些好處,特別是隨著規(guī)則數(shù)量的增加。此外,雖然這種端到端模塊化系統(tǒng)的性能通常優(yōu)于 Monolithic 系統(tǒng),但通常只有很小的優(yōu)勢。

圖片

在圖 7 中,我們還看到不同模型的訓(xùn)練模式在所有其他設(shè)置上的平均值,平均值包含分類錯誤和回歸損失??梢钥吹?,良好的專業(yè)化不僅可以帶來更好的性能,而且可以加快訓(xùn)練速度。

圖片

下圖顯示了兩個崩潰度量:Collapse-Avg 、Collapse-Worst。此外下圖還顯示了針對不同規(guī)則數(shù)量的不同模型的三個專業(yè)化指標(biāo),對齊、適應(yīng)和逆互信息:

? 圖片 ?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2016-10-09 11:03:41

Javascript模塊化Web

2015-10-10 11:29:45

Java模塊化系統(tǒng)初探

2010-08-26 10:47:05

2019-08-28 16:18:39

JavaScriptJS前端

2010-08-06 11:04:06

Flex模塊化

2019-06-10 18:00:18

微服務(wù)架構(gòu)spring boot

2020-09-17 10:30:21

前端模塊化組件

2021-09-27 10:19:24

機(jī)器學(xué)習(xí)情緒分析工具AI人工智能

2020-09-18 09:02:32

前端模塊化

2020-09-18 16:37:59

數(shù)據(jù)可視化技術(shù)Python

2020-07-06 08:06:00

Java模塊系統(tǒng)

2022-09-05 09:01:13

前端模塊化

2009-10-28 13:29:14

Linux文件系統(tǒng)安裝

2022-09-21 11:51:26

模塊化應(yīng)用

2013-08-20 15:31:18

前端模塊化

2017-05-18 10:23:55

模塊化開發(fā)RequireJsJavascript

2020-09-09 12:55:28

Nginx高并發(fā)性能

2020-09-10 09:31:34

Nginx HTTP代理服務(wù)器

2020-12-30 11:22:11

Node.js前端模塊

2015-07-29 09:22:25

IOS多線程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號