自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="2wkkz"><rp id="2wkkz"></rp></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

模塊化的機(jī)器學(xué)習(xí)系統(tǒng)就夠了嗎？Bengio師生告訴你答案

作者：機(jī)器之心 2022-06-08 13:40:17

人工智能機(jī)器學(xué)習(xí) 新聞

Bengio 等研究者剛「出爐」的預(yù)印本論文，探討了機(jī)器學(xué)習(xí)系統(tǒng)的一個重要方向問題。

深度學(xué)習(xí)研究者從神經(jīng)科學(xué)和認(rèn)知科學(xué)中汲取靈感，從隱藏單元、輸入方式，到網(wǎng)絡(luò)連接、網(wǎng)絡(luò)架構(gòu)的設(shè)計等，許多突破性研究都基于模仿大腦運(yùn)行策略。毫無疑問，近年來在人工網(wǎng)絡(luò)中，模塊化和注意力經(jīng)常被組合使用，并取得了令人印象深刻的結(jié)果。

事實上，認(rèn)知神經(jīng)科學(xué)研究表明，大腦皮層以模塊化的方式表示知識，不同模塊之間進(jìn)行通信，注意力機(jī)制進(jìn)行內(nèi)容選擇，這也就是上述提到的模塊化和注意力組合使用。在近期的研究中，有人提出，大腦中的這種通信方式可能對深度網(wǎng)絡(luò)中的歸納偏置有意義。這些高級變量之間依賴關(guān)系的稀疏性，將知識分解為盡可能獨(dú)立的可重組片段，使得學(xué)習(xí)更有效率。?

盡管最近的許多研究都依賴于這樣的模塊化體系架構(gòu)，但研究者使用了大量的技巧以及體系架構(gòu)修改，這使得解析真正的、可用的體系架構(gòu)原則變得具有挑戰(zhàn)性。

機(jī)器學(xué)習(xí)系統(tǒng)正逐漸顯露出更稀疏、更模塊化架構(gòu)的優(yōu)勢，模塊化架構(gòu)不僅具有良好的泛化性能，而且還能帶來更好的分布外(OoD) 泛化、可擴(kuò)展性、學(xué)習(xí)速度和可解釋性。此類系統(tǒng)成功的一個關(guān)鍵是，用于真實世界設(shè)置的數(shù)據(jù)生成系統(tǒng)被認(rèn)為由稀疏交互部分組成，賦予模型類似的歸納偏置將是有幫助的。然而，由于這些真實世界的數(shù)據(jù)分布是復(fù)雜和未知的，該領(lǐng)域一直缺乏對這些系統(tǒng)進(jìn)行嚴(yán)格的定量評估。

由來自加拿大蒙特利爾大學(xué)的 Sarthak Mittal、Yoshua Bengio、 Guillaume Lajoie 三位研究者撰寫的論文，他們通過簡單且已知的模塊化數(shù)據(jù)分布，對常見的模塊化架構(gòu)進(jìn)行了全面評估。該研究強(qiáng)調(diào)了模塊化和稀疏性的好處，并揭示了在優(yōu)化模塊化系統(tǒng)時面臨挑戰(zhàn)的見解。一作及通訊作者 Sarthak Mittal 為 Bengio 和 Lajoie 的碩士生。

論文地址：https://arxiv.org/pdf/2206.02713.pdf
GitHub 地址：https://github.com/sarthmit/Mod_Arch

具體而言，該研究擴(kuò)展了 Rosenbaum 等人的分析，并提出了一種方法來評估、量化和分析模塊化架構(gòu)的常見組成部分。為此，該研究開發(fā)了一系列基準(zhǔn)和指標(biāo)，旨在探索模塊化網(wǎng)絡(luò)的效能。這揭示了有價值的見解，不僅有助于識別當(dāng)前方法的成功之處，還有助于識別這些方法何時以及如何失敗的。

該研究的貢獻(xiàn)可總結(jié)為：

該研究基于概率選擇規(guī)則來開發(fā)基準(zhǔn)任務(wù)和指標(biāo)，并用基準(zhǔn)和指標(biāo)來量化模塊化系統(tǒng)中的兩個重要現(xiàn)象：崩潰（collapse）和專業(yè)化（specialization）。
該研究提煉出常用的模塊化歸納偏置，并通過一系列模型進(jìn)行系統(tǒng)地評估，這些模型旨在提取常用的架構(gòu)屬性（Monolithic, Modular, Modular-op、GT-Modular 模型）。
該研究發(fā)現(xiàn)，當(dāng)一個任務(wù)中有很多潛在規(guī)則時，模塊化系統(tǒng)中的專業(yè)化可以顯著提高模型性能，但如果只有很少的規(guī)則，則不會如此。
該研究發(fā)現(xiàn)，標(biāo)準(zhǔn)的模塊化系統(tǒng)在專注于正確信息的能力和專業(yè)化能力方面往往都不是最優(yōu)的，這表明需要額外的歸納偏置。

定義 / 術(shù)語

本文中，研究者探究了一系列模塊化系統(tǒng)如何執(zhí)行常見的任務(wù)，這些任務(wù)由我們稱為規(guī)則數(shù)據(jù)的合成數(shù)據(jù)生成過程制定。他們介紹了關(guān)鍵組成部分的定義，包括（1）規(guī)則以及這些規(guī)則如何形成任務(wù)，（2）模塊以及這些模塊如何采用不同的模型架構(gòu)，（3）專業(yè)化以及如何評估模型。詳細(xì)設(shè)置如下圖 1 所示。

規(guī)則。為了正確理解模塊化系統(tǒng)并分析它們的優(yōu)缺點(diǎn)，研究者考慮采用的綜合設(shè)置允許對不同的任務(wù)要求進(jìn)行細(xì)粒度的控制。尤其是必須在如下公式 1-3 中展示的數(shù)據(jù)生成分布上學(xué)習(xí)操作，他們稱之為規(guī)則。

給定上述分布，研究者定義了一個成為其專家的規(guī)則，也即規(guī)則 r 被定義為 p_y(·|x, c = r) ，其中 c 是表示上下文的分類變量，x 是輸入序列。

任務(wù)。任務(wù)是由公式 1-3 中展示的一組規(guī)則（數(shù)據(jù)生成分布）描述。不同的{p_y(· | x, c)}_c 集合意味著不同的任務(wù)。其中對于給定數(shù)量的規(guī)則，研究者在多個任務(wù)上訓(xùn)練模型以消除任何對特定任務(wù)的偏見。

模塊。模塊化系統(tǒng)由一組神經(jīng)網(wǎng)絡(luò)模塊組成，其中每個模塊都對整體輸出做出貢獻(xiàn)。通過如下函數(shù)形式可以看出這一點(diǎn)。

其中 y_m 表示輸出，p_m 表示 m^th 模塊的激活。

模型架構(gòu)。模型架構(gòu)描述了為模塊化系統(tǒng)的每個模塊或者單片系統(tǒng)的單個模塊選擇什么架構(gòu)。在本文中，研究者考慮采用了多層感知機(jī)（MLP）、多頭注意力（MHA）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）。重要的是，規(guī)則（或者數(shù)據(jù)生成分布）進(jìn)行調(diào)整以適用于模型架構(gòu)，比如基于 MLP 的規(guī)則。

數(shù)據(jù)生成過程

由于研究者的目標(biāo)是通過合成數(shù)據(jù)來探究模塊化系統(tǒng)，因此他們詳細(xì)介紹了基于上文描述的規(guī)則方案的數(shù)據(jù)生成過程。具體地，研究者使用了簡單的混合專家（MoE）風(fēng)格的數(shù)據(jù)生成過程，希望不同的模塊可以專門針對規(guī)則中的不同專家。

他們解釋了適用于三種模型架構(gòu)的數(shù)據(jù)生成過程，它們分別是 MLP、MHA 和 RNN。此外，每個任務(wù)下面都有兩個版本：回歸和分類。

MLP。研究者定義了適用于基于模塊化 MLP 系統(tǒng)的學(xué)習(xí)的數(shù)據(jù)方案。在這一合成數(shù)據(jù)生成方案中，一個數(shù)據(jù)樣本包含兩個獨(dú)立的數(shù)字以及從一些分布中采樣的規(guī)則選擇。不同的規(guī)則生成兩個數(shù)字的不同線性組合以給出輸出，也即線性組合的選擇是根據(jù)規(guī)則進(jìn)行動態(tài)實例化，如下公式 4-6 所示。

MHA?，F(xiàn)在，研究者定義了針對模塊化 MHA 系統(tǒng)的學(xué)習(xí)而調(diào)整的數(shù)據(jù)方案。因此，他們設(shè)計了具有以下屬性的數(shù)據(jù)生成分布，即每個規(guī)則分別由不同的搜索、檢索概念以及檢索信息的最終線性組合組成。研究者在如下公式 7-11 中用數(shù)學(xué)方法描述了這一過程。

RNN。對于循環(huán)系統(tǒng)，研究者定義了一種線性動態(tài)系統(tǒng)的規(guī)則，其中可以在任何時間點(diǎn)觸發(fā)多個規(guī)則中的一個。在數(shù)學(xué)上，這一過程中如下公式 12-15 所示。

模型

以往一些工作宣稱端到端訓(xùn)練的模塊系統(tǒng)優(yōu)于單體系統(tǒng)，尤其是在分布式環(huán)境中。但是，對于這些模塊化系統(tǒng)的好處以及它們是否真的根據(jù)數(shù)據(jù)生成分布進(jìn)行專業(yè)化處理還沒有詳細(xì)和深度的分析。

因此，研究者考慮了四類允許不同程度專業(yè)化的模型，它們分別是 Monolithic（單體）、Modular（模塊化）、Modular-op 和 GT-Modular。下表 1 展示了這些模型。

Monolithic。單體系統(tǒng)是一個大型神經(jīng)網(wǎng)絡(luò)，它以整體數(shù)據(jù) (x, c) 作為輸入，并依此做出預(yù)測 y^。系統(tǒng)中顯式 baked 的模塊化或稀疏性沒有出現(xiàn)歸納偏置，并完全取決于反向傳播來學(xué)習(xí)解決任務(wù)所需的任何函數(shù)形式。

Modular。模塊化系統(tǒng)由很多模塊組成，每個模塊都是給定架構(gòu)類型（MLP、MHA 或 RNN）的神經(jīng)網(wǎng)絡(luò)。每個模塊 m 將數(shù)據(jù) (x, c) 作為輸入，并計算輸出 y?_m 和置信度分?jǐn)?shù)，跨模塊歸一化為激活概率 p_m。

Modular-op。模塊化操作系統(tǒng)與模塊化系統(tǒng)非常相似，僅有一點(diǎn)不同。研究者沒有將模塊 m 的激活概率 p_m 定為 (x, c) 的函數(shù)，而是確保激活僅由規(guī)則上下文 C 決定。

GT-Modular。真值模塊化系統(tǒng)作為 oracle 基準(zhǔn)，即完美專業(yè)化的模塊化系統(tǒng)。

研究者表明，從 Monolithic 到 GT-Modular，模型越來越多地包含模塊化和稀疏性的歸納偏置。

度量

為了可靠地評估模塊化系統(tǒng)，研究者提出了一系列度量，不僅可以衡量此類系統(tǒng)的性能優(yōu)勢，還能通過崩潰和專業(yè)化這兩種重要的形式進(jìn)行評估。

性能。第一組評估度量基于分布內(nèi)和分布外（OoD）設(shè)置中的性能，反映了不同模型在各種任務(wù)上的表現(xiàn)。對于分類設(shè)置，研究者報告了分類誤差；對于回歸設(shè)置，研究者報告了損失。

崩潰。研究者提出了一組度量 Collapse-Avg 和 Collapse-Worst，以此來量化模塊化系統(tǒng)遭遇到的崩潰量（也即模塊未充分利用的程度）。下圖 2 展示了一個示例，可以看到模塊 3 未被使用。

專業(yè)化。為了對崩潰度量做出補(bǔ)充，研究者還提出了以下一組度量，即（1）對齊，（2）適應(yīng)和（3）量化模塊化系統(tǒng)獲得的專業(yè)化程度的逆互信息。

實驗

下圖表明，GT-Modular 系統(tǒng)在大多數(shù)情況下都最優(yōu)（左）的，這表明專業(yè)化是有益處的。我們還看到，在標(biāo)準(zhǔn)端到端訓(xùn)練的模塊化系統(tǒng)和 Monolithic 系統(tǒng)之間，前者的表現(xiàn)優(yōu)于后者但差距不大。這兩個餅圖共同表明，當(dāng)前的端到端訓(xùn)練的模塊化系統(tǒng)沒有實現(xiàn)良好的專業(yè)化，因此在很大程度上是次優(yōu)的。

然后，該研究查看特定架構(gòu)選擇，并分析它們在越來越多的規(guī)則中的性能和趨勢。

圖 4 顯示，雖然完美的專業(yè)化系統(tǒng) (GT-Modular) 會帶來好處，但典型的端到端訓(xùn)練的模塊化系統(tǒng)是次優(yōu)的，不能實現(xiàn)這些好處，特別是隨著規(guī)則數(shù)量的增加。此外，雖然這種端到端模塊化系統(tǒng)的性能通常優(yōu)于 Monolithic 系統(tǒng)，但通常只有很小的優(yōu)勢。

在圖 7 中，我們還看到不同模型的訓(xùn)練模式在所有其他設(shè)置上的平均值，平均值包含分類錯誤和回歸損失?？梢钥吹?，良好的專業(yè)化不僅可以帶來更好的性能，而且可以加快訓(xùn)練速度。

下圖顯示了兩個崩潰度量：Collapse-Avg 、Collapse-Worst。此外下圖還顯示了針對不同規(guī)則數(shù)量的不同模型的三個專業(yè)化指標(biāo)，對齊、適應(yīng)和逆互信息：

? ?

責(zé)任編輯：張燕妮來源：機(jī)器之心

機(jī)器學(xué)習(xí)系統(tǒng)模塊

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="z1ejh"></sub>

<blockquote id="z1ejh"></blockquote>