自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Facebook、MIT等聯(lián)合發(fā)表451頁手稿:用「第一性原理」解釋DNN

新聞 人工智能
Facebook、普林斯頓大學和 MIT 的 AI 研究人員近日聯(lián)合出版了一份名為《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks的研究手稿,用來解釋深度學習實際工作原理的理論。

Facebook、普林斯頓大學和 MIT 的 AI 研究人員近日聯(lián)合出版了一份名為《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(深度學習理論原理:理解神經(jīng)網(wǎng)絡的一種有效理論方法)》的研究手稿,用來解釋深度學習實際工作原理的理論。

蒸汽機推動了工業(yè)革命的發(fā)生,并改變了制造業(yè)。然而,直到熱力學定律和統(tǒng)計力學原理的發(fā)展,科學家們才能夠在理論層面完全解釋蒸汽機的工作原理。

[[415527]]

當然,缺乏理論知識并不能阻止人們對蒸汽機的改進,但是有了理論的指導為基礎(chǔ),技術(shù)的發(fā)展將會更快。當科學家們最終掌握了統(tǒng)計力學時,其影響遠遠超出了制造更好、更高效的引擎。統(tǒng)計力學使人們認識到物質(zhì)是由原子構(gòu)成的,預示著量子力學的發(fā)展,如果從整體上看,這甚至促進了為計算機提供動力的晶體管的發(fā)展。

今天的人工智能也處于類似的關(guān)頭。DNN(深度神經(jīng)網(wǎng)絡)是現(xiàn)代 AI 研究的重要組成部分,但它們的實現(xiàn)方式或多或少被視為「黑匣子」。雖然人工智能從業(yè)者對 DNN 的理解取得了實質(zhì)性進展,但 DNN 通常被認為太復雜而無法從基本原理來理解。模型主要通過反復試錯進行微調(diào)——雖然試錯可以智能地進行,通常是根據(jù)多年的經(jīng)驗,但它是在沒有任何統(tǒng)一的理論語言來描述 DNN 及其功能的情況下進行的。

近日,來自 Facebook 人工智能研究中心(FAIR)的科學家 Sho Yaida,麻省理工學院理論物理中心的研究員、Salesforce 的首席研究員 Dan Roberts 和普林斯頓的 Boris Hanin 合作,撰寫了一本關(guān)于如何從「第一性原理」來理解 DNN 的書籍《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks》。該書將于 2022 年初由劍橋大學出版社出版,手稿現(xiàn)在已經(jīng)公開。

Facebook、MIT等聯(lián)合發(fā)表451頁手稿:用「第一性原理」解釋DNN

書籍地址:https://arxiv.org/pdf/2106.10165.pdf

「第一性原理」理解 DNN

首先我們來簡單了解一下什么是「第一性原理」?

「第一性原理」指的是回歸事物最基本的條件,將其拆分成各要素進行解構(gòu)分析,從而找到實現(xiàn)目標最優(yōu)路徑的方法。

最早提出第一性原理思維的人是亞里士多德,他把它定義為「認知事物的第一基礎(chǔ)。」

Facebook、MIT等聯(lián)合發(fā)表451頁手稿:用「第一性原理」解釋DNN

許多偉大的思想家,包括發(fā)明家都使用了第一性原理的思考方法,但是沒有人比企業(yè)家伊隆 · 馬斯克更有效地深入思考第一性原理。這個詞的出圈也得益于馬斯克的助推。他曾在采訪中提到自己特別推崇第一性原理思考法。

書籍作者也是從「第一性原理」來理解 DNN 的。

書籍長達 451 頁,開篇引用了量子力學的奠基人、諾貝爾物理學獎得主狄拉克在《量子力學原理》一書序言中的一句話:「這就需要完全脫離歷史發(fā)展路線,但這種突破是一種優(yōu)勢,因為它使人們能夠盡可能直接地接近新的思想?!?/p>

[[415528]]

在基本層面上,該書提供了一個理論框架,從「第一性原理」理解 DNN。對于人工智能從業(yè)者來說,這種理解可以顯著減少訓練 DNN 所需的試錯量。例如,該理論框架可以揭示任何給定模型的最佳超參數(shù),而無需經(jīng)過當今所需的時間和計算密集型實驗。

「該書提出了一種具有吸引力的方法,基于理論物理學中熟悉的擴展來進行機器學習,」斯坦福大學物理學教授 Eva Silverstein 表示道。「這些方法在理解和改進人工智能方面可以帶來多大的進步,將是令人興奮的?!?/p>

Facebook VP 兼首席 AI 科學家 Yann LeCun 也在推特上推薦該書,并表示「在科學技術(shù)發(fā)展史上,工程相關(guān)的往往排在第一位:望遠鏡、蒸汽機、數(shù)字通信。解釋其功能和局限性的理論往往出現(xiàn)得較晚:折射定律、熱力學和信息理論。」「隨著深度學習的出現(xiàn),人工智能驅(qū)動的工程奇跡已經(jīng)進入我們的生活——但我們對深度學習的力量和局限性的理論理解仍然是片面的。這是最早致力于深度學習理論的書籍之一,并以連貫的方式列出了近期理論方法和結(jié)果。」

Facebook、MIT等聯(lián)合發(fā)表451頁手稿:用「第一性原理」解釋DNN

這只是重塑人工智能科學這一更大項目的第一步,這一項目既源自「第一性原理」,又側(cè)重于描述現(xiàn)實模型如何工作。如果成功,這種關(guān)于深度學習的一般理論可能會使人工智能模型更加強大,甚至可以指導研究人員建立一個研究智能普遍方面的框架。

相互作用的神經(jīng)元

到目前為止,試圖理解 DNN 的理論家們通常依賴于網(wǎng)絡的理想化,即所謂的「無限寬度限制」,在這種限制下,DNN 的每一層都有無限數(shù)量的神經(jīng)元。

這類似于理想氣體定律與真實氣體情況。「無限寬度限制」為理論分析提供了一個起點,但它通常與現(xiàn)實世界的深度學習模型幾乎沒有什么相似之處,尤其是普通的深度神經(jīng)網(wǎng)絡,在那種情況下,抽象將越來越偏離準確的描述。雖然偶爾有用,但「無限寬度限制」過于簡單,忽略了真正 DNN 的關(guān)鍵特性,而這些被忽略掉的特性可能就是讓 DNN 如此強大的有力工具。

Facebook、MIT等聯(lián)合發(fā)表451頁手稿:用「第一性原理」解釋DNN

如果從物理學家的角度來處理這個問題,核心是通過在「有限寬度」上建立一個有效的 DNN 理論,從而改進這個無限寬度限制。傳統(tǒng)上,物理學家的目標是創(chuàng)造最簡單和最理想的模型,同時也包含了描述現(xiàn)實世界所需的最小復雜性。在這里,這需要取消無限寬度限制,并系統(tǒng)地納入所有必要的修正,以解釋有限寬度的影響。在物理學語言中,這意味著對單層和跨層神經(jīng)元之間的微小相互作用進行建模。

這些聽起來像是小的改變,但是現(xiàn)有的玩具模型(toy models)和書中描述的模型在性質(zhì)上是不同的。想象兩個臺球朝著對方前進。如果你用一個類似于無限寬度限制的非交互模型來計算即將發(fā)生的事情,你會發(fā)現(xiàn)這些球互相穿過,繼續(xù)朝著同一個方向運動。

但事實顯然不是這樣。球中的電子不能占據(jù)同一個空間,所以它們會相互作用碰撞彈跳。

這些交互作用在現(xiàn)實生活中很重要,在物理學中也很重要,對 DNN 來說同樣如此。

考慮到神經(jīng)元之間的類似交互作用,該書的理論發(fā)現(xiàn)了 DNN 的真正威力——它們從數(shù)據(jù)中學習世界表征的能力——與其縱橫比(即深度與寬度之比)成正比。對于無限寬度模型,該比率為零,因此這些玩具模型無法捕捉深度,并且隨著 DNN 深度的增加,它們的描述變得越來越不準確。相比之下,使用有限寬度層,有效理論(effective theory)實際上會影響深度——這對于表征學習和 DNN 的 D (深度)真正重要的其他應用至關(guān)重要。

麻省理工學院物理學副教授、NSF AI 人工智能與基礎(chǔ)交互研究所所長 Jesse Thaler 說:「在物理學中,有效場論是理解粒子復雜相互作用的一種嚴謹而系統(tǒng)的方法。令人興奮的是,一個類似的、嚴謹?shù)?、系統(tǒng)的方法適用于理解深層網(wǎng)絡的動態(tài)。在這些發(fā)展的啟發(fā)下,我期待著物理學界和人工智能界進行更有成效的對話。」

雖然本書中描述的框架可以擴展到現(xiàn)代人工智能社區(qū)使用的真實世界的 DNN,并為此提供了藍圖,但該書主要側(cè)重于用于教學目的、最簡單的深度學習模型(深度多層感知器) 。

應用于這種最簡單的結(jié)構(gòu),可以系統(tǒng)地求解有效理論方程。這意味著我們可以對 DNN 在整個訓練軌跡中的行為有一個第一性原理理解。特別地,我們可以明確地寫下一個完全訓練的 DNN 所計算的函數(shù),來對新的測試例子做出預測。

借助這一新的有效理論,研究者希望理論家們能夠推動對神經(jīng)網(wǎng)絡更深入、更全面的理解。雖然還有很多東西需要計算,但這項工作可能使該領(lǐng)域更接近于了解這些模型的哪些特定屬性使它們能夠智能地執(zhí)行。

研究者還希望這本書能夠幫助 AI 社區(qū)減少試錯周期,這些試錯有時會限制當前研究進展。研究者希望也能幫助 AI 從業(yè)者快速設(shè)計更好的模型——更高效、性能更好、訓練更快,或者所有這些。特別地,設(shè)計 DNN 的研究者能夠在沒有任何訓練的情況下選擇最優(yōu)的超參數(shù),并選擇最優(yōu)的算法和模型結(jié)構(gòu)以獲得最佳的結(jié)果。

多年來,許多人認為這些問題永遠無法得到回答或解釋。該書籍表明,人工智能不是一門無法解釋的藝術(shù),實用的人工智能可以通過基本的科學原理來理解。

研究者希望這只是個開始,并將繼續(xù)這項研究,將理論框架擴展到其他模型架構(gòu)并獲得新的結(jié)果。在更廣泛的層面上,研究者希望這本書能夠證明,理論能夠提供對真實模型的理解。

雖然近年來,實證結(jié)果將人工智能推向了新的高度,但研究者堅信,以理論為基礎(chǔ)的實踐有助于加速人工智能的研究,并有可能發(fā)現(xiàn)無法想象的新領(lǐng)域,就像統(tǒng)計力學在一個多世紀前引領(lǐng)信息時代一樣。

作者簡介

Sho Yaida 為 Facebook 人工智能研究中心(FAIR)的科學家,研究方向是將理論物理學方法應用于理解神經(jīng)網(wǎng)絡。他在斯坦福大學獲得博士學位,讀博期間主要研究了黑洞,后來在麻省理工學院和杜克大學做博士后時轉(zhuǎn)向了有關(guān)玻璃的物理學研究。

[[415531]]

個人主頁:https://ai.facebook.com/people/sho-yaida/

Dan Roberts 為麻省理工學院理論物理中心的研究員、Salesforce 的首席研究員,同時還是美國國家科學基金會人工智能與基礎(chǔ)互動研究所 (IAIFI) 的成員。研究方向集中于如何將理論物理學的工具和觀點應用到人工智能中。

[[415532]]

個人主頁:https://danintheory.com/

此外,還包括研究合作者普林斯頓的 Boris Hanin,主要研究深度學習、概率等。

[[415533]]

個人主頁:https://hanin.princeton.edu/

 

責任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2021-06-22 09:13:19

FacebookMIT深度學習

2018-02-07 10:56:53

HR

2023-08-05 12:50:18

AI技術(shù)

2024-10-05 15:00:00

模型訓練

2024-08-05 09:30:00

2022-03-22 14:15:57

計算模型訓練

2022-05-17 11:16:33

軟件開發(fā)優(yōu)化

2024-05-21 09:46:35

視覺自動駕駛

2014-09-17 09:47:47

TODO開源項目

2021-06-21 15:24:56

機器人人工智能算法

2021-10-18 10:14:54

數(shù)據(jù)技術(shù)模型

2023-01-31 15:10:30

AI模型

2024-11-08 15:07:14

2023-06-02 14:04:38

AI安全

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2011-07-07 14:23:56

HaiPad點心海爾

2023-12-16 09:49:18

2023-05-15 15:08:34

2023-12-22 13:46:41

數(shù)據(jù)訓練

2019-12-12 10:56:00

微服務微服務架構(gòu)架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號