OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(12-27)
近日,網(wǎng)上流傳一份ilya推薦給John Carmack的閱讀清單,該清單包含了當(dāng)今與AI相關(guān)27篇頂級文章,并稱如果真的將它們讀完,就能理解當(dāng)下90%的AI技術(shù)。
下面剩余的文章速覽。
12)Deep Residual Learning for Image Recognition(深度殘差學(xué)習(xí)的圖像識別)
何凱明的大作,2016年CVPR最佳論文,深入淺出地描述了深度殘差學(xué)習(xí)框架,大幅降低了訓(xùn)練更深層次神經(jīng)網(wǎng)絡(luò)的難度,也使準(zhǔn)確率得到顯著提升。
訓(xùn)練更深層的神經(jīng)網(wǎng)絡(luò)通常會面臨更多挑戰(zhàn)。為了解決這一難題,作者提出了一種殘差學(xué)習(xí)框架,目的在于簡化比以往使用的網(wǎng)絡(luò)深度更大的網(wǎng)絡(luò)的訓(xùn)練過程。作者將每個層轉(zhuǎn)化為學(xué)習(xí)相對于其輸入的殘差函數(shù),而非學(xué)習(xí)沒有參考基準(zhǔn)的函數(shù)。作者提供了充分的實(shí)驗(yàn)證據(jù)證明,這些殘差網(wǎng)絡(luò)更易于優(yōu)化,并能從顯著增加的深度中獲得準(zhǔn)確度的提升。作者在ImageNet數(shù)據(jù)集上評估了最高達(dá)152層深的殘差網(wǎng)絡(luò)——比VGG網(wǎng)絡(luò)深8倍,但復(fù)雜度卻更低。一組這樣的殘差網(wǎng)絡(luò)在ImageNet測試數(shù)據(jù)集上實(shí)現(xiàn)了3.57%的錯誤率,并憑借此成績獲得了ILSVRC 2015分類任務(wù)的冠軍。作者也對CIFAR-10進(jìn)行了100層和1000層的殘差網(wǎng)絡(luò)分析。在許多視覺識別任務(wù)中,深度的表示至關(guān)重要。正是由于作者極其深入的表示方法,作者在COCO物體檢測數(shù)據(jù)集上實(shí)現(xiàn)了28%的相對性能提升。這些深層的殘差網(wǎng)絡(luò)構(gòu)成了作者參加ILSVRC & COCO 2015比賽方案的基礎(chǔ),作者在ImageNet檢測、ImageNet定位、COCO檢測和COCO分割等項(xiàng)目上均獲得了第一名。
地址:https://arxiv.org/pdf/1512.03385
13)MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS(通過膨脹卷積進(jìn)行多層次的上下文聚合)
最先進(jìn)的語義分割模型是基于卷積網(wǎng)絡(luò)的適應(yīng)性,而卷積網(wǎng)絡(luò)最初是為圖像分類而設(shè)計的。但是,語義分割這類密集預(yù)測問題的結(jié)構(gòu)與圖像分類有顯著差異。在本項(xiàng)研究中,我們開發(fā)了一種全新的卷積網(wǎng)絡(luò)模塊,這個模塊是為密集預(yù)測任務(wù)量身打造的。這一模塊采用擴(kuò)張卷積,能夠在不降低圖像分辨率的情況下,有效地整合多尺度的上下文信息。這種架構(gòu)利用擴(kuò)張卷積在保持原有分辨率和覆蓋范圍的同時,實(shí)現(xiàn)感受野的快速擴(kuò)展。論文的結(jié)果證明了引入的上下文模塊提升了現(xiàn)有語義分割系統(tǒng)的準(zhǔn)確度。此外,我們還探討了圖像分類網(wǎng)絡(luò)向密集預(yù)測任務(wù)的轉(zhuǎn)變,并發(fā)現(xiàn)簡化這些調(diào)整后的網(wǎng)絡(luò)能進(jìn)一步提高其準(zhǔn)確度。
地址:https://arxiv.org/pdf/1511.07122
14)Neural Message Passing for Quantum Chemistry(量子化學(xué)中的神經(jīng)消息傳遞)
論文總結(jié)整理了現(xiàn)有的幾種作者認(rèn)為最具前景的適用于圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型。提出一種針對圖數(shù)據(jù)結(jié)構(gòu)的監(jiān)督學(xué)習(xí)的通用框架,稱為消息傳遞的神經(jīng)網(wǎng)絡(luò)(Message Passing Neural Networks ,MPNNs)。
地址:https://arxiv.org/pdf/1704.01212
15)NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE(神經(jīng)機(jī)器翻譯的對齊與翻譯聯(lián)合學(xué)習(xí))
這篇論文由 Bahdanau et al. 在 2014 年發(fā)表在國際會議 ICLR 上,是神經(jīng)機(jī)器翻譯領(lǐng)域的開創(chuàng)性工作之一,提出了一種新穎的模型結(jié)構(gòu)和訓(xùn)練方法,使得神經(jīng)網(wǎng)絡(luò)可以在翻譯過程中自動搜索和選擇源語言句子中與目標(biāo)語言單詞相關(guān)的部分,并生成對齊結(jié)果。這種方法不僅提高了翻譯質(zhì)量,而且產(chǎn)生了符合直覺的對齊結(jié)果。
地址:https://arxiv.org/pdf/1409.0473
16)Identity Mappings in Deep Residual Networks(深度殘差網(wǎng)絡(luò)中的恒等映射)
作者為殘差網(wǎng)絡(luò)的發(fā)明者何凱明博士,這一篇文章于同年投于2016 ECCV,深度殘差網(wǎng)絡(luò)已經(jīng)嶄露頭角,成為一個深度架構(gòu)家族,這個家族以其準(zhǔn)確性和收斂性能吸引了人們的眼球。在這篇文章中,作者分析了構(gòu)成殘差塊背后的傳播機(jī)制,這些分析表明,當(dāng)使用恒等映射作為跳連(skip connetions ),并且在加法后加入激活函數(shù)時,前向和反向的信息傳遞可以直接從一個塊到達(dá)任何其他的塊。一系列的對比實(shí)驗(yàn)證明了這些身份映射的重要性。這促使提出一個新的殘差單元,這個單元使得訓(xùn)練過程更簡單,并且改善了模型的泛化能力。使用 1001 層的殘差網(wǎng)絡(luò) (ResNet) 在 CIFAR-10 數(shù)據(jù)集(錯誤率為 4.62%)和 CIFAR-100 數(shù)據(jù)集上取得了更好的效果,同時作者也在 ImageNet 數(shù)據(jù)集上使用 200 層的 ResNet 模型獲得了改善的結(jié)果。
地址:https://arxiv.org/pdf/1603.05027
17)A simple neural network module for relational reasoning(一種用于關(guān)系推理的簡單神經(jīng)網(wǎng)絡(luò)模塊)
為了更深入地探索關(guān)系推理的思想,并測試這種能力能否輕松加入目前已有的系統(tǒng),DeepMind 的研究者們開發(fā)了一種簡單、即插即用的 RN 模塊,它可以加載到目前已有的神經(jīng)網(wǎng)絡(luò)架構(gòu)中。具備 RN 模塊的神經(jīng)網(wǎng)絡(luò)具有處理非結(jié)構(gòu)化輸入的能力(如一張圖片或一組語句),同時推理出事物其后隱藏的關(guān)系。
關(guān)系推理是通常智能行為的中心環(huán)節(jié),但神經(jīng)網(wǎng)絡(luò)要掌握這一能力歷來面臨挑戰(zhàn)。在本文中,作者展示了如何利用關(guān)系網(wǎng)絡(luò) (RNs) 作為一種簡便的模塊,針對根本上需要關(guān)系推理的難題實(shí)現(xiàn)解決方案。作者將增強(qiáng)了 RN 的網(wǎng)絡(luò)應(yīng)用于三大任務(wù):第一個是使用一個挑戰(zhàn)性的數(shù)據(jù)集 CLEVR 來進(jìn)行視覺問題解答,在哪里作者達(dá)到了超過人類表現(xiàn)的最先進(jìn)水平;第二個是利用 bAbI 任務(wù)組合來進(jìn)行文本問題解答;第三個任務(wù)是對動態(tài)物理系統(tǒng)進(jìn)行復(fù)雜的推理分析。接著,作者用一個叫 Sort-of-CLEVR 的專門數(shù)據(jù)集來展示,盡管傳統(tǒng)的卷積網(wǎng)絡(luò)在解決關(guān)系型問題上并不擅長,但通過與 RN 的結(jié)合就能夠解鎖這項(xiàng)能力。作者的研究說明,一個自帶 RN 模塊的深度學(xué)習(xí)框架能如何隱式地識別并學(xué)習(xí)對實(shí)體及其關(guān)系進(jìn)行推理。
地址:https://arxiv.org/pdf/1706.01427
18)VARIATIONAL LOSSY AUTOENCODER(變分有損自編碼器)
這篇論文成功地將自回歸模型和VAE模型結(jié)合起來,實(shí)現(xiàn)了生成任務(wù)。自回歸模型由于其強(qiáng)大的遞歸能力,能夠?qū)W習(xí)到數(shù)據(jù)的全局特征,擬合復(fù)雜的潛在分布。但是,VAE的訓(xùn)練目標(biāo)是高精度的密度估計(最大似然),這會導(dǎo)致VAE在訓(xùn)練時為了有效擬合而忽略了一些潛在的表示(解碼時沒有用到全部編碼器給出的潛在表示)。論文從比特反轉(zhuǎn)編碼的角度分析了VAE網(wǎng)絡(luò)在面對復(fù)雜數(shù)據(jù)分布和靈活先驗(yàn)分布時,容易出現(xiàn)潛在編碼z沒有被完全用于解碼的情況(也就是條件分布大多數(shù)直接被正則化項(xiàng)搞成接近先驗(yàn)分布,只有少數(shù)被用于解碼,輸出數(shù)據(jù)和原始數(shù)據(jù)差異卻不大),并在此基礎(chǔ)上提出了VLAE網(wǎng)絡(luò)。
地址:https://arxiv.org/pdf/1611.02731
19)Relational recurrent neural networks(關(guān)系性循環(huán)神經(jīng)網(wǎng)絡(luò))
DeepMind和倫敦大學(xué)學(xué)院的這篇論文提出關(guān)系推理模塊RMC,能夠在序列信息中執(zhí)行關(guān)系推理,在WikiText-103, Project Gutenberg 和 GigaWord 數(shù)據(jù)集上達(dá)到了當(dāng)前最佳性能。
基于記憶的神經(jīng)網(wǎng)絡(luò)模型利用其長時間保存信息的功能來處理時間序列數(shù)據(jù)。但是,目前還不明確這些網(wǎng)絡(luò)是否具備利用記憶執(zhí)行復(fù)雜關(guān)系推理的能力。首先,驗(yàn)證了一個觀點(diǎn):標(biāo)準(zhǔn)的記憶結(jié)構(gòu)在需要深刻理解實(shí)體間連接方式的任務(wù)上,也就是涉及關(guān)系推理的任務(wù),可能會面臨挑戰(zhàn)。為了克服這些缺陷,引入了一種新型的記憶模塊——關(guān)系記憶核心(Relational Memory Core, RMC),該模塊使用多頭點(diǎn)積注意力機(jī)制使得不同記憶間能夠進(jìn)行互動。最后,作者在一系列能夠從更加精細(xì)的關(guān)系推理中獲益的任務(wù)上測試了RMC,包括RL領(lǐng)域(如 Mini PacMan)、程序評估和語言模型等任務(wù),并獲得顯著提升,在WikiText-103、Project Gutenberg 和 GigaWord 數(shù)據(jù)集上取得了前所未有的成果。
地址:https://arxiv.org/pdf/1806.01822
20)Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton(量化封閉系統(tǒng)中復(fù)雜性的升降:咖啡自動機(jī))
與單調(diào)遞增的熵不同,封閉系統(tǒng)的“復(fù)雜性”或“興趣度”直觀上呈現(xiàn)先增加后減少的趨勢,特別是當(dāng)系統(tǒng)接近平衡狀態(tài)時。舉個例子,在大爆炸期間我們的宇宙缺乏復(fù)雜結(jié)構(gòu),當(dāng)黑洞蒸發(fā)和粒子分散之后也是如此。本篇論文首次嘗試對這一模式進(jìn)行度量。作者選用了一個簡單的二維細(xì)胞自動機(jī)模型來模擬兩種液體(“咖啡”與“奶油”)的混合過程。然后,作為一個合理的復(fù)雜性衡量方法,我們據(jù)此提出了自動機(jī)狀態(tài)的粗糙度近似的“Kolmogorov復(fù)雜度”,命名為“結(jié)構(gòu)復(fù)雜性”。我們研究了這種復(fù)雜性衡量方法,并通過分析展示,如果液體粒子不相互作用,其復(fù)雜性將不會顯著增加。相反,如果粒子相互作用,我們通過數(shù)值證據(jù)展示,復(fù)雜性會達(dá)到一個最大值,與“咖啡杯”的橫向尺寸大致相當(dāng)。作者提出了一個挑戰(zhàn),即解析性證明這種行為的存在。
地址:https://arxiv.org/pdf/1405.6903
延伸閱讀:美與結(jié)構(gòu)的復(fù)雜性(https://zhuanlan.zhihu.com/p/87743946)
21)Neural Turing Machines(神經(jīng)圖靈機(jī))
神經(jīng)圖靈機(jī)(Neural Turing Machines)是一種結(jié)合了神經(jīng)網(wǎng)絡(luò)和圖靈機(jī)概念的深度學(xué)習(xí)算法。論文中作者增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的能力,使其能與外部存儲資源結(jié)合,通過注意力機(jī)制進(jìn)行互動。這樣的系統(tǒng)與圖靈機(jī)或馮·諾伊曼架構(gòu)有類似之處,但整個系統(tǒng)可進(jìn)行端到端的微分,這意味著可以用梯度下降法有效訓(xùn)練。初步研究結(jié)果顯示,神經(jīng)圖靈機(jī)能夠根據(jù)給定的輸入輸出樣例推導(dǎo)出一些簡單的算法,比如復(fù)制、排序和關(guān)聯(lián)記憶。
地址:https://arxiv.org/pdf/1410.5401
22)Deep Speech 2: End-to-End Speech Recognition in English and Mandarin( 英語與普通話的端到端語音識別)
該論文由百度研究院硅谷人工智能實(shí)驗(yàn)室發(fā)表,作者展示了一個端到端的深度學(xué)習(xí)方法能夠識別英語和普通話——兩種迥然不同的語言。通過用神經(jīng)網(wǎng)絡(luò)取代了之前需要人工搭建的復(fù)雜組件,端到端學(xué)習(xí)使作者得以處理各種各樣的語音場景,包括噪聲環(huán)境、不同的口音,以及多種語言。關(guān)鍵在于采用了高性能計算 (HPC) 技術(shù),讓系統(tǒng)速度比之前快了7倍 。得益于這種效率,原本需要幾周才能完成的實(shí)驗(yàn)現(xiàn)在幾天內(nèi)就能搞定。這使得能夠更迅速地試驗(yàn),并找到更優(yōu)秀的架構(gòu)和算法。因此,系統(tǒng)在多種情況下可以在標(biāo)準(zhǔn)數(shù)據(jù)集基準(zhǔn)上達(dá)到能與人類轉(zhuǎn)錄員媲美的水平。最后,通過在數(shù)據(jù)中心的 GPU 上使用一種叫做的 Batch Dispatch 的技術(shù),這表明其系統(tǒng)可以并不昂貴地部署在網(wǎng)絡(luò)上,并且能在為用戶提供大規(guī)模服務(wù)時實(shí)現(xiàn)較低的延遲。
地址:https://arxiv.org/pdf/1512.02595.pdf
23)Scaling Laws for Neural Language Model(神經(jīng)大語言模型的規(guī)模化定律)
OpenAI大模型經(jīng)典論文,我們探究了影響語言模型在交叉熵?fù)p失方面性能的規(guī)律。根據(jù)我們的發(fā)現(xiàn),模型的大小、所用數(shù)據(jù)集的范圍以及訓(xùn)練所需的計算資源會影響損失情況,并且這種影響能在很大程度上(超過七個數(shù)量級)變動。而模型的網(wǎng)絡(luò)寬度或深度等其他構(gòu)造細(xì)節(jié)在較大的范圍內(nèi)的影響卻微乎其微。作者還發(fā)現(xiàn)簡單的公式可以描述模型或數(shù)據(jù)量大小如何影響過擬合程度,以及模型大小如何影響訓(xùn)練速度。借助這些關(guān)系,我們可以為有限的計算資源做出最優(yōu)分配。更大的模型能夠更有效地利用樣本,因此,在有限的數(shù)據(jù)量上訓(xùn)練大型模型,并在模型完全擬合前提前停止,將是一種高效的計算方法。
其提出了兩個核心結(jié)論:
1.LLM模型的性能主要與計算量C,模型參數(shù)量N和數(shù)據(jù)大小D三者相關(guān),而與模型的具體結(jié)構(gòu) (層數(shù)/深度/寬度) 基本無關(guān)。三者滿足: C ≈ 6ND
2.為了提升模型性能,模型參數(shù)量N和數(shù)據(jù)大小D需要同步放大,但模型和數(shù)據(jù)分別放大的比例還存在爭議。
地址:https://arxiv.org/pdf/2001.08361
24)A Tutorial Introduction to the Minimum Description Length Principle(最小描述長度原則介紹)
該論文提供了最小描述長度(MDL)原則的教程介紹,MDL是一種用于模型選擇和數(shù)據(jù)壓縮的原則。
地址:https://arxiv.org/pdf/math/0406077
25)Machine Super Intelligence(機(jī)器超級智能)
DeepMind 聯(lián)合創(chuàng)始人、首席科學(xué)家。他在 2008 年發(fā)表的博士論文,被認(rèn)為是最早系統(tǒng)探討機(jī)器超級智能(AGI)的學(xué)術(shù)文章之一,該論文為后續(xù)相關(guān)研究奠定了基礎(chǔ)。他在對 80 種不同文化中的對“智能( Intelligence)”的研究基礎(chǔ)上, 將“智能”總結(jié)為“能夠在廣泛的問題中表現(xiàn)優(yōu)異的能力”,并給出了一套可工程化的量化標(biāo)準(zhǔn)?;谒难芯恐辽儆辛艘粋€如何將人類智能總結(jié)、轉(zhuǎn)化為算法結(jié)構(gòu)的假設(shè),智能成為了一個可被解決的問題。
地址:https://www.vetta.org/documents/Machine_Super_Intelligence.pdf
26)Kolmogorov Complexity and Algorithmic Randomness(Kolmogorov復(fù)雜性與算法隨機(jī)性)
本書由American Mathematical Society出版,作者是A. Shen,V. A. Uspenskii,N. K. Vereshchagin。該書介紹了 Kolmogorov 復(fù)雜性理論及其在算法隨機(jī)性中的應(yīng)用,提供了對計算復(fù)雜性和隨機(jī)性深入理解的理論基礎(chǔ)。為了進(jìn)行無監(jiān)督學(xué)習(xí),在OpenAI成立早期,他們認(rèn)為通過壓縮可以通向這一路徑。隨后,他們發(fā)現(xiàn)“預(yù)測下一個詞元(token)”正是無監(jiān)督學(xué)習(xí)可以追求的目標(biāo),并且意識到,預(yù)測就是壓縮。這也正是后來ChatGPT成功的關(guān)鍵思想之一。
地址:https://www.lirmm.fr/~ashen/kolmbook-eng-scan.pdf
27)CS231n Convolutional Neural Networks for Visual Recognition(用于視覺識別的卷積神經(jīng)網(wǎng)絡(luò))
地址:https://cs231n.github.io/
本文轉(zhuǎn)載自 ??AI工程化??,作者: ully
