自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)

發(fā)布于 2024-5-22 10:59
瀏覽
0收藏

近日,網(wǎng)上流傳一份ilya推薦給John Carmack的閱讀清單,該清單包含了當(dāng)今與AI相關(guān)30篇頂級文章,并稱如果真的將它們讀完,就能理解當(dāng)下90%的AI技術(shù)。

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

下面筆者帶大家速覽這40篇文章內(nèi)容概要。

1)Attention Is All You Need

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

不解釋了,transformer開山論文,不得不看。

地址:https://arxiv.org/pdf/1706.03762

2)The Annotated Transformer

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

該文章是由康奈爾大學(xué)副教授 Alexander Rush 等研究者在 2018 年撰寫的博客文章 ,該文章對transformer進(jìn)行了逐行級的解釋,并利用 Python 完整實(shí)現(xiàn)了 Transformer架構(gòu),可以幫助讀者在了解理論的同時(shí),結(jié)合實(shí)踐加深認(rèn)識。

文章:https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE

代碼:??https://github.com/harvardnlp/annotated-transformer/??

3)The First Law of Complexodynamics

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)


這是Scott Aaronson 的名為《復(fù)雜動力學(xué)第一定律》的文章,討論了為什么物理系統(tǒng)的“復(fù)雜性”或“趣味性”似乎隨著時(shí)間的推移而增加,然后達(dá)到最大值,再逐漸減少,而熵當(dāng)然是單調(diào)增加的?Aaronson 試圖用 Kolmogorov 復(fù)雜性和相關(guān)概念來解釋這一現(xiàn)象,并指出了這一領(lǐng)域的若干挑戰(zhàn)和可能的解決方案。

文章:https://scottaaronson.blog/?p=762

3)The Unreasonable Effectiveness of Recurrent Neural Networks(RNN不可以思議的有效性)


OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

該文章是由Andrej Karpathy  2015 年撰寫的一篇博客,強(qiáng)調(diào) RNN 的有效性,文章探討了 RNN 處理序列數(shù)據(jù)的強(qiáng)大能力。

地址:https://karpathy.github.io/2015/05/21/rnn-effectiveness/

4)Understanding LSTM Networks(理解LSTM)

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

該文由Anthropic 聯(lián)合創(chuàng)始人、Ilya 和 Christopher Olah 于 15 年撰寫,本文介紹了LSTM長短期記憶,它是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠處理長期依賴關(guān)系。它在語音識別、語言建模、翻譯、圖像描述等領(lǐng)域取得了巨大成功。

地址:https://colah.github.io/posts/2015-08-Understanding-LSTMs/

5)RECURRENT NEURAL NETWORK REGULARIZATION(RNN正則化)

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

本文是由ilya 2015年撰寫的,提出了一種遞歸神經(jīng)網(wǎng)絡(luò)的簡單正則化技術(shù)(RNN)與長短期存儲器(LSTM)單元。Dropout是正則化神經(jīng)網(wǎng)絡(luò)最成功的技術(shù),但它不能很好地與RNN配合使用和LSTM。在本文中我們展示了如何正確地將dropout應(yīng)用于LSTM,并表明它大大減少了對各種任務(wù)的過擬合。這些任務(wù)包括語言建模、語音識別、圖像字幕生成,以及機(jī)器翻譯。

地址:https://arxiv.org/pdf/1409.2329.pdf

6)Keeping Neural Networks Simple by Minimizing the Description Length of the Weights(通過最小化權(quán)重的描述長度來保持神經(jīng)網(wǎng)絡(luò)的簡單性)

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

如果相較于訓(xùn)練案例的輸出向量,權(quán)重包含更少的信息,那么有監(jiān)督的神經(jīng)網(wǎng)絡(luò)的泛化能力通常會更好。因此,在學(xué)習(xí)階段,懲罰權(quán)重的信息量以保持權(quán)重簡潔是關(guān)鍵??梢酝ㄟ^加入高斯噪聲來控制權(quán)重的信息量,而且學(xué)習(xí)過程中可以適應(yīng)性地調(diào)節(jié)噪聲水平,以達(dá)到網(wǎng)絡(luò)預(yù)期平方誤差與權(quán)重信息量之間最佳的平衡。我們提出了一種方法,可以計(jì)算包含非線性隱藏層的網(wǎng)絡(luò)中,受噪聲影響的權(quán)重所包含信息量以及期望平方誤差的導(dǎo)數(shù)。只要輸出單元保持線性,就能夠高效準(zhǔn)確地計(jì)算出這些導(dǎo)數(shù),無需依賴于耗時(shí)的蒙特卡洛模擬。追求降低神經(jīng)網(wǎng)絡(luò)權(quán)重傳輸所需信息量的理念催生了許多有趣的權(quán)重編碼方案。

地址:https://www.cs.toronto.edu/~hinton/absps/colt93.pdf

7)Pointer Networks

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

論文引入了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)旨在學(xué)習(xí)輸出序列的條件概率,其中輸出序列由代表輸入序列位置的離散Token(代幣)組成?,F(xiàn)有的方法,如序列到序列轉(zhuǎn)換  和神經(jīng)圖靈機(jī),無法輕易解決這類問題,因?yàn)檩敵鲂蛄兄忻恳徊降哪繕?biāo)類別數(shù)依賴于可變的輸入長度。例如,排序可變長度序列和各類組合優(yōu)化問題都屬于這種問題。我們的模型利用最近提出的神經(jīng)注意機(jī)制解決了可變長度輸出字典的問題。與以前的注意力機(jī)制不同,我們的方法不是將注意力用于融合編碼器的隱藏單元到每個(gè)解碼步驟的上下文向量中,而是將注意力用作一個(gè)指針,選取輸入序列中的元素作為輸出。我們將這種架構(gòu)稱為指針網(wǎng)絡(luò)(Ptr-Net)。通過只使用訓(xùn)練實(shí)例,我們證明了Ptr-Net能夠?qū)W習(xí)到三個(gè)復(fù)雜幾何問題-計(jì)算平面凸包、Delaunay三角剖分以及平面旅行商問題-的近似解。Ptr-Net不僅改進(jìn)了帶輸入注意力的序列到序列模型,還實(shí)現(xiàn)了輸出字典規(guī)??勺冃缘姆夯?。我們進(jìn)一步展示了,這些學(xué)習(xí)到的模型能夠泛化到超出訓(xùn)練時(shí)的最大長度。我們希望這些任務(wù)上的結(jié)果能鼓勵(lì)對離散問題的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法進(jìn)行更深入的研究。

地址:https://arxiv.org/pdf/1506.03134

8)ImageNet Classification with Deep Convolutional Neural Networks

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

本文圖靈獎得主 Geoffrey Hinton ,ilya等撰寫,提出 AlexNet,顛覆圖像識別領(lǐng)域,開啟了深度學(xué)習(xí)革命。他們訓(xùn)練了一種龐大的深度卷積神經(jīng)網(wǎng)絡(luò)來對ImageNet LSVRC-2010競賽的1.2百萬張高清圖像進(jìn)行分類,這些圖像被分為1000個(gè)不同類別。在測試數(shù)據(jù)集上,實(shí)現(xiàn)了37.5%的top-1錯(cuò)誤率和17.0%的top-5錯(cuò)誤率,顯著優(yōu)于之前的最佳水平。該神經(jīng)網(wǎng)絡(luò)擁有60,000,000個(gè)參數(shù)和650,000個(gè)神經(jīng)元,由五個(gè)卷積層組成,部分卷積層后接最大池化層,還包括三個(gè)全連接層以及最后的1000維softmax輸出層。為了加快訓(xùn)練速度,采用了非飽和神經(jīng)元以及高效的GPU卷積操作實(shí)現(xiàn)。此外,為了降低全連接層的過擬合,采用了一種名為“dropout(隨機(jī)失活)”的新近開發(fā)的正則化技術(shù),這一技術(shù)非常有效。在ILSVRC-2012比賽中提交了這個(gè)模型的改進(jìn)型,并以15.3%的top-5測試錯(cuò)誤率贏得了冠軍,較第二名低了10.9個(gè)百分點(diǎn),這表明了模型的顯著提升。

地址:https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

9)ORDER MATTERS: SEQUENCE TO SEQUENCE FOR SETS

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)

隨著循環(huán)神經(jīng)網(wǎng)絡(luò)的興盛,序列在有監(jiān)督學(xué)習(xí)中越發(fā)重要?,F(xiàn)在,許多復(fù)雜的任務(wù),如映射觀察序列,都可以通過使用序列到序列轉(zhuǎn)換(seq2seq)框架來構(gòu)建,該框架采用鏈?zhǔn)椒▌t高效表示序列的聯(lián)合概率。但在某些情況下,可變長度的輸入/輸出并不適合以序列形式表現(xiàn)。比如,對于排序任務(wù),還不清楚如何把一組數(shù)字輸入模型;相似地,當(dāng)任務(wù)涉及建模隨機(jī)變量的未知聯(lián)合概率時(shí),我們也不知道應(yīng)如何組織輸出。在這篇論文中,我們首先通過多個(gè)例子證明了輸入/輸出數(shù)據(jù)組織順序?qū)W(xué)習(xí)底層模式的顯著影響。我們接著探討了seq2seq框架的一種擴(kuò)展,它能夠超越序列處理,按照原理性的方法處理輸入集。另外,我們提出了一種損失函數(shù),它通過在訓(xùn)練過程中探討不同的數(shù)據(jù)序列,解決輸出集合結(jié)構(gòu)缺失的問題。我們提供了關(guān)于訂單重要性的實(shí)證證據(jù),并展示了在語言建模和解析任務(wù)的基準(zhǔn)測試,以及兩個(gè)人造任務(wù)——數(shù)字排序和估計(jì)未知圖模型的聯(lián)合概率上對seq2seq框架所做的修改。

地址:https://arxiv.org/pdf/1511.06391

10)GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism

OpenAI前CTO Ilya推薦的30篇文章,認(rèn)真讀完將理解當(dāng)下90%的AI技術(shù)(1-11)-AI.x社區(qū)


提升深度神經(jīng)網(wǎng)絡(luò)的計(jì)算容量已證明是提高多種機(jī)器學(xué)習(xí)任務(wù)中模型性能的有效辦法。然而,在很多情況下,增加模型的計(jì)算力以超越單個(gè)加速設(shè)備的內(nèi)存限制,通常需要開發(fā)專門的算法或基礎(chǔ)架構(gòu)。這些方案往往依賴于特定的硬件架構(gòu),且難以應(yīng)用于其他任務(wù)。為了應(yīng)對這種對于高效且與任務(wù)無關(guān)的模型并行性需求,文中介紹了GPipe,這是一個(gè)實(shí)現(xiàn)流水線并行化的庫,它能使任何可以表示為層序列的網(wǎng)絡(luò)進(jìn)行規(guī)?;瘮U(kuò)展。利用GPipe,通過在不同加速設(shè)備上對不同的層子序列進(jìn)行流水線作業(yè),可以靈活且高效地?cái)U(kuò)大各種網(wǎng)絡(luò)的規(guī)模至巨大程度。此外,GPipe采用了一種創(chuàng)新的批處理分流算法,在將模型分配到多個(gè)加速設(shè)備時(shí),幾乎可實(shí)現(xiàn)線性的加速效果。通過在具有不同網(wǎng)絡(luò)架構(gòu)的兩項(xiàng)不同任務(wù)上訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)來展示GPipe的優(yōu)勢:一是圖像分類,訓(xùn)練了一個(gè)參數(shù)量達(dá)到5.57億的AmoebaNet模型,在ImageNet-2012數(shù)據(jù)集上獲得了84.4%的top-1準(zhǔn)確率;二是多語言神經(jīng)機(jī)器翻譯,訓(xùn)練了一個(gè)包含128層Transformer結(jié)構(gòu)、6億參數(shù)量,覆蓋超過100種語言的巨型模型,其表現(xiàn)超越了所有雙語模型。

地址:https://arxiv.org/pdf/1811.06965

本文轉(zhuǎn)載自 ??AI工程化??,作者: ully


已于2024-5-28 12:15:02修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦