網(wǎng)傳Ilya Sutskever的推薦清單火了,掌握當(dāng)前AI 90%
隨著生成式 AI 模型掀起新一輪 AI 浪潮,越來越多的行業(yè)迎來技術(shù)變革。許多行業(yè)從業(yè)者、基礎(chǔ)科學(xué)研究者需要快速了解 AI 領(lǐng)域發(fā)展現(xiàn)狀、掌握必要的基礎(chǔ)知識(shí)。
如果有一份「機(jī)器學(xué)習(xí)精煉秘笈」,你認(rèn)為應(yīng)該涵蓋哪些知識(shí)?
近日,一份網(wǎng)傳 OpenAI 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Ilya Sutskever 整理的一份機(jī)器學(xué)習(xí)研究文章清單火了。網(wǎng)友稱「Ilya 認(rèn)為掌握了這些內(nèi)容,你就了解了當(dāng)前(人工智能領(lǐng)域) 90% 的重要內(nèi)容?!?/span>
推薦清單:https://arc.net/folder/D0472A20-9C20-4D3F-B145-D2865C0A9FEE
從研究主題上看,Ilya Sutskever 重點(diǎn)關(guān)注 transformer 架構(gòu)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、神經(jīng)網(wǎng)絡(luò)的復(fù)雜度等。
推薦清單部分截圖。
例如,Ilya 推薦谷歌在 2017 年發(fā)表的經(jīng)典論文《Attention Is All You Need》,這是 transformer 架構(gòu)的問世之作。transformer 架構(gòu)今天已經(jīng)成為人工智能領(lǐng)域的主流基礎(chǔ)架構(gòu),特別是它是生成式 AI 模型的核心架構(gòu)。
Ilya 不僅推薦原論文,還推薦一篇由康奈爾大學(xué)副教授 Alexander Rush 等研究者在 2018 年撰寫的博客文章 ——《The Annotated Transformer》。這篇文章以逐行實(shí)現(xiàn)的形式呈現(xiàn)了論文的注釋版本,它重新排序梳理了原論文的內(nèi)容,并刪除了一些部分,最終展現(xiàn)的是一個(gè)完全可用的實(shí)現(xiàn)。2022 年 Austin Huang 等研究者又在其基礎(chǔ)上編輯整理出一份采用 PyTorch 實(shí)現(xiàn)的更新版博客。
在 RNN 方面,Ilya 首先推薦閱讀 AI 大牛 Andrej Karpathy2015 年撰寫的一篇博客,強(qiáng)調(diào)「RNN 驚人的有效性」。
Ilya 還推薦了由紐約大學(xué) Wojciech Zaremba(OpenAI創(chuàng)始團(tuán)隊(duì)成員)和 Ilya Sutskever 本人 2015 年發(fā)表的論文《Recurrent Neural Network Regularization》。當(dāng)時(shí),Ilya 還是谷歌大腦的研究科學(xué)家。
這篇論文為 RNN 提出了一種簡(jiǎn)單的正則化技術(shù),闡述了如何正確地將 dropout 應(yīng)用于 LSTM,大大減少了各種任務(wù)的過擬合,包括語言建模、語音識(shí)別、圖像字幕生成、機(jī)器翻譯等等。
此外,Ilya 還推薦了 DeepMind、倫敦大學(xué)學(xué)院 2018 年聯(lián)合發(fā)表的論文《Relational recurrent neural networks》。
在 LSTM 方面,Ilya 推薦了 Anthropic 聯(lián)合創(chuàng)始人、前 OpenAI 可解釋性團(tuán)隊(duì)技術(shù)負(fù)責(zé)人 Christopher Olah 2015 年撰寫的博客文章《Understanding LSTM Networks》,這篇文章全面細(xì)致地講解了 LSTM 的基本知識(shí),并闡明 RNN 取得的顯著成果本質(zhì)上是依靠 LSTM 實(shí)現(xiàn)的。
在「復(fù)雜度」方面,Ilya 重點(diǎn)推薦了《Kolmogorov Complexity and Algorithmic Randomness》一書中講解「算法統(tǒng)計(jì)」的部分??聽柲缏宸驈?fù)雜度為計(jì)算理論提供了一個(gè)用于探索問題固有復(fù)雜度的框架,可幫助研究人員更好地設(shè)計(jì)和評(píng)估 AI 模型。
在這份推薦清單中,我們還看到了一些著名 AI 學(xué)者的經(jīng)典論文。例如,2012 年 ImageNet 圖像識(shí)別大賽中圖靈獎(jiǎng)得主 Geoffrey Hinton 組的論文《ImageNet Classification with Deep Convolutional Neural Networks》,這篇論文提出了 AlexNet,引入了全新的深層結(jié)構(gòu)和 dropout 方法,顛覆了圖像識(shí)別領(lǐng)域,甚至被認(rèn)為開啟了深度學(xué)習(xí)革命。Ilya 也是這篇論文的三位作者之一。
還有 2014 年,DeepMind Alex Graves 等人提出的神經(jīng)圖靈機(jī)(NTM)。NTM 將神經(jīng)網(wǎng)絡(luò)的模糊模式匹配能力與可編程計(jì)算機(jī)的算法能力相結(jié)合,具有 LSTM 網(wǎng)絡(luò)控制器的 NTM 可以從輸入和輸出示例中推斷出簡(jiǎn)單的算法,例如復(fù)制,排序等。
此外,Ilya 還推薦了神經(jīng)網(wǎng)絡(luò)應(yīng)用于基礎(chǔ)科學(xué)(化學(xué))的研究論文、擴(kuò)展定律相關(guān)文章等等,并推薦了斯坦福大學(xué)計(jì)算機(jī)科學(xué)課程 CS231n:用于視覺識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)。
感興趣的讀者可以查看原推薦清單,了解更多內(nèi)容。






