自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯 原創(chuàng)

發(fā)布于 2024-11-8 10:46
瀏覽
0收藏

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

“過去12年的AI熱潮得益于三位在面對廣泛批評時依然追求非傳統(tǒng)理念的先驅(qū)。

一位是多倫多大學(xué)的Geoffrey Hinton,他幾十年如一日地推廣神經(jīng)網(wǎng)絡(luò),盡管幾乎所有人都懷疑它。

第二位是Nvidia的CEO黃仁勛,他早早意識到GPU不僅僅能用于圖形處理。

第三位是李飛飛,她創(chuàng)建了一個在大多數(shù)同行看來荒謬龐大的圖像數(shù)據(jù)集,最終證明了使用GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的潛力?!?/p>

Understanding AI 社區(qū)上的這篇《為什么深度學(xué)習(xí)的蓬勃發(fā)展讓幾乎所有人都措手不及?》,以宏大的視角回顧了這波 AI 潮的起源,神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)集和 GPU 計算這三大元素如何交融在歷史的節(jié)點。

以史為鑒,作者也認(rèn)為AI的突破需要敢于走出“Scaling laws”:“我認(rèn)為,在未來幾年,‘Scaling laws’可能會失效。如果那時到來,我們將需要新一代頑固的非傳統(tǒng)主義者來察覺到舊方法不起作用并嘗試新的方向?!?/p>

一個讀者感慨地評道,“我在人工智能領(lǐng)域工作了 30 多年,一直從事與符號人工智能相關(guān)的工作,如知識表示、自動推理、智能代理等。我從未想過,那些 "亞符號"(注意這里的蔑視)神經(jīng)網(wǎng)絡(luò)能勝任字符識別之外的任何工作。而今天,我們卻在這里討論新的人工智能系統(tǒng)何時才能達(dá)到 AGI 水平(不過我想,在這十年內(nèi)是不可能的)?!?/p>

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯-AI.x社區(qū)圖片

以下是作者Timothy B Lee 的《Why the deep learning boom caught almost everyone by surprise》這篇文章的翻譯,enjoy:

在普林斯頓讀計算機科學(xué)研究生的第一個學(xué)期,我選了COS 402:人工智能。學(xué)期末有一節(jié)關(guān)于神經(jīng)網(wǎng)絡(luò)的課。這是2008年秋天,從那節(jié)課和課本中,我明顯感覺到——神經(jīng)網(wǎng)絡(luò)已經(jīng)成了一個邊緣領(lǐng)域。

在20世紀(jì)80年代末到90年代初,神經(jīng)網(wǎng)絡(luò)取得了一些令人印象深刻的成果。然而,進展隨后停滯。到2008年,許多研究人員轉(zhuǎn)向了更加優(yōu)雅的數(shù)學(xué)方法,比如支持向量機。

當(dāng)時我不知道,普林斯頓的一支團隊——就在我聽課的計算機科學(xué)大樓里——正在進行一個項目,這個項目將顛覆傳統(tǒng)觀念,展示神經(jīng)網(wǎng)絡(luò)的強大能力。那支團隊由李飛飛教授領(lǐng)導(dǎo),他們并沒有開發(fā)更好的神經(jīng)網(wǎng)絡(luò)版本,甚至幾乎沒有考慮神經(jīng)網(wǎng)絡(luò)。

相反,他們正在創(chuàng)建一個前所未有的大型圖像數(shù)據(jù)集:1400萬張圖像,每張圖像都標(biāo)注了將近2.2萬個類別之一。

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯-AI.x社區(qū)圖片

李飛飛在她的最新回憶錄《The Worlds I See》中講述了ImageNet的故事。在項目進行中,她遇到了許多朋友和同事的質(zhì)疑。

“我認(rèn)為你把這個想法帶得太遠(yuǎn)了,”一位導(dǎo)師在2007年項目開始幾個月后對她說,“訣竅是跟隨你的領(lǐng)域成長,而不是跳得太超前?!?/p>

不僅是創(chuàng)建如此龐大的數(shù)據(jù)集是一個巨大的后勤挑戰(zhàn),人們還懷疑當(dāng)時的機器學(xué)習(xí)算法是否能夠從如此龐大的圖像集合中受益。

“在ImageNet之前,人們并不相信數(shù)據(jù)的價值,”李飛飛在9月計算機歷史博物館的一次采訪中說,“每個人都在用很少的數(shù)據(jù)研究完全不同的AI范式?!?/p>

不顧負(fù)面評價,李飛飛堅持項目超過兩年。這耗費了她的研究預(yù)算,也考驗了她研究生們的耐心。2009年她在斯坦福找到了一份新工作,她帶著幾位學(xué)生以及ImageNet項目前往加州。

ImageNet在2009年發(fā)布后最初幾年幾乎沒有受到關(guān)注。然而在2012年,多倫多大學(xué)的一個團隊在ImageNet數(shù)據(jù)集上訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),在圖像識別方面取得了前所未有的性能。那個劃時代的AI模型,因首席作者Alex Krizhevsky的名字而得名AlexNet,引發(fā)了持續(xù)至今的深度學(xué)習(xí)熱潮。

AlexNet的成功離不開ImageNet數(shù)據(jù)集。同樣,如果沒有Nvidia的CUDA平臺使圖形處理單元(GPU)能在非圖形應(yīng)用中使用,AlexNet也無法實現(xiàn)。2006年Nvidia推出CUDA時,很多人持懷疑態(tài)度。

過去12年的AI熱潮得益于三位在面對廣泛批評時依然追求非傳統(tǒng)理念的先驅(qū)。一位是多倫多大學(xué)的Geoffrey Hinton,他幾十年如一日地推廣神經(jīng)網(wǎng)絡(luò),盡管幾乎所有人都懷疑它。

第二位是Nvidia的CEO黃仁勛,他早早意識到GPU不僅僅能用于圖形處理。

第三位是李飛飛。她創(chuàng)建了一個在大多數(shù)同行看來荒謬龐大的圖像數(shù)據(jù)集,最終證明了使用GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的潛力。

1.Geoffrey Hinton:反向傳播算法推動深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的突破

神經(jīng)網(wǎng)絡(luò)是數(shù)千、數(shù)百萬甚至數(shù)十億個神經(jīng)元的網(wǎng)絡(luò)。每個神經(jīng)元是一個數(shù)學(xué)函數(shù),基于輸入的加權(quán)平均值產(chǎn)生輸出。

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯-AI.x社區(qū)圖片

假設(shè)你想創(chuàng)建一個能夠識別手寫十進制數(shù)字(比如紅色方框中的數(shù)字2)的網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)會接收圖像中每個像素的強度值作為輸入,并輸出一個關(guān)于十個可能數(shù)字(0、1、2等)的概率分布。

為了訓(xùn)練這個網(wǎng)絡(luò),首先用隨機權(quán)重初始化它。然后,將它應(yīng)用于一系列示例圖像。對于每張圖像,通過加強那些推動網(wǎng)絡(luò)趨向正確答案的連接(在這種情況下,是“2”輸出的高概率值)并削弱那些推動錯誤答案的連接(降低“2”的概率、提高其他數(shù)字的概率)來訓(xùn)練網(wǎng)絡(luò)。如果在足夠多的示例圖像上進行訓(xùn)練,當(dāng)顯示數(shù)字2時,模型應(yīng)該能夠預(yù)測出“2”有較高的概率,而其他情況則不會。

在20世紀(jì)50年代末,科學(xué)家們開始嘗試使用包含單層神經(jīng)元的基礎(chǔ)網(wǎng)絡(luò)。然而,當(dāng)他們發(fā)現(xiàn)這種簡單的網(wǎng)絡(luò)缺乏完成復(fù)雜計算的能力時,最初的熱情逐漸消退。

更深層的網(wǎng)絡(luò)——即包含多層的網(wǎng)絡(luò)——具有更高的靈活性潛力。然而,在20世紀(jì)60年代,人們并不知道如何高效地訓(xùn)練這些網(wǎng)絡(luò)。因為在多層網(wǎng)絡(luò)的中間層改變一個參數(shù),可能會對輸出產(chǎn)生復(fù)雜且不可預(yù)測的影響。

因此,當(dāng)辛頓在20世紀(jì)70年代開始他的職業(yè)生涯時,神經(jīng)網(wǎng)絡(luò)已不再受到歡迎。辛頓希望研究神經(jīng)網(wǎng)絡(luò),但他難以找到一個合適的學(xué)術(shù)環(huán)境來進行研究。在1976年至1986年期間,辛頓曾在四個不同的研究機構(gòu)任職:薩塞克斯大學(xué)(University of Sussex)、加州大學(xué)圣地亞哥分校(UCSD)、英國醫(yī)學(xué)研究委員會的一個分支機構(gòu),最后是在卡內(nèi)基梅隆大學(xué)(Carnegie Mellon),他于1982年成為該校的教授。

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯-AI.x社區(qū)圖片

在1986年,辛頓與他在UCSD的兩位前同事大衛(wèi)·魯梅爾哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams)共同發(fā)表了一篇具有里程碑意義的論文,介紹了一種名為“反向傳播”(backpropagation)的技術(shù),用于高效訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)。

他們的想法是從網(wǎng)絡(luò)的最后一層開始,逐步向后推導(dǎo)。對于最后一層中的每一個連接,該算法計算出一個梯度——即增強該連接的強度是否會將網(wǎng)絡(luò)推向正確答案的數(shù)學(xué)估算。基于這些梯度,該算法調(diào)整模型最后一層中的每個參數(shù)。

然后,該算法將這些梯度反向傳播到倒數(shù)第二層。一個關(guān)鍵創(chuàng)新點在于一種公式——基于高中微積分中的鏈?zhǔn)椒▌t——用于基于后一層的梯度來計算前一層的梯度。利用這些新的梯度,該算法更新模型倒數(shù)第二層中的每個參數(shù)。隨后,梯度再次反向傳播到倒數(shù)第三層,并重復(fù)整個過程。

該算法在每一輪訓(xùn)練中只對模型進行微小的調(diào)整。但隨著這個過程在成千上萬、數(shù)百萬、數(shù)十億甚至數(shù)萬億的訓(xùn)練樣本上重復(fù)進行,模型的準(zhǔn)確性會逐漸提高。

辛頓和他的同事們并非第一個發(fā)現(xiàn)反向傳播基本思想的人,但他們的論文普及了這種方法。隨著人們意識到如今可以訓(xùn)練更深層的網(wǎng)絡(luò),這引發(fā)了對神經(jīng)網(wǎng)絡(luò)的新一輪熱情。

1987年,辛頓搬到了多倫多大學(xué),并開始吸引希望研究神經(jīng)網(wǎng)絡(luò)的年輕研究人員。法國計算機科學(xué)家楊立昆(Yann LeCun)是其中之一,他在1988年搬到貝爾實驗室之前,曾在辛頓身邊做了一年的博士后研究。

辛頓的反向傳播算法讓楊立昆得以訓(xùn)練深度足夠的模型,能夠在諸如手寫識別等現(xiàn)實任務(wù)中表現(xiàn)良好。到90年代中期,楊立昆的技術(shù)效果如此出色,以至于美國的銀行開始用它來處理支票。

“在某個時期,楊立昆的系統(tǒng)讀取了全美超過10%的支票?!眲P德·梅茨(Cade Metz)在2022年出版的《天才制造者》一書中寫道。

但是,當(dāng)楊立昆和其他研究人員嘗試將神經(jīng)網(wǎng)絡(luò)應(yīng)用于更大、更復(fù)雜的圖像時,效果并不理想。神經(jīng)網(wǎng)絡(luò)再度失寵,一些專注于神經(jīng)網(wǎng)絡(luò)的研究人員也轉(zhuǎn)向了其他項目。

辛頓始終堅信神經(jīng)網(wǎng)絡(luò)能夠超越其他機器學(xué)習(xí)方法。但要真正證明這一點,他還需要許多年才能獲得足夠的數(shù)據(jù)和計算能力。

2.黃仁勛:神經(jīng)網(wǎng)絡(luò)訓(xùn)練成了CUDA的“殺手級應(yīng)用”

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯-AI.x社區(qū)圖片

每臺個人計算機的大腦是中央處理單元(CPU)。這些芯片設(shè)計為按順序一步步執(zhí)行計算,對于像Windows和Office這樣的傳統(tǒng)軟件來說,這樣的方式完全可以滿足需求。然而,一些視頻游戲需要極高的計算量,這對CPU的能力是極大的考驗。像《雷神之錘》、《使命召喚》和《俠盜獵車手》這類游戲尤其如此,它們每秒呈現(xiàn)多個三維世界畫面。

因此,玩家們依賴GPU來提升性能。GPU內(nèi)部有許多執(zhí)行單元——本質(zhì)上是微型的CPU——集成在一個芯片上。在游戲中,不同的執(zhí)行單元負(fù)責(zé)繪制屏幕的不同區(qū)域。這種并行處理能夠?qū)崿F(xiàn)比單純用CPU更高的圖像質(zhì)量和更高的幀率。

Nvidia在1999年發(fā)明了GPU,并自那時起一直主導(dǎo)市場。到了2000年代中期,Nvidia的首席執(zhí)行官黃仁勛(Jensen Huang)開始懷疑GPU的強大計算能力是否可以用于游戲以外的應(yīng)用。他希望科學(xué)家們能夠?qū)⑵溆糜谟嬎忝芗腿蝿?wù),比如天氣模擬或石油勘探。

因此在2006年,Nvidia發(fā)布了CUDA平臺。CUDA允許程序員編寫“內(nèi)核”,即為單個執(zhí)行單元設(shè)計的簡短程序。內(nèi)核可以將龐大的計算任務(wù)分解為小塊并行處理的任務(wù),從而使某些類型的計算比單靠CPU更快完成。

然而,正如Steven Witt去年在《紐約客》上所寫,CUDA最初發(fā)布時幾乎沒有引起興趣:

“CUDA在2006年末發(fā)布時,華爾街反應(yīng)冷淡。黃仁勛正在將超級計算帶給大眾,但大眾卻似乎并不需要這樣的東西。”

“他們在新芯片架構(gòu)上投入了巨額資金,”《Acquired》這個硅谷流行播客的共同主持人Ben Gilbert說道?!八麄兓藬?shù)十億目標(biāo)瞄準(zhǔn)學(xué)術(shù)和科學(xué)計算的一個小眾角落,而這個市場在當(dāng)時并不大——遠(yuǎn)小于他們投入的資金?!?/p>

黃仁勛認(rèn)為,CUDA的存在本身就會擴大超級計算的市場。但這一觀點并未被廣泛接受,到2008年底,Nvidia的股價已下跌了70%……

CUDA的下載量在2009年達(dá)到峰值,隨后三年持續(xù)下降。董事會擔(dān)心Nvidia因股價低迷會成為企業(yè)掠奪者的目標(biāo)。

創(chuàng)建CUDA平臺時,黃仁勛并未特別考慮到AI或神經(jīng)網(wǎng)絡(luò)。然而,事后證明,Hinton的反向傳播算法可以輕松分解為小任務(wù)單元。因此,神經(jīng)網(wǎng)絡(luò)訓(xùn)練最終成了CUDA的“殺手級應(yīng)用”。

根據(jù)Witt的說法,Hinton迅速意識到CUDA的潛力:

2009年,Hinton的研究小組使用Nvidia的CUDA平臺訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)來識別人類語音。他對結(jié)果的質(zhì)量感到驚訝,并在當(dāng)年的一個會議上展示了該成果。隨后他聯(lián)系了Nvidia?!拔野l(fā)了一封電子郵件,說‘我剛告訴了上千名機器學(xué)習(xí)研究人員他們應(yīng)該去買Nvidia的顯卡。能給我免費發(fā)一個嗎?’”Hinton告訴我?!八麄冋f不行?!?/p>

盡管被拒絕,Hinton和他的研究生Alex Krizhevsky及Ilya Sutskever獲得了一對Nvidia GTX 580 GPU用于AlexNet項目。每塊GPU都有512個執(zhí)行單元,使得Krizhevsky和Sutskever能以比CPU快數(shù)百倍的速度訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這一速度使得他們能夠訓(xùn)練一個更大的模型,并對更多的訓(xùn)練圖像進行訓(xùn)練。而他們需要所有這些額外的計算能力來處理龐大的ImageNet數(shù)據(jù)集。

3.李飛飛:顛覆性的大數(shù)據(jù)集 ImageNet

英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯-AI.x社區(qū)圖片

李飛飛在2007年初加入普林斯頓大學(xué)擔(dān)任計算機科學(xué)教授時,并未關(guān)注神經(jīng)網(wǎng)絡(luò)或GPU。在加州理工學(xué)院攻讀博士學(xué)位期間,她創(chuàng)建了名為Caltech 101的數(shù)據(jù)集,其中包含101個類別的9000張圖片。

這段經(jīng)歷讓她意識到,計算機視覺算法在用更大、更多樣的數(shù)據(jù)集訓(xùn)練時表現(xiàn)更佳。不僅她自己的算法在使用Caltech 101訓(xùn)練時表現(xiàn)出色,其他研究人員也開始用她的數(shù)據(jù)集訓(xùn)練模型,并彼此比較性能。這讓Caltech 101成為了計算機視覺領(lǐng)域的基準(zhǔn)數(shù)據(jù)集。

因此,當(dāng)她來到普林斯頓時,她決定將數(shù)據(jù)集做得更大。她對視覺科學(xué)家Irving Biederman的估計深感興趣:普通人能識別約30,000種不同類型的物體。李飛飛開始思考是否可以構(gòu)建一個真正全面的圖像數(shù)據(jù)集——一個包含人們?nèi)粘=佑|的所有物體的數(shù)據(jù)集。

一位普林斯頓的同事向她介紹了WordNet,一個試圖整理和組織14萬個詞的大型數(shù)據(jù)庫。李飛飛將她的新數(shù)據(jù)集命名為ImageNet,并用WordNet作為選擇類別的起點。她去掉了動詞和形容詞以及像“真理”這樣的抽象名詞。最終,剩下的是一個包含22,000個可數(shù)物體的列表,從“救護車”到“西葫蘆”不等。

她計劃沿用在Caltech 101數(shù)據(jù)集中使用的策略:使用Google的圖像搜索來尋找候選圖像,然后由人類進行驗證。

她打算采用與 Caltech 101 數(shù)據(jù)集相同的方法:利用 Google 的圖片搜索找到候選圖片,然后由人工進行驗證。在 Caltech 101 項目中,李飛飛親自花了幾個月完成了這一工作。這一次,她需要更多的幫助,計劃雇傭幾十位普林斯頓的本科生來幫助挑選和標(biāo)注圖片。

即使在大幅優(yōu)化了標(biāo)注流程(例如,預(yù)先下載候選圖片以便學(xué)生可以立即查看)后,李飛飛和她的研究生鄧嘉計算出,完成數(shù)百萬張圖片的篩選和標(biāo)注仍需超過 18 年的時間。

這個項目因亞馬遜 Mechanical Turk 平臺而得以拯救。李飛飛了解到,亞馬遜推出的眾包平臺 AMT 提供的國際勞動力不僅比普林斯頓的本科生更加經(jīng)濟,而且平臺更具靈活性和擴展性。李的團隊可以根據(jù)需要雇傭任意多的人員,按工作量支付酬勞。

AMT 將完成 ImageNet 的時間從 18 年縮短到兩年。李飛飛寫道,他們的實驗室花了兩年“在資金的刀刃上掙扎”以完成 ImageNet 項目,但資金剛好足夠支付三位人員查看最終數(shù)據(jù)集的每一張 1400 萬張圖片。

2009 年,ImageNet 準(zhǔn)備發(fā)布,李飛飛將其提交至當(dāng)年在邁阿密舉辦的計算機視覺與模式識別會議。論文被接受了,但并未獲得她期望的關(guān)注。

“ImageNet 被歸入了海報展示,”李飛飛寫道,“這意味著我們不能在演講廳內(nèi)向觀眾展示,而是在會場中擺放一張大型海報,希望路人停下來并提出問題……在經(jīng)歷了這么多年的努力后,這顯得有些反高潮?!?/p>

為了引起公眾關(guān)注,李飛飛將 ImageNet 打造成一個比賽。她意識到,完整數(shù)據(jù)集可能過于龐大,無法分發(fā)給幾十位參賽者,因此創(chuàng)建了一個小得多但依然龐大的數(shù)據(jù)集,包含 1000 個類別和 140 萬張圖片。

2010 年的首次比賽吸引了 11 個團隊參加。優(yōu)勝作品基于支持向量機。但李飛飛寫道,它“僅略微優(yōu)于該領(lǐng)域的前沿成果”。

第二年參加 ImageNet 比賽的團隊比第一年更少。2011 年的獲勝作品再次是支持向量機,僅比 2010 年的優(yōu)勝者略有改進。李飛飛開始懷疑批評者是否正確。也許“ImageNet 對大多數(shù)算法來說過于復(fù)雜”。

“連續(xù)兩年中,久經(jīng)考驗的算法僅展示了能力的增量增長,而真正的進展幾乎不存在,”李飛飛寫道?!叭绻f ImageNet 是一次賭注,那么現(xiàn)在該開始懷疑我們是否已經(jīng)輸了?!?/p>

然而,2012 年李飛飛勉強再次舉辦比賽時,結(jié)果完全不同。杰弗里·辛頓的團隊率先提交了一個基于深度神經(jīng)網(wǎng)絡(luò)的模型,其 top-5 準(zhǔn)確率達(dá)到了 85%,比 2011 年的獲勝者高出 10 個百分點。

李飛飛最初的反應(yīng)是難以置信:“我們大多數(shù)人都認(rèn)為神經(jīng)網(wǎng)絡(luò)是一件被玻璃罩和絨布繩保護起來的古董?!?/p>

4.“這就是證明”

ImageNet 的獲勝者被安排在佛羅倫薩的歐洲計算機視覺會議上公布。李飛飛的家在加州,她計劃缺席會議,但當(dāng)她看到 AlexNet 在數(shù)據(jù)集上的優(yōu)異表現(xiàn)時,意識到這一時刻過于重要,不容錯過:“我最終選擇了一段二十小時的睡眠不足且擁擠的旅程?!?/p>

在佛羅倫薩的一個十月的日子里,Alex Krizhevsky 向滿座的計算機視覺研究人員展示了他的成果。李飛飛和楊立昆都在觀眾席中。

凱德·梅茨報道,演講結(jié)束后,楊立昆站起來稱 AlexNet 為“計算機視覺史上無可爭議的轉(zhuǎn)折點。這就是證明?!?/p>

AlexNet 的成功驗證了辛頓對神經(jīng)網(wǎng)絡(luò)的信念,但對于楊立昆來說,這無疑是更大的肯定。

AlexNet 是一種卷積神經(jīng)網(wǎng)絡(luò),這類網(wǎng)絡(luò)由楊立昆在 20 年前開發(fā),用于識別支票上的手寫數(shù)字。AlexNet 的架構(gòu)與 1990 年代楊立昆的圖像識別網(wǎng)絡(luò)幾乎沒有太大差異。

唯一的區(qū)別在于 AlexNet 的規(guī)模更大。在 1998 年的論文中,楊立昆描述了一個擁有七層和六萬個可訓(xùn)練參數(shù)的文檔識別網(wǎng)絡(luò)。而 AlexNet 具有八層,其中包含了六千萬個可訓(xùn)練參數(shù)。

1990 年代初期勒坤不可能訓(xùn)練這么大的模型,因為當(dāng)時沒有具有 2012 年 GPU 那樣處理能力的計算機芯片。即使楊立昆搭建了一臺足夠大的超級計算機,他也不會有足夠的圖像來進行訓(xùn)練。收集這些圖像在 Google 和亞馬遜 Mechanical Turk 出現(xiàn)之前會非常昂貴。

這就是李飛飛在 ImageNet 上的工作為何如此重要的原因。她沒有發(fā)明卷積網(wǎng)絡(luò),也沒有研究出如何在 GPU 上高效運行它們,但她提供了大型神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練數(shù)據(jù),使其能夠?qū)崿F(xiàn)潛力。

科技界立即認(rèn)識到 AlexNet 的重要性。辛頓和他的學(xué)生創(chuàng)建了一家殼公司,目標(biāo)是被一家大公司“收購”。幾個月內(nèi),谷歌以 4400 萬美元收購了這家公司。辛頓在谷歌工作了十年,同時保留了多倫多的學(xué)術(shù)職位。伊利亞·蘇茨克弗在谷歌工作了幾年后成為 OpenAI 的聯(lián)合創(chuàng)始人。

AlexNet 還使得 Nvidia 的 GPU 成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的行業(yè)標(biāo)準(zhǔn)。2012 年,市場對 Nvidia 的估值不足 100 億美元。如今,Nvidia 是全球最有價值的公司之一,市值超過 3 萬億美元。這一高估值主要由對 H100 等優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練的 GPU 的巨大需求驅(qū)動。

5.有時,常識會出錯

“那一刻對 AI 世界具有象征意義,因為現(xiàn)代 AI 的三大基本要素首次融合,”李飛飛在九月的計算機歷史博物館訪談中說道?!暗谝粋€要素是神經(jīng)網(wǎng)絡(luò)。第二個要素是大數(shù)據(jù),即 ImageNet 的使用。第三個要素是 GPU 計算?!?/p>

如今,領(lǐng)先的 AI 實驗室認(rèn)為推動 AI 進步的關(guān)鍵在于用大量數(shù)據(jù)集訓(xùn)練巨型模型。大型科技公司急于建造數(shù)據(jù)中心來訓(xùn)練更大的模型,以至于開始租賃整個核電站來提供所需的電力。

您可以將其視為 AlexNet 經(jīng)驗教訓(xùn)的直接應(yīng)用。但我想我們也許應(yīng)該從 AlexNet 中得出相反的教訓(xùn):過于依賴傳統(tǒng)觀念是一個錯誤。

在 AlexNet 之后的 12 年里,“Scaling laws”取得了顯著的成果,也許我們將在未來幾代看到更多令人印象深刻的結(jié)果,因為領(lǐng)先的實驗室繼續(xù)擴大其基礎(chǔ)模型。

但我們應(yīng)當(dāng)小心,不要讓 AlexNet 的教訓(xùn)固化成教條。我認(rèn)為,在未來幾年,“Scaling laws”可能會失效。如果那時到來,我們將需要新一代頑固的非傳統(tǒng)主義者來察覺到舊方法不起作用并嘗試新的方向。

原文:https://www.understandingai.org/p/why-the-deep-learning-boom-caught

本文轉(zhuǎn)載自??51CTO技術(shù)棧??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦