自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

錯誤率減半需要超過500倍算力!深度學(xué)習(xí)的未來,光靠燒錢能行嗎?

新聞 人工智能
近日,IEEE Spectrum 發(fā)表了一篇論文,對深度學(xué)習(xí)的發(fā)展未來進(jìn)行了一番探討。為什么算力會成為當(dāng)今深度學(xué)習(xí)的瓶頸?可能的應(yīng)對方法是什么?如果實在無法解決計算資源的限制,深度學(xué)習(xí)應(yīng)該何去何從?

 [[426024]]

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

深度學(xué)習(xí)的誕生,可以追溯到1958年。

那一年,時任康奈爾大學(xué)航空實驗室研究心理學(xué)家與項目工程師的 Frank Rosenblatt 受到大腦神經(jīng)元互連的啟發(fā),設(shè)計出了第一個人工神經(jīng)網(wǎng)絡(luò),并將其稱為一項"模式識別設(shè)備"。

這項設(shè)備完成后,被嫁接在龐大的 IBM 704 計算機中,經(jīng)過50次試驗,能夠自動區(qū)分標(biāo)志在左邊或右邊的卡片。這使 Frank Rosenblatt 倍感驚喜,他寫道:

"能夠創(chuàng)造出一臺具有人類品質(zhì)的機器,一向是科幻小說的熱門題材,而我們即將見著這樣一臺能夠感知、并在沒有任何人工控制的情況下識別周圍環(huán)境的機器的誕生。"

圖注:感知機的運作原理

不過,與此同時,F(xiàn)rank Rosenblatt 也深知,當(dāng)時的計算機能力無法滿足神經(jīng)網(wǎng)絡(luò)的運算需求。在他的開創(chuàng)性工作中,他曾感嘆:"隨著神經(jīng)網(wǎng)絡(luò)中的連接數(shù)量不斷增加……傳統(tǒng)數(shù)字計算機的負(fù)載將會越來越重。"

[[426025]]

圖注:Frank Rosenblatt。2004年,IEEE特地成立了"IEEE Frank Rosenblatt Award",以表紀(jì)念

所幸,經(jīng)過數(shù)十年的發(fā)展,在摩爾定律與其他計算機硬件的改進(jìn)加持下,計算機的計算能力有了質(zhì)的飛躍,每秒可執(zhí)行的計算量增加了1000萬倍,人工神經(jīng)網(wǎng)絡(luò)才有了進(jìn)一步發(fā)展的空間。得益于計算機的強大算力,神經(jīng)網(wǎng)絡(luò)擁有了更多的連接與神經(jīng)元,也具備了更大的、對復(fù)雜現(xiàn)象建模的能力。這時,人工神經(jīng)網(wǎng)絡(luò)新增了額外的神經(jīng)元層,也就是我們熟知的"深度學(xué)習(xí)"。

如今,深度學(xué)習(xí)已被廣泛應(yīng)用于語言翻譯、預(yù)測蛋白質(zhì)折疊、分析醫(yī)學(xué)掃描與下圍棋等任務(wù)。神經(jīng)網(wǎng)絡(luò)在這些應(yīng)用中的成功,使深度學(xué)習(xí)一項默默無名的技術(shù),成為了如今計算機科學(xué)領(lǐng)域的領(lǐng)頭羊。

但是,今天的神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)似乎又遇到了與數(shù)十年前一致的發(fā)展瓶頸:計算能力的限制。

近日,IEEE Spectrum 發(fā)表了一篇論文,對深度學(xué)習(xí)的發(fā)展未來進(jìn)行了一番探討。為什么算力會成為當(dāng)今深度學(xué)習(xí)的瓶頸?可能的應(yīng)對方法是什么?如果實在無法解決計算資源的限制,深度學(xué)習(xí)應(yīng)該何去何從?

1、算力:福兮,禍之所倚

深度學(xué)習(xí)被譽為現(xiàn)代人工智能的主流。早期,人工智能系統(tǒng)是基于規(guī)則,應(yīng)用邏輯與專業(yè)知識來推理出結(jié)果;接著,人工智能系統(tǒng)是依靠學(xué)習(xí)來設(shè)置可調(diào)參數(shù),但參數(shù)量通常有限。

今天的神經(jīng)網(wǎng)絡(luò)也學(xué)習(xí)參數(shù)值,但這些參數(shù)是計算機模型的一部分:如果參數(shù)足夠大,它們會成為通用的函數(shù)逼近器,可以擬合任何類型的數(shù)據(jù)。這種靈活性使得深度學(xué)習(xí)能被應(yīng)用于不同領(lǐng)域。

神經(jīng)網(wǎng)絡(luò)的靈活性來源于(研究人員)將眾多輸入饋送到模型中,然后網(wǎng)絡(luò)再以多種方式將它們組合起來。這意味著,神經(jīng)網(wǎng)絡(luò)的輸出是來自于復(fù)雜公式的應(yīng)用,而非簡單的公式。也就是說,神經(jīng)網(wǎng)絡(luò)的計算量會很大,對計算機的算力要求也極高。

比方說,Noisy Student(一個圖像識別系統(tǒng))在將圖像的像素值轉(zhuǎn)換為圖像中的物體概率時,它是通過具有 4.8 億個參數(shù)的神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。要確定如此大規(guī)模參數(shù)的值的訓(xùn)練更是讓人瞠目結(jié)舌:因為這個訓(xùn)練的過程僅用了 120 萬張標(biāo)記的圖像。如果聯(lián)想到高中代數(shù),我們會希望得到更多的等式,而非未知數(shù)。但在深度學(xué)習(xí)方法中,未知數(shù)的確定才是解決問題的關(guān)鍵。

深度學(xué)習(xí)模型是過度參數(shù)化的,也就是說,它們的參數(shù)量比可用于訓(xùn)練的數(shù)據(jù)點還要多。一般來說,過度參數(shù)也會導(dǎo)致過度擬合,這時,模型不僅僅會學(xué)習(xí)通用的趨勢,還會學(xué)習(xí)訓(xùn)練數(shù)據(jù)的隨機變幻。為了避免過度擬合,深度學(xué)習(xí)的方法是將參數(shù)隨機初始化,然后使用隨機梯度下降方法來迭代調(diào)整參數(shù)集,以更好地擬合數(shù)據(jù)。實驗證明,這個方法能確保已學(xué)習(xí)的模型具有良好的泛化能力。

深度學(xué)習(xí)模型的成功在機器翻譯中可見一斑。數(shù)十年來,人們一直使用計算機軟件進(jìn)行文本翻譯,從語言 A 轉(zhuǎn)換為語言 B。早期的機器翻譯方法采用的是語言學(xué)專家設(shè)計的規(guī)則。但是,隨著一項語言的可用文本數(shù)據(jù)越來越多,統(tǒng)計方法,比如最大熵、隱馬爾可夫模型與條件隨機場等方法,也逐漸應(yīng)用在機器翻譯中。

最初,每種方法對不同語言的有效性由數(shù)據(jù)的可用性和語言的語法特性決定。例如,在翻譯烏爾都語、阿拉伯語和馬來語等語言時,基于規(guī)則的方法要優(yōu)于統(tǒng)計方法。但現(xiàn)在,所有這些方法都已被深度學(xué)習(xí)超越。凡是深度學(xué)習(xí)已觸及的領(lǐng)域,幾乎都展示了這項機器學(xué)習(xí)方法的優(yōu)越性。           

一方面,深度學(xué)習(xí)有很強的靈活性;但另一方面,這種靈活性是基于巨大的計算成本的。

如下圖顯示,根據(jù)已有研究,到2025年,為識別 ImageNet 數(shù)據(jù)集中的目標(biāo)物體而設(shè)計的最佳深度學(xué)習(xí)系統(tǒng)的錯誤水平應(yīng)該降低到僅 5%:

但是,訓(xùn)練這樣一個系統(tǒng)所需的計算資源和能耗卻是巨大的,排放的二氧化碳大約與紐約市一個月所產(chǎn)生的二氧化碳一樣多:

計算成本的提升,主要有兩方面的原因:1)要通過因素 k 來提高性能,至少需要 k 的 2 次方、甚至更多的數(shù)據(jù)點來訓(xùn)練模型;2)過度參數(shù)化現(xiàn)象。一旦考慮到過度參數(shù)化的現(xiàn)象,改進(jìn)模型的總計算成本至少為 k 的 4 次方。這個指數(shù)中的小小的“4”非常昂貴:10 倍的改進(jìn),就至少需要增加 10,000 倍計算量。

如果要在靈活性與計算需求之間取一個平衡點,請考慮一個這樣的場景:你試圖通過患者的 X 射線預(yù)測 TA 是否患有癌癥。進(jìn)一步假設(shè),只有你在 X 射線中測量 100 個細(xì)節(jié)(即“變量”或“特征”),你才能找到正確的答案。這時,問題的挑戰(zhàn)就變成了:我們無法提前判斷哪些變量是重要的,與此同時,我們又要在大量的候選變量中做選擇。

基于專家知識的系統(tǒng)在解決這個問題時,是讓有放射科與腫瘤學(xué)知識背景的人來標(biāo)明他們認(rèn)為重要的變量,然后讓系統(tǒng)只檢查這些變量。而靈活的深度學(xué)習(xí)方法則是測試盡可能多的變量,然后讓系統(tǒng)自行判斷哪些變量是重要的,這就需要更多的數(shù)據(jù),而且也會產(chǎn)生更高的計算成本。

已經(jīng)由專家事先確認(rèn)重要變量的模型能夠快速學(xué)習(xí)最適合這些變量的值,并且只需少量的計算——這也是專家方法(符號主義)早期如此流行的原因。但是,如果專家沒有正確標(biāo)明應(yīng)包含在模型中的所有變量,模型的學(xué)習(xí)能力就會停滯。

相比之下,像深度學(xué)習(xí)這樣的靈活模型雖然效率更低,且需要更多的計算來達(dá)到專家模型的性能,但通過足夠的計算(與數(shù)據(jù)),靈活模型的表現(xiàn)卻可以勝過專家模型。

顯然,如果你使用更多的計算能力來構(gòu)建更大的模型,并使用更多數(shù)據(jù)訓(xùn)練模型,那么你就可以提升深度學(xué)習(xí)的性能。但是,這種計算負(fù)擔(dān)會變得多昂貴?成本是否會高到阻礙進(jìn)展?這些問題仍有待探討。

2、深度學(xué)習(xí)的計算消耗

為了更具體地回答這些問題,來自MIT、韓國延世大學(xué)與巴西利亞大學(xué)的研究團(tuán)隊(以下簡稱“該團(tuán)隊”)合作,從1000多篇研究深度學(xué)習(xí)的論文中搜集數(shù)據(jù),并就深度學(xué)習(xí)在圖像分類上的應(yīng)用進(jìn)行了詳細(xì)探討。

論文地址:https://arxiv.org/pdf/2007.05558.pdf

在過去的幾年,為了減少圖像分類的錯誤,計算負(fù)擔(dān)也隨之增大。比如,2012 年,AlexNet 模型首次展示了在圖形處理單元 (GPU) 上訓(xùn)練深度學(xué)習(xí)系統(tǒng)的能力:僅僅 AlexNet 的訓(xùn)練就使用了兩個 GPU、進(jìn)行了五到六天的訓(xùn)練。到了 2018 年,NASNet-A 將 AlexNet 的錯誤率降低了一半,但這一性能的提升代價是增加了 1000 多倍的計算。

從理論上講,為了提升模型的性能,計算機的算力至少要滿足模型提升的 4 次方。但實際情況是,算力至少要提升至 9 次方。這 9 次方意味著,要將錯誤率減半,你可能需要 500 倍以上的計算資源。

這是一個毀滅性的代價。不過,情況也未必那么糟糕:現(xiàn)實與理想的算力需求差距,也許意味著還有未被發(fā)現(xiàn)的算法改進(jìn)能大幅提升深度學(xué)習(xí)的效率。

該團(tuán)隊指出,摩爾定律和其他硬件的進(jìn)步極大地提高了芯片的性能。這是否意味著計算需求的升級無關(guān)緊要?很不幸,答案是否定的。AlexNet 和 NASNet-A 所使用的計算資源相差了 1000,但只有 6 倍的改進(jìn)是來自硬件的改進(jìn);其余則要依靠更多的處理器,或更長的運行時間,這也就產(chǎn)生了更高的計算成本。

通過估計圖像識別的計算成本與性能曲線后,該團(tuán)隊估計了需要多少計算才能在未來達(dá)到更出色的性能基準(zhǔn)。他們估計的結(jié)果是,降低 5% 的錯誤率需要 10190 億次浮點運算。

2019年,馬薩諸塞大學(xué)阿默斯特分校的團(tuán)隊發(fā)表了“Energy and Policy Considerations for Deep Learning in NLP”的研究工作,便首次揭示了計算負(fù)擔(dān)背后的經(jīng)濟(jì)代價與環(huán)境代價,在當(dāng)時引起了巨大轟動。

論文地址:https://arxiv.org/pdf/1906.02243.pdf

此前,DeepMind也曾披露,在訓(xùn)練下圍棋的深度學(xué)習(xí)系統(tǒng)時花了大約 3500 萬美元。Open AI 在訓(xùn)練 GPT-3時,也耗資超過400萬美元。后來,DeepMind在設(shè)計一個系統(tǒng)來玩星際爭霸 2 時,就特地避免嘗試多種方法來構(gòu)建一個重要的組建,因為訓(xùn)練成本實在太高了。

除了科技企業(yè),其他機構(gòu)也開始將深度學(xué)習(xí)的計算費用考慮在內(nèi)。一家大型的歐洲連鎖超市最近便放棄了一個基于深度學(xué)習(xí)的系統(tǒng)。該系統(tǒng)能顯著提高超市預(yù)測要購買哪些產(chǎn)品的能力,但公司高管放棄了這一嘗試,因為他們認(rèn)為訓(xùn)練和運行系統(tǒng)的成本太高。

面對不斷上升的經(jīng)濟(jì)和環(huán)境成本,深度學(xué)習(xí)的研究者需要找到一個完美的方法,既能提高性能,又不會導(dǎo)致計算需求激增。否則,深度學(xué)習(xí)的發(fā)展很可能就此止步。

3、現(xiàn)有的解決方法

針對這個問題,深度學(xué)習(xí)領(lǐng)域的研究學(xué)者也在不斷努力,希望能解決這個問題。

現(xiàn)有的策略之一,是使用專為高效深度學(xué)習(xí)計算而設(shè)計的處理器。這種方法在過去十年中被廣泛使用,因為 CPU 已讓位于 GPU,且在某種情況下,CPU 已讓位于現(xiàn)場可編程門陣列和為特定應(yīng)用設(shè)計的 IC(包括谷歌的TPU)。

從根本上說,這些方法都犧牲了計算平臺的通用性來提高專門處理一類問題的效率。但是,這種專業(yè)化也面臨著收益遞減的問題。因此,要獲取長期收益將需要采用完全不同的硬件框架——比如,可能是基于模擬、神經(jīng)形態(tài)、光子或量子系統(tǒng)的硬件。但到目前為止,這些硬件框架都還沒有產(chǎn)生太大的影響。

另一種減少計算負(fù)擔(dān)的方法是生成在執(zhí)行時規(guī)模更小的神經(jīng)網(wǎng)絡(luò)。這種策略會降低每次的使用成本,但通常會增加訓(xùn)練成本。使用成本與訓(xùn)練成本,哪一個更重要,要取決于具體情況。對于廣泛使用的模型,運行成本在投資總額中的占比最高。至于其他模型,例如那些經(jīng)常需要重新訓(xùn)練的模型,訓(xùn)練成本可能是主要的。在任何一種情況下,總成本都必須大于訓(xùn)練成本。因此,如果訓(xùn)練成本太高,那么總成本也會很高。也就是說,第二種策略(減少神經(jīng)網(wǎng)絡(luò)規(guī)模)的挑戰(zhàn)是:它們并沒有充分降低訓(xùn)練成本。

比如,有一種方法是允許訓(xùn)練大規(guī)模網(wǎng)絡(luò)、但代價是在訓(xùn)練過程中會降低復(fù)雜性,還有一種方法是訓(xùn)練一個大規(guī)模網(wǎng)絡(luò)、然后"修剪"掉不必要的連接。但是,第二種方法是通過跨多個模型進(jìn)行優(yōu)化來找到盡可能高效的架構(gòu),也就是所謂的“神經(jīng)架構(gòu)搜索”。雖然每一種方法都可以為神經(jīng)網(wǎng)絡(luò)的運行帶來明顯提升,但對訓(xùn)練的作用都不大,不足以解決我們在數(shù)據(jù)中看到的問題。但是,在大部分情況下,它們都會增加訓(xùn)練的成本。

有一種可以降低訓(xùn)練成本的新興技術(shù),叫做“元學(xué)習(xí)”。元學(xué)習(xí)的觀點是系統(tǒng)同時學(xué)習(xí)各種各樣的數(shù)據(jù),然后應(yīng)用于多個領(lǐng)域。比如,元學(xué)習(xí)不是搭建單獨的系統(tǒng)來識別圖像中的狗、貓和汽車,而是訓(xùn)練一個系統(tǒng)來識別圖像中的所有物體,包括狗、貓和汽車,且可以多次使用。

但是,MIT 的研究科學(xué)家 Andrei Barbu 與他的合作者在2019年發(fā)表了一項工作(“Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models”),揭示了元學(xué)習(xí)的難度。他們發(fā)現(xiàn),即使原始數(shù)據(jù)與應(yīng)用場景之間存在極小差距,也會嚴(yán)重降低模型(Objectnet)的性能。他們的工作證明,當(dāng)前的圖像識別系統(tǒng)在很大程度上取決于物體是以特定的角度拍攝,還是以特定的姿勢拍攝。所以,即使是識別不同姿勢拍攝的相同物體,也會導(dǎo)致系統(tǒng)的準(zhǔn)確度幾乎減半。

UC Berkeley 的副教授 Benjamin Recht 等人在“Do imagenet classifiers generalize to imagenet?”(2019)中也明確地說明了這一點:即使使用專門構(gòu)建的新數(shù)據(jù)集來模仿原始訓(xùn)練數(shù)據(jù),模型的性能也會下降 10% 以上。如果數(shù)據(jù)的微小變化會導(dǎo)致性能的大幅下降,那么整個元學(xué)習(xí)系統(tǒng)所需的數(shù)據(jù)可能會非常龐大。因此,元學(xué)習(xí)的前景也暫時未能實現(xiàn)。雷鋒網(wǎng)

還有一種也許能擺脫深度學(xué)習(xí)計算限制的策略是轉(zhuǎn)向其他可能尚未發(fā)現(xiàn)或未被重視的機器學(xué)習(xí)類型。如前所述,基于專家的洞察力所構(gòu)建的機器學(xué)習(xí)系統(tǒng)在計算上可以更高效,但如果這些專家無法區(qū)分所有影響因素,那么專家模型的性能也無法達(dá)到與深度學(xué)習(xí)系統(tǒng)相同的高度。與此同時,研究人員也在開發(fā)神經(jīng)符號方法與其他技術(shù),以將專家知識、推理與神經(jīng)網(wǎng)絡(luò)中的靈活性結(jié)合起來。雷鋒網(wǎng)

不過,這些努力都仍在進(jìn)行中。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))

正如 Frank Rosenblatt 在神經(jīng)網(wǎng)絡(luò)誕生之初所面臨的難題一樣,如今,深度學(xué)習(xí)也受到了可用計算工具的限制。面對計算提升所可能帶來的經(jīng)濟(jì)和環(huán)境負(fù)擔(dān),我們的出路只有:要么調(diào)整深度學(xué)習(xí)的方式,要么直面深度學(xué)習(xí)停滯的未來。

相形之下,顯然調(diào)整深度學(xué)習(xí)更可取。

如能找到一種方法,使深度學(xué)習(xí)更高效,或使計算機硬件更強大,那么我們就能繼續(xù)使用這些靈活性更高的深度學(xué)習(xí)模型。如果不能突破計算瓶頸,也許我們又要重返符號主義時代,依靠專家知識來確定模型需要學(xué)習(xí)的內(nèi)容了。

 

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2023-08-08 12:34:18

ChatGPT人工智能

2023-01-03 08:30:00

ChatGPT谷歌機器人

2023-08-11 10:50:12

ChatGPT

2020-10-23 14:14:54

語音識別ASR錯誤率

2020-07-17 14:30:03

深度學(xué)習(xí)編程人工智能

2023-12-18 08:36:50

算力網(wǎng)絡(luò)

2022-07-20 13:51:25

數(shù)字經(jīng)濟(jì)算力數(shù)字化轉(zhuǎn)型

2020-09-15 09:55:13

架構(gòu)師架構(gòu)選型

2019-01-02 10:15:28

華為云智能計算

2022-12-16 08:10:29

首家印度芯片

2021-08-27 12:13:41

深度學(xué)習(xí)

2021-05-13 11:54:07

數(shù)據(jù)湖阿里云

2015-08-03 17:21:26

APP

2017-03-22 20:36:34

深度學(xué)習(xí)機器學(xué)習(xí)人工智能

2023-08-29 13:50:00

AI谷歌

2021-03-29 15:04:31

數(shù)據(jù)AI技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號