機(jī)器學(xué)習(xí)三個(gè)時(shí)代的計(jì)算趨勢
在 2010 年之前,訓(xùn)練計(jì)算的發(fā)展與摩爾定律同步,每兩年一翻;自 2010 年代初,引入深度學(xué)習(xí)以來,訓(xùn)練計(jì)算的速度已經(jīng)加快,大約每六個(gè)月增加一倍;2015 年末,出現(xiàn)了一種新的趨勢。
基于這些觀察,機(jī)器學(xué)習(xí)的計(jì)算歷史被劃分為三個(gè)時(shí)代——前深度學(xué)習(xí)時(shí)代、深度學(xué)習(xí)時(shí)代 和 大規(guī)模時(shí)代。本文總結(jié)了用于訓(xùn)練高級機(jī)器學(xué)習(xí)系統(tǒng)快速增長的計(jì)算需求。
趨勢
比較是在一個(gè)由 123 個(gè)里程碑式的機(jī)器學(xué)習(xí)系統(tǒng)組成的數(shù)據(jù)集上進(jìn)行的,并標(biāo)注了訓(xùn)練它們所需的計(jì)算量。在深度學(xué)習(xí)起步之前,有一段進(jìn)展緩慢的時(shí)間,這種趨勢在 2010 年加速,此后一直沒有放緩。另外,在 2015 年和 2016 年,出現(xiàn)了大規(guī)模模型的新趨勢,以比上一個(gè)時(shí)代快兩個(gè)數(shù)量級的速度擴(kuò)張。
過渡到深度學(xué)習(xí)在深度學(xué)習(xí)出現(xiàn)之前和之后,人們注意到了兩種不同的趨勢機(jī)制。
此前,訓(xùn)練機(jī)器學(xué)習(xí)算法所需的算力是每 17 至 29 個(gè)月翻一番。之后,整體趨勢加快速,每 4 到 9 個(gè)月翻一番。
根據(jù)摩爾定律,晶體管密度每兩年翻一番(Moore,1965 年),通常簡化為計(jì)算性能每兩年翻一番——基本上符合前深度學(xué)習(xí)時(shí)代的趨勢。目前尚不清楚深度學(xué)習(xí)時(shí)代何時(shí)開始,從前深度學(xué)習(xí)到深度學(xué)習(xí)時(shí)代的過渡沒有明顯的間斷。此外,無論深度學(xué)習(xí)時(shí)代始于 2010 年還是 2012 年,結(jié)果幾乎都不會改變。
大規(guī)模深度時(shí)代的趨勢
數(shù)據(jù)顯示,大規(guī)模型模型的新趨勢始于 2015-2016 年,這種新趨勢始于 2015 年底的 AlphaGo,一直持續(xù)到現(xiàn)在,大規(guī)模模型是由大公司訓(xùn)練的,更高的訓(xùn)練預(yù)算可能是打破先前的趨勢的原因。
另外,常規(guī)規(guī)模模型受歡迎的程度并未受到影響,這一趨勢在 2016 年之前和之后是相同的速度,每 5 到 6 個(gè)月翻一番,如下表所示。大規(guī)模模型的計(jì)算量增加的趨勢明顯放緩,每 9 到 10 個(gè)月翻一番。由于這些模型的數(shù)據(jù)有限,明顯放緩可能是噪聲的結(jié)果。
這一發(fā)現(xiàn)與 Amodei & Hernandez (2018) 和 Lyzhov (2021) 形成對比,前者發(fā)現(xiàn) 2012 年至 2018 年的倍增期為 3.4 個(gè)月,后者發(fā)現(xiàn) 2018 年至 2020 年的倍增期超過 2 年。以前的評估無法區(qū)分這兩個(gè)獨(dú)立的模式,因?yàn)榇笠?guī)模的趨勢是最近才發(fā)展起來的。
結(jié)論
研究結(jié)果與早期研究一致,這顯示了訓(xùn)練計(jì)算更適度的規(guī)模。1952 年到 2010 年有 18 個(gè)月的倍增時(shí)間,2010 年到 2022 年有 6 個(gè)月的倍增時(shí)間,從 2015 年末到 2022 年的大規(guī)模新趨勢,快了 2 到 3 個(gè)數(shù)量級,倍增時(shí)間為 10 個(gè)月。
總而言之,在前深度學(xué)習(xí)時(shí)代,計(jì)算進(jìn)展緩慢,隨著 2010 年進(jìn)入深度學(xué)習(xí)時(shí)代,這種趨勢加速了。在 2015 年底,企業(yè)開始生產(chǎn)優(yōu)于趨勢的大規(guī)模模型,如 AlphaGo,標(biāo)志著大規(guī)模時(shí)代的開始。然而,這并不能確定區(qū)分大規(guī)模和常規(guī)規(guī)模的模型而形成模式。
在計(jì)算機(jī)教學(xué)中,硬件基礎(chǔ)設(shè)施和工程師的作用越來越大,凸顯了兩者的戰(zhàn)略必要性。獲得巨大的計(jì)算預(yù)算或計(jì)算集群,以及應(yīng)用它們的專業(yè)知識,已經(jīng)成為前沿機(jī)器學(xué)習(xí)研究的代名詞。