2010年以來(lái)，ML算力需求增長(zhǎng)100億，6個(gè)月翻番，深度學(xué)習(xí)成分水嶺

作者：機(jī)器之心編譯 2022-03-16 09:40:30

近日，阿伯丁大學(xué)等機(jī)構(gòu)的研究者重新對(duì) 1952 年至今模型不同發(fā)展階段所需訓(xùn)練算力進(jìn)行了深入探討，并得出了與以往工作不同的結(jié)論。

算力、數(shù)據(jù)和算法是引導(dǎo)現(xiàn)代機(jī)器學(xué)習(xí)（ML）進(jìn)步的三個(gè)基本因素。

人工智能技術(shù)近年來(lái)的發(fā)展不僅仰仗于大數(shù)據(jù)和算法，更是算力不斷增強(qiáng)的結(jié)果。據(jù)了解從 2012 年到 2018 年，用于訓(xùn)練大型模型的計(jì)算能力已增長(zhǎng)了 30 萬(wàn)倍，并且約每三個(gè)半月翻一番。

人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì) 80 年代就被提出，但由于算力的限制經(jīng)歷數(shù)年寒冬。不過(guò)由于技術(shù)的發(fā)展，這一限制得到突破，GPU、CPU 和 AI 加速芯片不斷被推出。

隨著深度學(xué)習(xí)的出現(xiàn)，算力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。2018 年 Bert 橫空出世，谷歌、微軟、英偉達(dá)等巨頭紛紛推出自己的大模型，將其視為下一個(gè) AI 領(lǐng)域的必爭(zhēng)的高地，例如谷歌發(fā)布首個(gè)萬(wàn)億級(jí)模型 Switch Transformer、英偉達(dá)與微軟聯(lián)合發(fā)布了 5300 億參數(shù)的 MT-NLG……

大模型伴隨而來(lái)的是大算力，我們不禁會(huì)問(wèn)，深度學(xué)習(xí)時(shí)代以來(lái)ML算力需求增加了多少？未來(lái)，隨著模型的擴(kuò)展，算力還能跟得上嗎？

近日來(lái)自阿伯丁大學(xué)、MIT 等機(jī)構(gòu)的研究者對(duì) ML 三要素中的算力需求進(jìn)行了研究。他們發(fā)現(xiàn)，在 2010 年之前訓(xùn)練所需的算力增長(zhǎng)符合摩爾定律，大約每 20 個(gè)月翻一番。自 2010 年代初深度學(xué)習(xí)問(wèn)世以來(lái)，訓(xùn)練所需的算力快速增長(zhǎng)，大約每 6 個(gè)月翻一番。2015 年末，隨著大規(guī)模 ML 模型的出現(xiàn)，訓(xùn)練算力的需求提高了 10 到 100 倍，出現(xiàn)了一種新的趨勢(shì)。

論文地址：https://arxiv.org/pdf/2202.05924.pdf
GitHub 地址：https://github.com/ML-Progress/Compute-Trends

基于上述發(fā)現(xiàn)，研究者將 ML 所需算力歷史分為三個(gè)階段：前深度學(xué)習(xí)時(shí)代；深度學(xué)習(xí)時(shí)代；大規(guī)模時(shí)代。總的來(lái)說(shuō)，該論文詳細(xì)研究了里程碑式 ML 模型隨時(shí)間變化的算力需求。

本文貢獻(xiàn)如下：

收集了 123 個(gè)具有里程碑意義的 ML 系統(tǒng)數(shù)據(jù)集，并對(duì)算力進(jìn)行了注釋；
初步將算力趨勢(shì)劃分為三個(gè)不同的階段；
對(duì)算力結(jié)果進(jìn)行檢查，討論了與以前工作的不同之處。

論文作者之一 Lennart Heim 表示：在過(guò)去的 12 年里（2010-2022 年），ML 訓(xùn)練算力增長(zhǎng)了 100 億倍。

以往工作

此前就有關(guān)于算力的研究，2018 年 Amodei 、Hernandez 介紹了兩種評(píng)估算力的方法，他們基于 15 個(gè) ML 系統(tǒng)分析了所需算力趨勢(shì)。他們發(fā)現(xiàn)，從 2012 年到 2018 年，ML 訓(xùn)練所需算力 3.4 個(gè)月翻一番。

2019 年 Sastry 等人添加了 2012 年以前的 10 篇論文補(bǔ)充了上述分析。他們發(fā)現(xiàn)從 1959 年到 2012 年，大約 2 年時(shí)間，訓(xùn)練所需算力翻一番。

2021 年 Lyzhov 擴(kuò)展了 Amodei 和 Hernandez 的數(shù)據(jù)集，他認(rèn)為在 2018 年之后算力增長(zhǎng)停滯。特別是，作者發(fā)現(xiàn) 2020 年計(jì)算最密集的模型（GPT-3）只需要比 2017 年計(jì)算最密集的模型（AlphaGo Zero）多 1.5 倍的計(jì)算量。

下圖很好的總結(jié)了上述研究：2012-2018 年，大約 3.4 個(gè)月算力翻一番（Amodei 、Hernandez 研究）；1959-2018 年，大約需要 2 年算力翻一番（Sastry 等人）；2018-2020 年，需要超過(guò) 2 年算力翻一番（Lyzhov 研究）。

在類似的研究中，2021 年 Sevilla 等人調(diào)查了可訓(xùn)練參數(shù)數(shù)量趨勢(shì)。他們發(fā)現(xiàn)，從 2000 年到 2021 年，所有應(yīng)用領(lǐng)域的參數(shù)倍增時(shí)間為 18 到 24 個(gè)月。對(duì)于語(yǔ)言模型，他們發(fā)現(xiàn)在 2016 年到 2018 年之間發(fā)生了不連續(xù)性，其中參數(shù)的倍增時(shí)間加快到 4 到 8 個(gè)月。

此外，2021 年 Desislavov 等人研究了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理系統(tǒng)中所需推理算力。但該研究與之前的工作相比，數(shù)據(jù)集更加全面，該研究數(shù)據(jù)集包含的 ML 模型比以前的數(shù)據(jù)多三倍，并且包含了 2022 年的最新數(shù)據(jù)。

趨勢(shì)解讀

研究者根據(jù)三個(gè)不同的時(shí)代和三種不同的趨勢(shì)來(lái)解讀他們整理的數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō)，在深度學(xué)習(xí)起飛前，有一個(gè)緩慢增長(zhǎng)的時(shí)代。大約在 2010 年，這一趨勢(shì)加速并且此后一直沒(méi)有放緩。另外，2015 至 2016 年大規(guī)模模型出現(xiàn)了一個(gè)新趨勢(shì)，即增長(zhǎng)速度相似，但超越以往兩個(gè)數(shù)量級(jí)（orders of magnitude, OOM）。具體可見(jiàn)下圖 1 和表 2。

圖 1：1952 年以來(lái)，里程碑式 ML 系統(tǒng)隨時(shí)間推移的訓(xùn)練算力（FLOPs）變化。

表 2：不同階段的趨勢(shì)。

研究者首先討論了 2010 至 2012 年左右向深度學(xué)習(xí)的過(guò)渡，然后是 2015 至 2016 年左右大規(guī)模模型的出現(xiàn)。他們執(zhí)行了一些替代性分析以從其他角度檢查自己的結(jié)論。

此外，研究者在附錄 B 中討論了創(chuàng)紀(jì)錄模式的趨勢(shì)，在附錄 C 中談?wù)摿瞬煌?ML 領(lǐng)域的趨勢(shì)。

向深度學(xué)習(xí)的過(guò)渡

與 Amodei & Hernandez (2018) 的結(jié)果一致，研究者發(fā)現(xiàn)深度學(xué)習(xí)出現(xiàn)前后的兩種截然不同的趨勢(shì)機(jī)制。深度學(xué)習(xí)出現(xiàn)之前，訓(xùn)練 ML 系統(tǒng)需要的算力每 17 至 29 個(gè)月翻一番。深度學(xué)習(xí)出現(xiàn)之后，整體趨勢(shì)加速，算力每 4 至 9 個(gè)月翻一番。深度學(xué)習(xí)之前的趨勢(shì)大致符合摩爾定律，根據(jù)該定律，集成電路上可以容納的晶體管數(shù)量大約每隔 18 至 24 個(gè)月翻一番，通常簡(jiǎn)化為每?jī)赡攴环?/span>

目前不清楚深度學(xué)習(xí)時(shí)代何時(shí)開(kāi)始的，從前（Pre-）深度學(xué)習(xí)到深度學(xué)習(xí)時(shí)代的過(guò)渡中沒(méi)有出現(xiàn)明顯的間斷。

此外，如果將深度學(xué)習(xí)時(shí)代的開(kāi)始定為 2010 或 2012 年，研究者的結(jié)果幾乎沒(méi)有變化，具體如下表 3 所示。

圖 2：1952 至 2022 年期間，里程碑式 ML 系統(tǒng)的算力變化趨勢(shì)。請(qǐng)?zhí)貏e注意 2010 年左右的坡度變化。

表 3：1952 至 2022 年 ML 模型的對(duì)數(shù)線性回歸結(jié)果。

大規(guī)模時(shí)代的趨勢(shì)

數(shù)據(jù)顯示，大約 2015 至 2016 年左右，大規(guī)模模型出現(xiàn)了一個(gè)新趨勢(shì)，具體可見(jiàn)下圖 3。這一趨勢(shì)始于 2015 年底 AlphaGo 的出現(xiàn)并一直延續(xù)至今。期間，這些大規(guī)模模型由科技巨擘訓(xùn)練，他們擁有的更多訓(xùn)練預(yù)算打破了以往的趨勢(shì)。

需要注意，研究者在確定哪些系統(tǒng)屬于這一新的大規(guī)模趨勢(shì)時(shí)做了直觀的決定，并證明它們是相對(duì)于鄰近模型超出了某個(gè) Z-value 閾值的模型，方法細(xì)節(jié)詳見(jiàn)附錄 A。附錄 F 討論了大規(guī)模模型在哪些方法截然不同。

圖 3：2010 至 2022 年里程碑式 ML 系統(tǒng)的算力變化趨勢(shì)。

不過(guò)，常規(guī)規(guī)模模型的趨勢(shì)依然沒(méi)有受到影響。2016 年前后趨勢(shì)是連續(xù)的，具有相同的坡度變化，每 5 至 6 個(gè)月翻一番。大規(guī)模模型算力增加趨勢(shì)顯然更慢，每 9 至 10 個(gè)月翻一番。研究者表示，由于關(guān)于這些模型的數(shù)據(jù)有限，所以明顯的減速可能是噪聲的影響。

研究者的結(jié)果與 Amodei & Hernandez (2018) 形成鮮明對(duì)比，后者發(fā)現(xiàn) 2012 至 2018 年算力翻一番用時(shí)更短 ——3.4 個(gè)月。結(jié)果也與 Lyzhov (2021) 的不同，他們發(fā)現(xiàn) 2018 至 2020 年算力翻一番用的時(shí)間更長(zhǎng) ——2 年以上。研究者理解了這些不一致的地方，原因在于其他人的分析使用了有限的數(shù)據(jù)樣本并假定單一趨勢(shì)，自己則是分別研究了大規(guī)模和常規(guī)規(guī)模的模型。

并且，由于大規(guī)模趨勢(shì)僅在近期出現(xiàn)，因而以往的分析無(wú)法區(qū)分這兩類不同的趨勢(shì)。