2010年以來(lái),ML算力需求增長(zhǎng)100億,6個(gè)月翻番,深度學(xué)習(xí)成分水嶺
算力、數(shù)據(jù)和算法是引導(dǎo)現(xiàn)代機(jī)器學(xué)習(xí)(ML)進(jìn)步的三個(gè)基本因素。
人工智能技術(shù)近年來(lái)的發(fā)展不僅仰仗于大數(shù)據(jù)和算法,更是算力不斷增強(qiáng)的結(jié)果。據(jù)了解從 2012 年到 2018 年,用于訓(xùn)練大型模型的計(jì)算能力已增長(zhǎng)了 30 萬(wàn)倍,并且約每三個(gè)半月翻一番。
人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì) 80 年代就被提出,但由于算力的限制經(jīng)歷數(shù)年寒冬。不過(guò)由于技術(shù)的發(fā)展,這一限制得到突破,GPU、CPU 和 AI 加速芯片不斷被推出。
隨著深度學(xué)習(xí)的出現(xiàn),算力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。2018 年 Bert 橫空出世,谷歌、微軟、英偉達(dá)等巨頭紛紛推出自己的大模型,將其視為下一個(gè) AI 領(lǐng)域的必爭(zhēng)的高地,例如谷歌發(fā)布首個(gè)萬(wàn)億級(jí)模型 Switch Transformer、英偉達(dá)與微軟聯(lián)合發(fā)布了 5300 億參數(shù)的 MT-NLG……
大模型伴隨而來(lái)的是大算力,我們不禁會(huì)問(wèn),深度學(xué)習(xí)時(shí)代以來(lái)ML算力需求增加了多少?未來(lái),隨著模型的擴(kuò)展,算力還能跟得上嗎?
近日來(lái)自阿伯丁大學(xué)、MIT 等機(jī)構(gòu)的研究者對(duì) ML 三要素中的算力需求進(jìn)行了研究。他們發(fā)現(xiàn),在 2010 年之前訓(xùn)練所需的算力增長(zhǎng)符合摩爾定律,大約每 20 個(gè)月翻一番。自 2010 年代初深度學(xué)習(xí)問(wèn)世以來(lái),訓(xùn)練所需的算力快速增長(zhǎng),大約每 6 個(gè)月翻一番。2015 年末,隨著大規(guī)模 ML 模型的出現(xiàn),訓(xùn)練算力的需求提高了 10 到 100 倍,出現(xiàn)了一種新的趨勢(shì)。
- 論文地址:https://arxiv.org/pdf/2202.05924.pdf
- GitHub 地址:https://github.com/ML-Progress/Compute-Trends
基于上述發(fā)現(xiàn),研究者將 ML 所需算力歷史分為三個(gè)階段:前深度學(xué)習(xí)時(shí)代;深度學(xué)習(xí)時(shí)代;大規(guī)模時(shí)代。總的來(lái)說(shuō),該論文詳細(xì)研究了里程碑式 ML 模型隨時(shí)間變化的算力需求。
本文貢獻(xiàn)如下:
- 收集了 123 個(gè)具有里程碑意義的 ML 系統(tǒng)數(shù)據(jù)集,并對(duì)算力進(jìn)行了注釋;
- 初步將算力趨勢(shì)劃分為三個(gè)不同的階段;
- 對(duì)算力結(jié)果進(jìn)行檢查,討論了與以前工作的不同之處。
論文作者之一 Lennart Heim 表示:在過(guò)去的 12 年里(2010-2022 年),ML 訓(xùn)練算力增長(zhǎng)了 100 億倍。
以往工作
此前就有關(guān)于算力的研究,2018 年 Amodei 、Hernandez 介紹了兩種評(píng)估算力的方法,他們基于 15 個(gè) ML 系統(tǒng)分析了所需算力趨勢(shì)。他們發(fā)現(xiàn),從 2012 年到 2018 年,ML 訓(xùn)練所需算力 3.4 個(gè)月翻一番。
2019 年 Sastry 等人添加了 2012 年以前的 10 篇論文補(bǔ)充了上述分析。他們發(fā)現(xiàn)從 1959 年到 2012 年,大約 2 年時(shí)間,訓(xùn)練所需算力翻一番。
2021 年 Lyzhov 擴(kuò)展了 Amodei 和 Hernandez 的數(shù)據(jù)集,他認(rèn)為在 2018 年之后算力增長(zhǎng)停滯。特別是,作者發(fā)現(xiàn) 2020 年計(jì)算最密集的模型(GPT-3)只需要比 2017 年計(jì)算最密集的模型(AlphaGo Zero)多 1.5 倍的計(jì)算量。
下圖很好的總結(jié)了上述研究:2012-2018 年,大約 3.4 個(gè)月算力翻一番(Amodei 、Hernandez 研究);1959-2018 年,大約需要 2 年算力翻一番(Sastry 等人);2018-2020 年,需要超過(guò) 2 年算力翻一番(Lyzhov 研究)。
在類似的研究中,2021 年 Sevilla 等人調(diào)查了可訓(xùn)練參數(shù)數(shù)量趨勢(shì)。他們發(fā)現(xiàn),從 2000 年到 2021 年,所有應(yīng)用領(lǐng)域的參數(shù)倍增時(shí)間為 18 到 24 個(gè)月。對(duì)于語(yǔ)言模型,他們發(fā)現(xiàn)在 2016 年到 2018 年之間發(fā)生了不連續(xù)性,其中參數(shù)的倍增時(shí)間加快到 4 到 8 個(gè)月。
此外,2021 年 Desislavov 等人研究了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理系統(tǒng)中所需推理算力。但該研究與之前的工作相比,數(shù)據(jù)集更加全面,該研究數(shù)據(jù)集包含的 ML 模型比以前的數(shù)據(jù)多三倍,并且包含了 2022 年的最新數(shù)據(jù)。
趨勢(shì)解讀
研究者根據(jù)三個(gè)不同的時(shí)代和三種不同的趨勢(shì)來(lái)解讀他們整理的數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),在深度學(xué)習(xí)起飛前,有一個(gè)緩慢增長(zhǎng)的時(shí)代。大約在 2010 年,這一趨勢(shì)加速并且此后一直沒(méi)有放緩。另外,2015 至 2016 年大規(guī)模模型出現(xiàn)了一個(gè)新趨勢(shì),即增長(zhǎng)速度相似,但超越以往兩個(gè)數(shù)量級(jí)(orders of magnitude, OOM)。具體可見(jiàn)下圖 1 和表 2。
圖 1:1952 年以來(lái),里程碑式 ML 系統(tǒng)隨時(shí)間推移的訓(xùn)練算力(FLOPs)變化。
表 2:不同階段的趨勢(shì)。
研究者首先討論了 2010 至 2012 年左右向深度學(xué)習(xí)的過(guò)渡,然后是 2015 至 2016 年左右大規(guī)模模型的出現(xiàn)。他們執(zhí)行了一些替代性分析以從其他角度檢查自己的結(jié)論。
此外,研究者在附錄 B 中討論了創(chuàng)紀(jì)錄模式的趨勢(shì),在附錄 C 中談?wù)摿瞬煌?ML 領(lǐng)域的趨勢(shì)。
向深度學(xué)習(xí)的過(guò)渡
與 Amodei & Hernandez (2018) 的結(jié)果一致,研究者發(fā)現(xiàn)深度學(xué)習(xí)出現(xiàn)前后的兩種截然不同的趨勢(shì)機(jī)制。深度學(xué)習(xí)出現(xiàn)之前,訓(xùn)練 ML 系統(tǒng)需要的算力每 17 至 29 個(gè)月翻一番。深度學(xué)習(xí)出現(xiàn)之后,整體趨勢(shì)加速,算力每 4 至 9 個(gè)月翻一番。深度學(xué)習(xí)之前的趨勢(shì)大致符合摩爾定律,根據(jù)該定律,集成電路上可以容納的晶體管數(shù)量大約每隔 18 至 24 個(gè)月翻一番,通常簡(jiǎn)化為每?jī)赡攴环?/span>
目前不清楚深度學(xué)習(xí)時(shí)代何時(shí)開(kāi)始的,從前(Pre-)深度學(xué)習(xí)到深度學(xué)習(xí)時(shí)代的過(guò)渡中沒(méi)有出現(xiàn)明顯的間斷。
此外,如果將深度學(xué)習(xí)時(shí)代的開(kāi)始定為 2010 或 2012 年,研究者的結(jié)果幾乎沒(méi)有變化,具體如下表 3 所示。
圖 2:1952 至 2022 年期間,里程碑式 ML 系統(tǒng)的算力變化趨勢(shì)。請(qǐng)?zhí)貏e注意 2010 年左右的坡度變化。
表 3:1952 至 2022 年 ML 模型的對(duì)數(shù)線性回歸結(jié)果。
大規(guī)模時(shí)代的趨勢(shì)
數(shù)據(jù)顯示,大約 2015 至 2016 年左右,大規(guī)模模型出現(xiàn)了一個(gè)新趨勢(shì),具體可見(jiàn)下圖 3。這一趨勢(shì)始于 2015 年底 AlphaGo 的出現(xiàn)并一直延續(xù)至今。期間,這些大規(guī)模模型由科技巨擘訓(xùn)練,他們擁有的更多訓(xùn)練預(yù)算打破了以往的趨勢(shì)。
需要注意,研究者在確定哪些系統(tǒng)屬于這一新的大規(guī)模趨勢(shì)時(shí)做了直觀的決定,并證明它們是相對(duì)于鄰近模型超出了某個(gè) Z-value 閾值的模型,方法細(xì)節(jié)詳見(jiàn)附錄 A。附錄 F 討論了大規(guī)模模型在哪些方法截然不同。
圖 3:2010 至 2022 年里程碑式 ML 系統(tǒng)的算力變化趨勢(shì)。
不過(guò),常規(guī)規(guī)模模型的趨勢(shì)依然沒(méi)有受到影響。2016 年前后趨勢(shì)是連續(xù)的,具有相同的坡度變化,每 5 至 6 個(gè)月翻一番。大規(guī)模模型算力增加趨勢(shì)顯然更慢,每 9 至 10 個(gè)月翻一番。研究者表示,由于關(guān)于這些模型的數(shù)據(jù)有限,所以明顯的減速可能是噪聲的影響。
研究者的結(jié)果與 Amodei & Hernandez (2018) 形成鮮明對(duì)比,后者發(fā)現(xiàn) 2012 至 2018 年算力翻一番用時(shí)更短 ——3.4 個(gè)月。結(jié)果也與 Lyzhov (2021) 的不同,他們發(fā)現(xiàn) 2018 至 2020 年算力翻一番用的時(shí)間更長(zhǎng) ——2 年以上。研究者理解了這些不一致的地方,原因在于其他人的分析使用了有限的數(shù)據(jù)樣本并假定單一趨勢(shì),自己則是分別研究了大規(guī)模和常規(guī)規(guī)模的模型。
并且,由于大規(guī)模趨勢(shì)僅在近期出現(xiàn),因而以往的分析無(wú)法區(qū)分這兩類不同的趨勢(shì)。
2010 至 2022 年數(shù)據(jù)的對(duì)數(shù)線性回歸結(jié)果。2015 年之前常規(guī)規(guī)模模型的趨勢(shì)在之后保持不變。