自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2010年以來(lái),ML算力需求增長(zhǎng)100億,6個(gè)月翻番,深度學(xué)習(xí)成分水嶺

人工智能 新聞
近日,阿伯丁大學(xué)等機(jī)構(gòu)的研究者重新對(duì) 1952 年至今模型不同發(fā)展階段所需訓(xùn)練算力進(jìn)行了深入探討,并得出了與以往工作不同的結(jié)論。

算力、數(shù)據(jù)和算法是引導(dǎo)現(xiàn)代機(jī)器學(xué)習(xí)(ML)進(jìn)步的三個(gè)基本因素。

人工智能技術(shù)近年來(lái)的發(fā)展不僅仰仗于大數(shù)據(jù)和算法,更是算力不斷增強(qiáng)的結(jié)果。據(jù)了解從 2012 年到 2018 年,用于訓(xùn)練大型模型的計(jì)算能力已增長(zhǎng)了 30 萬(wàn)倍,并且約每三個(gè)半月翻一番。

人工神經(jīng)網(wǎng)絡(luò)在上世紀(jì) 80 年代就被提出,但由于算力的限制經(jīng)歷數(shù)年寒冬。不過(guò)由于技術(shù)的發(fā)展,這一限制得到突破,GPU、CPU 和 AI 加速芯片不斷被推出。

隨著深度學(xué)習(xí)的出現(xiàn),算力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。2018 年 Bert 橫空出世,谷歌、微軟、英偉達(dá)等巨頭紛紛推出自己的大模型,將其視為下一個(gè) AI 領(lǐng)域的必爭(zhēng)的高地,例如谷歌發(fā)布首個(gè)萬(wàn)億級(jí)模型 Switch Transformer、英偉達(dá)與微軟聯(lián)合發(fā)布了 5300 億參數(shù)的 MT-NLG……

大模型伴隨而來(lái)的是大算力,我們不禁會(huì)問(wèn),深度學(xué)習(xí)時(shí)代以來(lái)ML算力需求增加了多少?未來(lái),隨著模型的擴(kuò)展,算力還能跟得上嗎?

近日來(lái)自阿伯丁大學(xué)、MIT 等機(jī)構(gòu)的研究者對(duì) ML 三要素中的算力需求進(jìn)行了研究。他們發(fā)現(xiàn),在 2010 年之前訓(xùn)練所需的算力增長(zhǎng)符合摩爾定律,大約每 20 個(gè)月翻一番。自 2010 年代初深度學(xué)習(xí)問(wèn)世以來(lái),訓(xùn)練所需的算力快速增長(zhǎng),大約每 6 個(gè)月翻一番。2015 年末,隨著大規(guī)模 ML 模型的出現(xiàn),訓(xùn)練算力的需求提高了 10 到 100 倍,出現(xiàn)了一種新的趨勢(shì)。

  • 論文地址:https://arxiv.org/pdf/2202.05924.pdf
  • GitHub 地址:https://github.com/ML-Progress/Compute-Trends

基于上述發(fā)現(xiàn),研究者將 ML 所需算力歷史分為三個(gè)階段:前深度學(xué)習(xí)時(shí)代;深度學(xué)習(xí)時(shí)代;大規(guī)模時(shí)代。總的來(lái)說(shuō),該論文詳細(xì)研究了里程碑式 ML 模型隨時(shí)間變化的算力需求。

本文貢獻(xiàn)如下:

  • 收集了 123 個(gè)具有里程碑意義的 ML 系統(tǒng)數(shù)據(jù)集,并對(duì)算力進(jìn)行了注釋;
  • 初步將算力趨勢(shì)劃分為三個(gè)不同的階段;
  • 對(duì)算力結(jié)果進(jìn)行檢查,討論了與以前工作的不同之處。

論文作者之一 Lennart Heim 表示:在過(guò)去的 12 年里(2010-2022 年),ML 訓(xùn)練算力增長(zhǎng)了 100 億倍。

以往工作

此前就有關(guān)于算力的研究,2018 年 Amodei 、Hernandez 介紹了兩種評(píng)估算力的方法,他們基于 15 個(gè) ML 系統(tǒng)分析了所需算力趨勢(shì)。他們發(fā)現(xiàn),從 2012 年到 2018 年,ML 訓(xùn)練所需算力 3.4 個(gè)月翻一番。

2019 年 Sastry 等人添加了 2012 年以前的 10 篇論文補(bǔ)充了上述分析。他們發(fā)現(xiàn)從 1959 年到 2012 年,大約 2 年時(shí)間,訓(xùn)練所需算力翻一番。

2021 年 Lyzhov 擴(kuò)展了 Amodei 和 Hernandez 的數(shù)據(jù)集,他認(rèn)為在 2018 年之后算力增長(zhǎng)停滯。特別是,作者發(fā)現(xiàn) 2020 年計(jì)算最密集的模型(GPT-3)只需要比 2017 年計(jì)算最密集的模型(AlphaGo Zero)多 1.5 倍的計(jì)算量。

下圖很好的總結(jié)了上述研究:2012-2018 年,大約 3.4 個(gè)月算力翻一番(Amodei 、Hernandez 研究);1959-2018 年,大約需要 2 年算力翻一番(Sastry 等人);2018-2020 年,需要超過(guò) 2 年算力翻一番(Lyzhov 研究)。

在類似的研究中,2021 年 Sevilla 等人調(diào)查了可訓(xùn)練參數(shù)數(shù)量趨勢(shì)。他們發(fā)現(xiàn),從 2000 年到 2021 年,所有應(yīng)用領(lǐng)域的參數(shù)倍增時(shí)間為 18 到 24 個(gè)月。對(duì)于語(yǔ)言模型,他們發(fā)現(xiàn)在 2016 年到 2018 年之間發(fā)生了不連續(xù)性,其中參數(shù)的倍增時(shí)間加快到 4 到 8 個(gè)月。

此外,2021 年 Desislavov 等人研究了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理系統(tǒng)中所需推理算力。但該研究與之前的工作相比,數(shù)據(jù)集更加全面,該研究數(shù)據(jù)集包含的 ML 模型比以前的數(shù)據(jù)多三倍,并且包含了 2022 年的最新數(shù)據(jù)。

趨勢(shì)解讀

研究者根據(jù)三個(gè)不同的時(shí)代和三種不同的趨勢(shì)來(lái)解讀他們整理的數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),在深度學(xué)習(xí)起飛前,有一個(gè)緩慢增長(zhǎng)的時(shí)代。大約在 2010 年,這一趨勢(shì)加速并且此后一直沒(méi)有放緩。另外,2015 至 2016 年大規(guī)模模型出現(xiàn)了一個(gè)新趨勢(shì),即增長(zhǎng)速度相似,但超越以往兩個(gè)數(shù)量級(jí)(orders of magnitude, OOM)。具體可見(jiàn)下圖 1 和表 2。

圖 1:1952 年以來(lái),里程碑式 ML 系統(tǒng)隨時(shí)間推移的訓(xùn)練算力(FLOPs)變化。

表 2:不同階段的趨勢(shì)。

研究者首先討論了 2010 至 2012 年左右向深度學(xué)習(xí)的過(guò)渡,然后是 2015 至 2016 年左右大規(guī)模模型的出現(xiàn)。他們執(zhí)行了一些替代性分析以從其他角度檢查自己的結(jié)論。

此外,研究者在附錄 B 中討論了創(chuàng)紀(jì)錄模式的趨勢(shì),在附錄 C 中談?wù)摿瞬煌?ML 領(lǐng)域的趨勢(shì)。

向深度學(xué)習(xí)的過(guò)渡

與 Amodei & Hernandez (2018) 的結(jié)果一致,研究者發(fā)現(xiàn)深度學(xué)習(xí)出現(xiàn)前后的兩種截然不同的趨勢(shì)機(jī)制。深度學(xué)習(xí)出現(xiàn)之前,訓(xùn)練 ML 系統(tǒng)需要的算力每 17 至 29 個(gè)月翻一番。深度學(xué)習(xí)出現(xiàn)之后,整體趨勢(shì)加速,算力每 4 至 9 個(gè)月翻一番。深度學(xué)習(xí)之前的趨勢(shì)大致符合摩爾定律,根據(jù)該定律,集成電路上可以容納的晶體管數(shù)量大約每隔 18 至 24 個(gè)月翻一番,通常簡(jiǎn)化為每?jī)赡攴环?/span>

目前不清楚深度學(xué)習(xí)時(shí)代何時(shí)開(kāi)始的,從前(Pre-)深度學(xué)習(xí)到深度學(xué)習(xí)時(shí)代的過(guò)渡中沒(méi)有出現(xiàn)明顯的間斷。

此外,如果將深度學(xué)習(xí)時(shí)代的開(kāi)始定為 2010 或 2012 年,研究者的結(jié)果幾乎沒(méi)有變化,具體如下表 3 所示。

圖 2:1952 至 2022 年期間,里程碑式 ML 系統(tǒng)的算力變化趨勢(shì)。請(qǐng)?zhí)貏e注意 2010 年左右的坡度變化。

表 3:1952 至 2022 年 ML 模型的對(duì)數(shù)線性回歸結(jié)果。

大規(guī)模時(shí)代的趨勢(shì)

數(shù)據(jù)顯示,大約 2015 至 2016 年左右,大規(guī)模模型出現(xiàn)了一個(gè)新趨勢(shì),具體可見(jiàn)下圖 3。這一趨勢(shì)始于 2015 年底 AlphaGo 的出現(xiàn)并一直延續(xù)至今。期間,這些大規(guī)模模型由科技巨擘訓(xùn)練,他們擁有的更多訓(xùn)練預(yù)算打破了以往的趨勢(shì)。

需要注意,研究者在確定哪些系統(tǒng)屬于這一新的大規(guī)模趨勢(shì)時(shí)做了直觀的決定,并證明它們是相對(duì)于鄰近模型超出了某個(gè) Z-value 閾值的模型,方法細(xì)節(jié)詳見(jiàn)附錄 A。附錄 F 討論了大規(guī)模模型在哪些方法截然不同。

圖 3:2010 至 2022 年里程碑式 ML 系統(tǒng)的算力變化趨勢(shì)。

不過(guò),常規(guī)規(guī)模模型的趨勢(shì)依然沒(méi)有受到影響。2016 年前后趨勢(shì)是連續(xù)的,具有相同的坡度變化,每 5 至 6 個(gè)月翻一番。大規(guī)模模型算力增加趨勢(shì)顯然更慢,每 9 至 10 個(gè)月翻一番。研究者表示,由于關(guān)于這些模型的數(shù)據(jù)有限,所以明顯的減速可能是噪聲的影響。

研究者的結(jié)果與 Amodei & Hernandez (2018) 形成鮮明對(duì)比,后者發(fā)現(xiàn) 2012 至 2018 年算力翻一番用時(shí)更短 ——3.4 個(gè)月。結(jié)果也與 Lyzhov (2021) 的不同,他們發(fā)現(xiàn) 2018 至 2020 年算力翻一番用的時(shí)間更長(zhǎng) ——2 年以上。研究者理解了這些不一致的地方,原因在于其他人的分析使用了有限的數(shù)據(jù)樣本并假定單一趨勢(shì),自己則是分別研究了大規(guī)模和常規(guī)規(guī)模的模型。

并且,由于大規(guī)模趨勢(shì)僅在近期出現(xiàn),因而以往的分析無(wú)法區(qū)分這兩類不同的趨勢(shì)。

2010 至 2022 年數(shù)據(jù)的對(duì)數(shù)線性回歸結(jié)果。2015 年之前常規(guī)規(guī)模模型的趨勢(shì)在之后保持不變。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心Pro
相關(guān)推薦

2010-03-13 10:13:04

2019-01-07 14:13:32

云計(jì)算SaaS分水嶺

2011-12-13 20:28:40

蘋果

2009-02-23 09:34:54

畢業(yè)生職業(yè)發(fā)展職場(chǎng)定位

2023-11-08 08:40:35

JavaScriptS 模塊

2020-08-23 11:50:58

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2010-01-18 10:33:42

2020-09-10 17:54:00

差異化

2025-04-24 15:26:22

2021-02-21 11:56:01

云計(jì)算阿里云亞馬遜

2020-04-10 16:13:31

5G通信華為

2020-12-14 10:47:30

云計(jì)算云原生容器

2013-07-01 00:00:00

程序員SAP顧問(wèn)

2022-07-26 13:53:23

網(wǎng)絡(luò)安全事件網(wǎng)絡(luò)安全

2016-05-27 14:45:48

搜索

2020-09-04 11:30:06

深度學(xué)習(xí)編程人工智能

2023-11-22 15:26:24

OpenAI人工智能

2010-12-03 09:18:44

2011-07-11 16:12:05

Android應(yīng)用開(kāi)發(fā)

2011-03-14 11:16:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)