自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度學(xué)習(xí)發(fā)展下的“摩爾困境”,人工智能又將如何破局?

人工智能 機(jī)器學(xué)習(xí)
本文介紹了在Ignite大會(huì)上,微軟正式宣布進(jìn)軍「元宇宙」,并將旗下混合現(xiàn)實(shí)會(huì)議平臺(tái)Mesh融入到Teams中。

 [[433514]]

 

前不久,微軟和英偉達(dá)推出包含5300億參數(shù)的語(yǔ)言模型MT-NLG,這是一款基于 Transformer 的模型被譽(yù)為“世界上最大、最強(qiáng)的生成語(yǔ)言模型”。

毫無(wú)疑問,這是一場(chǎng)令人印象深刻的機(jī)器學(xué)習(xí)工程展示。

然而,我們是否應(yīng)該對(duì)這種大型模型趨勢(shì)感到興奮?

01. 大腦深度學(xué)習(xí)

 研究人員估計(jì),人腦平均包含 860 億個(gè)神經(jīng)元和 100 萬(wàn)億個(gè)突觸??梢钥隙ǖ氖?,并非所有這些都用于語(yǔ)言。有趣的是,GPT-4 預(yù)計(jì)有大約 100 萬(wàn)億個(gè)參數(shù)……

盡管這個(gè)對(duì)比很粗糙,但是難道不應(yīng)該懷疑構(gòu)建與人腦大小差不多的語(yǔ)言模型是否是一個(gè)長(zhǎng)期可行的方法?

當(dāng)然,我們的大腦是經(jīng)過數(shù)百萬(wàn)年進(jìn)化產(chǎn)生的奇妙裝置,而深度學(xué)習(xí)模型才有幾十年的歷史。盡管如此,直覺應(yīng)該告訴我們,有些東西是無(wú)法計(jì)算的。

02. 深度學(xué)習(xí)、還是深度錢包?

 在龐大的文本數(shù)據(jù)集上訓(xùn)練一個(gè) 5300 億參數(shù)的模型,毫無(wú)疑問的是需要龐大的基礎(chǔ)設(shè)施。

事實(shí)上,微軟和英偉達(dá)使用了數(shù)百臺(tái) DGX-A100 的 GPU 服務(wù)器。每件售價(jià)高達(dá) 199,000 美元,再加上網(wǎng)絡(luò)設(shè)備、主機(jī)等成本,任何想要復(fù)制這個(gè)實(shí)驗(yàn)的人都必須花費(fèi)近 1 億美元。

哪些公司有業(yè)務(wù)例子可以證明在深度學(xué)習(xí)基礎(chǔ)設(shè)施上花費(fèi) 1 億美元是合理的?或者甚至是1000萬(wàn)美元?很少。

那么這些模型到底是為誰(shuí)準(zhǔn)備的呢?

03. GPU 集群

 盡管其工程才華橫溢,但在 GPU 上訓(xùn)練深度學(xué)習(xí)模型是一種費(fèi)力的事情。

根據(jù)服務(wù)器參數(shù)表顯示,每臺(tái) DGX 服務(wù)器可以消耗高達(dá) 6.5 千瓦的電量。當(dāng)然,數(shù)據(jù)中心(或服務(wù)器)至少需要同樣多的散熱能力。

除非你是史塔克家族的人,需要拯救臨冬城,否則散熱是必須處理的另一個(gè)問題。

此外,隨著公眾對(duì)氣候和社會(huì)責(zé)任問題的認(rèn)識(shí)不斷提高,公司還需要考慮到他們的碳足跡。馬薩諸塞大學(xué) 2019 年的一項(xiàng)研究,“在 GPU 上訓(xùn)練 BERT 大致相當(dāng)于一次跨美飛行”。

而 BERT-Large 擁有 3.4 億個(gè)參數(shù),訓(xùn)練起來的碳足跡究竟有多大?想想都害怕。

構(gòu)建和推廣這些龐大的模型是否有助于公司和個(gè)人理解和使用機(jī)器學(xué)習(xí)呢?

相反,如果把重點(diǎn)放在可操作性更高的技術(shù)上,就可以用來構(gòu)建高質(zhì)量的機(jī)器學(xué)習(xí)解決方案。

04. 使用預(yù)訓(xùn)練模型

 在絕大多數(shù)情況下,并不需要自定義模型體系結(jié)構(gòu)。

一個(gè)好的起點(diǎn)是尋找已針對(duì)您要解決的任務(wù)(例如,總結(jié)英文文本)進(jìn)行預(yù)訓(xùn)練的模型。

然后,快速嘗試一些模型來預(yù)測(cè)自己的數(shù)據(jù)。如果參數(shù)標(biāo)明某個(gè)參數(shù)良好,那么就完成了!如果需要更高的準(zhǔn)確性,應(yīng)該考慮對(duì)模型進(jìn)行微調(diào)。

05. 使用較小的模型

 在評(píng)估模型時(shí),應(yīng)該選擇能夠提供所需精度的最小模型。它將更快地預(yù)測(cè)并需要更少的硬件資源來進(jìn)行訓(xùn)練和推理。

這也不是什么新鮮事。熟悉計(jì)算機(jī)視覺的人會(huì)記得 SqueezeNet 于 2017 年問世時(shí),與 AlexNet 相比,模型大小減少了 50 倍,同時(shí)達(dá)到或超過了其準(zhǔn)確性。

自然語(yǔ)言處理社區(qū)也在努力縮小規(guī)模,使用知識(shí)蒸餾等遷移學(xué)習(xí)技術(shù)。DistilBERT 可能是其最廣為人知的成就。

與原始 BERT 模型相比,它保留了 97% 的語(yǔ)言理解能力,同時(shí)模型體積縮小了 40%,速度提高了 60%。相同的方法已應(yīng)用于其他模型,例如 Facebook 的 BART。

Big Science 項(xiàng)目的最新模型也令人印象深刻。如下圖所示,他們的 T0 模型在許多任務(wù)上都優(yōu)于 GPT-3,同時(shí)模型大小縮小了 16 倍。

06. 微調(diào)模型

 如果需要專門化一個(gè)模型,不需要從頭開始訓(xùn)練模型。相反,應(yīng)該對(duì)其進(jìn)行微調(diào),也就是說,僅在自己的數(shù)據(jù)上訓(xùn)練幾個(gè)時(shí)期。

使用遷移學(xué)習(xí)的好處,比如:

  •  需要收集、存儲(chǔ)、清理和注釋的數(shù)據(jù)更少
  •  實(shí)驗(yàn)和數(shù)據(jù)迭代的速度更快
  •  獲得產(chǎn)出所需的資源更少

換句話說:省時(shí)、省錢、省硬件資源、拯救世界!

07. 使用基于云的基礎(chǔ)設(shè)施

 不管喜歡與否,云計(jì)算公司都知道如何構(gòu)建高效的基礎(chǔ)設(shè)施。研究表明,基于云的基礎(chǔ)設(shè)施比替代方案更具能源和碳效率。Earth.org 表示,雖然云基礎(chǔ)設(shè)施并不完美,但仍然比替代方案更節(jié)能,并促進(jìn)對(duì)環(huán)境有益的服務(wù)和經(jīng)濟(jì)增長(zhǎng)。”

在易用性、靈活性和即用即付方面,云當(dāng)然有很多優(yōu)勢(shì)。

08. 優(yōu)化模型

 從編譯器到虛擬機(jī),軟件工程師長(zhǎng)期以來一直使用工具來自動(dòng)優(yōu)化硬件代碼。

然而,機(jī)器學(xué)習(xí)社區(qū)仍在為這個(gè)話題苦苦掙扎,這是有充分理由的。優(yōu)化模型的大小和速度是一項(xiàng)極其復(fù)雜的任務(wù),其中涉及以下技術(shù):

  •  硬件:大量面向加速訓(xùn)練任務(wù)(Graphcore、Habana)和推理任務(wù)(Google TPU、AWS Inferentia)的專用硬件。
  •  剪枝:刪除對(duì)預(yù)測(cè)結(jié)果影響很小或沒有影響的模型參數(shù)。
  •  融合:合并模型層(比如卷積和激活)。
  •  量化:以較小的值存儲(chǔ)模型參數(shù)(比如使用8位存儲(chǔ),而不是32位存儲(chǔ))

幸運(yùn)的是,自動(dòng)化工具已經(jīng)開始出現(xiàn),例如 Optimum 開源庫(kù)和 Infinity,這是一種容器化解決方案,可以以 1 毫秒的延遲提供 Transformers 的準(zhǔn)確性。

09. 結(jié)論 

在過去的幾年里,大型語(yǔ)言模型的規(guī)模每年都以 10 倍的速度增長(zhǎng)。這看起來像另一個(gè)摩爾定律。

如果機(jī)器學(xué)習(xí)沿著模型巨大化這條路走下去,會(huì)導(dǎo)致收益遞減、成本增加、復(fù)雜度增加等。

這是所期待的人工智能未來的樣子嗎?

與其追逐萬(wàn)億參數(shù)模型,不如把更多經(jīng)歷放在構(gòu)建解決現(xiàn)實(shí)世界問題的實(shí)用且高效的解決方案,豈不是更好? 

 

責(zé)任編輯:龐桂玉 來源: AI數(shù)據(jù)派
相關(guān)推薦

2019-01-08 14:15:54

2023-08-09 06:58:11

人工智能搜索引擎算法

2022-07-29 15:47:25

人工智能AI

2022-09-07 14:05:18

人工智能AI

2023-03-06 07:40:23

人工智能流程合成數(shù)據(jù)

2024-02-04 09:36:16

人工智能AIGPT-4

2021-05-20 10:38:07

人工智能AI機(jī)器學(xué)習(xí)

2021-03-22 11:04:50

人工智能邊緣人工智能

2021-04-12 11:14:22

人工智能

2021-03-22 12:08:30

人工智能

2021-08-02 10:48:05

人工智能自動(dòng)駕駛機(jī)器人

2021-08-17 10:13:19

大數(shù)據(jù)數(shù)字經(jīng)濟(jì)數(shù)據(jù)技術(shù)

2022-09-08 08:53:01

人工智能量子計(jì)算

2017-03-18 16:28:40

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2021-06-16 14:34:37

人工智能AI深度學(xué)習(xí)

2022-12-08 14:47:15

人工智能元宇宙

2023-10-31 16:43:14

人工智能光學(xué)矩陣乘法

2019-09-06 11:44:06

人工智能IT服務(wù)管理技術(shù)

2019-10-31 14:29:05

人工智能汽車技術(shù)

2024-05-06 10:44:10

人工智能藥物研發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)