自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單機(jī)訓(xùn)練200億參數(shù)大模型:Cerebras打破新紀(jì)錄

人工智能 新聞
不僅參數(shù)量要卷,訓(xùn)練效率也要卷。

本周,芯片創(chuàng)業(yè)公司 Cerebras 宣布了一個里程碑式的新進(jìn)展:在單個計算設(shè)備中訓(xùn)練了超過百億參數(shù)的 NLP(自然語言處理)人工智能模型。

由 Cerebras 訓(xùn)練的 AI 模型體量達(dá)到了前所未有的 200 億參數(shù),所有這些都無需橫跨多個加速器擴(kuò)展工作負(fù)載。這項工作足以滿足目前網(wǎng)絡(luò)上最火的文本到圖像 AI 生成模型——OpenAI 的 120 億參數(shù)大模型 DALL-E。

Cerebras 新工作中最重要的一點(diǎn)是對基礎(chǔ)設(shè)施和軟件復(fù)雜性的要求降低了。這家公司提供的芯片 Wafer Scale Engine-2(WSE2)顧名思義,蝕刻在單個臺積電 7 nm 制程的整塊晶圓上,該面積通常足以容納數(shù)百個主流芯片——具有驚人的 2.6 萬億個晶體管、85  萬個 AI 計算內(nèi)核和 40 GB 集成緩存,封裝后功耗高達(dá) 15kW。

圖片

接近晶圓大小的 Wafer Scale Engine-2,面積比一個 iPad 還大。

雖然 Cerebras 的單機(jī)在體量上已經(jīng)類似于超算了,但在單塊芯片中保留多達(dá) 200 億個參數(shù)的 NLP 模型仍然顯著降低了數(shù)千個 GPU 的訓(xùn)練成本,以及相關(guān)的硬件和擴(kuò)展要求,同時消除了在它們之間分割模型的技術(shù)困難。Cerebras 表示,后者是「NLP 工作負(fù)載中最痛苦的方面之一」,有時「需要幾個月才能完成」。

這是一個定制化的問題,不僅對每個正在處理的神經(jīng)網(wǎng)絡(luò),對于每個 GPU 的規(guī)格以及將它們聯(lián)系在一起的網(wǎng)絡(luò)都是獨(dú)一無二的——這些元素必須在第一次訓(xùn)練開始之前提前設(shè)置好,而且也不能跨系統(tǒng)移植。

圖片

Cerebras 的 CS-2 是一個獨(dú)立的超級計算集群,其中包括 Wafer Scale Engine-2 芯片,所有相關(guān)的電源、內(nèi)存和存儲子系統(tǒng)。

200 億的參數(shù)量大概是個什么水平?在人工智能領(lǐng)域里,大規(guī)模預(yù)訓(xùn)練模型是最近各家科技公司和機(jī)構(gòu)正在努力發(fā)展的方向,OpenAI 的 GPT-3 是一種 NLP 模型,它可以寫出足以欺騙人類讀者的整篇文章、做數(shù)學(xué)運(yùn)算和翻譯,其具有驚人的 1750 億個參數(shù)。DeepMind 的 Gopher 于去年年底推出,將參數(shù)量的紀(jì)錄提高到 2800 億。

最近一段時間,谷歌大腦甚至宣布訓(xùn)練了一個超過萬億參數(shù)的模型 Switch Transformer。

「在 NLP 領(lǐng)域中,體量更大的模型被證明效果更好。但傳統(tǒng)上,只有極少數(shù)公司擁有足夠的資源和專業(yè)知識來完成分解這些大型模型,將其分散到數(shù)百或數(shù)千個圖形處理單元的艱苦工作,」Cerebras 首席執(zhí)行官、聯(lián)合創(chuàng)始人 Andrew Feldman 說道。「因此也只有極少數(shù)公司可以訓(xùn)練大型 NLP 模型——這對于行業(yè)的其他人來說太昂貴、太耗時且無法使用。」

現(xiàn)在,Cerebras 的方法能夠降低 GPT-3XL 1.3B、GPT-J 6B、GPT-3 13B 和 GPT-NeoX 20B 模型的應(yīng)用門檻,使整個 AI 生態(tài)系統(tǒng)能夠在幾分鐘內(nèi)建立大型模型,并在單個 CS-2 系統(tǒng)上訓(xùn)練它們 。

圖片


然而,就像旗艦級 CPU 的時鐘速度一樣,參數(shù)量只是大模型性能的其中一項指標(biāo)。最近,一些研究在減少參數(shù)的前提下已經(jīng)取得了更好的結(jié)果,例如 DeepMind 今年 4 月提出的 Chinchilla,只用 700 億個參數(shù)就在常規(guī)情況下超過了 GPT-3 和 Gopher。

這類研究的目標(biāo)當(dāng)然是更智能的工作,而不是更努力地工作。因此 Cerebras 的成就比人們第一眼看到的更為重要——該研究讓我們相信現(xiàn)有的芯片制程水平能夠適應(yīng)日益復(fù)雜的模型,該公司表示,以特殊芯片為核心的系統(tǒng)具備了支撐「數(shù)千億甚至數(shù)萬億參數(shù)」模型的能力。

在單芯片上可訓(xùn)練參數(shù)量的爆炸式增長需要依賴 Cerebras 的 Weight Streaming 技術(shù)。該技術(shù)可以將計算和內(nèi)存占用分離,根據(jù) AI 工作負(fù)載中快速增長的參數(shù)量,允許內(nèi)存進(jìn)行任意量級的擴(kuò)展。這使得設(shè)置時間從幾個月減少到幾分鐘,并且可以在 GPT-J 和 GPT-Neo 等型號之間切換。正如研究者所說:「只需要敲幾次鍵盤。」

「Cerebras 以低成本、便捷的方式向人們提供了運(yùn)行大型語言模型的能力,開啟了人工智能令人興奮的新時代。它為那些不能花費(fèi)數(shù)千萬美元的組織提供了一個簡單而廉價的,參與到大模型競爭之中的方式,」Intersect360 研究公司的首席研究官 Dan Olds 說道?!府?dāng) CS-2 客戶在大量數(shù)據(jù)集上訓(xùn)練 GPT-3 和 GPT-J 級模型時,我們非常期待 CS-2 客戶的新應(yīng)用和新發(fā)現(xiàn)。」

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-06-24 11:41:05

芯片AI訓(xùn)練

2014-07-23 10:58:34

AnySDK

2024-01-16 12:10:33

模型數(shù)據(jù)

2025-04-01 08:45:15

2021-08-03 15:06:56

人工智能AI投資

2022-11-18 12:14:27

模型研究

2023-07-18 15:05:00

開源大模型

2023-09-04 12:58:05

2023-12-13 12:55:39

模型數(shù)據(jù)

2016-01-07 09:57:13

蘋果app store

2022-08-20 07:52:56

語言模型參數(shù)PaLM

2020-12-24 09:39:10

5G運(yùn)營商通信

2019-08-26 09:42:51

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-02-24 10:51:25

微軟開源Windows

2023-09-25 07:31:19

算力AI框架

2024-04-25 13:58:51

開源模型Vicuna

2020-04-30 13:30:30

Facebook 機(jī)器人開源

2025-03-10 09:30:00

2022-01-20 15:56:14

AI訓(xùn)練GPU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號