自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

4萬億個晶體管，單機可訓(xùn)練比GPT4大10倍的模型，最快最大的芯片面世

作者：機器之心 2024-03-14 11:55:33

人工智能新聞

CS-3 具有卓越的易用性。相比于大模型常用的 GPU，CS-3 需要的代碼減少 97%，并且能夠在純數(shù)據(jù)并行模式下訓(xùn)練從 1B 到 24T 參數(shù)的模型。

剛剛，芯片創(chuàng)業(yè)公司 Cerebras 宣布了該公司歷史上最重要的消息，「我們發(fā)布了世界上最快的芯片，該芯片擁有高達(dá) 4 萬億個晶體管。」

一直以來，Cerebras 一直在往「大」的芯片方面發(fā)展，此前他們發(fā)布的晶圓級引擎（Wafer Scale Engine，WSE-1）面積比 iPad 還大。第二代 WSE-2 雖然在面積上沒有變化，但卻擁有驚人的 2.6 萬億個晶體管以及 85 萬個 AI 優(yōu)化的內(nèi)核。

而現(xiàn)在推出的 WSE-3 包含 4 萬億個晶體管，在相同的功耗和價格下，WSE-3 的性能是之前記錄保持者 WSE-2 的兩倍。

此次發(fā)布的 WSE-3 是專為訓(xùn)練業(yè)界最大的 AI 模型而打造的，基于 5 納米、4 萬億晶體管的 WSE-3 將為 Cerebras CS-3 人工智能超級計算機提供動力，通過 90 萬個人工智能優(yōu)化的計算核心，提供每秒 125 petaflops 峰值 AI 性能（1 petaflops 是指每秒 1,000,000,000,000,000（1 萬億）次浮點運算）。

WSE-3 呈正方形，邊長為 21.5 厘米（面積為 46225mm^2），幾乎是使用了整個 300 毫米硅片來制造一個芯片。這么看來，憑借 WSE-3，Cerebras 可以繼續(xù)生產(chǎn)世界上最大的單芯片了。

WSE-3 大尺寸到底是個什么概念，在將其與 Nvidia H100 GPU 進行比較后發(fā)現(xiàn)，前者大了 57 倍，內(nèi)核數(shù)量增加了 52 倍，芯片內(nèi)存增加了 800 倍，內(nèi)存帶寬增加了 7000 倍，結(jié)構(gòu)帶寬增加了 3700 倍以上。而這些都是芯片實現(xiàn)高性能的基礎(chǔ)。

圖源：https://spectrum.ieee.org/cerebras-chip-cs3

下圖展示了 WSE-3 的特點：

WSE-3

前兩代晶圓級引擎的一些參數(shù)。圖源：https://twitter.com/intelligenz_b/status/1768085044898275534

配備 WSE-3 的 CS-3 計算機理論上可以處理 24 萬億個參數(shù)的大型語言模型，這比 OpenAI 的 GPT-4 等頂級生成式 AI 模型的參數(shù)高出一個數(shù)量級（據(jù)傳有 1 萬億個參數(shù)）。這么看來，具有 24 萬億個參數(shù)的模型在一臺機器上運行成為可能。

圖源：https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

CS-3 擁有高達(dá) 1.2 PB 的巨大內(nèi)存系統(tǒng)，旨在訓(xùn)練比 GPT-4 和 Gemini 還大 10 倍的下一代前沿模型。24 萬億個參數(shù)的模型可以存儲在單個邏輯內(nèi)存空間中，無需分區(qū)或重構(gòu)，從而極大地簡化了訓(xùn)練工作流程并提高了開發(fā)人員的工作效率。在 CS-3 上訓(xùn)練 1 萬億個參數(shù)模型就像在 GPU 上訓(xùn)練 10 億個參數(shù)模型一樣簡單。

CS-3 專為滿足企業(yè)和超大規(guī)模需求而構(gòu)建。緊湊的四系統(tǒng)配置可以在一天內(nèi)微調(diào) 70B 模型，同時使用 2048 個系統(tǒng)進行全面擴展，Llama 70B 可以在一天內(nèi)從頭開始訓(xùn)練，這對于生成式 AI 來說是前所未有的壯舉。

最新的 Cerebras 軟件框架為 PyTorch 2.0 和最新的 AI 模型和技術(shù)（如多模態(tài)模型、視覺 transformer、MoE 和擴散模型）提供原生支持。Cerebras 仍是唯一能為動態(tài)和非結(jié)構(gòu)化稀疏性提供本機硬件加速的平臺，可以將訓(xùn)練速度提高 8 倍。

「八年前，當(dāng)我們開始這一旅程時，每個人都說晶圓級處理器是一個白日夢。我們非常自豪能夠推出第三代突破性人工智能芯片，并且很高興將 WSE-3 和 CS-3 推向市場，以幫助解決當(dāng)今最大的人工智能挑戰(zhàn)」，Cerebras 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Andrew Feldman 如是說道。

Cerebras 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Andrew Feldman

卓越的功耗效率和軟件易用性

由于每個組件都針對 AI 工作進行了優(yōu)化，CS-3 比任何其他系統(tǒng)都能以更小的空間和更低的功耗提供更高的計算性能。CS-3 性能翻倍，功耗卻保持不變。

CS-3 具有卓越的易用性。相比于大模型常用的 GPU，CS-3 需要的代碼減少 97%，并且能夠在純數(shù)據(jù)并行模式下訓(xùn)練從 1B 到 24T 參數(shù)的模型。GPT-3 大小的模型在 Cerebras 上實現(xiàn)只需要 565 行代碼（而 GPU 需要 20,507 行）—— 這是行業(yè)紀(jì)錄。

圖源：https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

目前，Cerebras 已經(jīng)積壓了大量來自科技企業(yè)、科研機構(gòu)的訂單。美國阿貢國家實驗室負(fù)責(zé)計算、環(huán)境和生命科學(xué)的實驗室副主任 Rick Stevens 稱贊道：「Cerebras 的大膽精神將為人工智能的未來鋪平道路?！?/span>

責(zé)任編輯：張燕妮來源：機器之心

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營