自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="uimea"></blockquote>}

<pre id="uimea"><span id="uimea"><ol id="uimea"></ol></span></pre>

<abbr id="uimea"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

4萬億晶體管5nm制程，全球最快AI芯片碾壓H100！單機可訓(xùn)24萬億參數(shù)LLM，Llama 70B一天搞定

作者：新智元 2024-03-15 08:30:00

人工智能新聞

AI世界的進化快的有點跟不上了。剛剛，全球最強最大AI芯片WSE-3發(fā)布，4萬億晶體管5nm工藝制程。更厲害的是，WSE-3打造的單個超算可訓(xùn)出24萬億參數(shù)模型，相當(dāng)于GPT-4/Gemini的十倍大。

全球最快、最強的AI芯片面世，讓整個行業(yè)瞬間驚掉了下巴！

就在剛剛，AI芯片初創(chuàng)公司Cerebras重磅發(fā)布了「第三代晶圓級引擎」（WSE-3）。

性能上，WSE-3是上一代WSE-2的兩倍，且功耗依舊保持不變。

90萬個AI核心，44GB的片上SRAM存儲，讓W(xué)SE-3的峰值性能達到了125 FP16 PetaFLOPS。

這相當(dāng)于52塊英偉達H100 GPU！

不僅如此，相比于800億個晶體管，芯片面積為814平方毫米的英偉達H100。

采用臺積電5nm制程的WSE-3，不僅搭載了40000億個晶體管（50倍），芯片面積更是高達46225平方毫米（57倍）。

專為AI打造的計算能力

此前，在傳統(tǒng)的GPU集群上，研究團隊不僅需要科學(xué)地分配模型，還必須在過程中處理各種復(fù)雜問題，比如處理器單元的內(nèi)存容量、互聯(lián)帶寬、同步機制等等，同時還要不斷調(diào)整超參數(shù)并進行優(yōu)化實驗。

更令人頭疼的是，最終的實現(xiàn)很容易因為小小的變動而受到影響，這樣就會進一步延長解決問題所需的總時間。

相比之下，WSE-3的每一個核心都可以獨立編程，并且專為神經(jīng)網(wǎng)絡(luò)訓(xùn)練和深度學(xué)習(xí)推理中，所需的基于張量的稀疏線性代數(shù)運算，進行了優(yōu)化。

而團隊也可以在WSE-3的加持下，以前所未有的速度和規(guī)模訓(xùn)練和運行AI模型，并且不需要任何復(fù)雜分布式編程技巧。

單芯片實現(xiàn)集群級性能

其中，WSE-3配備的44GB片上SRAM內(nèi)存均勻分布在芯片表面，使得每個核心都能在單個時鐘周期內(nèi)以極高的帶寬（21 PB/s）訪問到快速內(nèi)存——是當(dāng)今地表最強GPU英偉達H100的7000倍。

超高帶寬，極低延遲

而WSE-3的片上互連技術(shù)，更是實現(xiàn)了核心間驚人的214 Pb/s互連帶寬，是H100系統(tǒng)的3715倍。

單個CS-3可訓(xùn)24萬億參數(shù)，大GPT-4十倍

由WSE-3組成的CS-3超算，可訓(xùn)練比GPT-4和Gemini大10倍的下一代前沿大模型。

再次打破了「摩爾定律」！2019年Cerebras首次推出CS-1，便打破了這一長達50年的行業(yè)法則。

官方博客中的一句話，簡直刷新世界觀：

在CS-3上訓(xùn)練一個萬億參數(shù)模型，就像在GPU上訓(xùn)練一個10億參數(shù)模型一樣簡單！

顯然，Cerebras的CS-3強勢出擊，就是為了加速最新的大模型訓(xùn)練。

它配備了高達1.2PB的巨大存儲系統(tǒng)，單個系統(tǒng)即可訓(xùn)出24萬億參數(shù)的模型——為比GPT-4和Gemini大十倍的模型鋪平道路。

簡之，無需分區(qū)或重構(gòu)，大大簡化訓(xùn)練工作流提高開發(fā)效率。

在Llama 2、Falcon 40B、MPT-30B以及多模態(tài)模型的真實測試中，CS-3每秒輸出的token是上一代的2倍。

而且，CS-3在不增加功耗/成本的情況下，將性能提高了一倍。

除此之外，為了跟上不斷升級的計算和內(nèi)存需求，Cerebras提高了集群的可擴展性。

上一代CS-2支持多達192個系統(tǒng)的集群，而CS-3可配置高達2048個系統(tǒng)集群，性能飆升10倍。

具體來說，由2048個CS-3組成的集群，可以提供256 exafloop的AI計算。

能夠在24小時內(nèi)，從頭訓(xùn)練一個Llama 70B的模型。

相比之下，Llama2 70B可是用了大約一個月的時間，在Meta的GPU集群上完成的訓(xùn)練。

與GPU系統(tǒng)的另一個不同是，Cerebras晶圓規(guī)模集群可分離計算和內(nèi)存組件，讓開發(fā)者能輕松擴展MemoryX單元中的內(nèi)存容量。

得益于Cerebras獨特的Weight Streaming架構(gòu)，整個集群看起來與單個芯片無異。

換言之，一名ML工程師可以在一臺系統(tǒng)上開發(fā)和調(diào)試數(shù)萬億個參數(shù)模型，這在GPU領(lǐng)域是聞所未聞的。

具體來說，CS-3除了為企業(yè)提供24TB和36TB這兩個版本外，還有面向超算的120TB和1200TB內(nèi)存版本。（之前的CS-2集群只有1.5TB和12TB可選）

單個CS-3可與單個1200 TB內(nèi)存單元配對使用，這意味著單個CS-3機架可以存儲模型參數(shù)，比10000個節(jié)點的GPU集群多得多。

除此之外，與使用GPU相比，在Cerebras平臺上開發(fā)所需的代碼量還減少了高達97%。

更令人震驚的數(shù)字是——訓(xùn)練一個GPT-3規(guī)模的模型，僅需565行代碼！

Playground AI創(chuàng)始人稱，GPT-3正穩(wěn)步成為AI領(lǐng)域的新「Hello World」。在Cerebras上，一個標(biāo)準(zhǔn)的GPT-3規(guī)模的模型，只需565行代碼即可實現(xiàn)，創(chuàng)下行業(yè)新紀(jì)錄。

首個世界最強芯片打造的超算來了

由G42和Cerebras聯(lián)手打造的超級計算機——Condor Galaxy，是目前在云端構(gòu)建AI模型最簡單、最快速的解決方案。

它具備超過16 ExaFLOPs的AI計算能力，能夠在幾小時之內(nèi)完成對最復(fù)雜模型的訓(xùn)練，這一過程在傳統(tǒng)系統(tǒng)中可能需要數(shù)天。

其MemoryX系統(tǒng)擁有TB級別的內(nèi)存容量，能夠輕松處理超過1000億參數(shù)的大模型，大大簡化了大規(guī)模訓(xùn)練的復(fù)雜度。

與現(xiàn)有的基于GPU的集群系統(tǒng)不同，Condor Galaxy在處理GPT這類大型語言模型，包括GPT的不同變體、Falcon和Llama時，展現(xiàn)出了幾乎完美的擴展能力。

這意味著，隨著更多的CS-3設(shè)備投入使用，模型訓(xùn)練的時間將按照幾乎完美的比例縮短。

而且，配置一個生成式AI模型只需幾分鐘，不再是數(shù)月，這一切只需一人便可輕松完成。

在簡化大規(guī)模AI計算方面，傳統(tǒng)系統(tǒng)因為需要在多個節(jié)點之間同步大量處理器而遇到了難題。

而Cerebras的全片級計算系統(tǒng)（WSC）則輕松跨越這一障礙——它通過無縫整合各個組件，實現(xiàn)了大規(guī)模并行計算，并提供了簡潔的數(shù)據(jù)并行編程界面。

此前，這兩家公司已經(jīng)聯(lián)手打造了世界上最大的兩臺AI超級計算機：Condor Galaxy 1和Condor Galaxy 2，綜合性能達到8exaFLOPs。

G42集團的首席技術(shù)官Kiril Evtimov表示：「我們正在建設(shè)的下一代AI超級計算機Condor Galaxy 3，具有8exaFLOPs的性能，很快將使我們的AI計算總產(chǎn)能達到16exaFLOPs?！?/span>

如今，我們即將迎來新一波的創(chuàng)新浪潮，而全球AI革命的腳步，也再一次被加快了。

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="gpv1k"><track id="gpv1k"></track></cite>