自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

11分鐘訓(xùn)完GPT-3！英偉達H100 橫掃MLPerf 8項基準(zhǔn)測試，下一代顯卡25年發(fā)布

作者：新智元 2023-06-29 17:40:10

人工智能新聞

黃老板又贏麻了！在最新的MLPerf基準(zhǔn)測試中，H100成功創(chuàng)下8項測試紀(jì)錄。而外媒透露，下一代消費級顯卡或在2025發(fā)布。

最新MLPerf訓(xùn)練基準(zhǔn)測試中，H100 GPU在所有的八項測試中都創(chuàng)下了新紀(jì)錄！

如今，NVIDIA H100幾乎已經(jīng)統(tǒng)治了所有類別，并且是新LLM基準(zhǔn)測試中使用的唯一的GPU。

圖片

3,584個H100 GPU群在短短11分鐘內(nèi)完成了基于GPT-3的大規(guī)?；鶞?zhǔn)測試。

MLPerf LLM基準(zhǔn)測試是基于OpenAI的GPT-3模型進行的，包含1750億個參數(shù)。

Lambda Labs估計，訓(xùn)練這樣一個大模型需要大約3.14E23 FLOPS的計算量。

11分鐘訓(xùn)出GPT-3的怪獸是如何構(gòu)成的

在LLM和BERT自然語言處理 (NLP) 基準(zhǔn)測試中排名最高的系統(tǒng)，是由NVIDIA和Inflection AI聯(lián)合開發(fā)。

由專門從事企業(yè)級GPU加速工作負(fù)載的云服務(wù)提供商CoreWeave托管。

該系統(tǒng)結(jié)合了3584個NVIDIA H100加速器和896個Intel Xeon Platinum 8462Y+處理器。

圖片

因為英偉達在H100中引入了新的Transformer引擎，專門用于加速Transformer模型訓(xùn)練和推理，將訓(xùn)練速度提高了6倍。

CoreWeave從云端提供的性能與英偉達從本地數(shù)據(jù)中心運行的AI超級計算機所能提供的性能已經(jīng)非常接近了。

這得益于CoreWeave使用的NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)具有低延遲網(wǎng)絡(luò)。

隨著參與訓(xùn)練的H100 GPU從數(shù)百個擴展到3000多個。

良好的優(yōu)化使得整個技術(shù)堆棧在要求嚴(yán)苛的LLM測試中實現(xiàn)了近乎線性的性能擴展。

如果將GPU的數(shù)量降低到一半，訓(xùn)練相同的模型時間會增加到24分鐘。

說明整個系統(tǒng)的效率潛力，隨著GPU的增加，是超線性的。

最主要的原因是，英偉達從GPU設(shè)計之初就考慮到了這個問題，使用NVLink技術(shù)來高效實現(xiàn)了GPU之間的通信。

圖片

在參與測試的90個系統(tǒng)中，有82個系統(tǒng)都使用了英偉達的GPU進行加速。

圖片

單卡訓(xùn)練效率

圖片

系統(tǒng)集群訓(xùn)練時間對比

英特爾參加測評的系統(tǒng)使用64到96個不等的Intel Xeon Platinum 8380 處理器和256到389個不等的Intel Habana Gaudi2加速器。

然而，英特爾提交的GPT-3的訓(xùn)練時間為311分鐘。

成績和英偉達相比就稍微有點慘不忍睹了。

分析師：英偉達優(yōu)勢過大

行業(yè)分析師認(rèn)為，英偉達的在GPU上的技術(shù)優(yōu)勢是非常明顯的。

而它作為AI基礎(chǔ)設(shè)施提供商，在行業(yè)中的主導(dǎo)地位還體現(xiàn)在英偉達多年建立起來的生態(tài)系統(tǒng)粘性上。

AI社區(qū)對英偉達的軟件的依賴性也非常強。

幾乎所有AI框架都基于英偉達提供的底層CUDA庫和工具。

圖片

而且它還能提供全堆棧的AI工具和解決方案。

除了為AI開發(fā)人員提供支持之外，英偉達還繼續(xù)投資用于管理工作負(fù)載和模型的企業(yè)級工具。

在可預(yù)見的未來，英偉達在行業(yè)的領(lǐng)先地位將會非常穩(wěn)固。

分析師還進一步指出。

MLPerf測試結(jié)果中所展現(xiàn)的，NVIDIA系統(tǒng)在云端進行AI訓(xùn)練的強大功能和效率，才是英偉達「戰(zhàn)未來」的最大本錢。

下一代Ada Lovelace GPU，2025年發(fā)布

Tom's Hardware自由撰稿人Zhiye Liu也于近日發(fā)文，介紹了下一代英偉達Ada Lovelace顯卡的計劃。

H100訓(xùn)練大模型的能力，毋庸置疑。

只用3584個H100，短短11分鐘內(nèi)，就能訓(xùn)練出一個GPT-3模型。

在最近的新聞發(fā)布會上，英偉達分享了一份新路線圖，詳細(xì)介紹了下一代產(chǎn)品，包括GeForce RTX 40系列Ada Lovelace GPU的繼任者，而前者，是當(dāng)今最好的游戲顯卡。

圖片

根據(jù)路線圖，英偉達計劃在2025年推出「Ada Lovelace-Next」顯卡。

如果繼續(xù)沿用當(dāng)前的命名方案，下一代GeForce產(chǎn)品應(yīng)該是作為GeForce RTX 50系列上市。

根據(jù)南美組織LAPSU$得到的信息，Hopper Next很可能被命名為Blackwell。

在消費級顯卡上，英偉達保持著兩年一更新的節(jié)奏。

他們在2016年推出了Pascal，在2018年推出了Turing，在2020年推出了Ampere，在2022年推出了Ada Lovelace。

如果這次Ada Lovelace的繼任者會在2025年推出，英偉達無疑就打破了通常的節(jié)奏。

圖片

最近的AI大爆發(fā)，產(chǎn)生了對英偉達GPU的巨大需求，無論是最新的H100，還是上一代的A100。

根據(jù)報道，某大廠今年就訂購了價值10億美元的Nvidia GPU。

盡管有出口限制，但我國仍然是英偉達在全世界最大的市場之一。

（據(jù)說，在深圳華強北電子市場，就可以買到少量英偉達A100，每塊售價為2萬美元，是通常價格的兩倍。）

對此，英偉達已經(jīng)對某些AI產(chǎn)品做了微調(diào)，發(fā)布了H100或A800等特定SKU，以滿足出口要求。

Zhiye Liu對此分析道，換個角度看，出口法規(guī)其實是有利于英偉達的，因為這意味著芯片制造商客戶必須購買更多原版GPU的變體，才能獲得同等的性能。

這也就能理解，為什么英偉達會優(yōu)先考慮生成計算GPU，而非游戲GPU了。

最近的報道顯示，英偉達已經(jīng)增加了計算級GPU的產(chǎn)量。

沒有面臨來自AMD的RDNA 3產(chǎn)品堆棧的激烈競爭，英特爾也沒有對GPU雙頭壟斷構(gòu)成嚴(yán)重威脅，因此，英偉達在消費側(cè)可以拖延。

最近，Nvidia通過GeForce RTX 4060和GeForce RTX 4060 Ti，將其GeForce RTX 40系列產(chǎn)品堆棧又?jǐn)U大了。

GeForce RTX 4050以及頂部的RTX 4080 Ti或GeForce RTX 4090 Ti等，都有潛力。

如果迫不得已，英偉達還可以從舊的Turing版本中拿出一個產(chǎn)品，更新Ada Lovelace，給它封個「Super」待遇，進一步擴展Ada陣容。

最后，Zhiye Liu表示，至少今年或明年，Lovelace架構(gòu)不會真正更新。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="4f3vn"></style>

<style id="4f3vn"></style>

<sub id="4f3vn"></sub>