自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="kzodl"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

老黃H100再破紀(jì)錄，4分鐘訓(xùn)完GPT-3！全新「特供版」H20、L20和L2曝光，性能史詩級(jí)縮水

作者：新智元 2023-11-10 15:35:52

人工智能新聞

英偉達(dá)H100再次刷榜了，不到4分鐘就訓(xùn)完GPT-3，比6月成績(jī)提升3倍。另外，特供版H20、L20和L2性能全都爆出。

H100再次在MLPerf中刷新了記錄！

英偉達(dá)超算NVIDIA Eos在GPT-3模型的基準(zhǔn)測(cè)試中，只用了3.9分鐘就完成了訓(xùn)練。

這比6月份的刷新記錄的成績(jī)——10.9分鐘，提升了近3倍。

Eos使用了多達(dá)10,752個(gè)H100和NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)互連。

通過推算，Eos現(xiàn)在可以在短短8天內(nèi)進(jìn)行訓(xùn)練，比之前使用512個(gè)A100 GPU的先進(jìn)系統(tǒng)快73倍。

在本輪新的生成式AI測(cè)試中，1,024個(gè)NVIDIA Hopper架構(gòu)GPU在2.5分鐘內(nèi)完成了基于Stable Diffusion文本到圖像模型的訓(xùn)練基準(zhǔn)測(cè)試，為這一新工作負(fù)載設(shè)定了高標(biāo)準(zhǔn)。

與此同時(shí)，外媒曝光了英偉達(dá)為應(yīng)對(duì)新規(guī)而打造的全新「特供版」芯片——H20、L20和L2。

系統(tǒng)擴(kuò)展效率飆升93%

最新的結(jié)果部分是由于使用了有史以來應(yīng)用于MLPerf基準(zhǔn)測(cè)試的最多加速器。

10,752個(gè)H100 GPU遠(yuǎn)遠(yuǎn)超過了6月份AI訓(xùn)練的規(guī)模，當(dāng)時(shí)英偉達(dá)使用了3,584個(gè)Hopper GPU。

GPU數(shù)量擴(kuò)展3倍，性能擴(kuò)展了2.8倍，效率達(dá)到93%，這在一定程度上要?dú)w功于軟件優(yōu)化。

高效擴(kuò)展是生成式AI的關(guān)鍵要求，因?yàn)長(zhǎng)LM每年都在以一個(gè)數(shù)量級(jí)的速度增長(zhǎng)。

最新結(jié)果顯示，即使是世界上最大的數(shù)據(jù)中心，英偉達(dá)也有能力應(yīng)對(duì)這一前所未有的挑戰(zhàn)。

這一成就歸功于加速器、系統(tǒng)和軟件創(chuàng)新的全棧平臺(tái)，Eos和Microsoft Azure在最近一輪測(cè)試中都使用了該平臺(tái)。

Eos和Azure在各自的提交中都采用了10,752個(gè)H100。它們的表現(xiàn)相差不到2%，展示了英偉達(dá)AI在數(shù)據(jù)中心和公有云部署中的高效性。

英偉達(dá)依靠Eos完成了各種關(guān)鍵任務(wù)。

它有助于推進(jìn)NVIDIA DLSS和ChipNeMo等計(jì)劃，后者是幫助設(shè)計(jì)下一代GPU的生成式AI工具。

9項(xiàng)基準(zhǔn)測(cè)試，刷新記錄

除了在生成式AI方面取得進(jìn)步，英偉達(dá)在這一輪測(cè)試中還刷新了幾項(xiàng)新的記錄。

比如，在訓(xùn)練推薦系統(tǒng)模型的測(cè)試中，H100 GPU比上一輪快了1.6倍。在計(jì)算機(jī)視覺模型RetinaNet的測(cè)試中，性能提高了1.8倍。

這些性能提升來源于軟件和硬件規(guī)模擴(kuò)充的優(yōu)化結(jié)合。

英偉達(dá)再次成為唯一一家完成了所有MLPerf測(cè)試的公司。H100在9項(xiàng)基準(zhǔn)測(cè)試中展示了最快的性能和最大的擴(kuò)展性。

這些加速為用戶訓(xùn)練大模型或用NeMo等框架自定義模型以滿足業(yè)務(wù)需求,帶來了更快上市時(shí)間、更低成本和節(jié)省能源。

這一輪測(cè)試中，包括華碩、戴爾技術(shù)、富士通、技嘉、聯(lián)想、QCT和超微等11家系統(tǒng)制造商在提交結(jié)果中使用了NVIDIA AI平臺(tái)。

特供版H20、L20和L2性能曝光

在過去幾年中，美國(guó)對(duì)高性能硬件出口實(shí)施了非常嚴(yán)格的限制。

尤其是在2023年11月生效的新規(guī)，更是要求所有達(dá)到一定總處理性能和/或性能密度的硬件都必須獲得出口許可。

據(jù)最新泄露的文件和四位熟悉內(nèi)情的人士透露，為了遵守美國(guó)的出口管制，英偉達(dá)已經(jīng)推出了三款全新的「中國(guó)定制版」芯片——HGX H20、L20 PCle 和 L2 PCle GPU。

其中，HGX H20配有高達(dá)96GB的HBM3顯存，以及4TB/s的帶寬，并且基于全新的Hopper架構(gòu)。

與H100的50MB二級(jí)緩存相比，H20還擁有更大的60MB二級(jí)緩存。

然而在性能方面，HGX H20只能提供FP64精度1 TFLOPS（H100為34 TFLOPS）和FP16/BF16精度148 TFLOPS（H100為1,979 TFLOPS）的算力。

由此，功耗也從700W降到了400W。

有趣的是，基于安培架構(gòu)并配備24GB HBM2的入門級(jí)A30 GPU，在FP64和FP16/BF16精度下，都要比HGX H20快不少。

至于L20和L2 PCIe GPU，則是基于閹割后的AD102和AD104核心，對(duì)應(yīng)的是與L40和L40S相同的市場(chǎng)。

更直觀地，RTX 4090采用的便是AD102的變體，而4070和4070Ti則是基于AD104的變體。

除此之外，為了遵守新規(guī)，HGX H20、L20 PCle和L2 PCle GPU不僅性能是殘血的，而且還只配備了殘血版的NVLink連接。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="yotwo"></blockquote>}

^{<blockquote id="yotwo"></blockquote>}

^{<blockquote id="yotwo"></blockquote>}