自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="6jg11"><strike id="6jg11"></strike></pre>

<rt id="6jg11"></rt>

<sub id="6jg11"><p id="6jg11"></p></sub>

^{<blockquote id="6jg11"></blockquote>}

<style id="6jg11"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

全球哄搶H100！英偉達(dá)成GPU霸主，首席科學(xué)家揭秘成功四要素

作者：新智元 2023-09-10 12:40:01

人工智能新聞

英偉達(dá)首席科學(xué)家揭秘英偉達(dá)GPU能如此成功的4個(gè)主要原因，4個(gè)關(guān)鍵數(shù)據(jù)帶來(lái)持續(xù)的行業(yè)競(jìng)爭(zhēng)力。

如今的英偉達(dá)，穩(wěn)坐GPU霸主王座。

ChatGPT誕生后，帶來(lái)生成式AI大爆發(fā)，徹底掀起了全球的算力爭(zhēng)奪戰(zhàn)。

前段時(shí)間，一篇文章揭露，全球?qū)100總需求量超43萬(wàn)張，而且這樣的趨勢(shì)至少持續(xù)到2024年底。

過去的10年里，英偉達(dá)成功地將自家芯片在AI任務(wù)上的性能提升了千倍。

對(duì)于一個(gè)剛剛邁入萬(wàn)億美元的公司來(lái)說(shuō)，是如何取得成功的？

近日，英偉達(dá)首席科學(xué)家Bill Dally在硅谷舉行的IEEE 2023年熱門芯片研討會(huì)上，發(fā)表了關(guān)于高性能微處理器的主題演講。

在他演講PPT中的一頁(yè)，總結(jié)了英偉達(dá)迄今為止取得成功的4個(gè)要素。

摩爾定律在英偉達(dá)的「神奇魔法」中只占很小的一部分，而全新「數(shù)字表示」占據(jù)很大一部分。

英偉達(dá)如何在10年內(nèi)將其GPU在AI任務(wù)上的性能提高了千倍

把以上所有這些加在一起，你就會(huì)得到「黃氏定律」（Huang's Law）。

黃教主曾表示，「由于圖形處理器的出現(xiàn)，摩爾定律已經(jīng)站不住腳了，代之以一個(gè)新的超強(qiáng)定律?！?/span>

數(shù)字表示：16倍提升

Dally表示，總的來(lái)說(shuō)，我們最大的收獲是來(lái)自更好的「數(shù)字表示」。

這些數(shù)字，代表著神經(jīng)網(wǎng)絡(luò)的「關(guān)鍵參數(shù)」。

其中一個(gè)參數(shù)是權(quán)重，模型中神經(jīng)元與神經(jīng)元之間的連接強(qiáng)度。

另一個(gè)是激活度，神經(jīng)元的加權(quán)輸入之和乘以多少才能決定它是否激活，從而將信息傳播到下一層。

在P100之前，英偉達(dá)GPU使用單精度浮點(diǎn)數(shù)來(lái)表示這些權(quán)重。

根據(jù)IEEE 754標(biāo)準(zhǔn)定義，這些數(shù)字長(zhǎng)度為32位，其中23位表示分?jǐn)?shù)，8位基本上是分?jǐn)?shù)的指數(shù)，還有1位表示數(shù)字的符號(hào)。

但機(jī)器學(xué)習(xí)研究人員很快發(fā)現(xiàn)，在許多計(jì)算中，可以使用不太精確的數(shù)字，而神經(jīng)網(wǎng)絡(luò)仍然會(huì)給出同樣精確的答案。

這樣做的明顯優(yōu)勢(shì)是，如果機(jī)器學(xué)習(xí)的關(guān)鍵計(jì)算——乘法和累加——需要處理更少的比特，可以使邏輯變得更快、更小、更高效。

因此，在P100中，英偉達(dá)使用了半精度FP16。

谷歌甚至提出了自己的版本，稱作bfloat16。

兩者的區(qū)別在于分?jǐn)?shù)位和指數(shù)位的相對(duì)數(shù)量：分?jǐn)?shù)位提供精度，指數(shù)位提供范圍。Bfloat16的范圍位數(shù)與FP32相同，因此在兩種格式之間來(lái)回切換更容易。

回到現(xiàn)在，英偉達(dá)領(lǐng)先的圖形處理器H100，可以使用8位數(shù)完成大規(guī)模Transformer神經(jīng)網(wǎng)絡(luò)的某些任務(wù)，如ChatGPT和其他大型語(yǔ)言模型。

然而，英偉達(dá)卻發(fā)現(xiàn)這不是一個(gè)萬(wàn)能的解決方案。

例如，英偉達(dá)的Hopper圖形處理器架構(gòu)實(shí)際上使用兩種不同的FP8格式進(jìn)行計(jì)算，一種精度稍高，另一種范圍稍大。英偉達(dá)的特殊優(yōu)勢(shì)在于知道何時(shí)使用哪種格式。

Dally和他的團(tuán)隊(duì)有各種各樣有趣的想法，可以從更少的比特中榨取更多的人工智能性能。顯然，浮點(diǎn)系統(tǒng)顯然并不理想。

一個(gè)主要問題是，無(wú)論數(shù)字有多大或多小，浮點(diǎn)精度都非常一致。

但是神經(jīng)網(wǎng)絡(luò)的參數(shù)不使用大數(shù)，而是主要集聚在0附近。因此，英偉達(dá)的R&D重點(diǎn)是尋找有效的方法來(lái)表示數(shù)字，以便它們?cè)?附近更準(zhǔn)確。

復(fù)雜指令：12.5倍

「提取和解碼指令的開銷遠(yuǎn)遠(yuǎn)超過執(zhí)行簡(jiǎn)單算術(shù)操作的開銷，」 Dally說(shuō)道。

他以一個(gè)乘法指令為例，執(zhí)行這個(gè)指令的固定開銷達(dá)到了執(zhí)行數(shù)學(xué)運(yùn)算本身所需的1.5焦耳的20倍。通過將GPU設(shè)計(jì)為在單個(gè)指令中執(zhí)行大規(guī)模計(jì)算，而不是一系列的多個(gè)指令，英偉達(dá)有效地降低了單個(gè)計(jì)算的開銷，取得了巨大的收益。

Dally表示，雖然仍然存在一些開銷，但在復(fù)雜指令的情況下，這些開銷會(huì)分?jǐn)偟礁嗟臄?shù)學(xué)運(yùn)算中。例如，復(fù)雜指令整數(shù)矩陣乘積累加（IMMA）的開銷僅占數(shù)學(xué)計(jì)算能量成本的16％。

摩爾定律：2.5倍

保持摩爾定律的有效性需要數(shù)十億美元的投資、非常復(fù)雜的工程上的設(shè)計(jì)，甚至還會(huì)帶來(lái)國(guó)際關(guān)系的不穩(wěn)定。但這些投入都不是造成英偉達(dá)GPU的成功的主要原因。

英偉達(dá)一直在使用全球最先進(jìn)的制造技術(shù)來(lái)生產(chǎn)GPU——H100采用臺(tái)積電的的N5（5納米）工藝制造。這家芯片工廠直到2022年底才開始建設(shè)它的其下一代N3工藝。在建好之前，N5就是業(yè)內(nèi)最頂尖的制造工藝。

稀疏性：2倍

將這些網(wǎng)絡(luò)變得「稀疏」以減少計(jì)算負(fù)荷是一項(xiàng)棘手的工作。

但是在A100，H100的前身中，英偉達(dá)引入了他們的新技術(shù)：「結(jié)構(gòu)化稀疏性」。這種硬件設(shè)計(jì)可以強(qiáng)制實(shí)現(xiàn)每四個(gè)可能的剪枝事件中的兩次，從而帶來(lái)了一種新的更小的矩陣計(jì)算。

Dally表示：「我們?cè)谙∈栊苑矫娴墓ぷ魃形唇Y(jié)束。我們需要再對(duì)激活函數(shù)進(jìn)行加工，并且權(quán)重中也可以有更大的稀疏性。」

責(zé)任編輯：張燕妮來(lái)源：新智元

英偉達(dá)GPU

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="lvcsp"></style>

<sub id="lvcsp"></sub>