自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全球哄搶H100!英偉達(dá)成GPU霸主,首席科學(xué)家揭秘成功四要素

人工智能 新聞
英偉達(dá)首席科學(xué)家揭秘英偉達(dá)GPU能如此成功的4個(gè)主要原因,4個(gè)關(guān)鍵數(shù)據(jù)帶來(lái)持續(xù)的行業(yè)競(jìng)爭(zhēng)力。

如今的英偉達(dá),穩(wěn)坐GPU霸主王座。

ChatGPT誕生后,帶來(lái)生成式AI大爆發(fā),徹底掀起了全球的算力爭(zhēng)奪戰(zhàn)。

前段時(shí)間,一篇文章揭露,全球?qū)100總需求量超43萬(wàn)張,而且這樣的趨勢(shì)至少持續(xù)到2024年底。

過去的10年里,英偉達(dá)成功地將自家芯片在AI任務(wù)上的性能提升了千倍。

對(duì)于一個(gè)剛剛邁入萬(wàn)億美元的公司來(lái)說(shuō),是如何取得成功的?

近日,英偉達(dá)首席科學(xué)家Bill Dally在硅谷舉行的IEEE 2023年熱門芯片研討會(huì)上,發(fā)表了關(guān)于高性能微處理器的主題演講。

在他演講PPT中的一頁(yè),總結(jié)了英偉達(dá)迄今為止取得成功的4個(gè)要素。

摩爾定律在英偉達(dá)的「神奇魔法」中只占很小的一部分,而全新「數(shù)字表示」占據(jù)很大一部分。

英偉達(dá)如何在10年內(nèi)將其GPU在AI任務(wù)上的性能提高了千倍

把以上所有這些加在一起,你就會(huì)得到「黃氏定律」(Huang's Law)。

黃教主曾表示,「由于圖形處理器的出現(xiàn),摩爾定律已經(jīng)站不住腳了,代之以一個(gè)新的超強(qiáng)定律?!?/span>

數(shù)字表示:16倍提升

Dally表示,總的來(lái)說(shuō),我們最大的收獲是來(lái)自更好的「數(shù)字表示」。

這些數(shù)字,代表著神經(jīng)網(wǎng)絡(luò)的「關(guān)鍵參數(shù)」。

其中一個(gè)參數(shù)是權(quán)重,模型中神經(jīng)元與神經(jīng)元之間的連接強(qiáng)度。

另一個(gè)是激活度,神經(jīng)元的加權(quán)輸入之和乘以多少才能決定它是否激活,從而將信息傳播到下一層。

在P100之前,英偉達(dá)GPU使用單精度浮點(diǎn)數(shù)來(lái)表示這些權(quán)重。

根據(jù)IEEE 754標(biāo)準(zhǔn)定義,這些數(shù)字長(zhǎng)度為32位,其中23位表示分?jǐn)?shù),8位基本上是分?jǐn)?shù)的指數(shù),還有1位表示數(shù)字的符號(hào)。

但機(jī)器學(xué)習(xí)研究人員很快發(fā)現(xiàn),在許多計(jì)算中,可以使用不太精確的數(shù)字,而神經(jīng)網(wǎng)絡(luò)仍然會(huì)給出同樣精確的答案。

這樣做的明顯優(yōu)勢(shì)是,如果機(jī)器學(xué)習(xí)的關(guān)鍵計(jì)算——乘法和累加——需要處理更少的比特,可以使邏輯變得更快、更小、更高效。

因此,在P100中,英偉達(dá)使用了半精度FP16。

谷歌甚至提出了自己的版本,稱作bfloat16。

兩者的區(qū)別在于分?jǐn)?shù)位和指數(shù)位的相對(duì)數(shù)量:分?jǐn)?shù)位提供精度,指數(shù)位提供范圍。Bfloat16的范圍位數(shù)與FP32相同,因此在兩種格式之間來(lái)回切換更容易。

回到現(xiàn)在,英偉達(dá)領(lǐng)先的圖形處理器H100,可以使用8位數(shù)完成大規(guī)模Transformer神經(jīng)網(wǎng)絡(luò)的某些任務(wù),如ChatGPT和其他大型語(yǔ)言模型。

然而,英偉達(dá)卻發(fā)現(xiàn)這不是一個(gè)萬(wàn)能的解決方案。

例如,英偉達(dá)的Hopper圖形處理器架構(gòu)實(shí)際上使用兩種不同的FP8格式進(jìn)行計(jì)算,一種精度稍高,另一種范圍稍大。英偉達(dá)的特殊優(yōu)勢(shì)在于知道何時(shí)使用哪種格式。

Dally和他的團(tuán)隊(duì)有各種各樣有趣的想法,可以從更少的比特中榨取更多的人工智能性能。顯然,浮點(diǎn)系統(tǒng)顯然并不理想。

一個(gè)主要問題是,無(wú)論數(shù)字有多大或多小,浮點(diǎn)精度都非常一致。

但是神經(jīng)網(wǎng)絡(luò)的參數(shù)不使用大數(shù),而是主要集聚在0附近。因此,英偉達(dá)的R&D重點(diǎn)是尋找有效的方法來(lái)表示數(shù)字,以便它們?cè)?附近更準(zhǔn)確。

復(fù)雜指令:12.5倍

「提取和解碼指令的開銷遠(yuǎn)遠(yuǎn)超過執(zhí)行簡(jiǎn)單算術(shù)操作的開銷,」 Dally說(shuō)道。

他以一個(gè)乘法指令為例,執(zhí)行這個(gè)指令的固定開銷達(dá)到了執(zhí)行數(shù)學(xué)運(yùn)算本身所需的1.5焦耳的20倍。通過將GPU設(shè)計(jì)為在單個(gè)指令中執(zhí)行大規(guī)模計(jì)算,而不是一系列的多個(gè)指令,英偉達(dá)有效地降低了單個(gè)計(jì)算的開銷,取得了巨大的收益。

Dally表示,雖然仍然存在一些開銷,但在復(fù)雜指令的情況下,這些開銷會(huì)分?jǐn)偟礁嗟臄?shù)學(xué)運(yùn)算中。例如,復(fù)雜指令整數(shù)矩陣乘積累加(IMMA)的開銷僅占數(shù)學(xué)計(jì)算能量成本的16%。

摩爾定律:2.5倍

保持摩爾定律的有效性需要數(shù)十億美元的投資、非常復(fù)雜的工程上的設(shè)計(jì),甚至還會(huì)帶來(lái)國(guó)際關(guān)系的不穩(wěn)定。但這些投入都不是造成英偉達(dá)GPU的成功的主要原因。

英偉達(dá)一直在使用全球最先進(jìn)的制造技術(shù)來(lái)生產(chǎn)GPU——H100采用臺(tái)積電的的N5(5納米)工藝制造。這家芯片工廠直到2022年底才開始建設(shè)它的其下一代N3工藝。在建好之前,N5就是業(yè)內(nèi)最頂尖的制造工藝。

稀疏性:2倍

將這些網(wǎng)絡(luò)變得「稀疏」以減少計(jì)算負(fù)荷是一項(xiàng)棘手的工作。

但是在A100,H100的前身中,英偉達(dá)引入了他們的新技術(shù):「結(jié)構(gòu)化稀疏性」。這種硬件設(shè)計(jì)可以強(qiáng)制實(shí)現(xiàn)每四個(gè)可能的剪枝事件中的兩次,從而帶來(lái)了一種新的更小的矩陣計(jì)算。

Dally表示:「我們?cè)谙∈栊苑矫娴墓ぷ魃形唇Y(jié)束。我們需要再對(duì)激活函數(shù)進(jìn)行加工,并且權(quán)重中也可以有更大的稀疏性。」

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2022-08-24 10:57:38

深度學(xué)習(xí)人工智能

2022-11-03 14:13:24

騰訊科學(xué)家

2023-11-21 09:14:33

微軟Azure AI

2021-05-31 08:13:39

亞馬遜職場(chǎng)面試

2023-08-06 13:01:34

AI開發(fā)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2025-01-14 14:20:47

2012-12-06 15:36:55

CIO

2017-06-29 15:53:43

5Gsdnnfv

2024-11-11 15:05:44

2023-09-18 12:50:16

訓(xùn)練數(shù)據(jù)

2009-03-27 09:09:03

GoogleAndroid移動(dòng)OS

2017-03-22 20:18:04

百度人工智能吳恩達(dá)

2020-04-03 18:27:21

戴爾

2013-03-08 09:57:59

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2024-09-05 14:10:00

AI計(jì)算

2023-07-26 14:00:47

模型研究

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2024-03-14 14:49:34

Meta人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)