全球哄搶H100!英偉達(dá)成GPU霸主,首席科學(xué)家揭秘成功四要素
如今的英偉達(dá),穩(wěn)坐GPU霸主王座。
ChatGPT誕生后,帶來(lái)生成式AI大爆發(fā),徹底掀起了全球的算力爭(zhēng)奪戰(zhàn)。
前段時(shí)間,一篇文章揭露,全球?qū)100總需求量超43萬(wàn)張,而且這樣的趨勢(shì)至少持續(xù)到2024年底。
過去的10年里,英偉達(dá)成功地將自家芯片在AI任務(wù)上的性能提升了千倍。
對(duì)于一個(gè)剛剛邁入萬(wàn)億美元的公司來(lái)說(shuō),是如何取得成功的?
近日,英偉達(dá)首席科學(xué)家Bill Dally在硅谷舉行的IEEE 2023年熱門芯片研討會(huì)上,發(fā)表了關(guān)于高性能微處理器的主題演講。
在他演講PPT中的一頁(yè),總結(jié)了英偉達(dá)迄今為止取得成功的4個(gè)要素。
摩爾定律在英偉達(dá)的「神奇魔法」中只占很小的一部分,而全新「數(shù)字表示」占據(jù)很大一部分。
英偉達(dá)如何在10年內(nèi)將其GPU在AI任務(wù)上的性能提高了千倍
把以上所有這些加在一起,你就會(huì)得到「黃氏定律」(Huang's Law)。
黃教主曾表示,「由于圖形處理器的出現(xiàn),摩爾定律已經(jīng)站不住腳了,代之以一個(gè)新的超強(qiáng)定律?!?/span>
數(shù)字表示:16倍提升
Dally表示,總的來(lái)說(shuō),我們最大的收獲是來(lái)自更好的「數(shù)字表示」。
這些數(shù)字,代表著神經(jīng)網(wǎng)絡(luò)的「關(guān)鍵參數(shù)」。
其中一個(gè)參數(shù)是權(quán)重,模型中神經(jīng)元與神經(jīng)元之間的連接強(qiáng)度。
另一個(gè)是激活度,神經(jīng)元的加權(quán)輸入之和乘以多少才能決定它是否激活,從而將信息傳播到下一層。
在P100之前,英偉達(dá)GPU使用單精度浮點(diǎn)數(shù)來(lái)表示這些權(quán)重。
根據(jù)IEEE 754標(biāo)準(zhǔn)定義,這些數(shù)字長(zhǎng)度為32位,其中23位表示分?jǐn)?shù),8位基本上是分?jǐn)?shù)的指數(shù),還有1位表示數(shù)字的符號(hào)。
但機(jī)器學(xué)習(xí)研究人員很快發(fā)現(xiàn),在許多計(jì)算中,可以使用不太精確的數(shù)字,而神經(jīng)網(wǎng)絡(luò)仍然會(huì)給出同樣精確的答案。
這樣做的明顯優(yōu)勢(shì)是,如果機(jī)器學(xué)習(xí)的關(guān)鍵計(jì)算——乘法和累加——需要處理更少的比特,可以使邏輯變得更快、更小、更高效。
因此,在P100中,英偉達(dá)使用了半精度FP16。
谷歌甚至提出了自己的版本,稱作bfloat16。
兩者的區(qū)別在于分?jǐn)?shù)位和指數(shù)位的相對(duì)數(shù)量:分?jǐn)?shù)位提供精度,指數(shù)位提供范圍。Bfloat16的范圍位數(shù)與FP32相同,因此在兩種格式之間來(lái)回切換更容易。
回到現(xiàn)在,英偉達(dá)領(lǐng)先的圖形處理器H100,可以使用8位數(shù)完成大規(guī)模Transformer神經(jīng)網(wǎng)絡(luò)的某些任務(wù),如ChatGPT和其他大型語(yǔ)言模型。
然而,英偉達(dá)卻發(fā)現(xiàn)這不是一個(gè)萬(wàn)能的解決方案。
例如,英偉達(dá)的Hopper圖形處理器架構(gòu)實(shí)際上使用兩種不同的FP8格式進(jìn)行計(jì)算,一種精度稍高,另一種范圍稍大。英偉達(dá)的特殊優(yōu)勢(shì)在于知道何時(shí)使用哪種格式。
Dally和他的團(tuán)隊(duì)有各種各樣有趣的想法,可以從更少的比特中榨取更多的人工智能性能。顯然,浮點(diǎn)系統(tǒng)顯然并不理想。
一個(gè)主要問題是,無(wú)論數(shù)字有多大或多小,浮點(diǎn)精度都非常一致。
但是神經(jīng)網(wǎng)絡(luò)的參數(shù)不使用大數(shù),而是主要集聚在0附近。因此,英偉達(dá)的R&D重點(diǎn)是尋找有效的方法來(lái)表示數(shù)字,以便它們?cè)?附近更準(zhǔn)確。
復(fù)雜指令:12.5倍
「提取和解碼指令的開銷遠(yuǎn)遠(yuǎn)超過執(zhí)行簡(jiǎn)單算術(shù)操作的開銷,」 Dally說(shuō)道。
他以一個(gè)乘法指令為例,執(zhí)行這個(gè)指令的固定開銷達(dá)到了執(zhí)行數(shù)學(xué)運(yùn)算本身所需的1.5焦耳的20倍。通過將GPU設(shè)計(jì)為在單個(gè)指令中執(zhí)行大規(guī)模計(jì)算,而不是一系列的多個(gè)指令,英偉達(dá)有效地降低了單個(gè)計(jì)算的開銷,取得了巨大的收益。
Dally表示,雖然仍然存在一些開銷,但在復(fù)雜指令的情況下,這些開銷會(huì)分?jǐn)偟礁嗟臄?shù)學(xué)運(yùn)算中。例如,復(fù)雜指令整數(shù)矩陣乘積累加(IMMA)的開銷僅占數(shù)學(xué)計(jì)算能量成本的16%。
摩爾定律:2.5倍
保持摩爾定律的有效性需要數(shù)十億美元的投資、非常復(fù)雜的工程上的設(shè)計(jì),甚至還會(huì)帶來(lái)國(guó)際關(guān)系的不穩(wěn)定。但這些投入都不是造成英偉達(dá)GPU的成功的主要原因。
英偉達(dá)一直在使用全球最先進(jìn)的制造技術(shù)來(lái)生產(chǎn)GPU——H100采用臺(tái)積電的的N5(5納米)工藝制造。這家芯片工廠直到2022年底才開始建設(shè)它的其下一代N3工藝。在建好之前,N5就是業(yè)內(nèi)最頂尖的制造工藝。
稀疏性:2倍
將這些網(wǎng)絡(luò)變得「稀疏」以減少計(jì)算負(fù)荷是一項(xiàng)棘手的工作。
但是在A100,H100的前身中,英偉達(dá)引入了他們的新技術(shù):「結(jié)構(gòu)化稀疏性」。這種硬件設(shè)計(jì)可以強(qiáng)制實(shí)現(xiàn)每四個(gè)可能的剪枝事件中的兩次,從而帶來(lái)了一種新的更小的矩陣計(jì)算。
Dally表示:「我們?cè)谙∈栊苑矫娴墓ぷ魃形唇Y(jié)束。我們需要再對(duì)激活函數(shù)進(jìn)行加工,并且權(quán)重中也可以有更大的稀疏性。」