老黃一口氣解密三代GPU!粉碎摩爾定律打造AI帝國,量產(chǎn)Blackwell解決ChatGPT全球耗電難題 精華
就在剛剛,老黃手持Blackwell向全世界展示的那一刻,全場的觀眾沸騰了。
它,是迄今為止世界最大的芯片!
眼前的這塊產(chǎn)品,凝聚著數(shù)量驚人的技術(shù)
如果用老黃的話說,它就是「全世界迄今為止制造出來的最復雜、性能最高的計算機?!?/p>
8年內(nèi),1.8萬億參數(shù)GPT-4的訓練能耗,直接瘋狂降到1/350;而推理能耗則直接降到1/45000
英偉達產(chǎn)品的迭代速度,已經(jīng)徹底無視摩爾定律。
就如網(wǎng)友所言,無所謂,老黃有自己的摩爾定律。
一手硬件,一手CUDA,老黃胸有成竹地穿過「計算通貨膨脹」,放出豪言預測道——在不久的將來,每一個處理密集型應用都將被加速,每一個數(shù)據(jù)中心也肯定會被加速。
同時公開的Blackwell后三代路線圖:Blackwell Ultra(2025年),Rubin(2026年),Rubin Ultra(2027年)
「買得越多,省得越多」的黃式數(shù)學公式,也再次亮相。
全新計算時代開啟
演講開篇,老黃最先放出了一個Omniverse模擬世界中的演示。
他表示,「英偉達正處于計算機圖形模擬和人工智能的交叉點上。這是我們的『靈魂』」。
這一切都是物理世界中的模擬,它的實現(xiàn),得益于兩項基本的技術(shù)——加速計算和人工智能,將重塑計算機產(chǎn)業(yè)。
到目前為止,計算機行業(yè)已有60多年的歷史,而現(xiàn)在,一個全新的計算時代已然開始。
1964年,IBM的System 360首次引入了CPU,通用計算通過操作系統(tǒng)將硬件和軟件分離。
架構(gòu)兼容性、向后兼容性等等,所有我們今天所了解的技術(shù),都是從這個時間點而來。
直到1995年,PC革命開啟讓計算走進千家萬戶,更加民主化。2007年,iPhone推出直接把「電腦」裝進了口袋,并實現(xiàn)了云端鏈接。
可以看出,過去60年里,我們見證了2-3個推動計算行業(yè)轉(zhuǎn)變的重要技術(shù)節(jié)點。
加速計算:一手GPU,一手CUDA
而如今,我們將再一次見證歷史。老黃表示,「有兩個最基礎(chǔ)的事情正發(fā)生」。
首先是處理器,性能擴展已經(jīng)大大放緩,而我們所需的計算量、需要處理的數(shù)據(jù)都在呈指數(shù)級增長。
按老黃的話來說,我們正經(jīng)歷著「計算通貨膨脹」。
過去的20年里,英偉達一直在研究加速計算。比如,CUDA的出現(xiàn)加速了CPU負載。事實上,專用的GPU效果會更好。
當我們運行一個應用程序,不希望是一個運行100秒,甚至是100個小時的APP。
因此,英偉達首創(chuàng)了異構(gòu)計算,讓CPU和GPU并行運行,將過去的100個時間單位,加速到僅需要1個時間單位。
可見,它已經(jīng)實現(xiàn)了100倍速率提升,而功耗僅增加的3倍,成本僅為原來的1.5倍。
英偉達同時為價值十億美元的數(shù)據(jù)中心,配備了5億美元的GPU,讓其變成了「AI工廠」。
有了加速計算,世界上許多公司可以節(jié)省數(shù)億美元在云端處理數(shù)據(jù)。這也印證了老黃的「數(shù)學公式」,買得越多,省得越多。
除了GPU,英偉達還做了業(yè)界難以企及的事,那就是重寫軟件,以加速硬件的運行。
如下圖所示,從深度學習cuDNN、物理Modulus、通信Aerial RAN、基因序列Parabricks,到QC模擬cuQUANTUM、數(shù)據(jù)處理cuDF等領(lǐng)域,都有專用的CUDA軟件。
也就是說,沒有CUDA,就等同于計算機圖形處理沒有OpenGL,數(shù)據(jù)處理沒有SQL。
而現(xiàn)在,采用CUDA的生態(tài)遍布世界各地。就在上周,谷歌宣布將cuDF加入谷歌云中,并加速世界上受歡迎的數(shù)據(jù)科學庫Pandas。
而現(xiàn)在,只需要點擊一下,就可以在CoLab中使用Pandas。就看這數(shù)據(jù)處理速度,簡直快到令人難以置信。
老黃表示,要推行一個全新的平臺是「蛋和雞」的困境,開發(fā)者和用戶,缺一不可。
但是經(jīng)過20年的發(fā)展,CUDA已經(jīng)打破了這個困境,通過全球500萬開發(fā)者和無數(shù)領(lǐng)域的用戶實現(xiàn)了良性循環(huán)。
有越多人安裝CUDA,運行的計算量越大,他們就越能據(jù)此改進性能,迭代出更高效、更節(jié)能的CUDA。
「AI工廠」全棧重塑
2012年,神經(jīng)網(wǎng)絡(luò)AlexNet的誕生,將英偉達第一次與AI聯(lián)系起來。我們都知道,AI教父Hinton和高徒當時在2個英偉達GPU上完成AlexNet的訓練。
深度學習就此開啟,并以超乎想像的速度,擴展幾十年前發(fā)明的算法。
但由于,神經(jīng)網(wǎng)絡(luò)架構(gòu)不斷scaling,對數(shù)據(jù)、計算量「胃口」愈加龐大,這就不得不需要英偉達重新發(fā)明一切。
2012年之后,英偉達改變了Tensor Core,并發(fā)明了NvLink,還有TensorRT、Triton推理服務器等等,以及DGX超算。
當時,英偉達的做法沒有人理解,更沒人愿意為之買單。
由此,2016年,老黃親自將英偉達首個DGX超算送給了位于舊金山的一家「小公司」OpenAI。
從那之后,英偉達在不斷擴展,從一臺超算、到一個超大型數(shù)據(jù)中心。
直到,2017年Transformer架構(gòu)誕生,需要更大的數(shù)據(jù)訓練LLM,以識別和學習一段時間內(nèi)連續(xù)發(fā)生的模式。
之后,英偉達建造了更大的超算。2022年11月,在英偉達數(shù)萬個GPU上完成訓練的ChatGPT橫空出世,能夠像人類一樣交互。
這是世界第一次看到了生成式AI。它會一次輸出一個token,可以是圖像、語音、文字、視頻,甚至是天氣token,全部都是關(guān)于生成。
老黃表示,「我們可以學習的一切,現(xiàn)在都可以生成。我們現(xiàn)在已經(jīng)進入了一個全新的生成式AI時代」。
當初,那個作為超算出現(xiàn)的計算機,已經(jīng)變成了數(shù)據(jù)中心。它可以輸出token,搖身一變成為了「AI工廠」。
而這個「AI工廠」,正在創(chuàng)造和生產(chǎn)巨大價值的東西。
19世紀90年代末,尼古拉·特斯拉發(fā)明了AC Generator,而現(xiàn)在,英偉達正創(chuàng)造可以輸出token的AI Generator。
英偉達給世界帶來的是,加速計算正引領(lǐng)新一輪產(chǎn)業(yè)革命。
人類首次實現(xiàn)了,僅靠3萬億美元的IT產(chǎn)業(yè),創(chuàng)造出能夠直接服務于100萬億美元產(chǎn)業(yè)的一切東西。
傳統(tǒng)的軟件工廠,到如今AI工廠的轉(zhuǎn)變,實現(xiàn)了CPU到GPU,檢索到生成,指令到大模型,工具到技能的升級。
可見,生成式AI推動了全棧的重塑。
從Blackwell GPU到超級「AI工廠」
接下來就讓我們看看,英偉達是如何將一顆顆地表最強的Blackwell芯片,變成一座座超級「AI工廠」的。
注意看,下面這塊是搭載了Blackwell GPU的量產(chǎn)級主板。
老黃手指的這里是Grace CPU。
而在這里,我們可以清晰地看到,兩個連在一起的Blackwell芯片。
在8年里,每一代英偉達芯片的Flops,都增長了1000倍。
與此同時,摩爾定律在這8年里,卻似乎逐漸失效了。
即使和摩爾定律最好的時刻相比,Blackwell算力的提升也是驚人的。
這將直接導致的結(jié)果,就是成本的顯著下降。
比如,訓練一個1.8萬億參數(shù)、8萬億token的GPT-4所用的能耗,直接降至1/350!
Pascal需要消耗的,是1000吉瓦時,這就意味著,它需要一個1000吉瓦的數(shù)據(jù)中心。(1吉瓦=1000兆瓦)
而且如果這樣的數(shù)據(jù)中心真的存在的話,訓練也GPT-4也需要整整一個月的時間。
而100兆瓦的數(shù)據(jù)中心,大概需要一年。
這也就是為什么,ChatGPT這樣的LLM, 在八年前是根本不可能存在的。
如今有了Blackwell,過去的1000吉瓦時直接可以降到3吉瓦時。
可以說,Blackwell就是為了推理,為了生成token而生的。它直接將每token的能量降低了45000倍。
在以前,用Pascal產(chǎn)生1個token的消耗,相當于兩個200瓦的燈泡運行2天。讓GPT-4生成一個單詞,大概需要3個token。這根本不可能讓我們得到如今和GPT-4聊天的體驗。
而現(xiàn)在,我們每個token可以只使用0.4焦耳,用很少的能量,就能產(chǎn)生驚人的token。
它誕生的背景,正是運算模型規(guī)模的指數(shù)級增長。
每一次指數(shù)級增長,都進入一種嶄新的階段。
當我們從DGX擴展到大型AI超算,Transformer可以在大規(guī)模數(shù)據(jù)集上訓練。
而下一代AI,則需要理解物理世界。然而如今大多數(shù)AI并不理解物理規(guī)律。其中一種解決辦法,是讓AI學習視頻資料,另一種,則是合成數(shù)據(jù)。
第三種,則是讓計算機互相學習!本質(zhì)上就和AlphaGo的原理一樣。
巨量的計算需求涌來,如何解決?目前的辦法就是——我們需要更大的GPU。
而Blackwell,正是為此而生。
Blackwell中,有幾項重要的技術(shù)創(chuàng)新。
第一項,就是芯片的尺寸。
英偉達將兩塊目前能造出來的最大尺寸的芯片,用一條10TB/s的鏈路鏈接起來;然后再把它們放到同一個計算節(jié)點上,和一塊Grace CPU相連。
在訓練時,它被用于快速檢查點;而在推理和生成的場景,它可以用于儲存上下文內(nèi)存。
而且,這種第二代GPU還有高度的安全性,我們在使用時完全可以要求服務器保護AI不受偷竊或篡改。
并且,Blackwell中采用的是第5代NVLink。
而且,它是第一代可信賴、可使用的引擎,通過該系統(tǒng),我們可以測試每一個晶體管、觸發(fā)器、片上內(nèi)存和片外內(nèi)存,因此我們可以當場確定某個芯片是否出現(xiàn)故障。
基于此,英偉達將擁有十萬個GPU超算的故障間隔時間,縮短到了以分鐘為單位。
因此,如果我們不發(fā)明技術(shù)來提高超算的可靠性,那么它就不可能長期運行,也不可能訓練出可以運行數(shù)月的模型。
如果提高可靠性,就會提高模型正常的運行時間,而后者顯然會直接影響成本。
最后,老黃表示,解壓縮引擎的數(shù)據(jù)處理,也是英偉達必須做的最重要的事之一。
通過增加數(shù)據(jù)壓縮引擎、解壓縮引擎,就能以20倍的速度從存儲中提取數(shù)據(jù),比現(xiàn)在的速度要快得多。
超強風冷DGX & 全新液冷MGX
Blackwell是一個重大的躍進,但對老黃來說,這還不夠大。
英偉達不僅要做芯片,還要制造搭載最先進芯片的服務器。擁有Blackwell的DGX超算,在各方面都實現(xiàn)了能力躍升。
集成了Blackwell芯片的最新DGX,能耗僅比上一代Hopper提升了10倍,但FLOPS量級卻提升了45倍。
下面這個風冷的DGX Blackwell,里面有8個GPU。
而對應散熱器的尺寸也很驚人,達到了15kW,并且是完全的風冷。
如果你喜歡部署液冷系統(tǒng)呢?英偉達也有新型號MGX。
單個MGX同時集成72個Blackwell GPU,且有最新的第五代NVLink每秒130TB的傳輸速度。
NVLink將這些單獨的GPU彼此連接起來,因此我們就得到了72個GPU的MGX
介紹完芯片,老黃特意提到了英偉達研發(fā)的NVLink技術(shù),這也是英偉達的主板可以越做越大的重要原因。
由于LLM參數(shù)越來越多、越來越消耗內(nèi)存,想要把模型塞進單個GPU已經(jīng)幾乎是不可能的事情,必需搭建集群。其中,GPU通信技術(shù)的重要性不亞于計算能力。
英偉達的NVLink,是世界上最先進的GPU互連技術(shù),數(shù)據(jù)傳輸速率可以堪稱瘋狂!
因為如今的DGX擁有72個GPU,而上一代只有8個,讓GPU數(shù)直接增加了9倍。而帶寬量,則直接增加了18倍,AI FLops增加了45倍,但功率僅僅增加了10倍,也即100千瓦。
下面這個NVLink芯片,也堪稱是奇跡。
人們之所以意識到它的重要性,是因為它將所有這些不同的GPU連接在一起,從而能夠讓十萬億參數(shù)的LLM運行起來。
500億個晶體管,74個端口,每個端口400GB,7.2TB每秒的橫截面帶寬,這本身就是個奇跡。
而更重要的是,NVLink內(nèi)部還具有數(shù)學功能,可以實現(xiàn)歸約。對于芯片上的深度學習,這尤其重要。
有趣的是,NVLink技術(shù),大大拓寬了我們對于GPU的想象。
比如在傳統(tǒng)的概念中,GPU應該長成這樣。
但有了NVLink,GPU也可以變成這么大。
支撐著72個GPU的骨架,就是NVLink的5000根電纜,能夠在傳輸方面節(jié)省20kw的功耗用于芯片計算。
老黃拿在手里的,是一個NVLink的主干,用老黃的原話說,它是一個「電氣機械奇跡」
NVLink做到的僅僅是將不同GPU芯片連接在一起,于是老黃又說了一句「這還不夠宏大」。
要連接超算中心內(nèi)不同的主機,最先進的技術(shù)是「無限帶寬」(InfiniBand)。
但很多數(shù)據(jù)中心的基礎(chǔ)設(shè)施和生態(tài),都是基于曾經(jīng)使用的以太網(wǎng)構(gòu)建的,推倒重來的成本過高。
因此,為了幫助更多的數(shù)據(jù)中心順利邁進AI時代,英偉達研發(fā)了一系列與AI超算適配的以太交換機。
網(wǎng)絡(luò)級RDMA、阻塞控制、適應性路由、噪聲隔離,英偉達利用自己在這四項技術(shù)上的頂尖地位,將以太網(wǎng)改造成了適合GPU之間點對點通信的網(wǎng)絡(luò)。
由此也意味著,數(shù)百萬GPU數(shù)據(jù)中心的時代,即將到來。
全球2800萬開發(fā)者,即時部署LLM
在英偉達的AI工廠中,運行著可以加速計算推理的新型軟件——NIM。
老黃表示,「我們創(chuàng)建的是容器里的AI」。
這個容器里有大量的軟件,其中包括用于推理服務的Triton推理服務器、優(yōu)化的AI模型、云原生堆棧等等。
現(xiàn)場,老黃再一次展示了全能AI模型——可以實現(xiàn)全模態(tài)互通。有了NIM,這一切都不是問題。
它可以提供一種簡單、標準化的方式,將生成式AI添加到應用程序中,大大提高開發(fā)者的生產(chǎn)力。
現(xiàn)在,全球2800萬開發(fā)者都可以下載NIM到自己的數(shù)據(jù)中心,托管使用。
未來,不再耗費數(shù)周的時間,開發(fā)者們可以在幾分鐘內(nèi),輕松構(gòu)建生成式AI應用程序。
與此同時,NIM還支持Meta Llama 3-8B,可以在加速基礎(chǔ)設(shè)施上生成多達3倍的token。
這樣一來,企業(yè)可以使用相同的計算資源,生成更多的響應。
而基于NIM打造的各類應用,也將迸發(fā)涌現(xiàn),包括數(shù)字人、智能體、數(shù)字孿生等等。
老黃表示,「NVIDIA NIM集成到各個平臺中,開發(fā)人員可以隨處訪問,隨處運行 —— 正在幫助技術(shù)行業(yè)使生成式 AI 觸手可及」。
智能體組隊,萬億美元市場
而智能體,是未來最重要的應用。
老黃稱,幾乎每個行業(yè)都需要客服智能體,有著萬億美元的市場前景。
可以看到,在NIM容器之上,大多數(shù)智能體負責推理,去弄清任務并將其分解成多個子任務。還有一些,它們負責檢索信息、搜索,甚至是使用工具等。
所有智能體,組成了一個team。
未來,每家公司都將有大量的NIM智能體,通過連接起來組成一個團隊,完成不可能的任務。
GPT-4o軀殼,老黃做出來了
在人機交互這方面,老黃和Sam Altman可以說是想到一起了。
他表示,雖然可以使用文字或語音形式的prompt給AI下達指令,但很多應用中,我們還是需要更自然的、更類人的交互方式。
這指向了老黃的一個愿景——數(shù)字人。相比現(xiàn)在的LLM,它們可以更吸引人,更有同理心。
GPT-4o雖是實現(xiàn)了無法比擬的類人交互,但缺少的是一個「軀體」。
而這次,老黃都幫OpenAI想好了。
未來,品牌大使也不一定是「真人」,AI完全可以勝任。
從客戶服務,到廣告、游戲等各行各業(yè),數(shù)字人帶來的可能將是無限的。
連接Gen AI的CG技術(shù),還可以實時渲染出逼真的人類面部。
低延遲的數(shù)字人處理,遍及全球超過100個地區(qū)。
這是由英偉達ACE提供的魔力,能夠為創(chuàng)建栩栩如生的數(shù)字人,提供相應的AI工具。
現(xiàn)在,英偉達計劃在1億臺RTX AI個人電腦和筆記本電腦上,部署ACE PC NIM微服務。
這其中包括英偉達首個小語言模型——Nemotron-3 4.5B,專為在設(shè)備上運行而設(shè)計,具備與云端LLM相似的精度和準確性。
此外,ACE數(shù)字人類AI新套件還包括基于音軌生成身體手勢——NVIDIA Audio2Gesture,即將推出。
老黃表示,「數(shù)字人類將徹底改變各個行業(yè),ACE提供的多模態(tài)LLM和神經(jīng)圖形學的突破,使我們更接近意圖驅(qū)動計算的未來,與計算機的交互將如同與人類的交互一樣自然」。
預告下一代芯片Rubin
Hopper和Blackwell系列的推出,標志著英偉達逐漸搭建起完整的AI超算技術(shù)棧,包括CPU、GPU芯片,NVLink的GPU通信技術(shù),以及NIC和交換機組成的服務器網(wǎng)絡(luò)。
如果你愿意的話,可以讓整個數(shù)據(jù)中心都使用英偉達的技術(shù)。
這足夠大、足夠全棧了吧。但是老黃表示,我們的迭代速度還要加快,才能跟上GenAI的更新速度。
??英偉達在不久前就曾放出消息,即將把GPU的迭代速度從原來的兩年一次調(diào)整為一年一次,要用最快的速度推進所有技術(shù)的邊界。??
今天的演講中,老黃再次實錘官宣GPU年更。但是他又緊跟著疊了個甲,說自己可能會后悔。
無論如何,我們現(xiàn)在知道了,英偉達不久后就會推出Blackwell Ultra,以及明年的下一代的Rubin系列。
從孿生地球,到具身AI機器人
除了芯片和超算服務器,老黃還發(fā)布了一個所有人都沒有想到的項目——數(shù)字孿生地球「Earth-2」。
這也許是世界范圍內(nèi)最有雄心的項目(甚至沒有之一)。
而且根據(jù)老黃的口吻推測,Earth-2已經(jīng)推進了數(shù)年,今年取得的重大突破才讓他覺得,是時候亮出來了。
為什么要為建造整個地球的數(shù)字孿生?是要像小扎的元宇宙那樣,把社交和互動都搬到線上平臺嗎?
不,老黃的愿景更宏偉一些。
他希望在Earth-2的模擬,可以預測整個星球的未來,從而幫我們更好地應對氣候變化和各種極端天氣,比如可以預測臺風的登陸點。
Earth-2結(jié)合了生成式AI模型CorrDiff,基于WRF數(shù)值模擬進行訓練,能以12倍更高的解析度生成天氣模型,從25公里范圍提高到2公里。
不僅解析度更高,而且相比物理模擬的運行速度提高了1000倍,能源效率提高了3000倍,因此可以在服務器上持續(xù)運行、實時預測。
而且,Earth-2的下一步還要將預測精度從2公里提升到數(shù)十米,同時考慮城市內(nèi)的基礎(chǔ)設(shè)施,甚至可以預測到街道上什么時候會刮來強風。
而且,英偉達想數(shù)字孿生的,不止是地球,還有整個物理世界。
對于這個狂飆突進的AI時代,老黃大膽預測了下一波浪潮——物理AI,或者說是具身AI。
它們不僅需要有超高的認知能力,可以理解人類、理解物理世界,還要有極致的行動力,完成各種現(xiàn)實任務。
想象一下這個賽博朋克的未來:一群機器人在一起,像人類一樣交流、協(xié)作,在工廠里創(chuàng)造出更多的機器人。
而且,不僅僅是機器人。一切能移動的物體都會是自主的!
在多模態(tài)AI的驅(qū)動下,它們可以學習、感知世界,理解人類指令,并進化出計劃、導航以及動作技能,完成各種復雜任務。
那要怎樣訓練這些機器人呢?如果讓他們在現(xiàn)實世界橫沖直撞,代價要比訓練LLM大得多。
這時,數(shù)字孿生世界就大有用武之地了。
正像LLM可以通過RLHF進行價值觀對齊一樣,機器人也可以在遵循物理規(guī)律的數(shù)字孿生世界中不斷試錯、學習,模仿人類行為,最終達到通用智能。
Nvidia的Omniverse可以作為構(gòu)建數(shù)字孿生的平臺,集成Gen AI模型、物理模擬以及動態(tài)實時的渲染技術(shù),成為「機器人健身房」。
志在做全棧的英偉達也不僅僅滿足于操作系統(tǒng)。他們還會提供用于訓練模型的超算,以及用于運行模型的Jetson Thor和Orin。
為了適應不同應用場景下的機器人系統(tǒng),英偉達的Omniverse將逐步擴展為Warehouse生態(tài)系統(tǒng)。
這個生態(tài)將無所不包,從搭配應用程序的SDK和API,到運行邊緣AI計算的接口,再到最底層的可定制芯片。
在全棧產(chǎn)品方面,英偉達就是想要做自己的「全家桶」,讓別人無路可走。
為了讓這個AI 機器人時代看起來更真實,演示的最后,9個和老黃有同樣身高的機器人一同登場。
正如老黃所說的,「這不是未來,這一切都正在發(fā)生」。
本文轉(zhuǎn)自 新智元 ,作者:新智元
