自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="6pwid"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題精華

發(fā)布于 2024-6-3 09:09

瀏覽

0收藏

就在剛剛，老黃手持Blackwell向全世界展示的那一刻，全場的觀眾沸騰了。

它，是迄今為止世界最大的芯片！

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

眼前的這塊產(chǎn)品，凝聚著數(shù)量驚人的技術(shù)

如果用老黃的話說，它就是「全世界迄今為止制造出來的最復雜、性能最高的計算機?！?/p>

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

8年內(nèi)，1.8萬億參數(shù)GPT-4的訓練能耗，直接瘋狂降到1/350；而推理能耗則直接降到1/45000

英偉達產(chǎn)品的迭代速度，已經(jīng)徹底無視摩爾定律。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

就如網(wǎng)友所言，無所謂，老黃有自己的摩爾定律。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

一手硬件，一手CUDA，老黃胸有成竹地穿過「計算通貨膨脹」，放出豪言預測道——在不久的將來，每一個處理密集型應用都將被加速，每一個數(shù)據(jù)中心也肯定會被加速。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

同時公開的Blackwell后三代路線圖：Blackwell Ultra（2025年），Rubin（2026年），Rubin Ultra（2027年）

「買得越多，省得越多」的黃式數(shù)學公式，也再次亮相。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

全新計算時代開啟

演講開篇，老黃最先放出了一個Omniverse模擬世界中的演示。

他表示，「英偉達正處于計算機圖形模擬和人工智能的交叉點上。這是我們的『靈魂』」。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

這一切都是物理世界中的模擬，它的實現(xiàn)，得益于兩項基本的技術(shù)——加速計算和人工智能，將重塑計算機產(chǎn)業(yè)。

到目前為止，計算機行業(yè)已有60多年的歷史，而現(xiàn)在，一個全新的計算時代已然開始。

1964年，IBM的System 360首次引入了CPU，通用計算通過操作系統(tǒng)將硬件和軟件分離。

架構(gòu)兼容性、向后兼容性等等，所有我們今天所了解的技術(shù)，都是從這個時間點而來。

直到1995年，PC革命開啟讓計算走進千家萬戶，更加民主化。2007年，iPhone推出直接把「電腦」裝進了口袋，并實現(xiàn)了云端鏈接。

可以看出，過去60年里，我們見證了2-3個推動計算行業(yè)轉(zhuǎn)變的重要技術(shù)節(jié)點。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

加速計算：一手GPU，一手CUDA

而如今，我們將再一次見證歷史。老黃表示，「有兩個最基礎(chǔ)的事情正發(fā)生」。

首先是處理器，性能擴展已經(jīng)大大放緩，而我們所需的計算量、需要處理的數(shù)據(jù)都在呈指數(shù)級增長。

按老黃的話來說，我們正經(jīng)歷著「計算通貨膨脹」。

過去的20年里，英偉達一直在研究加速計算。比如，CUDA的出現(xiàn)加速了CPU負載。事實上，專用的GPU效果會更好。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

當我們運行一個應用程序，不希望是一個運行100秒，甚至是100個小時的APP。

因此，英偉達首創(chuàng)了異構(gòu)計算，讓CPU和GPU并行運行，將過去的100個時間單位，加速到僅需要1個時間單位。

可見，它已經(jīng)實現(xiàn)了100倍速率提升，而功耗僅增加的3倍，成本僅為原來的1.5倍。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

英偉達同時為價值十億美元的數(shù)據(jù)中心，配備了5億美元的GPU，讓其變成了「AI工廠」。

有了加速計算，世界上許多公司可以節(jié)省數(shù)億美元在云端處理數(shù)據(jù)。這也印證了老黃的「數(shù)學公式」，買得越多，省得越多。

除了GPU，英偉達還做了業(yè)界難以企及的事，那就是重寫軟件，以加速硬件的運行。

如下圖所示，從深度學習cuDNN、物理Modulus、通信Aerial RAN、基因序列Parabricks，到QC模擬cuQUANTUM、數(shù)據(jù)處理cuDF等領(lǐng)域，都有專用的CUDA軟件。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

也就是說，沒有CUDA，就等同于計算機圖形處理沒有OpenGL，數(shù)據(jù)處理沒有SQL。

而現(xiàn)在，采用CUDA的生態(tài)遍布世界各地。就在上周，谷歌宣布將cuDF加入谷歌云中，并加速世界上受歡迎的數(shù)據(jù)科學庫Pandas。

而現(xiàn)在，只需要點擊一下，就可以在CoLab中使用Pandas。就看這數(shù)據(jù)處理速度，簡直快到令人難以置信。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

老黃表示，要推行一個全新的平臺是「蛋和雞」的困境，開發(fā)者和用戶，缺一不可。

但是經(jīng)過20年的發(fā)展，CUDA已經(jīng)打破了這個困境，通過全球500萬開發(fā)者和無數(shù)領(lǐng)域的用戶實現(xiàn)了良性循環(huán)。

有越多人安裝CUDA，運行的計算量越大，他們就越能據(jù)此改進性能，迭代出更高效、更節(jié)能的CUDA。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

「AI工廠」全棧重塑

2012年，神經(jīng)網(wǎng)絡(luò)AlexNet的誕生，將英偉達第一次與AI聯(lián)系起來。我們都知道，AI教父Hinton和高徒當時在2個英偉達GPU上完成AlexNet的訓練。

深度學習就此開啟，并以超乎想像的速度，擴展幾十年前發(fā)明的算法。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

但由于，神經(jīng)網(wǎng)絡(luò)架構(gòu)不斷scaling，對數(shù)據(jù)、計算量「胃口」愈加龐大，這就不得不需要英偉達重新發(fā)明一切。

2012年之后，英偉達改變了Tensor Core，并發(fā)明了NvLink，還有TensorRT、Triton推理服務器等等，以及DGX超算。

當時，英偉達的做法沒有人理解，更沒人愿意為之買單。

由此，2016年，老黃親自將英偉達首個DGX超算送給了位于舊金山的一家「小公司」OpenAI。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

從那之后，英偉達在不斷擴展，從一臺超算、到一個超大型數(shù)據(jù)中心。

直到，2017年Transformer架構(gòu)誕生，需要更大的數(shù)據(jù)訓練LLM，以識別和學習一段時間內(nèi)連續(xù)發(fā)生的模式。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

之后，英偉達建造了更大的超算。2022年11月，在英偉達數(shù)萬個GPU上完成訓練的ChatGPT橫空出世，能夠像人類一樣交互。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

這是世界第一次看到了生成式AI。它會一次輸出一個token，可以是圖像、語音、文字、視頻，甚至是天氣token，全部都是關(guān)于生成。

老黃表示，「我們可以學習的一切，現(xiàn)在都可以生成。我們現(xiàn)在已經(jīng)進入了一個全新的生成式AI時代」。

當初，那個作為超算出現(xiàn)的計算機，已經(jīng)變成了數(shù)據(jù)中心。它可以輸出token，搖身一變成為了「AI工廠」。

而這個「AI工廠」，正在創(chuàng)造和生產(chǎn)巨大價值的東西。

19世紀90年代末，尼古拉·特斯拉發(fā)明了AC Generator，而現(xiàn)在，英偉達正創(chuàng)造可以輸出token的AI Generator。

英偉達給世界帶來的是，加速計算正引領(lǐng)新一輪產(chǎn)業(yè)革命。

人類首次實現(xiàn)了，僅靠3萬億美元的IT產(chǎn)業(yè)，創(chuàng)造出能夠直接服務于100萬億美元產(chǎn)業(yè)的一切東西。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

傳統(tǒng)的軟件工廠，到如今AI工廠的轉(zhuǎn)變，實現(xiàn)了CPU到GPU，檢索到生成，指令到大模型，工具到技能的升級。

可見，生成式AI推動了全棧的重塑。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

從Blackwell GPU到超級「AI工廠」

接下來就讓我們看看，英偉達是如何將一顆顆地表最強的Blackwell芯片，變成一座座超級「AI工廠」的。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

注意看，下面這塊是搭載了Blackwell GPU的量產(chǎn)級主板。

老黃手指的這里是Grace CPU。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

而在這里，我們可以清晰地看到，兩個連在一起的Blackwell芯片。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

在8年里，每一代英偉達芯片的Flops，都增長了1000倍。

與此同時，摩爾定律在這8年里，卻似乎逐漸失效了。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

即使和摩爾定律最好的時刻相比，Blackwell算力的提升也是驚人的。

這將直接導致的結(jié)果，就是成本的顯著下降。

比如，訓練一個1.8萬億參數(shù)、8萬億token的GPT-4所用的能耗，直接降至1/350！

Pascal需要消耗的，是1000吉瓦時，這就意味著，它需要一個1000吉瓦的數(shù)據(jù)中心。（1吉瓦=1000兆瓦）

而且如果這樣的數(shù)據(jù)中心真的存在的話，訓練也GPT-4也需要整整一個月的時間。

而100兆瓦的數(shù)據(jù)中心，大概需要一年。

這也就是為什么，ChatGPT這樣的LLM，在八年前是根本不可能存在的。

如今有了Blackwell，過去的1000吉瓦時直接可以降到3吉瓦時。

可以說，Blackwell就是為了推理，為了生成token而生的。它直接將每token的能量降低了45000倍。

在以前，用Pascal產(chǎn)生1個token的消耗，相當于兩個200瓦的燈泡運行2天。讓GPT-4生成一個單詞，大概需要3個token。這根本不可能讓我們得到如今和GPT-4聊天的體驗。

而現(xiàn)在，我們每個token可以只使用0.4焦耳，用很少的能量，就能產(chǎn)生驚人的token。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

它誕生的背景，正是運算模型規(guī)模的指數(shù)級增長。

每一次指數(shù)級增長，都進入一種嶄新的階段。

當我們從DGX擴展到大型AI超算，Transformer可以在大規(guī)模數(shù)據(jù)集上訓練。

而下一代AI，則需要理解物理世界。然而如今大多數(shù)AI并不理解物理規(guī)律。其中一種解決辦法，是讓AI學習視頻資料，另一種，則是合成數(shù)據(jù)。

第三種，則是讓計算機互相學習！本質(zhì)上就和AlphaGo的原理一樣。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

巨量的計算需求涌來，如何解決？目前的辦法就是——我們需要更大的GPU。

而Blackwell，正是為此而生。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

Blackwell中，有幾項重要的技術(shù)創(chuàng)新。

第一項，就是芯片的尺寸。

英偉達將兩塊目前能造出來的最大尺寸的芯片，用一條10TB/s的鏈路鏈接起來；然后再把它們放到同一個計算節(jié)點上，和一塊Grace CPU相連。

在訓練時，它被用于快速檢查點；而在推理和生成的場景，它可以用于儲存上下文內(nèi)存。

而且，這種第二代GPU還有高度的安全性，我們在使用時完全可以要求服務器保護AI不受偷竊或篡改。

并且，Blackwell中采用的是第5代NVLink。

而且，它是第一代可信賴、可使用的引擎，通過該系統(tǒng)，我們可以測試每一個晶體管、觸發(fā)器、片上內(nèi)存和片外內(nèi)存，因此我們可以當場確定某個芯片是否出現(xiàn)故障。

基于此，英偉達將擁有十萬個GPU超算的故障間隔時間，縮短到了以分鐘為單位。

因此，如果我們不發(fā)明技術(shù)來提高超算的可靠性，那么它就不可能長期運行，也不可能訓練出可以運行數(shù)月的模型。

如果提高可靠性，就會提高模型正常的運行時間，而后者顯然會直接影響成本。

最后，老黃表示，解壓縮引擎的數(shù)據(jù)處理，也是英偉達必須做的最重要的事之一。

通過增加數(shù)據(jù)壓縮引擎、解壓縮引擎，就能以20倍的速度從存儲中提取數(shù)據(jù)，比現(xiàn)在的速度要快得多。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

超強風冷DGX & 全新液冷MGX

Blackwell是一個重大的躍進，但對老黃來說，這還不夠大。

英偉達不僅要做芯片，還要制造搭載最先進芯片的服務器。擁有Blackwell的DGX超算，在各方面都實現(xiàn)了能力躍升。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

集成了Blackwell芯片的最新DGX，能耗僅比上一代Hopper提升了10倍，但FLOPS量級卻提升了45倍。

下面這個風冷的DGX Blackwell，里面有8個GPU。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

而對應散熱器的尺寸也很驚人，達到了15kW，并且是完全的風冷。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

如果你喜歡部署液冷系統(tǒng)呢？英偉達也有新型號MGX。

單個MGX同時集成72個Blackwell GPU，且有最新的第五代NVLink每秒130TB的傳輸速度。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

NVLink將這些單獨的GPU彼此連接起來，因此我們就得到了72個GPU的MGX

介紹完芯片，老黃特意提到了英偉達研發(fā)的NVLink技術(shù)，這也是英偉達的主板可以越做越大的重要原因。

由于LLM參數(shù)越來越多、越來越消耗內(nèi)存，想要把模型塞進單個GPU已經(jīng)幾乎是不可能的事情，必需搭建集群。其中，GPU通信技術(shù)的重要性不亞于計算能力。

英偉達的NVLink，是世界上最先進的GPU互連技術(shù)，數(shù)據(jù)傳輸速率可以堪稱瘋狂！

因為如今的DGX擁有72個GPU，而上一代只有8個，讓GPU數(shù)直接增加了9倍。而帶寬量，則直接增加了18倍，AI FLops增加了45倍，但功率僅僅增加了10倍，也即100千瓦。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

下面這個NVLink芯片，也堪稱是奇跡。

人們之所以意識到它的重要性，是因為它將所有這些不同的GPU連接在一起，從而能夠讓十萬億參數(shù)的LLM運行起來。

500億個晶體管，74個端口，每個端口400GB，7.2TB每秒的橫截面帶寬，這本身就是個奇跡。

而更重要的是，NVLink內(nèi)部還具有數(shù)學功能，可以實現(xiàn)歸約。對于芯片上的深度學習，這尤其重要。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

有趣的是，NVLink技術(shù)，大大拓寬了我們對于GPU的想象。

比如在傳統(tǒng)的概念中，GPU應該長成這樣。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

但有了NVLink，GPU也可以變成這么大。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

支撐著72個GPU的骨架，就是NVLink的5000根電纜，能夠在傳輸方面節(jié)省20kw的功耗用于芯片計算。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

老黃拿在手里的，是一個NVLink的主干，用老黃的原話說，它是一個「電氣機械奇跡」

NVLink做到的僅僅是將不同GPU芯片連接在一起，于是老黃又說了一句「這還不夠宏大」。

要連接超算中心內(nèi)不同的主機，最先進的技術(shù)是「無限帶寬」（InfiniBand）。

但很多數(shù)據(jù)中心的基礎(chǔ)設(shè)施和生態(tài)，都是基于曾經(jīng)使用的以太網(wǎng)構(gòu)建的，推倒重來的成本過高。

因此，為了幫助更多的數(shù)據(jù)中心順利邁進AI時代，英偉達研發(fā)了一系列與AI超算適配的以太交換機。

網(wǎng)絡(luò)級RDMA、阻塞控制、適應性路由、噪聲隔離，英偉達利用自己在這四項技術(shù)上的頂尖地位，將以太網(wǎng)改造成了適合GPU之間點對點通信的網(wǎng)絡(luò)。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

由此也意味著，數(shù)百萬GPU數(shù)據(jù)中心的時代，即將到來。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

全球2800萬開發(fā)者，即時部署LLM

在英偉達的AI工廠中，運行著可以加速計算推理的新型軟件——NIM。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

老黃表示，「我們創(chuàng)建的是容器里的AI」。

這個容器里有大量的軟件，其中包括用于推理服務的Triton推理服務器、優(yōu)化的AI模型、云原生堆棧等等。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

現(xiàn)場，老黃再一次展示了全能AI模型——可以實現(xiàn)全模態(tài)互通。有了NIM，這一切都不是問題。

它可以提供一種簡單、標準化的方式，將生成式AI添加到應用程序中，大大提高開發(fā)者的生產(chǎn)力。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

現(xiàn)在，全球2800萬開發(fā)者都可以下載NIM到自己的數(shù)據(jù)中心，托管使用。

未來，不再耗費數(shù)周的時間，開發(fā)者們可以在幾分鐘內(nèi)，輕松構(gòu)建生成式AI應用程序。

與此同時，NIM還支持Meta Llama 3-8B，可以在加速基礎(chǔ)設(shè)施上生成多達3倍的token。

這樣一來，企業(yè)可以使用相同的計算資源，生成更多的響應。

而基于NIM打造的各類應用，也將迸發(fā)涌現(xiàn)，包括數(shù)字人、智能體、數(shù)字孿生等等。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

老黃表示，「NVIDIA NIM集成到各個平臺中，開發(fā)人員可以隨處訪問，隨處運行 —— 正在幫助技術(shù)行業(yè)使生成式 AI 觸手可及」。

智能體組隊，萬億美元市場

而智能體，是未來最重要的應用。

老黃稱，幾乎每個行業(yè)都需要客服智能體，有著萬億美元的市場前景。

可以看到，在NIM容器之上，大多數(shù)智能體負責推理，去弄清任務并將其分解成多個子任務。還有一些，它們負責檢索信息、搜索，甚至是使用工具等。

所有智能體，組成了一個team。

未來，每家公司都將有大量的NIM智能體，通過連接起來組成一個團隊，完成不可能的任務。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

GPT-4o軀殼，老黃做出來了

在人機交互這方面，老黃和Sam Altman可以說是想到一起了。

他表示，雖然可以使用文字或語音形式的prompt給AI下達指令，但很多應用中，我們還是需要更自然的、更類人的交互方式。

這指向了老黃的一個愿景——數(shù)字人。相比現(xiàn)在的LLM，它們可以更吸引人，更有同理心。

GPT-4o雖是實現(xiàn)了無法比擬的類人交互，但缺少的是一個「軀體」。

而這次，老黃都幫OpenAI想好了。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

未來，品牌大使也不一定是「真人」，AI完全可以勝任。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

從客戶服務，到廣告、游戲等各行各業(yè)，數(shù)字人帶來的可能將是無限的。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

連接Gen AI的CG技術(shù)，還可以實時渲染出逼真的人類面部。

低延遲的數(shù)字人處理，遍及全球超過100個地區(qū)。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

這是由英偉達ACE提供的魔力，能夠為創(chuàng)建栩栩如生的數(shù)字人，提供相應的AI工具。

現(xiàn)在，英偉達計劃在1億臺RTX AI個人電腦和筆記本電腦上，部署ACE PC NIM微服務。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

這其中包括英偉達首個小語言模型——Nemotron-3 4.5B，專為在設(shè)備上運行而設(shè)計，具備與云端LLM相似的精度和準確性。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

此外，ACE數(shù)字人類AI新套件還包括基于音軌生成身體手勢——NVIDIA Audio2Gesture，即將推出。

老黃表示，「數(shù)字人類將徹底改變各個行業(yè)，ACE提供的多模態(tài)LLM和神經(jīng)圖形學的突破，使我們更接近意圖驅(qū)動計算的未來，與計算機的交互將如同與人類的交互一樣自然」。

預告下一代芯片Rubin

Hopper和Blackwell系列的推出，標志著英偉達逐漸搭建起完整的AI超算技術(shù)棧，包括CPU、GPU芯片，NVLink的GPU通信技術(shù)，以及NIC和交換機組成的服務器網(wǎng)絡(luò)。

如果你愿意的話，可以讓整個數(shù)據(jù)中心都使用英偉達的技術(shù)。

這足夠大、足夠全棧了吧。但是老黃表示，我們的迭代速度還要加快，才能跟上GenAI的更新速度。

??英偉達在不久前就曾放出消息，即將把GPU的迭代速度從原來的兩年一次調(diào)整為一年一次，要用最快的速度推進所有技術(shù)的邊界。??

今天的演講中，老黃再次實錘官宣GPU年更。但是他又緊跟著疊了個甲，說自己可能會后悔。

無論如何，我們現(xiàn)在知道了，英偉達不久后就會推出Blackwell Ultra，以及明年的下一代的Rubin系列。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

從孿生地球，到具身AI機器人

除了芯片和超算服務器，老黃還發(fā)布了一個所有人都沒有想到的項目——數(shù)字孿生地球「Earth-2」。

這也許是世界范圍內(nèi)最有雄心的項目（甚至沒有之一）。

而且根據(jù)老黃的口吻推測，Earth-2已經(jīng)推進了數(shù)年，今年取得的重大突破才讓他覺得，是時候亮出來了。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

為什么要為建造整個地球的數(shù)字孿生？是要像小扎的元宇宙那樣，把社交和互動都搬到線上平臺嗎？

不，老黃的愿景更宏偉一些。

他希望在Earth-2的模擬，可以預測整個星球的未來，從而幫我們更好地應對氣候變化和各種極端天氣，比如可以預測臺風的登陸點。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

Earth-2結(jié)合了生成式AI模型CorrDiff，基于WRF數(shù)值模擬進行訓練，能以12倍更高的解析度生成天氣模型，從25公里范圍提高到2公里。

不僅解析度更高，而且相比物理模擬的運行速度提高了1000倍，能源效率提高了3000倍，因此可以在服務器上持續(xù)運行、實時預測。

而且，Earth-2的下一步還要將預測精度從2公里提升到數(shù)十米，同時考慮城市內(nèi)的基礎(chǔ)設(shè)施，甚至可以預測到街道上什么時候會刮來強風。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

而且，英偉達想數(shù)字孿生的，不止是地球，還有整個物理世界。

對于這個狂飆突進的AI時代，老黃大膽預測了下一波浪潮——物理AI，或者說是具身AI。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

它們不僅需要有超高的認知能力，可以理解人類、理解物理世界，還要有極致的行動力，完成各種現(xiàn)實任務。

想象一下這個賽博朋克的未來：一群機器人在一起，像人類一樣交流、協(xié)作，在工廠里創(chuàng)造出更多的機器人。

而且，不僅僅是機器人。一切能移動的物體都會是自主的！

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

在多模態(tài)AI的驅(qū)動下，它們可以學習、感知世界，理解人類指令，并進化出計劃、導航以及動作技能，完成各種復雜任務。

那要怎樣訓練這些機器人呢？如果讓他們在現(xiàn)實世界橫沖直撞，代價要比訓練LLM大得多。

這時，數(shù)字孿生世界就大有用武之地了。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

正像LLM可以通過RLHF進行價值觀對齊一樣，機器人也可以在遵循物理規(guī)律的數(shù)字孿生世界中不斷試錯、學習，模仿人類行為，最終達到通用智能。

Nvidia的Omniverse可以作為構(gòu)建數(shù)字孿生的平臺，集成Gen AI模型、物理模擬以及動態(tài)實時的渲染技術(shù)，成為「機器人健身房」。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

志在做全棧的英偉達也不僅僅滿足于操作系統(tǒng)。他們還會提供用于訓練模型的超算，以及用于運行模型的Jetson Thor和Orin。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

為了適應不同應用場景下的機器人系統(tǒng)，英偉達的Omniverse將逐步擴展為Warehouse生態(tài)系統(tǒng)。

這個生態(tài)將無所不包，從搭配應用程序的SDK和API，到運行邊緣AI計算的接口，再到最底層的可定制芯片。

在全棧產(chǎn)品方面，英偉達就是想要做自己的「全家桶」，讓別人無路可走。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

為了讓這個AI 機器人時代看起來更真實，演示的最后，9個和老黃有同樣身高的機器人一同登場。

老黃一口氣解密三代GPU！粉碎摩爾定律打造AI帝國，量產(chǎn)Blackwell解決ChatGPT全球耗電難題-AI.x社區(qū)

正如老黃所說的，「這不是未來，這一切都正在發(fā)生」。

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/MkkdFSGTKKkQ3PLq4wG8Fw??

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

揭秘Sam Altman的投資帝國，談談AI大佬鮮為人知的一面

InfonityAI智推星 ? 2357瀏覽 ? 0回復
AI視頻新霸主全網(wǎng)翻車，Ilya奧特曼老黃打起來了！動畫出現(xiàn)詭異狗頭網(wǎng)友笑瘋

duhorse ? 2601瀏覽 ? 0回復
OpenAI發(fā)布PVG：用小模型驗證大模型輸出，解決“黑盒”難題

Aceryt ? 2120瀏覽 ? 0回復
清華唐杰團隊新作：一口氣生成2萬字，大模型開卷長輸出

Crystalcxt ? 2054瀏覽 ? 0回復
SDM: 第三代神經(jīng)網(wǎng)絡(luò)和擴散模型強強聯(lián)合！FID最多超基線12倍，能耗省60%，實力SOTA！

angel ? 3058瀏覽 ? 0回復
老黃播客大玩凡爾賽：呼吁買家少囤GPU！營收1250億美元，英偉達PPT從不討論市場份額！

51CTO技術(shù)棧 ? 1671瀏覽 ? 0回復
大模型界「摩爾定律」Densing Law 來了！盲目Scaling將過時！

51CTO技術(shù)棧 ? 1945瀏覽 ? 0回復
LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 1997瀏覽 ? 0回復
DDPG算法輕松解決AI醫(yī)療機器人技術(shù)難題：連續(xù)動作控制

51CTO內(nèi)容精選 ? 1986瀏覽 ? 0回復
黃仁勛新年演講最全總結(jié)：新推最強GPU，72塊連一起可以承載全球互聯(lián)網(wǎng)的流量！英偉達的三個野心

51CTO技術(shù)棧 ? 1944瀏覽 ? 0回復
全球頂級推理模型訓練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 4693瀏覽 ? 0回復
吉利、東風最激進，李斌何小鵬打氣，上汽官宣打造全球首個DS實裝量產(chǎn)汽車品牌！

51CTO技術(shù)棧 ? 1564瀏覽 ? 0回復
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復
今天一口氣開源3個重磅！壓軸戲期待拉滿，R2、V4、被提名

51CTO技術(shù)棧 ? 1857瀏覽 ? 0回復
DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價

輕薄滴假象 ? 2113瀏覽 ? 0回復
AI挑西瓜：每一口都是甜蜜暴擊

InfonityAI智推星 ? 1833瀏覽 ? 0回復
百度一口氣上線文心4.5和X1!實力震驚硅谷！API價格又打下來了，R1還得對半砍！

51CTO技術(shù)棧 ? 1377瀏覽 ? 0回復
DreamRenderer無需訓練一鍵解決AI繪圖『多物亂竄』難題（浙大&哈佛）

angel ? 1118瀏覽 ? 0回復
百度的底氣，李彥宏的決心：3萬卡國產(chǎn)自研集群；一口氣九個重磅發(fā)布，全方位支持MCP

51CTO技術(shù)棧 ? 671瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速 2025-02-28 12:53:18發(fā)布
剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：現(xiàn)在，所有人都能免費用GPT-4o了！

下一篇： next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

社區(qū)精華內(nèi)容

目錄