最全總結(jié)!黃仁勛140分鐘演講看這三個(gè)問題就夠了;新品B300Ultra和Rubin期貨;CUDA庫成重頭戲、Groot成MVP
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
今年GTC大會(huì),老黃的主題演講聊了很長時(shí)間,一個(gè)人撐起了相當(dāng)于一部電影哪吒2的時(shí)長,近140分鐘。用黃仁勛開場(chǎng)自己的話說:“沒有腳本,沒有提詞器,卻有很多令人難以置信的事情要跟大家談?!?/p>
先說整體感受,老黃這次科普密度極大,可以說是最為賣力的一次演講。
開場(chǎng)靈魂拷問:推動(dòng)AI發(fā)展的三個(gè)問題
跟去年不同的是,黃教主這次沒有上來就開大,而是在簡單介紹了感知AI、生成AI、代理AI、物理AI之后,拋出了一個(gè)靈魂拷問:究竟是什么推動(dòng)了每一波、每一階段人工智能的發(fā)展?
圖片
老黃也沒沒賣關(guān)子,他認(rèn)為,這涉及三個(gè)基本問題。
第一個(gè)是,如何解決數(shù)據(jù)問題?這很重要,因?yàn)槿斯ぶ悄苁且环N數(shù)據(jù)驅(qū)動(dòng)的計(jì)算機(jī)科學(xué)方法,它需要數(shù)據(jù)來學(xué)習(xí),需要數(shù)字體驗(yàn)來獲取知識(shí)。
第二個(gè)問題是,如何在沒有人工干預(yù)的情況下解決訓(xùn)練問題?人工干預(yù)從根本上來說是具有挑戰(zhàn)性的,因?yàn)槲覀兊臅r(shí)間有限,而我們希望人工智能能夠以超越人類的速度學(xué)習(xí),以超越實(shí)時(shí)的速度學(xué)習(xí),并且能夠以人類無法跟上的規(guī)模進(jìn)行學(xué)習(xí)。第二個(gè)問題是,如何訓(xùn)練模型?
第三個(gè)問題是,如何實(shí)現(xiàn)規(guī)?;咳绾握业揭环N算法,使得無論提供多少資源,都能實(shí)現(xiàn)規(guī)?;脑鲩L?
可以說接下來的一些列的演講內(nèi)容,全都是從這三個(gè)問題為經(jīng)緯來展開的。
CUDA為何繞不開?黃仁勛:CUDA加速庫是AI時(shí)代的SQL
圖片
就像我們需要一個(gè)AI框架來創(chuàng)建人工智能并加速AI框架一樣,你需要物理、生物、各種不同量子物理等計(jì)算科學(xué)的庫和框架。英偉達(dá)為此開發(fā)了CUDA加速庫,為這些科學(xué)領(lǐng)域的加速框架。
所以第一個(gè)庫是令人驚嘆的。比如大家熟知的全球下載量第一的Python庫:NumPy(去年下載量達(dá)到4億次),英偉達(dá)早已做出了CUDA加速版:cuPy Numeric。cuPy Numeric是NumPy的零改動(dòng)加速替代品,調(diào)用速度將會(huì)更快。
第二個(gè)被老黃安利的是cuLitho庫,這是一個(gè)計(jì)算光刻庫。在過去的四年里,英偉達(dá)已經(jīng)將整個(gè)光刻計(jì)算過程整合進(jìn)來?!肮饪淌切酒圃斓牡诙€(gè)工廠。一個(gè)工廠用于制造晶圓,還有一個(gè)工廠用于制造晶圓的制造信息。每個(gè)擁有工廠的行業(yè)和公司未來都將有兩個(gè)工廠:一個(gè)用于生產(chǎn)產(chǎn)品,一個(gè)用于數(shù)學(xué)計(jì)算,人工智能。汽車工廠、汽車人工智能工廠、智能音箱工廠、智能音箱人工智能工廠……所以cuLitho是我們的計(jì)算光刻庫,得到了TSMC、三星、ASML等合作伙伴以及Synopsys、Mentor等公司的大力支持?!?/p>
黃仁勛補(bǔ)充道,光刻領(lǐng)域已經(jīng)到了臨界點(diǎn),再過五年,每一片掩膜、每一次光刻都將通過Nvidia CUDA進(jìn)行處理。信號(hào)處理是我們非常擅長的領(lǐng)域。一旦我們做到這一點(diǎn),我們就可以在其基礎(chǔ)上添加AI,也就是我們所說的AI RAN(無線接入網(wǎng)絡(luò))。下一代無線網(wǎng)絡(luò)將深度嵌入人工智能。
黃仁勛甚至對(duì)這項(xiàng)技術(shù)期望很大:
為什么我們會(huì)被信息論的極限所限制?因?yàn)槲覀冎荒塬@取有限的信息頻譜。但如果加入AI,進(jìn)行數(shù)值或數(shù)學(xué)優(yōu)化,情況就不一樣了。
幾乎每個(gè)行業(yè)都使用這種技術(shù),無論是規(guī)劃航班座位、庫存和客戶、工人和工廠、司機(jī)和乘客等,我們總是面臨多種約束條件、大量變量,而你需要優(yōu)化的是時(shí)間、利潤、服務(wù)質(zhì)量、資源使用等等。Nvidia在我們的供應(yīng)鏈管理中也使用了這種技術(shù)。
Co-Opt是一個(gè)令人驚嘆的庫。它將原本需要數(shù)小時(shí)的工作縮短到幾秒鐘。這非常重要,因?yàn)樗刮覀兡軌蛱剿鞲蟮目臻g。宣布將開源Co-Opt。
此外,還有很多加速計(jì)算的CUDA庫。比如還有用于張量收縮的Co-Equivariance和cuTENSOR,用于基因測(cè)序和基因分析的Parabricks,以及全球領(lǐng)先的醫(yī)學(xué)成像庫Monai,用于高分辨率局部天氣預(yù)測(cè)的Earth2,以及用于對(duì)CAE(計(jì)算機(jī)輔助工程)的cuDSS等。
值得注意的是,用于量子計(jì)算的cuQuantum庫,黃仁勛透露,英偉達(dá)正在與生態(tài)系統(tǒng)中的幾乎每個(gè)人合作,幫助他們研究量子架構(gòu)、量子算法,或者構(gòu)建經(jīng)典加速的量子異構(gòu)架構(gòu)。
CUDA這個(gè)事實(shí)上的AI技術(shù)棧,已經(jīng)通過這些加速庫被整合到生態(tài)系統(tǒng)的不同部分,包括軟件和基礎(chǔ)設(shè)施,這也造就了今天大模型領(lǐng)域難以繞開英偉達(dá)的深層原因。
老黃將CUDA庫比喻成上個(gè)IT時(shí)代的SQL——
“服務(wù)提供商(CSP)喜歡我們的前沿技術(shù),也喜歡我們完整的解決方案,因?yàn)檎缥抑敖忉尩模?strong>加速計(jì)算不僅僅是芯片,甚至不僅僅是芯片和庫,而是芯片、編程模型以及在其之上的一整套軟件。整個(gè)堆棧極其復(fù)雜,每一個(gè)層級(jí)、每一個(gè)庫都相當(dāng)于SQL。SQL,正如你們所知,是存儲(chǔ)計(jì)算領(lǐng)域的一場(chǎng)大革命,由IBM推動(dòng)。SQL只是一個(gè)庫,想象一下我剛剛給你們展示的那些庫,而在人工智能領(lǐng)域,還有更多。所以這個(gè)堆棧是復(fù)雜的?!?/p>
英偉達(dá)十年前就開始了自動(dòng)駕駛的合作發(fā)布汽車安全系統(tǒng):Halos
圖片
最早采用人工智能的行業(yè)之一是自動(dòng)駕駛汽車。從老黃看到AlexNet的那一刻,就已經(jīng)決定英偉達(dá)全力以赴地開發(fā)自動(dòng)駕駛汽車。“所以,我們已經(jīng)研究自動(dòng)駕駛汽車超過十年了?!?/p>
黃仁勛甚至把跟自動(dòng)駕駛汽車具體的合作內(nèi)容說了個(gè)遍。
英偉達(dá)開發(fā)的技術(shù)被幾乎所有自動(dòng)駕駛汽車公司使用。它可能用于數(shù)據(jù)中心,例如,特斯拉在數(shù)據(jù)中心使用了大量的Nvidia GPU;也可能用于汽車本身。Waymo和Wave在數(shù)據(jù)中心和汽車中都使用了Nvidia的計(jì)算機(jī)。有時(shí)也可能只用于汽車,雖然這種情況比較少見,或者他們使用了我們所有的軟件。
此外,英偉達(dá)與汽車行業(yè)的合作方式取決于后者的需求?!拔覀儤?gòu)建了三種計(jì)算機(jī):訓(xùn)練計(jì)算機(jī)、仿真計(jì)算機(jī)和自動(dòng)駕駛汽車計(jì)算機(jī),以及所有在其之上的軟件棧、模型和算法,就像我在前面提到的其他行業(yè)一樣?!?/p>
黃仁勛講到這里,丟出了一個(gè)合作的消息——通用汽車(GM)選擇與Nvidia合作,共同打造他們未來的自動(dòng)駕駛汽車車隊(duì)。
此外,老黃還重點(diǎn)花了一些時(shí)間介紹了自己非常自豪但外界卻很少關(guān)注的領(lǐng)域發(fā)布:汽車安全系統(tǒng)“Halo”。安全需要從芯片到系統(tǒng)的技術(shù),包括系統(tǒng)軟件、算法、方法論,從多樣性到確保多樣性、監(jiān)控和透明性、可解釋性,所有這些不同的理念都必須深深融入到系統(tǒng)和軟件開發(fā)的每一個(gè)環(huán)節(jié)中。
“我們是世界上第一家對(duì)每一行代碼進(jìn)行安全評(píng)估的公司,700萬行代碼經(jīng)過第三方評(píng)估,以確保其設(shè)計(jì)能夠保證多樣性、透明性和可解釋性。我們還申請(qǐng)了超過1000項(xiàng)專利。”
老黃還在這一part展示了如何訓(xùn)練一個(gè)靠譜的自動(dòng)駕駛大模型的過程,感興趣的朋友不妨一看:
Nvidia正在通過Omniverse和Cosmos加速自動(dòng)駕駛汽車(AV)的AI開發(fā)。Cosmos的預(yù)測(cè)和推理能力支持端到端可訓(xùn)練的AI優(yōu)先AV系統(tǒng),采用新的開發(fā)方法,如模型蒸餾、閉環(huán)訓(xùn)練和合成數(shù)據(jù)生成。
首先是模型蒸餾,將策略模型適應(yīng)為Cosmos的策略模型。將駕駛知識(shí)從一個(gè)較慢但更智能的教師模型轉(zhuǎn)移到一個(gè)更小、更快的學(xué)生模型,以便在汽車中進(jìn)行推理。教師的策略模型展示了最佳軌跡,隨后學(xué)生模型通過迭代學(xué)習(xí),直到其表現(xiàn)幾乎與教師模型相當(dāng)。
蒸餾過程啟動(dòng)了策略模型,但復(fù)雜場(chǎng)景需要進(jìn)一步調(diào)整。閉環(huán)訓(xùn)練能夠?qū)Σ呗阅P瓦M(jìn)行微調(diào)。
日志數(shù)據(jù)被轉(zhuǎn)化為3D場(chǎng)景,用于在基于物理的仿真中進(jìn)行駕駛閉環(huán),使用Omniverse神經(jīng)重建。這些場(chǎng)景的變體被創(chuàng)建出來,以測(cè)試模型的軌跡生成能力。Cosmos行為評(píng)估器隨后可以對(duì)生成的駕駛行為進(jìn)行評(píng)分,以衡量模型性能。新生成的場(chǎng)景及其評(píng)估創(chuàng)建了一個(gè)大型數(shù)據(jù)集,用于閉環(huán)訓(xùn)練,幫助AV更穩(wěn)健地應(yīng)對(duì)復(fù)雜場(chǎng)景。
最后,3D合成數(shù)據(jù)生成增強(qiáng)了AV對(duì)多樣化環(huán)境的適應(yīng)性。從日志數(shù)據(jù)中,Omniverse通過融合地圖和圖像構(gòu)建詳細(xì)的4D駕駛環(huán)境,并生成現(xiàn)實(shí)世界的數(shù)字孿生,包括分割以指導(dǎo)Cosmos對(duì)每個(gè)像素進(jìn)行分類。Cosmos隨后通過生成準(zhǔn)確且多樣化的場(chǎng)景來擴(kuò)展訓(xùn)練數(shù)據(jù),彌合仿真與現(xiàn)實(shí)之間的差距。Omniverse和Cosmos使AV能夠?qū)W習(xí)、適應(yīng)并智能駕駛,推動(dòng)更安全的出行。
圖片
AI超級(jí)計(jì)算機(jī):坦承向上擴(kuò)展已達(dá)到了極限現(xiàn)在需要向外擴(kuò)展
關(guān)于數(shù)據(jù)中心,黃仁勛點(diǎn)贊了Hadoop的工作?!癏adoop是一個(gè)革命性的想法,它使超大規(guī)模數(shù)據(jù)中心能夠使用現(xiàn)成的計(jì)算機(jī)解決巨大的問題。”
但緊接著老黃就道出了問題——我們?cè)噲D解決的問題如此復(fù)雜,如果按照那種方式擴(kuò)展,成本將過高,能源消耗也會(huì)過大,深度學(xué)習(xí)將永遠(yuǎn)不會(huì)發(fā)生。因此,我們必須先向上擴(kuò)展。
圖片
上一代系統(tǒng)架構(gòu)被稱為HGX,它徹底改變了我們所知的計(jì)算,徹底改變了人工智能。
黃仁勛展示道,這是2個(gè)Blackwell GPU在一個(gè)Blackwell封裝中,兩個(gè),下面有8個(gè)這樣的封裝,它們連接到我們稱之為NVLink 8的系統(tǒng),然后連接到一個(gè)CPU機(jī)架,上面有兩個(gè)CPU,通過PCI Express連接,然后通過InfiniBand連接多個(gè)這樣的系統(tǒng),形成一臺(tái)人工智能超級(jí)計(jì)算機(jī)。
這就是過去的方式,這就是我們開始的方式。
圖片
這就是我們?cè)谙蛲鈹U(kuò)展之前能夠向上擴(kuò)展的極限,但我們還想進(jìn)一步向上擴(kuò)展。
黃仁勛表示,此前宣布的Ranger將這個(gè)系統(tǒng)進(jìn)一步向上擴(kuò)展了4倍,所以我們有了NVLink 32,但這個(gè)系統(tǒng)太大了,所以我們必須做一些相當(dāng)了不起的事情,重新設(shè)計(jì)NVLink的工作方式以及向上擴(kuò)展的方式。
因此,我們首先要做的是,需要把嵌入在這個(gè)系統(tǒng)主板上的NVLink交換機(jī)與NVLIink系統(tǒng)分離出來。分離出來的NVLink交換機(jī)被放在機(jī)箱的中心。通過將18個(gè)這樣的交換機(jī),分布在9個(gè)不同的機(jī)架中。而計(jì)算部分則放在另一處,通過液體冷卻的方式,我們可以將所有這些計(jì)算節(jié)點(diǎn)壓縮到一個(gè)機(jī)架中。這是整個(gè)行業(yè)的重大變化。
展示中的NVLink交換機(jī)是世界上性能最高的交換機(jī),它使得每個(gè)GPU都能夠以全帶寬同時(shí)與其他每個(gè)GPU通信。
據(jù)黃仁勛透露,這樣一臺(tái)機(jī)架,包含60萬個(gè)零部件,這相當(dāng)于20輛車的零部件,全部集成到一臺(tái)超級(jí)計(jì)算機(jī)中。而這正是英偉達(dá)的實(shí)現(xiàn)的一個(gè)目標(biāo)——
集成的NVLink轉(zhuǎn)變?yōu)榉蛛x的NVLink,從風(fēng)冷轉(zhuǎn)變?yōu)橐豪洌瑥拿颗_(tái)計(jì)算機(jī)大約6萬個(gè)組件轉(zhuǎn)變?yōu)槊總€(gè)機(jī)架60萬個(gè)組件。120千瓦,完全液冷。
所有這些難題,英偉達(dá)全部搞定了。
那為什么要花如此大的力氣做這樣的機(jī)器?
黃仁勛揭示了現(xiàn)下AI大模型在實(shí)際應(yīng)用中,廠商們所面臨的二維困境:一方面希望大模型盡可能多的生成token(收入按token計(jì)費(fèi)),另一方面,又希望盡可能更快地完成,因?yàn)槿绻慊卮饐栴}的時(shí)間過長,客戶就不會(huì)再回來了。因此,你的令牌速率很重要。
而事實(shí)上,解決生產(chǎn)環(huán)境下最好的答案是:你應(yīng)該擁有大量的浮點(diǎn)運(yùn)算能力、大量的帶寬、大量的內(nèi)存,還有最好的架構(gòu)、最高的能效。你必須有一個(gè)編程模型,讓你能夠在所有這些極其復(fù)雜的設(shè)備上運(yùn)行軟件,以便實(shí)現(xiàn)這一切。
這里,老黃展示一個(gè)部署滿血版Deepseek R1的例子。
你可以使用張量并行:你可以將模型的一層在多個(gè)GPU上運(yùn)行;你可以將流水線的一部分切片,稱之為流水線并行,并將其放在多個(gè)GPU上;你可以將不同的專家放在不同的GPU上,我們稱之為專家并行。流水線并行、張量并行和專家并行的組合,其組合數(shù)量是驚人的。
你有時(shí)也會(huì)針對(duì)極低的延遲進(jìn)行優(yōu)化。有時(shí)你會(huì)嘗試針對(duì)吞吐量進(jìn)行優(yōu)化。因此,你需要進(jìn)行一些飛行中的批處理,許多不同的批處理和工作聚合技術(shù)。因此,這些人工智能工廠的操作系統(tǒng)極其復(fù)雜。
那么,有一個(gè)觀察結(jié)果,擁有像NvLink72這樣的同構(gòu)架構(gòu)是一件非常棒的事情,因?yàn)槊恳粋€(gè)GPU都能做到我剛才描述的所有事情。
圖片
一方面,模型廠商希望自家的token速率盡可能快,這樣就能制造出真正聰明的人工智能,而如果有了聰明的人工智能,人們會(huì)為其支付更多的錢。但另一方面,人工智能越聰明,你在從volume上就越難盈利。
圖片
在以Llama3和DeepSeek R1模型對(duì)比的演示中,后者輸出了20倍的token數(shù)量和150倍的計(jì)算性能。
圖片
黃仁勛還提出了一個(gè)重要的觀點(diǎn),未來每一個(gè)數(shù)據(jù)中心都將是功率受限的,你的收入也將是功率受限的。你可以根據(jù)你擁有的功率來計(jì)算你的收入?;谶@一點(diǎn),你必須確保你擁有盡可能高效的計(jì)算架構(gòu)。
圖片
所以,企業(yè)老板們實(shí)質(zhì)上是要在最大吞吐量和人工智能的質(zhì)量、最聰明的人工智能、最多的產(chǎn)出之間找到帕累托最優(yōu)。
黃仁勛指出,在等功率的情況下,Blackwell遠(yuǎn)遠(yuǎn)優(yōu)于Hopper。
“這不是等芯片,也不是等晶體管,而是等功率,這是終極的摩爾定律。我們能在一個(gè)數(shù)據(jù)中心中獲得的功耗是有限的,所以在等功率的情況下,Blackwell是Hopper的25倍,這太不可思議了,這就是有趣的部分?!?/p>
圖中右上方,可以看到有成千上萬的配置點(diǎn),黃仁勛解釋道,這代表著我們可以將數(shù)據(jù)中心配置成不同的方式。我們可以并行化和分割工作,并以許多不同的方式分配工作,而我們找到了最優(yōu)化的答案,這就是帕累托前沿。每一種配置,因?yàn)轭伾牟煌?,都顯示了不同的配置,這就是為什么這張圖片非常清楚地表明,你想要一個(gè)盡可能可編程的架構(gòu),盡可能同質(zhì)化、可互換,因?yàn)楣ぷ髫?fù)載在整個(gè)前沿的變化是如此劇烈。
Blackwell Ultra & Rubin 芯片
氣氛已經(jīng)鋪墊足了,黃仁勛終于開始帶貨了!相信大家最為期待的還是新款GPU和芯片的發(fā)布。
“今年下半年,我們將輕松過渡到升級(jí)版。所以,我們有Blackwell Ultra Nv Link 72,它的浮點(diǎn)運(yùn)算性能是原來的1.5倍,增加了新的注意力指令,內(nèi)存增加了一半。所有這些內(nèi)存都適用于像Kv緩存這樣的東西,網(wǎng)絡(luò)帶寬增加了兩倍。既然我們有了相同的架構(gòu),我們就可以順利地過渡到這個(gè)新版本,這被稱為Blackwell Ultra。”
至于為什么又不是現(xiàn)貨?
黃仁勛解釋道,建造AI工廠和AI基礎(chǔ)設(shè)施,這需要多年的規(guī)劃?!斑@可不是買筆記本電腦,這不是隨意的支出,這是我們必須提前規(guī)劃的支出。因此,我們必須提前規(guī)劃土地和電力供應(yīng),準(zhǔn)備好我們的資本支出,組建工程團(tuán)隊(duì),并提前兩三年進(jìn)行布局,這也是我提前兩三年向你們展示路線圖的原因?!?/p>
所以,我們計(jì)劃在未來幾年內(nèi)推出多個(gè)產(chǎn)品。明年推出的產(chǎn)品是以一位天文學(xué)家的名字命名的,她的孫輩們今天也來到了現(xiàn)場(chǎng),她的名字是Vera·Rubin(薇拉·魯賓),她發(fā)現(xiàn)了暗物質(zhì)。
圖片
Vera·Rubin,因?yàn)樗腃PU性能是上一代Grace的兩倍,內(nèi)存更多,帶寬更大,而它卻只是一個(gè)小小的50瓦CPU,這真的很令人驚嘆。
Rubin主打一個(gè)全新。采用了全新的14??GB300、全新的網(wǎng)絡(luò)NV Link144、全新的內(nèi)存HBM 4e。用老黃的話說,基本上除了機(jī)箱,其他一切都是全新的。
不過Rubin的發(fā)布,得明年下半年推出。
One more thing
正如往期大會(huì),黃仁勛總是喜歡在演講最后用機(jī)器人壓軸。這一次老黃用GROOT N1來結(jié)束了這場(chǎng)演講,憨態(tài)可掬的步伐和表情,也賺足了現(xiàn)場(chǎng)的掌聲。
圖片
Isaac GR00T N1,號(hào)稱全球首個(gè)開源的、完全可定制的人形機(jī)器人基礎(chǔ)模型。它采用雙系統(tǒng)架構(gòu),靈感來自人類思考模式,包括快速思考的動(dòng)作模型(System 1)和慢速思考的決策模型(System 2)。
據(jù)悉,GR00T N1 現(xiàn)已上市,是英偉達(dá)將預(yù)訓(xùn)練并發(fā)布給全球機(jī)器人開發(fā)人員的一系列完全可定制模型中的第一個(gè)。Groot N1 是英偉達(dá) Project Groot 的演進(jìn)版本,該公司在去年的 GTC 大會(huì)上推出了該項(xiàng)目。Project Groot 面向工業(yè)用例,但 Groot N1 將重點(diǎn)擴(kuò)大到各種不同外形的人形機(jī)器人。
圖片
黃仁勛最后表示:“通用機(jī)器人時(shí)代已經(jīng)到來。借助 NVIDIA Isaac GR00T N1 以及新的數(shù)據(jù)生成和機(jī)器人學(xué)習(xí)框架,世界各地的機(jī)器人開發(fā)人員將開拓 AI 時(shí)代的下一個(gè)前沿?!?/p>
最后,天亮了,小編看了下英偉達(dá)的市值:
只能說輿情向好,但市值還是小跌了。
圖片
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭
