老黃深夜炸場(chǎng),AIGC進(jìn)入iPhone時(shí)刻!Hugging Face接入最強(qiáng)超算,神秘顯卡勝過(guò)A100
生成式AI的時(shí)代已經(jīng)來(lái)臨,屬于它的iPhone時(shí)刻到了!
就在8月8日,英偉達(dá)CEO黃仁勛,再次登上了世界頂級(jí)計(jì)算機(jī)圖形學(xué)會(huì)議SIGGRAPH的舞臺(tái)。
一系列重磅更新接踵而至——下一代GH200超級(jí)芯片平臺(tái)、AI Workbench、OpenUSD……
而英偉達(dá)也借此將過(guò)去數(shù)十年的所有創(chuàng)新,比如人工智能、虛擬世界、加速、模擬、協(xié)作等等,一舉融合到一起。
在這個(gè)LLM大爆炸的時(shí)代,老黃依然敢大膽放話:「買(mǎi)得越多,省得越多!」
英偉達(dá)最強(qiáng)AI超算再升級(jí)
在5年前的SIGGRAPH上,英偉達(dá)通過(guò)將人工智能和實(shí)時(shí)光線追蹤技術(shù)引入GPU,重新定義了計(jì)算機(jī)圖形學(xué)。
老黃表示:「當(dāng)我們通過(guò)AI重新定義計(jì)算機(jī)圖形學(xué)時(shí),我們也在為AI重新定義GPU?!?/span>
隨之而來(lái)的,便是日益強(qiáng)大的計(jì)算系統(tǒng)。比如,集成了8個(gè)GPU并擁有1萬(wàn)億個(gè)晶體管的NVIDIA HGX H100。
就在今天,老黃再次讓AI計(jì)算上了一個(gè)臺(tái)階——
除了為NVIDIA GH200 Grace Hopper配備更加先進(jìn)的HBM3e內(nèi)存外,下一代GH200超級(jí)芯片平臺(tái)還將具有連接多個(gè)GPU的能力,從而實(shí)現(xiàn)卓越的性能和易于擴(kuò)展的服務(wù)器設(shè)計(jì)。
而這個(gè)擁有多種配置的全新平臺(tái),將能夠處理世界上最復(fù)雜的生成式工作負(fù)載,包括大語(yǔ)言模型、推薦系統(tǒng)和向量數(shù)據(jù)庫(kù)等等。
比如,雙核心方案就包括一臺(tái)配備了144個(gè)Arm Neoverse核心并搭載了282GB HBM3e內(nèi)存的服務(wù)器,可以提供8 petaflops的AI算力。
其中,全新的HBM3e內(nèi)存要比當(dāng)前的HBM3快了50%。而10TB/sec的組合帶寬,也使得新平臺(tái)可以運(yùn)行比上一版本大3.5倍的模型,同時(shí)通過(guò)3倍更快的內(nèi)存帶寬提高性能。
據(jù)悉,該產(chǎn)品預(yù)計(jì)將在2024年第二季度推出。
RTX工作站:絕佳刀法,4款顯卡齊上新
這次老黃的桌面AI工作站GPU系列也全面上新,一口氣推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。
如果H100以及配套的產(chǎn)品線展示的是英偉達(dá)GPU性能的天際線的話,針對(duì)桌面和數(shù)據(jù)中心推出的這幾款產(chǎn)品,則是老黃對(duì)成本敏感客戶(hù)秀出的絕佳「刀法」。
在發(fā)布這新GPU的時(shí)候,現(xiàn)場(chǎng)還出現(xiàn)了一個(gè)意外的小花絮。
老黃從后臺(tái)拿出第一塊GPU的時(shí)候,似乎不小心在鏡面面板上沾了指紋。
老黃發(fā)現(xiàn)后覺(jué)得可能是自己搞砸了,就很不好意思地和現(xiàn)場(chǎng)觀眾說(shuō)對(duì)不起,表示這次產(chǎn)品發(fā)布可能是有史以來(lái)最差的一次。
看來(lái)就算開(kāi)發(fā)布會(huì)熟練如老黃,也會(huì)有翻車(chē)的時(shí)刻。
而如此可愛(ài)的老黃,也惹得在場(chǎng)觀眾不斷發(fā)笑。
言歸正傳,作為旗艦級(jí)專(zhuān)業(yè)卡,RTX 6000的性能參數(shù)毫無(wú)疑問(wèn)是4款新品中最強(qiáng)的。
憑借著48GB的顯存,18176個(gè)CUDA核心,568個(gè)Tensor核心,142個(gè)RT核心,和高達(dá)960GB/s的帶寬,它可謂是一騎絕塵。
RTX 5000配備了32GB顯存,12800個(gè)CUDA核心,400個(gè)Tensor核心,100個(gè)RT核心。
RTX 4500配備了24GB顯存,7680個(gè)CUDA核心,240個(gè)Tensor核心,60個(gè)RT核心。
RTX 4000配備了20GB顯存,6144個(gè)CUDA核心,192個(gè)Tensor核心,48個(gè)RT核心。
基于新發(fā)布的4張新的GPU,針對(duì)企業(yè)客戶(hù),老黃還準(zhǔn)備一套一站式解決方案—— RTX Workstation。
支持最多4張RTX 6000 GPU,可以在15小時(shí)內(nèi)完成8.6億token的GPT3-40B的微調(diào)。
還能讓Stable Diffusion XL每分鐘生成40張圖片,比4090快5倍。
OVX服務(wù)器:搭載L40S,性能小勝A100
而專(zhuān)為搭建數(shù)據(jù)中心而設(shè)計(jì)的NVIDIA L40S GPU,性能就更加爆炸了。
基于Ada Lovelace架構(gòu)的L40S,配備有48GB的GDDR6顯存和846GB/s的帶寬。
在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超過(guò)1.45 petaflops的張量處理能力。
對(duì)于算力要求較高的任務(wù),L40S的18,176個(gè)CUDA核心可以提供近5倍于A100的單精度浮點(diǎn)(FP32)性能,從而加速?gòu)?fù)雜計(jì)算和數(shù)據(jù)密集型分析。
此外,為了支持如實(shí)時(shí)渲染、產(chǎn)品設(shè)計(jì)和3D內(nèi)容創(chuàng)建等專(zhuān)業(yè)視覺(jué)處理工作,英偉達(dá)還為L(zhǎng)40S 還配備了142個(gè)第三代RT核心,可以提供212 teraflops的光線追蹤性能。
對(duì)于具有數(shù)十億參數(shù)和多種模態(tài)的生成式AI工作負(fù)載,L40S相較于老前輩A100可實(shí)現(xiàn)高達(dá)1.2倍的推理性能提升,以及高達(dá)1.7倍的訓(xùn)練性能提升。
在L40S GPU的加持下,老黃又針對(duì)數(shù)據(jù)中心市場(chǎng),推出了最多可搭載8張L40S的OVX服務(wù)器。
對(duì)于擁有8.6億token的GPT3-40B模型,OVX服務(wù)器只需7個(gè)小時(shí)就能完成微調(diào)。
對(duì)于Stable Diffusion XL模型,則可實(shí)現(xiàn)每分鐘80張的圖像生成。
AI Workbench:加速定制生成式AI應(yīng)用
除了各種強(qiáng)大的硬件之外,老黃還重磅發(fā)布了全新的NVIDIA AI Workbench,來(lái)幫助開(kāi)發(fā)和部署生成式AI模型。
概括來(lái)說(shuō),AI Workbench為開(kāi)發(fā)者提供了一個(gè)統(tǒng)一且易于使用的工具包,能夠快速在PC或工作站上創(chuàng)建、測(cè)試和微調(diào)模型,并無(wú)縫擴(kuò)展到幾乎任何數(shù)據(jù)中心、公有云或NVIDIA DGX Cloud上。
具體而言,AI Workbench的優(yōu)勢(shì)如下:
- 易于使用
AI Workbench通過(guò)提供一個(gè)單一的平臺(tái)來(lái)管理數(shù)據(jù)、模型和計(jì)算資源,簡(jiǎn)化了開(kāi)發(fā)過(guò)程,支持跨機(jī)器和環(huán)境的協(xié)作。
- 集成AI開(kāi)發(fā)工具和存儲(chǔ)庫(kù)
AI Workbench與GitHub、NVIDIA NGC、Hugging Face等服務(wù)集成,開(kāi)發(fā)者可以使用JupyterLab和VS Code等工具,并在不同平臺(tái)和基礎(chǔ)設(shè)施上進(jìn)行開(kāi)發(fā)。
- 增強(qiáng)協(xié)作
AI Workbench采用的是以項(xiàng)目為中心的架構(gòu),便于開(kāi)發(fā)者進(jìn)行自動(dòng)化版本控制、容器管理和處理機(jī)密信息等復(fù)雜任務(wù),同時(shí)也可以支持團(tuán)隊(duì)之間的協(xié)作。
- 訪問(wèn)加速計(jì)算資源
AI Workbench部署采用客戶(hù)端-服務(wù)器模式。團(tuán)隊(duì)可以現(xiàn)在在本地計(jì)算資源上進(jìn)行開(kāi)發(fā),然后在訓(xùn)練任務(wù)變得更大時(shí)切換到數(shù)據(jù)中心或云資源上。
Stable Diffusion XL自定義圖像生成
首先,打開(kāi)AI Workbench并克隆一個(gè)存儲(chǔ)庫(kù)。
接下來(lái),在Jupyter Notebook中,從Hugging Face加載預(yù)訓(xùn)練的Stable Diffusion XL模型,并要求它生成一個(gè)「太空中的Toy Jensen」。
然而,根據(jù)輸出的圖像可以看出,模型并不知道Toy Jensen是誰(shuí)。
這時(shí)就可以通過(guò)DreamBooth,并使用8張Toy Jensen的圖片對(duì)模型進(jìn)行微調(diào)。
最后,在用戶(hù)界面上重新運(yùn)行推理。
現(xiàn)在,知道了Toy Jensen是誰(shuí)的模型,就可以生成切合需求的圖像了。
Hugging Face一鍵訪問(wèn)最強(qiáng)算力
作為最受AI開(kāi)發(fā)者喜愛(ài)的平臺(tái)之一,擁有200萬(wàn)用戶(hù)、超25萬(wàn)個(gè)模型,以及5萬(wàn)個(gè)數(shù)據(jù)集的Hugging Face,這次也與英偉達(dá)成功達(dá)成了合作。
現(xiàn)在,開(kāi)發(fā)者可以通過(guò)Hugging Face平臺(tái)直接獲得英偉達(dá)DGX Cloud AI超算的加持,從而更加高效地完成AI模型的訓(xùn)練和微調(diào)。
其中,每個(gè)DGX Cloud實(shí)例都配備有8個(gè)H100或A100 80GB GPU,每個(gè)節(jié)點(diǎn)共有640GB顯存,可滿(mǎn)足頂級(jí)AI工作負(fù)載的性能要求。
此外,英偉達(dá)還將聯(lián)合Hugging Face推出全新的「Training Cluster as a Service」服務(wù),簡(jiǎn)化企業(yè)創(chuàng)建和定制生成式AI模型的過(guò)程。
對(duì)此,老黃激動(dòng)得表示:「這次,Hugging Face和英偉達(dá)將世界上最大的AI社區(qū)與全球領(lǐng)先的云AI計(jì)算平臺(tái)真正地連接在了一起。Hugging Face的用戶(hù)只需點(diǎn)擊一下,即可訪問(wèn)英偉達(dá)的最強(qiáng)AI算力?!?/span>
AI Enterprise 4.0:定制企業(yè)級(jí)生成式AI
為了進(jìn)一步加速生成式AI的應(yīng)用,英偉達(dá)也將其企業(yè)級(jí)平臺(tái)NVIDIA AI Enterprise升級(jí)到了4.0版本。
目前,AI Enterprise 4.0不僅可以為企業(yè)提供生成式AI所需的工具,同時(shí)還提供了生產(chǎn)部署所需的安全性和API穩(wěn)定性。
- NVIDIA NeMo
一個(gè)用于構(gòu)建、定制和部署大語(yǔ)言模型的云原生框架。借助NeMo,英偉達(dá)AI Enterprise可以為創(chuàng)建和定制大語(yǔ)言模型應(yīng)用提供了端到端的支持。
- NVIDIA Triton管理服務(wù)
幫助企業(yè)進(jìn)行自動(dòng)化和優(yōu)化生產(chǎn)部署,使其在Kubernetes中能夠自動(dòng)部署多個(gè)推理服務(wù)器實(shí)例,并通過(guò)模型協(xié)調(diào)實(shí)現(xiàn)可擴(kuò)展A 的高效運(yùn)行。
- NVIDIA Base Command Manager Essentials集群管理軟件
幫助企業(yè)在數(shù)據(jù)中心、多云和混合云環(huán)境中最大化AI服務(wù)器的性能和利用率。
除了英偉達(dá)自己,AI Enterprise 4.0還將集成到給其他的合作伙伴,比如Google Cloud和Microsoft Azure等。
此外,MLOps提供商,包括Azure Machine Learning、ClearML、Domino Data Lab、Run:AI和Weights & Biases,也將與英偉達(dá)AI平臺(tái)進(jìn)行無(wú)縫集成,從而簡(jiǎn)化生成式AI模型的開(kāi)發(fā)。
Omniverse:在元宇宙中加入大語(yǔ)言模型
最后,是NVIDIA Omniverse平臺(tái)的更新。
在接入了OpenUSD和AIGC工具之后,開(kāi)發(fā)者可以更加輕松地生成模擬真實(shí)世界的3D場(chǎng)景和圖形。
圖片
就像它的名字一樣,Omniverse的定位是一個(gè)集合了各種工具的3D圖形制作協(xié)作平臺(tái)。
圖片
3D開(kāi)發(fā)者可以像文字編輯們?cè)陲w書(shū)或者釘釘中一樣,在Omniverse上共同制作3D圖形和場(chǎng)景。
而且可以將不同的3D制作工具制作出來(lái)的成果直接整合在Omniverse之內(nèi),將3D圖形和場(chǎng)景的制作工作流徹底打通,化繁為簡(jiǎn)。
OpenUSD
而這次更新中,接入的OpenUSD是什么東西?
OpenUSD(Universal Scene Description)提供了一個(gè)開(kāi)源,通用的場(chǎng)景描述格式,使不同品牌、不同類(lèi)型的3D設(shè)計(jì)軟件可以無(wú)障礙的協(xié)作。
Omnivers本身就是建立在USD體系之上的,這次Omniverse針對(duì)OpenUSD的升級(jí),使得Omniverse能為開(kāi)發(fā)者,企業(yè)推出了更多的框架和資源服務(wù)。
基于OpenUSD這個(gè)開(kāi)源的3D圖像編輯格式,5家公司(蘋(píng)果,皮克斯,Adobe,Autodesk,英偉達(dá))成立了AOUSD聯(lián)盟,進(jìn)一步推動(dòng)了3D圖像業(yè)界采用OpenUSD格式。
而且,借助AOUSD聯(lián)盟的成立,Omniverse的開(kāi)發(fā)者也可以方便的創(chuàng)建各種兼容于蘋(píng)果的ARKit或者是RealityKit的素材和內(nèi)容,更新后Omniverse也支持OpenXR的標(biāo)準(zhǔn),使得Omniverse能夠支持HTC VIVE,Magic Leap,Vajio等VR頭顯設(shè)備。
API,ChatUSD和其他更新
此外,英偉達(dá)還發(fā)布了新的Omniverse Cloud API,讓開(kāi)發(fā)者可以更加無(wú)縫地部署OpenUSD管線和應(yīng)用程序。
而最引人矚目的,就是支持基于大語(yǔ)言模型的ChatUSD的支持。
基于大語(yǔ)言模型技術(shù)的ChatUSD能像Github Copilot一樣,在Omniverse平臺(tái)中回答開(kāi)發(fā)者的相關(guān)問(wèn)題,或者自動(dòng)生成Python-USD的代碼,讓開(kāi)發(fā)人員效率暴增。
總而言之,英偉達(dá)再次用暴力的產(chǎn)品,令人驚嘆的技術(shù),高瞻遠(yuǎn)矚的洞見(jiàn),讓全世界再次看到,它未來(lái)將如何引領(lǐng)世界AI和圖形計(jì)算的新浪潮。
在老黃的經(jīng)典名言「the more you buy,the more you save!」中,老黃緩緩走下舞臺(tái),卻把現(xiàn)場(chǎng)氣氛推向了最高潮。