你現(xiàn)在可以在VMware基礎架構運行Nvidia vGPU
由于VMware與Nvidia之間的合作有了新篇章,即Project Monterey,企業(yè)現(xiàn)在可以在Nvidia vGPU上運行AI和機器學習工作負載等計算密集型應用程序,并使用VMware vSphere對其進行管理。
傳統(tǒng)上來看,人工智能、深度學習(DL)和機器學習(ML)工作負載僅限于CPU,但是Nvidia虛擬計算服務器(vCS)使IT管理員可以將這些工作負載轉(zhuǎn)移到GPU或虛擬GPU(vGPU),并通過vSphere管理這些工作負載。該策略旨在提高GPU利用率,加強安全性并簡化管理。
Nvidia公司產(chǎn)品管理高級總監(jiān)Raj Rao在名為《通過vSphere上的Nvidia vGPU運行ML和計算工作流的最佳做法》的會議上說:“AI、DL和 ML都是非常需要計算的工作量,并且需要大量的計算。一般的硬件不能滿足這些要求。”
借助Project Monterey項目,VMware旨在最終簡化vSphere環(huán)境中機器學習的開發(fā)和交付。目前,他們尋求借助vCS和vGPU來簡單地加速這些環(huán)境的計算。
Nvidia GPU具有張量計算核心,可激活AI所需的大型矩陣運算。其GPU還具有先進的計算核心,可用于更多用途的多任務計算工作負載。這些GPU通常在所有流行的OEM服務器中可用;企業(yè)可以將它們部署在本地或云中。虛擬化GPU可從硬件GPU中提取功能、性能和可靠性。
研究和咨詢公司Gartner的研究主管Paul Delory說:“這是面向虛擬化的硬件加速器的總體趨勢的一部分,我們越來越多地將特殊功能轉(zhuǎn)移到專用硬件。”
通過vSphere管理vGPU
借助通過vSphere管理vGPU的新功能,管理員可以啟用多種工作負載,例如在同一主機上運行Windows和Linux VM。VMware客戶越來越多地在邊緣計算中使用vGPU,而5G GPU計算則是vSphere管理vGPU的新興用例。
管理員還可以在vSphere中使用vGPU,以加速圖形工作負載;編碼和解碼VMware Horizon工作負載;運行機器學習、深度學習和高性能計算工作負載;并開發(fā)增強現(xiàn)實或虛擬現(xiàn)實應用程序。
由vSphere管理的vGPU還可為啟用vGPU的VM的vMotion等流程提高效率。管理員可以使用vSphere管理GPU和vGPU,然后以更加簡化的方式使用這些GPU和vGPU管理vMotion工作負載。
VMware的高級工程師Uday Kurkure說:“機器學習訓練或高性能計算工作可能需要幾天的時間。
如果你要進行服務器維護,則需要停止作業(yè)并關閉服務器…再次啟動服務器并重新啟動作業(yè)。但是…其實你不必關閉作業(yè)并關閉服務器,你可以使用vMotion-將這些工作轉(zhuǎn)移給另一臺主機,從而節(jié)省了幾天的時間。” 如果你要在vSphere上設置Nvidia vGPU,請在主機上安裝Nvidia GPU。在運行于主機之上的管理程序上安裝Nvidia vGPU Manager,以虛擬化基礎GPU。然后,管理員可以運行多個具有相同操作系統(tǒng)(例如Windows或Linux)的VM,這些VM可以訪問相同的虛擬GPU。然后,這些主機可以快速高效地運行高性能計算或機器學習工作負載。
vSphere和虛擬環(huán)境中的機器學習
通過vGPU,人們可以提供更有效的機器學習訓練。管理員可以在數(shù)據(jù)中心中運行其他工作負載的同時,訓練他們的機器學習應用程序,從而大大減少訓練機器學習應用程序所需的時間。例如,根據(jù)Kurkure的說法,用于單詞預測的復雜語言建模工作量最多可能需要56個小時來訓練,而使用vGPU只需8個小時。與本地GPU相比,vGPU在訓練時間方面僅為4%。但是,對于大多數(shù)企業(yè)而言,機器學習仍然處于起步階段。
Delory說:“Project Monterey對于AI或ML工作負載的好處是使它們可以訪問GPU。但是現(xiàn)在,你要么必須在所有主機上安裝GPU(這很昂貴),要么將硬件專用于AI或ML工作負載-這既復雜又昂貴。”