針對(duì)AI工作負(fù)載優(yōu)化數(shù)據(jù)中心的四種方法
AI有望以多種方式改變數(shù)據(jù)中心,例如改變數(shù)據(jù)中心就業(yè)市場(chǎng)以及改進(jìn)數(shù)據(jù)中心監(jiān)控和事件響應(yīng)操作。
然而,AI可能對(duì)數(shù)據(jù)中心產(chǎn)生的最大影響是改變數(shù)據(jù)中心的工作方式。對(duì)于那些想要充分利用現(xiàn)代AI技術(shù)的企業(yè)來(lái)說(shuō),數(shù)據(jù)中心所容納的基礎(chǔ)設(shè)施及其管理方式必須有所改變。
AI將會(huì)引發(fā)數(shù)據(jù)中心怎樣的發(fā)展還有待觀察,但以下是一些值得期待的關(guān)鍵變化。
AI對(duì)數(shù)據(jù)中心的獨(dú)特需求
要評(píng)估AI對(duì)數(shù)據(jù)中心的影響,你必須首先了解的是AI工作負(fù)載與數(shù)據(jù)中心中其他類(lèi)型的工作負(fù)載(例如標(biāo)準(zhǔn)應(yīng)用托管)之間有什么不同。
雖然AI工作負(fù)載有很多形式且要求各異,但大多數(shù)都滿(mǎn)足以下的獨(dú)特需求:
- 需要大量的計(jì)算資源,尤其是在執(zhí)行模型訓(xùn)練的時(shí)候。
- 運(yùn)行在裸機(jī)硬件上使其從中受益,特別是那些可訪問(wèn)GPU資源的服務(wù)器。
- 資源消耗率可能會(huì)大幅波動(dòng)。在訓(xùn)練階段,AI工作負(fù)載需要大量的資源,但訓(xùn)練完成之后,大多數(shù)情況下資源消耗會(huì)顯著下降,直到再一次訓(xùn)練模型。
- 需要超低延遲的網(wǎng)絡(luò)才能實(shí)時(shí)做出決策并交付結(jié)果。
當(dāng)然,其他類(lèi)型的工作負(fù)載也可能有這些要求,例如,運(yùn)行AI應(yīng)用和服務(wù)并不是唯一可以從裸機(jī)服務(wù)器中受益的用例,但總的來(lái)說(shuō),AI軟件要比其他類(lèi)型的工作負(fù)載需要更多上述資源。
為了AI升級(jí)數(shù)據(jù)中心
為了優(yōu)化AI工作負(fù)載的設(shè)施,許多數(shù)據(jù)中心運(yùn)營(yíng)商需要做出改變,以滿(mǎn)足AI獨(dú)特的需求。以下是數(shù)據(jù)中心在這方面的關(guān)鍵升級(jí)。
- 重新設(shè)計(jì)或更換裸機(jī)服務(wù)器
至少在過(guò)去十年中,虛擬機(jī)一直是托管工作負(fù)載的首選基礎(chǔ)設(shè)施資源。但考慮到AI應(yīng)用和服務(wù)對(duì)于裸機(jī)硬件的需求,有越來(lái)越多的數(shù)據(jù)中心運(yùn)營(yíng)商可能會(huì)發(fā)現(xiàn)擴(kuò)展裸機(jī)產(chǎn)品變得十分重要。
在某些方面,這實(shí)際上是簡(jiǎn)化了數(shù)據(jù)中心的運(yùn)營(yíng)。如果你在裸機(jī)上運(yùn)行工作負(fù)載,最終會(huì)得到一個(gè)不太復(fù)雜的托管堆棧,因?yàn)槟銢](méi)有混合使用虛擬機(jī)管理程序和虛擬機(jī)編排器。
另一方面,擴(kuò)展用于托管工作負(fù)載的裸機(jī)基礎(chǔ)設(shè)施可能需要數(shù)據(jù)中心對(duì)托管的服務(wù)器以及服務(wù)器所在的機(jī)架進(jìn)行更新升級(jí)。傳統(tǒng)上看,在數(shù)據(jù)中心設(shè)置服務(wù)器的最簡(jiǎn)單方法,就是配置非常強(qiáng)大的裸機(jī)機(jī)器,然后根據(jù)工作負(fù)載的需求將其分配到任意數(shù)量的虛擬機(jī)中。但如果你需要直接在裸機(jī)上運(yùn)行工作負(fù)載,那么則可能需要更多的服務(wù)器來(lái)隔離工作負(fù)載——這意味著數(shù)據(jù)中心必須將高功率服務(wù)器更換為較小的服務(wù)器,并且可能要相應(yīng)地更新服務(wù)器機(jī)架。
- 共享支持GPU的服務(wù)器
盡管在AI工作負(fù)載進(jìn)行訓(xùn)練的時(shí)候,使用支持GPU的服務(wù)器是有利的,但AI應(yīng)用不一定需要GPU來(lái)進(jìn)行日常操作。因此,許多企業(yè)只需要臨時(shí)訪問(wèn)支持GPU的基礎(chǔ)設(shè)施即可。
為了滿(mǎn)足這一需求,數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)該考慮那些讓企業(yè)能夠共享基于GPU的基礎(chǔ)設(shè)施的產(chǎn)品。少數(shù)企業(yè)可能希望擁有配備GPU的服務(wù)器,因?yàn)樗麄儾⒉粫?huì)永遠(yuǎn)都需要這種服務(wù)器。但如果數(shù)據(jù)中心運(yùn)營(yíng)商能夠臨時(shí)提供對(duì)GPU資源的訪問(wèn)(例如通過(guò)GPU即服務(wù)的模式),那么他們就能夠更好地吸引那些有AI工作負(fù)載需求的企業(yè)。
- 增強(qiáng)的網(wǎng)絡(luò)解決方案
大多數(shù)企業(yè)級(jí)數(shù)據(jù)中心已經(jīng)提供了對(duì)高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施的訪問(wèn),以及有助于盡快將數(shù)據(jù)移動(dòng)到外部設(shè)施的互連。但為了充分利用AI,數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)品可能需要變得更加強(qiáng)大。
那些擁有AI工作負(fù)載的企業(yè)需要兩個(gè)關(guān)鍵功能:首先,高帶寬網(wǎng)絡(luò)連接,可以非??焖俚匾苿?dòng)大量數(shù)據(jù),這在分布式基礎(chǔ)設(shè)施上訓(xùn)練AI模型的時(shí)候尤其重要。其次,網(wǎng)絡(luò)能夠提供個(gè)位數(shù)的延遲,如果你希望AI應(yīng)用和服務(wù)真正做到實(shí)時(shí)執(zhí)行,這一點(diǎn)至關(guān)重要。
- 更高的數(shù)據(jù)中心靈活性
由于AI工作負(fù)載的資源需求波動(dòng)很大,因此可能需要在支持基礎(chǔ)設(shè)施數(shù)量方面更加靈活的數(shù)據(jù)中心。AI還可能讓人們更加需要能夠讓企業(yè)在其他數(shù)據(jù)中心內(nèi)按需部署服務(wù)器、而不是自己設(shè)置這些服務(wù)器的服務(wù),因?yàn)榘葱杌A(chǔ)設(shè)施是解決資源需求波動(dòng)的一個(gè)好方法。
為此,那些想要優(yōu)化AI的數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)該考慮使其設(shè)施更加靈活的產(chǎn)品。短期合同,和那些不僅僅包括了客戶(hù)可以建立自己基礎(chǔ)設(shè)施的機(jī)架空間服務(wù),二者的結(jié)合可能對(duì)于那些需要部署AI工作負(fù)載的組織來(lái)說(shuō)是有吸引力的。
結(jié)論
AI變革仍在上演,現(xiàn)在想要確切地知道AI將如何改變數(shù)據(jù)中心的運(yùn)營(yíng)方式或者其中部署的基礎(chǔ)設(shè)施類(lèi)型,還為時(shí)過(guò)早。但可以相對(duì)肯定地是,支持GPU的服務(wù)器和更靈活的解決方案等變化,可能在以AI為中心的世界中變得至關(guān)重要。想要分一杯羹的數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)該確保更新他們的設(shè)施,以滿(mǎn)足AI工作負(fù)載的獨(dú)特要求。