AI/ML存儲環(huán)境架構(gòu)的三個(gè)技巧
人工智能徹底改變了我們周圍的世界,其革命性影響源于它分析大量數(shù)據(jù)、從中學(xué)習(xí)并提供見解和自動化能力。這些數(shù)據(jù)通常分布在數(shù)據(jù)倉庫、數(shù)據(jù)湖、云和本地?cái)?shù)據(jù)中心中,確保關(guān)鍵信息能夠被訪問和分析,以適應(yīng)當(dāng)今的人工智能計(jì)劃。
人工智能激增的影響之一是傳統(tǒng)商業(yè)模式的顛覆。組織越來越依賴人工智能來增強(qiáng)客戶體驗(yàn)、簡化運(yùn)營和推動創(chuàng)新。為了最大限度地發(fā)揮人工智能的優(yōu)勢,采用先進(jìn)的存儲架構(gòu)至關(guān)重要。NVMe over Fabrics(NVMe-oF)提供AI工作負(fù)載所需的低延遲、高吞吐量訪問,加速性能并減少潛在瓶頸。實(shí)施分類存儲可以實(shí)現(xiàn)更大的靈活性,并能夠獨(dú)立擴(kuò)展存儲和計(jì)算,以最大限度地提高資源利用率。未能實(shí)施最合適的架構(gòu)并將人工智能集成到其模型中的企業(yè)有可能在數(shù)據(jù)驅(qū)動的世界中落后。
部署機(jī)器學(xué)習(xí)模型時(shí)的注意事項(xiàng)
組織一直面臨著盡快從數(shù)據(jù)中獲取盡可能多價(jià)值的壓力,但他們必須以不妨礙正常業(yè)務(wù)運(yùn)營的成本效益方式這樣做。因此,依賴本地或云端的存儲不再那么理想。
組織需要構(gòu)建高性能、靈活和可擴(kuò)展的計(jì)算環(huán)境,以支持當(dāng)今人工智能工作流程的實(shí)時(shí)處理需求。在這些用例中,高效的專用數(shù)據(jù)存儲至關(guān)重要,組織應(yīng)考慮數(shù)據(jù)量、速度、多樣性和準(zhǔn)確性。
組織現(xiàn)在能夠在本地?cái)?shù)據(jù)中心構(gòu)建類似公有云的基礎(chǔ)設(shè)施,使其具有云的靈活性和可擴(kuò)展性,并具有私有基礎(chǔ)設(shè)施的控制和成本效益。如果架構(gòu)正確,這些環(huán)境可以提供更大的性價(jià)比,提供了一種更有效的方式來支持為人工智能應(yīng)用程序準(zhǔn)備的存儲環(huán)境的高性能、高度可擴(kuò)展的要求。事實(shí)上,對于在一定性能或成本限制范圍內(nèi)運(yùn)營的組織來說,將AI/ML數(shù)據(jù)集從云端匯回本地?cái)?shù)據(jù)中心可能是一個(gè)理想的選擇。
為人工智能應(yīng)用構(gòu)建本地存儲環(huán)境
組織可以構(gòu)建強(qiáng)大的存儲環(huán)境,具有公有云的靈活性和規(guī)模,但具有私有基礎(chǔ)設(shè)施的可管理性和一致性。以下是構(gòu)建本地存儲環(huán)境時(shí)需要考慮的三件事,非常適合當(dāng)今AI/ML驅(qū)動的世界的需求:
服務(wù)器選擇:人工智能應(yīng)用程序需要大量的計(jì)算資源來快速有效地處理和分析機(jī)器學(xué)習(xí)數(shù)據(jù)集,因此選擇合適的服務(wù)器架構(gòu)至關(guān)重要。然而,最重要的是能夠在不造成系統(tǒng)瓶頸的情況下擴(kuò)展GPU資源。
高性能存儲網(wǎng)絡(luò):同樣重要的是要包括高性能的存儲網(wǎng)絡(luò),它不僅能夠滿足(并超過)GPU不斷增長的性能需求,而且能夠提供可擴(kuò)展的容量和吞吐量,以滿足學(xué)習(xí)模型數(shù)據(jù)集的大小和性能需求。利用直接路徑技術(shù)的存儲解決方案可以實(shí)現(xiàn)GPU到存儲的直接通信,從而繞過CPU來提高數(shù)據(jù)傳輸速度、減少延遲并提高利用率。
基于開放標(biāo)準(zhǔn):最后,解決方案應(yīng)該與硬件和協(xié)議無關(guān),提供多種連接到服務(wù)器和存儲到網(wǎng)絡(luò)的方式?;A(chǔ)設(shè)施的互操作性將大大有助于為人工智能應(yīng)用構(gòu)建一個(gè)靈活的環(huán)境。
構(gòu)建新架構(gòu)
在本地構(gòu)建類似公有云的基礎(chǔ)設(shè)施可能會提供一個(gè)可靠的選擇——為組織提供云的靈活性和可擴(kuò)展性,同時(shí)提供私有基礎(chǔ)設(shè)施的控制和成本效益。然而,重要的是,在做出正確的存儲架構(gòu)決策時(shí),要考慮到人工智能的因素——提供人工智能應(yīng)用程序以業(yè)務(wù)速度移動所需的計(jì)算能力和存儲容量的正確組合。
確保適當(dāng)資源分配和減少瓶頸的一種方法是采用存儲分解。獨(dú)立擴(kuò)展存儲允許GPU飽和,否則在使用超融合解決方案的許多AI/ML工作負(fù)載中可能會遇到挑戰(zhàn)。這意味著可以在不影響性能的情況下有效地?cái)U(kuò)展存儲。