AI數(shù)據(jù)周期:適合大規(guī)模AI工作負載的最佳存儲組合
譯文譯者 | 布加迪
審校 | 重樓
雖然AI在徹底改變人們的生活,并激發(fā)各種全新的應用,但從根本上來說,其核心是數(shù)據(jù)使用和數(shù)據(jù)生成。
隨著AI行業(yè)擴建龐大新穎的基礎設施來訓練AI模型,并提供AI服務(推理),數(shù)據(jù)存儲方面帶來了重要影響。首先,存儲技術在這種新基礎設施各個階段的成本和能效方面發(fā)揮著重要作用。當AI系統(tǒng)處理和分析現(xiàn)有數(shù)據(jù)時,生成新數(shù)據(jù),其中大部分數(shù)據(jù)將因有用而被存儲起來。新的AI用例和更復雜的模型使現(xiàn)有的存儲庫和額外的數(shù)據(jù)源對模型上下文和訓練更有價值,從而帶動了這種循環(huán):生成的數(shù)據(jù)增加推動了數(shù)據(jù)存儲擴展,從而推動了進一步的數(shù)據(jù)生成,這是良性的AI數(shù)據(jù)循環(huán)。
對于企業(yè)數(shù)據(jù)中心規(guī)劃者來說,了解AI和數(shù)據(jù)存儲之間的動態(tài)關系很重要。AI數(shù)據(jù)周期概述了六個階段中每個階段大規(guī)模AI工作負載的存儲優(yōu)先事項。存儲部件制造商正在調整產品路線圖,認識到這些加速的AI推動的需求:盡量提升性能、最遲降低總體擁有成本(CTO)。
不妨快速瀏覽一下AI數(shù)據(jù)周期的各個階段:
原始數(shù)據(jù)存檔和內容存儲
從各種來源安全高效地收集和存儲原始數(shù)據(jù)。收集數(shù)據(jù)的質量和多樣性至關重要,這為隨后的一切奠定了基礎。
存儲需求:大容量企業(yè)硬盤驅動器(eHDD)仍然是低成本批量數(shù)據(jù)存儲的首選技術,繼續(xù)提供最高的每個驅動器容量和最低的每比特成本。
數(shù)據(jù)準備和攝取
數(shù)據(jù)被處理、清理和轉換,作為模型訓練的輸入。數(shù)據(jù)中心的所有者正在實施經過升級的存儲基礎設施(比如快速數(shù)據(jù)湖),以支持數(shù)據(jù)準備和攝取。
存儲需求:整合大容量企業(yè)固態(tài)硬盤(eSSD)的全閃存存儲系統(tǒng)正在被部署,以增強基于HDD的現(xiàn)有存儲庫,或者部署在新的全閃存存儲層中。
AI模型訓練
正是在這個階段,AI模型被迭代訓練,基于訓練數(shù)據(jù)做出準確的預測。具體來說,模型在高性能超級計算機上進行訓練,訓練效率很大程度上依賴GPU利用率的最大化。
存儲需求:訓練服務器附近的超高帶寬閃存存儲對于確保利用率最大化非常重要。高性能(PCIe?Gen. 5)和針對低延遲計算優(yōu)化的eSSD旨在滿足這些嚴格要求。
推理和提示
這個階段為AI模型創(chuàng)建對用戶友好的界面,包括API、儀表板以及將上下文特定的數(shù)據(jù)與最終用戶提示相結合的工具。AI模型被集成到現(xiàn)有的互聯(lián)網和客戶端應用程序中,在不取代現(xiàn)有系統(tǒng)的情況下增強它們。這就意味著維護當前的系統(tǒng)以及新的AI計算,推動進一步的存儲需求。
存儲需求:當前的存儲系統(tǒng)將升級,以便額外的數(shù)據(jù)中心eHDD和eSSD容量適應AI集成到現(xiàn)有流程中。同樣,若要利用AI增強現(xiàn)有的應用系統(tǒng),將需要用于PC和筆記本電腦的更大容量、更高性能的客戶端SSD(cSSD)以及用于移動電話、物聯(lián)網系統(tǒng)和汽車的更大容量嵌入式閃存設備。
AI推理引擎
第五階段是奇跡實時發(fā)生的地方。這個階段包括將訓練好的模型部署到生產環(huán)境中,模型可以分析新數(shù)據(jù),并提供實時預測或生成新內容。推理引擎的效率對于及時準確的AI響應至關重要。
存儲需求:用于將上下文或模型數(shù)據(jù)流式傳輸?shù)酵评矸掌鞯拇笕萘?/span>eSSD;視規(guī)?;蝽憫獣r間目標而定,可以部署高性能計算eSSD用于緩存;支持AI的邊緣設備中的高容量cSSD和更大的嵌入式閃存模塊。
新內容生成
最后一個階段是創(chuàng)建新內容。AI模型獲得的見解常常生成新的數(shù)據(jù),這些數(shù)據(jù)被存儲起來,因為它們被證明有價值或引人入勝。在這個階段閉合循環(huán)的同時,也反饋回到數(shù)據(jù)周期中,通過增加訓練數(shù)據(jù)的價值或供未來模型分析,推動持續(xù)改進和創(chuàng)新。
存儲需求:生成的內容將返回到用于歸檔數(shù)據(jù)中心存儲的大容量企業(yè)eHDD中,以及支持AI的邊緣設備中的高容量cSSD和嵌入式閃存設備中。
數(shù)據(jù)生成增加的自我延續(xù)循環(huán)
這種數(shù)據(jù)生成和消費的持續(xù)循環(huán)正在加速對性能驅動、可擴展的存儲技術的需求,以管理大型AI數(shù)據(jù)集,并有效地重構復雜數(shù)據(jù),從而推動進一步的創(chuàng)新。
IDC研究總監(jiān)Ed Burns特別指出:“隨著存儲的作用和數(shù)據(jù)訪問影響AI模型的速度、效率和準確性,尤其是在更龐大、更高質量的數(shù)據(jù)集變得更普遍的情況下,預計存儲會帶來重大的影響。”
毫無疑問,AI是下一種變革性技術。隨著AI技術融入到幾乎所有行業(yè)領域中,預計存儲部件供應商將日益根據(jù)周期中每個階段的需求來定制產品。
原文標題:The AI Data Cycle: Understanding the Optimal Storage Mix for AI Workloads at Scale,作者:Dan Steere