數(shù)據(jù)時代來臨 人工智能如何驅(qū)動存儲發(fā)展
近年來,數(shù)字化轉(zhuǎn)型成為企業(yè)業(yè)務(wù)升級必備手段,其實(shí),“數(shù)字化轉(zhuǎn)型”概念提出的十年之期,隨著5G、大數(shù)據(jù)、云計算、人工智能、物聯(lián)網(wǎng)等核心技術(shù)已在各行各業(yè)開花結(jié)果,邊緣計算?、機(jī)器學(xué)習(xí)、數(shù)字孿生等更新的技術(shù)層出不窮,重塑商業(yè)模式,顛覆生活體驗(yàn),加速萬物智能。追本溯源,一切變革源于數(shù)據(jù)亦由數(shù)據(jù)推動。
日前,IDC的一項(xiàng)報告顯示:2021年全球大數(shù)據(jù)市場的IT總投資規(guī)模為2176.1億美元,到2026年,這項(xiàng)數(shù)據(jù)將增至4491.1億美元,五年預(yù)測期內(nèi)(2021-2026)實(shí)現(xiàn)約15.6%的復(fù)合增長率。
大數(shù)據(jù)市場的高速成長,客觀地反映出企業(yè)用戶對于數(shù)據(jù)關(guān)注點(diǎn)的進(jìn)步:他們正在從以往的數(shù)據(jù)收集、存儲與管理,轉(zhuǎn)向?qū)τ跀?shù)據(jù)的分析和價值的發(fā)掘,從而實(shí)現(xiàn)讓數(shù)據(jù)真正發(fā)揮價值,用虛擬的數(shù)字來優(yōu)化真實(shí)現(xiàn)實(shí)的目的,最終完成其“數(shù)字”應(yīng)用的完整流程。
萬物智能時代新趨勢
數(shù)字化轉(zhuǎn)型進(jìn)入2.0時代,企業(yè)投入不斷增加,期待單點(diǎn)技術(shù)聚合成體系并發(fā)揮集成效應(yīng),進(jìn)一步增加利潤、激發(fā)創(chuàng)新、提高員工生產(chǎn)力,提高運(yùn)營效率并改善客戶體驗(yàn)。
盡管AI時刻在推動存儲發(fā)展,但是想要進(jìn)一步激活存儲潛力,仍需要解決AI場景下,存儲容易面臨的挑戰(zhàn):
海量小文件,由于訓(xùn)練任務(wù)需要的文件數(shù)量都在幾億到十幾億的量級,所以存儲需要能承載幾十億甚至上百億的文件數(shù)量。同時,由于很多訓(xùn)練模型都是依賴于圖片、音頻片段、視頻片段文件,而這些文件基本上都是在幾KB到幾MB之間。
讀多寫少,在大部分場景中,訓(xùn)練任務(wù)只讀取文件,中間很少產(chǎn)生中間數(shù)據(jù),即使產(chǎn)生了少量的中間數(shù)據(jù),也是會選擇寫在本地,很少選擇寫回存儲集群。
目錄熱點(diǎn),由于訓(xùn)練時,業(yè)務(wù)部門的數(shù)據(jù)組織方式不可控,很有可能用戶會將大量文件存放在同一個目錄,容易導(dǎo)致多個計算節(jié)點(diǎn)在訓(xùn)練過程中,會同時讀取這一批數(shù)據(jù),這個目錄所在的元數(shù)據(jù)節(jié)點(diǎn)就會成為熱點(diǎn)。
“工欲善其事,必先利其器”,要想發(fā)揮出?AI?人工智能技術(shù)的最大威力,解決存儲挑戰(zhàn)就成為企業(yè)構(gòu)建強(qiáng)有力的?IT?基礎(chǔ)設(shè)施的重要一環(huán)。如果沒有高性能的存儲,就會導(dǎo)致整個系統(tǒng)性能出現(xiàn)延遲的情況。
因此?AI?對存儲性能的要求是很苛刻的,企業(yè)希望存儲系統(tǒng)能滿足高吞吐量和低延時的需求,讓更多的數(shù)據(jù)能更及時地傳輸和執(zhí)行,那么對于這個愿望應(yīng)該如何實(shí)現(xiàn)呢?
AI驅(qū)動存儲發(fā)展
眾所周知,大數(shù)據(jù)、AI、ML等概念都不是最近出現(xiàn)的,只是當(dāng)時在數(shù)字時代,算力的局限不僅限制了數(shù)據(jù)的產(chǎn)生,也限制了AI和ML真正價值的發(fā)揮。直到云計算讓算力不再具有任何上限,用戶對于數(shù)據(jù)的獲取也開始變得更加廣泛,AI和ML才真正成為了最有效的數(shù)據(jù)分析工具。
在企業(yè)為AI平臺選擇存儲設(shè)備之前,必須首先考慮以下幾點(diǎn):
1. 成本
AI數(shù)據(jù)存儲設(shè)備的價格對企業(yè)來說是一個關(guān)鍵因素。顯然,高管層和那些參與采購決策的人會希望存儲盡可能具有成本效益,在許多情況下,這將影響組織的產(chǎn)品選擇和策略。
2. 可伸縮性
如上文所說,在創(chuàng)建機(jī)器學(xué)習(xí)或AI模型的過程中,收集、存儲和處理大量數(shù)據(jù)是非常必要的。機(jī)器學(xué)習(xí)算法要求源數(shù)據(jù)呈指數(shù)增長,才能實(shí)現(xiàn)精度的線性提高。創(chuàng)建可靠而準(zhǔn)確的機(jī)器學(xué)習(xí)模型可能需要數(shù)百TB甚至PB的數(shù)據(jù),而且這只會隨著時間的推移而增加。
存儲成本的變化引入了分層存儲或使用多種類型的存儲來存儲數(shù)據(jù)的概念。例如,對象存儲是存儲大量不活躍的AI數(shù)據(jù)的良好目標(biāo)。當(dāng)需要處理數(shù)據(jù)時,可以將數(shù)據(jù)移動到對象存儲中的高性能文件存儲集群或節(jié)點(diǎn)上,一旦處理完成,就可以將數(shù)據(jù)移動回來。
3. 性能
AI數(shù)據(jù)的存儲性能有三個方面。首先,可能也是最重要的是延遲,也就是軟件處理每個I/O請求的速度。低延遲很重要,因?yàn)楦纳蒲舆t對創(chuàng)建機(jī)器學(xué)習(xí)或AI模型所需的時間有直接影響。復(fù)雜的模型開發(fā)可能需要數(shù)周或數(shù)月的時間。通過縮短這個開發(fā)周期,組織可以更快地創(chuàng)建和細(xì)化模型。在檢查延遲能力時,由于對象訪問的流特性,對象將引用時間存儲為第一個字節(jié),而不是單個I/O請求的延遲。
機(jī)器學(xué)習(xí)數(shù)據(jù)可以由大量的小文件組成。在這個領(lǐng)域,文件服務(wù)器可以提供比對象存儲更好的性能。這里需要問AI存儲方案供應(yīng)商的一個關(guān)鍵問題是,在大文件類型和小文件類型上,他們的產(chǎn)品的性能特征會如何變化。
4. 可用性和耐久性
機(jī)器學(xué)習(xí)和AI模型可以長時間連續(xù)運(yùn)行。通過訓(xùn)練開發(fā)算法可能需要幾天或幾周的時間。在此期間,存儲系統(tǒng)必須保持啟動并持續(xù)可用。這意味著任何升級、技術(shù)替換或系統(tǒng)擴(kuò)展都需要在不停機(jī)的情況下進(jìn)行。
在大型系統(tǒng)中,組件故障是常見的。這意味著任何用于AI工作的平臺都應(yīng)該能夠從設(shè)備(如硬盤或SSD)和節(jié)點(diǎn)或服務(wù)器故障中恢復(fù)。對象存儲使用擦除編碼在許多節(jié)點(diǎn)上廣泛分布數(shù)據(jù),并最小化組件故障的影響。有一些擦除編碼技術(shù)可以用在橫向擴(kuò)展文件系統(tǒng),以提供同等水平的彈性。擦除編碼方案的效率非常重要,因?yàn)樗苯雨P(guān)系到讀寫I/O的性能,特別是對于小文件而言。
由于多數(shù)大規(guī)模對象存儲都太大,無法定期備份,因此可靠地擦除編碼成為AI存儲平臺的一個基本特性。
5. 公有云
開發(fā)機(jī)器學(xué)習(xí)和AI算法需要高性能存儲和高性能計算。許多AI系統(tǒng)都是基于GPU的,比如Nvidia?DGX,它可以用于開發(fā)精確算法所涉及的許多復(fù)雜數(shù)學(xué)計算。
公有云服務(wù)提供商已經(jīng)開始提供GPU加速的虛擬實(shí)例,可用于機(jī)器學(xué)習(xí)。在公有云中運(yùn)行機(jī)器學(xué)習(xí)工具降低了構(gòu)建機(jī)器學(xué)習(xí)開發(fā)基礎(chǔ)設(shè)施的資本成本,同時提供了擴(kuò)展開發(fā)機(jī)器學(xué)習(xí)模型所需的基礎(chǔ)設(shè)施的能力。
6. 集成
在本文中,我們將機(jī)器學(xué)習(xí)和AI的數(shù)據(jù)存儲與計算分開來看。構(gòu)建AI數(shù)據(jù)存儲可能很困難,因?yàn)楸仨毧紤]存儲網(wǎng)絡(luò)和調(diào)優(yōu)存儲以及與機(jī)器學(xué)習(xí)應(yīng)用程序協(xié)同工作的其他因素。
產(chǎn)品的預(yù)打包使供應(yīng)商能夠在將產(chǎn)品交付給客戶之前測試和優(yōu)化其產(chǎn)品。如今,有一些存儲產(chǎn)品結(jié)合了流行的AI軟件、計算(如通用CPU和GPU)、網(wǎng)絡(luò)和存儲,以交付一個AI就緒的平臺,許多詳細(xì)的調(diào)優(yōu)工作是在部署這些系統(tǒng)之前完成的。盡管成本可能是個問題,但對許多客戶來說,預(yù)先打包的系統(tǒng)可以降低采用AI存儲的障礙。
寫在最后
當(dāng)前,AI的發(fā)展正在加速推動技術(shù)設(shè)施的進(jìn)步,數(shù)據(jù)類型和數(shù)據(jù)存儲需求也在產(chǎn)生變化,或許很難預(yù)測未來的存儲技術(shù)究竟是怎么樣的,但是我們可以肯定的是,未來AI將持續(xù)驅(qū)動存儲發(fā)展。
隨著科技的進(jìn)步,AI作為新一輪產(chǎn)業(yè)變革的核心驅(qū)動力,將催生新技術(shù)、新產(chǎn)品、新產(chǎn)業(yè)、新業(yè)態(tài)、新模式,實(shí)現(xiàn)社會生產(chǎn)力的整體提升。