如何應(yīng)對生成式AI和大模型應(yīng)用帶來的存儲挑戰(zhàn)
原創(chuàng)生成式AI和各種大模型應(yīng)用,對算力提出了更高的要求,CPU+GPU+NPU+DPU的異構(gòu)計算模式,已經(jīng)很好地解決了算力瓶頸的問題。不過,生成式AI和各種大模型應(yīng)用,對存儲也提出了更大的挑戰(zhàn)。
生成式AI和大模型應(yīng)用帶來的存儲挑戰(zhàn)
我們知道,大模型有著巨大的參數(shù),對存儲的讀寫性能、訪問帶寬和存儲容量等都提出了更高的要求。具體來看,生成式AI和大模型應(yīng)用對存儲提出了以下挑戰(zhàn):
一是更高的訪問帶寬。隨著AI大模型訓(xùn)練和推理需求的增長,對存儲系統(tǒng)的帶寬提出了更高的要求,以滿足大量數(shù)據(jù)的快速傳輸需求。
二是更高的性能和更低的延遲:AI應(yīng)用需要快速訪問和處理數(shù)據(jù),因此存儲解決方案必須具有更高的性能,以此來降低數(shù)據(jù)讀寫延遲,以減少數(shù)據(jù)訪問時間。
三是更高的存儲容量:AI模型訓(xùn)練和深度學(xué)習(xí)應(yīng)用需要處理的數(shù)據(jù)量巨大,現(xiàn)在參數(shù)已經(jīng)達(dá)到萬億規(guī)模,很快就會增長到十億規(guī)模,能力越強(qiáng)需要的參數(shù)量就越大,需要的存儲容量就越大。因此,存儲系統(tǒng)必須提供足夠的容量來存儲這些數(shù)據(jù)。
四是高并發(fā)訪問能力:AI訓(xùn)練通常涉及多個GPU或多個節(jié)點(diǎn)并行處理,存儲系統(tǒng)需要支持高并發(fā)訪問,確保數(shù)據(jù)在存儲、CPU、GPU之間快速地進(jìn)行傳輸,提高數(shù)據(jù)處理的效率。
五是擴(kuò)展性能力:AI技術(shù)不斷進(jìn)步,存儲系統(tǒng)必須面向未來構(gòu)建良好的擴(kuò)展性,以適應(yīng)數(shù)據(jù)量快速增長的存儲需求,為技術(shù)的發(fā)展提供有力保障。
六是數(shù)據(jù)安全與隱私保護(hù):在處理大量敏感數(shù)據(jù)時,存儲系統(tǒng)需要提供高級的數(shù)據(jù)安全和隱私保護(hù)措施,以此來確保數(shù)據(jù)的絕對安全,并滿足數(shù)據(jù)隱私保護(hù)的需求。
七是數(shù)據(jù)管理與優(yōu)化:AI應(yīng)用需要有效的數(shù)據(jù)管理策略,包括數(shù)據(jù)的組織、索引和優(yōu)化,以提高數(shù)據(jù)訪問速度和整體性能。與此同時,降低數(shù)據(jù)存儲和數(shù)據(jù)管理的復(fù)雜度和存儲成本,以達(dá)到最優(yōu)的成本效益。
如何應(yīng)用生成式AI和大模型應(yīng)用帶來的存儲難題
面對生成式AI和各種大模型應(yīng)用的落地,存儲系統(tǒng)必須進(jìn)行變革,積極擁抱創(chuàng)新技術(shù),以此來滿足容量、性能、帶寬等需求。隨著CXL、HBM、3D NAND、PCI-E Gen5等技術(shù)的出現(xiàn),存儲墻的問題也將得到有效地解決。
首先,3D NAND可以解決海量數(shù)據(jù)的存儲需求,并提供大模型應(yīng)用所需的性能。近年來,在3D NAND技術(shù)的突破之下,采用QLC技術(shù)的SSD容量大幅增長。例如,Solidigm采用192層3D NAND的技術(shù)QLC SSD已經(jīng)達(dá)到61TB,SK海力士的192層QLC閃存不僅容量達(dá)到了61TB,而且讀取速度達(dá)到了7000MB/s,寫入速度也有3300MB/s。
雖然很多用戶對于QLC的性能和壽命提出了質(zhì)疑,但主控廠商也在通過技術(shù)創(chuàng)新,來提高QLC NAND的壽命。例如,聯(lián)蕓科技Agile ECC3技術(shù)引入4K LDPC,LDPC軟解碼能力的提升保障了最惡化情況下的閃存數(shù)據(jù)可靠性,極大地延長了SSD的使用壽命。
可以說,隨著數(shù)據(jù)量的爆炸式增加,對存儲容量的需求越來越高。而QLC作為存儲密度更高的技術(shù),顯然更為適合應(yīng)對大規(guī)模數(shù)據(jù)存儲的需求,不但能夠存儲更多的數(shù)據(jù)量,而且還能夠有效地降低存儲的功耗和占地空間,為企業(yè)提供更好的TCO。
目前,Solidigm采用四層單元最大容量為61.44TB的SSD已經(jīng)上市銷售,美光基于232層技術(shù)的6500系列30TB
SSD也已經(jīng)應(yīng)用于數(shù)據(jù)中心當(dāng)中。 SK hynix除了計劃推出60TB
eSSD之外,還預(yù)計未來SSD會從36TB發(fā)展到128TB。存儲容量的增加,將會進(jìn)一步拉低SSD成品的價格,進(jìn)一步加速了機(jī)械硬盤的淘汰速度(目前最大的機(jī)械硬盤容量為24TB)。
其次,CXL(高速互連技術(shù))的發(fā)展,也解決了數(shù)據(jù)傳輸?shù)碾y題,為大模型應(yīng)用提供了更快、更加靈活的解決方案。作為一種高速互連技術(shù),它以更高的帶寬解決了數(shù)據(jù)傳輸難題,為人工智能提供了更快、更靈活的數(shù)據(jù)傳輸解決方案。CXL一方面實(shí)現(xiàn)了設(shè)備到CPU之間的互聯(lián),實(shí)現(xiàn)了存儲計算分離。另一方面,CXL允許CPU以低延遲和高帶寬訪問連接設(shè)備上更大的內(nèi)存池,從而擴(kuò)展內(nèi)存,以此來增加AI/ML應(yīng)用程序的內(nèi)存容量和性能。
與PCIe相比,CXL在帶寬方面有著更強(qiáng)的性能表現(xiàn)。其中,CXL2.0支持32GT/s的數(shù)據(jù)傳輸速率,CXL3.支持64GT/s的數(shù)據(jù)傳輸速率,這使得CXL能夠更有效地滿足處理大規(guī)模數(shù)據(jù)和高性能計算工作負(fù)載的需求。由于CXL能夠在PCIe或CXL模式下運(yùn)行,利用CXL靈活的處理器端口可以在CIe5.0中實(shí)現(xiàn)32GT/s的數(shù)據(jù)速率,在PCIe6.0中實(shí)現(xiàn)高達(dá) 64GT/s的數(shù)據(jù)速率,為人工智能應(yīng)用提供了更加靈活的功能。
除此之外,CXL允許不同設(shè)備之間共享內(nèi)存資源,能夠更好地提高內(nèi)存利用率,降低系統(tǒng)成本。另外,CXL支持多種設(shè)備之間的互連,包括CPU、GPU、FPGA和存儲設(shè)備等,這為構(gòu)建異構(gòu)計算環(huán)境提供了便利。
作為一個開放的行業(yè)標(biāo)準(zhǔn)組織,CXL旨在創(chuàng)建技術(shù)規(guī)范,促進(jìn)數(shù)據(jù)中心加速器和其他高速改進(jìn)的開放生態(tài)系統(tǒng)。目前 CXL 已經(jīng)發(fā)布了CXL 1.0、CXL 2.0和CXL 3.0三個版本。其中,最新的CXL 3.0版本基于PCIe 6.0開發(fā),支持比CXL 2.0更高的帶寬和更低的延遲,并增加了設(shè)備熱插拔、電源管理和錯誤處理等新功能。
目前,英特爾至強(qiáng)CPU從第四代至強(qiáng)可擴(kuò)展處理器開始支持CXL,并且在后續(xù)每代至強(qiáng) CPU中都支持了最新的CXL協(xié)議,并提供了Flat 1LM、Heterogenous interleaving、2LM等多種創(chuàng)新內(nèi)存應(yīng)用模式。阿里云推出了業(yè)界首個基于CXL Switch內(nèi)存池的業(yè)務(wù)系統(tǒng)解決方案,通過CXL Switch Box系統(tǒng),提供大容量、高性能、靈活性強(qiáng)的池化內(nèi)存系統(tǒng)。
浪潮信息在CXL2.0階段持續(xù)進(jìn)行CXL交換技術(shù)研究,提出大規(guī)模內(nèi)存資源解耦重構(gòu)技術(shù)方案,開發(fā)完成內(nèi)存池化原型系統(tǒng),以CXL交換單元為核心解耦重構(gòu)服務(wù)器架構(gòu),軟件定義實(shí)現(xiàn)內(nèi)存資源靈活調(diào)用,實(shí)現(xiàn)多主機(jī)內(nèi)存資源共享,單系統(tǒng)最大可擴(kuò)展16TB池化內(nèi)存資源,相比傳統(tǒng)服務(wù)器內(nèi)存容量和帶寬均擴(kuò)大2倍,滿足AI計算、云場景、內(nèi)存數(shù)據(jù)庫多場景應(yīng)用需求。
正是由于高帶寬、低延遲、內(nèi)存共享、靈活性、兼容性等方面的優(yōu)勢,CXL為高性能計算領(lǐng)域帶來了更好的選擇,能夠很好地滿足生成式AI應(yīng)用中數(shù)據(jù)讀寫的帶寬要求。
最后,HBM也解決了DRAM容量小、傳輸慢的問題,為GPU帶來了更高的容量和更快的數(shù)據(jù)傳輸。與DRAM相比,HBM不但擁有容量上的優(yōu)勢,能夠同時存儲更多的數(shù)據(jù),而且擁有更高的帶寬,能夠大幅提升數(shù)據(jù)的讀寫速度。自2013年第一代HBM誕生以來,隨著技術(shù)的不斷發(fā)展,HBM也經(jīng)歷了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的順序迭代,最新的HBM3E是HBM3的擴(kuò)展版本,速率達(dá)到了8Gbps。
作為HBM(高帶寬存儲器)的擴(kuò)展版本,HBM3e采用了垂直互連多個DRAM芯片的設(shè)計。相較于傳統(tǒng)的DRAM產(chǎn)品,HBM3E在數(shù)據(jù)處理速度上顯著提高。根據(jù)SK海力士公布的數(shù)據(jù),HBM3E最高每秒可處理1.15TB的數(shù)據(jù),相當(dāng)于在一秒鐘內(nèi)即可處理230多部5GB大小的全高清電影。這種高性能的數(shù)據(jù)處理能力使得HBM3E成為人工智能內(nèi)存產(chǎn)品當(dāng)中的關(guān)鍵規(guī)格。
寫在最后:
技術(shù)的發(fā)展正在推動著存儲技術(shù)的變革,隨著QLC、CXL和HBM等先進(jìn)技術(shù)的不斷突破和發(fā)展,生成式AI和大模型應(yīng)用面臨的存儲墻問題將迎刃而解!