無懼大規(guī)模數(shù)據(jù)挑戰(zhàn)!解讀生成式AI時代的數(shù)據(jù)存儲技術(shù)
原創(chuàng)進入生成式AI時代,CPU、GPU、DPU等芯片的算力成為越來越多企業(yè)用戶關(guān)注的重點。的確,面對動輒萬億規(guī)模的參數(shù),需要更強大的算力才能滿足模型訓(xùn)練要求。不過,存儲作為數(shù)據(jù)中心中的核心IT基礎(chǔ)設(shè)施,其性能表現(xiàn)也將對生成式AI帶來重要的影響。接下來,筆者從生成式AI給存儲帶來的諸多挑戰(zhàn)談起,詳細介紹一下AI時代數(shù)據(jù)存儲的關(guān)鍵技術(shù)。
一、AI給數(shù)據(jù)存儲帶來的挑戰(zhàn)
筆者認為,生成式AI主要給數(shù)據(jù)存儲帶來了性能、容量、能耗、價格等方面的挑戰(zhàn)。
一是存儲性能挑戰(zhàn)。在生成式AI模型的訓(xùn)練過程中,由于需要處理大量的數(shù)據(jù),不僅對CPU、GPU等性能提出了更高的要求,對存儲系統(tǒng)同樣也提出了更高的要求。因此,為了提高訓(xùn)練效率,將數(shù)據(jù)更高效地傳輸給CPU與GPU,不僅需要存儲本身具有更高的性能,而且還需要更寬的數(shù)據(jù)傳輸總線,以提高數(shù)據(jù)讀寫性能,降低延遲。
二是存儲容量挑戰(zhàn)。存儲龐大的數(shù)據(jù)量,對存儲的空間提出了更高的要求,這就需要企業(yè)部署更加靈活的存儲解決方案,持續(xù)滿足生成式AI對于數(shù)據(jù)存儲的需求。
三是能耗和空間挑戰(zhàn)。由于需要更高密度的存儲解決方案,因此生成式AI還將造成數(shù)據(jù)存儲功耗的提高,以及存儲空間的挑戰(zhàn),這將會給數(shù)據(jù)中心帶來整體運營成本的提高。
二、滿足AI需求的數(shù)據(jù)存儲技術(shù)
面對AI給數(shù)據(jù)存儲帶來的挑戰(zhàn),CXL、HBM、SSD等技術(shù)也在不斷演進,以更高的帶寬、更強的性能和更高的容量,滿足AI應(yīng)用下的數(shù)據(jù)存儲需求。
1)CXL(高速互連技術(shù))
CXL的全稱為Compute Express Link,是一種高速互連技術(shù),它以更高的帶寬解決了數(shù)據(jù)傳輸難題,為人工智能提供了更快、更靈活的數(shù)據(jù)傳輸解決方案。
一方面,CXL實現(xiàn)了設(shè)備到CPU之間的互聯(lián),實現(xiàn)了存儲計算分離。另一方面,CXL允許CPU以低延遲和高帶寬訪問連接設(shè)備上更大的內(nèi)存池,從而擴展內(nèi)存,以此來增加AI/ML應(yīng)用程序的內(nèi)存容量和性能。
與PCIe相比,CXL在帶寬方面有著更強的性能表現(xiàn)。其中,CXL2.0支持32GT/s的數(shù)據(jù)傳輸速率,CXL3.支持64GT/s的數(shù)據(jù)傳輸速率,這使得CXL能夠更有效地滿足處理大規(guī)模數(shù)據(jù)和高性能計算工作負載的需求。由于CXL能夠在PCIe 或CXL模式下運行,利用CXL靈活的處理器端口可以在CIe5.0中實現(xiàn)32GT/s的數(shù)據(jù)速率,在PCIe6.0 中實現(xiàn)高達 64GT/s的數(shù)據(jù)速率,為人工智能應(yīng)用提供了更加靈活的功能。
除此之外,CXL允許不同設(shè)備之間共享內(nèi)存資源,能夠更好地提高內(nèi)存利用率,降低系統(tǒng)成本。另外,CXL支持多種設(shè)備之間的互連,包括CPU、GPU、FPGA和存儲設(shè)備等,這為構(gòu)建異構(gòu)計算環(huán)境提供了便利。
作為一個開放的行業(yè)標準組織,CXL旨在創(chuàng)建技術(shù)規(guī)范,促進數(shù)據(jù)中心加速器和其他高速改進的開放生態(tài)系統(tǒng)。目前 CXL 已經(jīng)發(fā)布了CXL 1.0、CXL 2.0和CXL 3.0三個版本。其中,最新的CXL 3.0版本基于PCIe 6.0開發(fā),支持比CXL 2.0更高的帶寬和更低的延遲,并增加了設(shè)備熱插拔、電源管理和錯誤處理等新功能。
正是由于高帶寬、低延遲、內(nèi)存共享、靈活性、兼容性等方面的優(yōu)勢,CXL為高性能計算領(lǐng)域帶來了更好的選擇,能夠很好地滿足生成式AI應(yīng)用中數(shù)據(jù)讀寫的帶寬要求。
2)HBM(高帶寬存儲器)
HBM,即High Bandwidth Memory,是一種具備高性能、高容量的存儲芯片,被廣泛應(yīng)用于高性能計算、數(shù)據(jù)中心等領(lǐng)域。
HBM最初并不是以存儲性能作為開發(fā)目的,而是以提高存儲容量為主。通過利用3D芯片堆疊技術(shù)將多個DRAM芯片堆疊在一起,從而提供更大的存儲容量。隨著技術(shù)的發(fā)展,AI對GPU性能和功能提出了更高的要求。在此背景之下,GPU的功能越來越強,需要更加快速地從內(nèi)存中訪問數(shù)據(jù),以此來縮短應(yīng)用處理的時間。特別是在生成式AI出現(xiàn)之后,大型語言模型 (LLM)需要重復(fù)訪問數(shù)十億甚至數(shù)萬億個參數(shù),如此龐大且頻繁地數(shù)據(jù)處理,往往需要數(shù)小時甚至數(shù)天的時間,這顯然無法滿足要求。于是,傳輸速度也成了HBM的核心參數(shù)。
與DRAM相比,HBM不但擁有容量上的優(yōu)勢,能夠同時存儲更多的數(shù)據(jù),而且擁有更高的帶寬,能夠大幅提升數(shù)據(jù)的讀寫速度。自2013年第一代HBM誕生以來,隨著技術(shù)的不斷發(fā)展,HBM也經(jīng)歷了HBM2(第二代)、HBM2E(第三代)、HBM3(第四代)、HBM3E(第五代)的順序迭代,最新的HBM3E是HBM3的擴展版本,速率達到了8Gbps。
作為HBM(高帶寬存儲器)的擴展版本,HBM3e采用了垂直互連多個DRAM芯片的設(shè)計。相較于傳統(tǒng)的DRAM產(chǎn)品,HBM3E在數(shù)據(jù)處理速度上顯著提高。根據(jù)SK海力士公布的數(shù)據(jù),HBM3E最高每秒可處理1.15TB的數(shù)據(jù),相當于在一秒鐘內(nèi)即可處理230多部5GB大小的全高清電影。這種高性能的數(shù)據(jù)處理能力使得HBM3E成為人工智能內(nèi)存產(chǎn)品當中的關(guān)鍵規(guī)格。
雖然同為HBM技術(shù),但芯片廠商的發(fā)展路徑卻不相同。三星正在研究在中間件中使用光子技術(shù),光子通過鏈路的速度比電子編碼的比特更快,而且耗電量更低。海力士正在研究 HBM與邏輯處理器直接連接的概念,在混合使用的半導(dǎo)體中將 GPU 芯片與 HBM 芯片一起制造。美光目前正在生產(chǎn) HBM3e gen-2內(nèi)存,采用8層垂直堆疊的24GB芯片。12層垂直堆疊36GB芯片計劃于2024年開始出樣。
至于誰家的技術(shù)更先進,目前尚且無法判斷。不過可以確認,隨著HBM技術(shù)的不斷成熟,將會為人工智能帶來更強的算力支撐。
3)QLC(4bit存儲單元技術(shù))
QLC是一種四位存儲單元技術(shù),也就是說每個存儲單元可以存儲4個比特的數(shù)據(jù)。
從最初的SLC、MLC,再到目前的TLC、QLC,閃存顆粒技術(shù)在不斷發(fā)展,存儲容量也在不斷提升。
目前,在3D NAND技術(shù)的突破之下,采用QLC技術(shù)的SSD容量大幅增長。例如,Solidigm采用192層3D NAND的技術(shù)QLC SSD已經(jīng)達到61TB,SK海力士的192層QLC閃存不僅容量達到了61TB,而且讀取速度達到了7000MB/s,寫入速度也有3300MB/s。
雖然很多用戶對于QLC的性能和壽命提出了質(zhì)疑,但在筆者看來,隨著數(shù)據(jù)量的爆炸式增加,對存儲容量的需求越來越高。而QLC作為存儲密度更高的技術(shù),顯然更為適合應(yīng)對大規(guī)模數(shù)據(jù)存儲的需求,不但能夠存儲更多的數(shù)據(jù)量,而且還能夠有效地降低存儲的功耗和占地空間,為企業(yè)提供更好的TCO。最后,隨著技術(shù)的不斷發(fā)展,廠商也在通過新的算法來不斷提高QLC的壽命,使其適合更多的應(yīng)用場景。
因此,雖然QLC在性能和壽命方面不如TLC,但從目前的發(fā)展趨勢來看,QLC將會成為主流。
總結(jié):
生成式AI不僅對CPU、GPU等算力提出了更高的要求,也正在加速數(shù)據(jù)存儲技術(shù)的變革。不難發(fā)現(xiàn),除了閃存存儲技術(shù)在不斷突破之外,CPU與存儲、GPU與存儲之間的數(shù)據(jù)傳輸技術(shù)也得到了快速發(fā)展??梢哉f,隨著以閃存為代表的數(shù)據(jù)存儲技術(shù)在數(shù)據(jù)中心的落地,存儲已經(jīng)不再成為影響生成式AI應(yīng)用的主要瓶頸。