自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直播首秀 AI大模型的存儲之道 原創(chuàng)

發(fā)布于 2024-6-21 14:38
瀏覽
0收藏

AIGC 在 2023 年爆火,各類大模型層出不窮,參數(shù)動輒達到千億數(shù)量級。這些背后,數(shù)據(jù)的類型和形式也走向復(fù)雜多樣。例如大模型會采用到我們真實物理世界中的文字、視覺、音頻、3D、雷達、多譜等復(fù)雜多樣的不同模態(tài)信號和數(shù)據(jù),數(shù)據(jù)則又存在結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種形式。

在大模型發(fā)展的初期:GPU很貴,相比之下存儲的成本忽略不計,可以直接選性能最好最貴的存儲方案。典型的高性能文件系統(tǒng)有GPFS、Lustre、Weka,以及其他高性能NAS 等。這些系統(tǒng)通常依賴全閃存(NVMe) 和高性能網(wǎng)絡(luò)提供極致性能。

但是隨著算力、數(shù)據(jù)與團隊投入都增大的時候,又發(fā)現(xiàn)新的問題:在預(yù)訓(xùn)練階段,會產(chǎn)生更多實驗結(jié)果和中間數(shù)據(jù),加上各種模型的checkpoint 和日志數(shù)據(jù),預(yù)訓(xùn)練環(huán)節(jié)總數(shù)據(jù)量預(yù)計將達到10PB 到 100PB。正式訓(xùn)練環(huán)節(jié),雖然企業(yè)可以將全部數(shù)據(jù)存儲于高性能存儲系統(tǒng)中,但是,高性能文件系統(tǒng)的性能都與容量是關(guān)聯(lián)的。如果要達到訓(xùn)練所需的I/O 性能,需要擴大高性能文件系統(tǒng)容量。

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

大模型背景下,“存力”成為關(guān)鍵基礎(chǔ)設(shè)施能力。2023年10月,工業(yè)和信息化部等6部門聯(lián)合印發(fā)了《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,明確提出到2025年存儲總量超過 180EB 、先進存儲容量占比達30% 以上的目標。先進存儲是指應(yīng)用全閃存陣列、SSD 等先進存儲部件,采用存算分離、高密等先進技術(shù),單位容量數(shù)據(jù)操作能力達到萬 IOPS(每秒讀寫次數(shù))以上的存儲模塊。

下圖展示了根據(jù)算法性能需求和所用硬件條件選擇最合適的存儲技術(shù)的流程。在實際訓(xùn)練過程中,可能會混合采用多種不同的存儲技術(shù)。例如,在GPU集群中,通過高帶寬的NVLink互聯(lián)的GPU組使用基于層內(nèi)并行的分布式顯存管理技術(shù);通過帶寬較低的PCIe互聯(lián)的GPU組使用流水線并行的方式。

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

大模型場景對于存力有著高吞吐、高IOPS、高帶寬、低延時的極致性能要求。尤其是大模型訓(xùn)練環(huán)節(jié),其數(shù)據(jù)量大、參數(shù)規(guī)模大、訓(xùn)練周期長、投資規(guī)模大等特點是傳統(tǒng)AI場景所不具備的,因此為傳統(tǒng)AI場景而構(gòu)建的基于開源技術(shù)或商業(yè)化產(chǎn)品的存力難以滿足性能需求。那什么樣的存儲架構(gòu)才是AI大模型時代的最佳選擇呢?

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

首先,可以指定數(shù)據(jù)首次寫入時的放置策略,例如在數(shù)據(jù)獲取階段,新獲取的數(shù)據(jù)需要在短時間內(nèi)處理的,可以直接放置到高性能層;而新獲取的數(shù)據(jù)在短時間內(nèi)無需處理的或用來長期歸檔的數(shù)據(jù),則可以直接寫入容量層;其次,可以設(shè)置豐富的數(shù)據(jù)分級流動策略,例如可以設(shè)置訪問頻度與時間相結(jié)合的流動策略,也可以設(shè)置容量水位觸發(fā)的流動策略;再者,根據(jù)用戶制定的分級策略,數(shù)據(jù)能夠在高性能層和大容量層之間自動分級流動,數(shù)據(jù)分級遷移過程對業(yè)務(wù)應(yīng)用完全透明;最后,對于已經(jīng)分級到容量層的數(shù)據(jù),用戶可以通過命令或API對指定的數(shù)據(jù)集配置預(yù)熱策略,以加速計劃性任務(wù)的冷啟動速度。

大模型訓(xùn)練中的檢查點Checkpoint

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

GPU 故障數(shù)量隨著 GPU 集群規(guī)模的增大而提高。GPU 的頻繁故障一方面會導(dǎo)致訓(xùn)練得到的參數(shù)丟失;另一方由于大模型訓(xùn)練中各 GPU 間的數(shù)據(jù)存在依賴關(guān)系,單 GPU 的故障會擴散到整個 GPU 集群中,有 2 類主要的工作解決大模型訓(xùn)練故障的問題:參數(shù)檢查點和冗余計算。

參數(shù)檢查點技術(shù)以設(shè)定的頻率,將訓(xùn)練得到的參數(shù)信息存儲到持久化的存儲介質(zhì)中,以對 GPU 故障進行容錯。在 GPU 故障后,參數(shù)檢查點技術(shù)利用最新且完整的參數(shù)進行恢復(fù)。參數(shù)檢查點技術(shù)需要大容量的持久化存儲設(shè)備以保存檢查點信息。并且在恢復(fù)階段,參數(shù)檢查點需要從持久化介質(zhì)中讀取之前版本的參數(shù),這導(dǎo)致恢復(fù)開銷高,利用冗余計算的方式,在多張 GPU 中重復(fù)計算相同版本的參數(shù),以對模型訓(xùn)練數(shù)據(jù)容錯。在這個過程中,存儲要能在AI訓(xùn)練每個epoch的shuffle階段,提供高效的億級文件列表獲取能力;要能支撐住在上億訓(xùn)練集文件上,通過為每個文件頻繁創(chuàng)建新的硬鏈接,以實現(xiàn)訓(xùn)練集的版本管理能力。

數(shù)據(jù)總量和數(shù)據(jù)質(zhì)量決定了AI大模型的高度,數(shù)據(jù)準備效率和數(shù)據(jù)在全流程間的流轉(zhuǎn)效率將成為影響AI大模型端到端生產(chǎn)成本的核心要素。選擇一套可以滿足AI大模型快速發(fā)展的存儲系統(tǒng),對于提升大模型生產(chǎn)效率、降低大模型TCO至關(guān)重要。

大模型訓(xùn)練場景的基礎(chǔ)設(shè)施,618直播間討論。

Q1:說起AI大模型,我們首先聯(lián)想到的是GPU,算力,英偉達。有這些就夠了嗎?

A1:顯然不是,英偉達股價一路上漲,確實會讓人有個錯覺,AI就是GPU,其實不是,網(wǎng)上有句戲言:挖金子的AI還在虧,賣鏟子卻賺翻了。如果把數(shù)據(jù)當(dāng)成一個礦藏,GPU好比挖礦的鏟子一樣。大模型訓(xùn)練除了需要GPU算力,存力也是AI大模型的重要保障,主要基于以下幾個因素。

1,先說參數(shù)。ChatGPT 3.5發(fā)布的時候1750億參數(shù),火星人埃隆馬斯克發(fā)布的Grok-1是3140 億參數(shù),源文件200G,運行起來就得700G顯存。未來大模型參數(shù)千億級別奔向萬億參數(shù);

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

2,再說數(shù)據(jù)集。大模型已從單模態(tài)走向多模態(tài),將來還會走向全模態(tài);用于訓(xùn)練的數(shù)據(jù)集從3TB,增長到多模態(tài)40TB,未來全模態(tài)將會達到PB級數(shù)據(jù);

3,對算力需求的增長速度大幅超越單GPU卡算力的增長速度,大模型訓(xùn)練集群的規(guī)模會變得越來越大,這樣才能保證大模型的涌現(xiàn)能力;模型訓(xùn)練checkpoint數(shù)據(jù)量也從十幾GB增長到幾百個GB,檢查點保存和恢復(fù)進度與模型大小成正比,更高頻度的CheckPoint給存儲帶來巨大寫入帶寬挑戰(zhàn)。

Q2:你剛才說到一個詞,涌現(xiàn)能力這個詞怎么理解?

A2:涌現(xiàn) 字面理解,厚積薄發(fā)。什么是“涌現(xiàn)現(xiàn)象”?當(dāng)一個復(fù)雜系統(tǒng)由很多微小個體構(gòu)成,這些微小個體湊到一起,相互作用,當(dāng)數(shù)量足夠多時,在宏觀層面上展現(xiàn)出現(xiàn)象,就可以稱之為“涌現(xiàn)現(xiàn)象”。在日常生活中也有一些涌現(xiàn),譬如雪花,雪花的構(gòu)成是水分子,水分子很小,但是大量的水分子如果在外界溫度條件變化的前提下,相互作用,在宏觀層面就會形成一個很規(guī)律、很對稱、很美麗的雪花。

在AI大模型訓(xùn)練過程中,人工智能模型有時,似乎會突然「理解」一個問題,盡管它們只是記住了訓(xùn)練數(shù)據(jù)。這個突然轉(zhuǎn)變的過程,有個形象的說法叫頓悟,大模型突然從簡單地復(fù)制訓(xùn)練數(shù)據(jù),轉(zhuǎn)變?yōu)榘l(fā)現(xiàn)可推廣的解決方案。

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

AI大模型擁有更強的涌現(xiàn)能力,才會擁有更精準的語言理解和推理能力。當(dāng)然,這里有一個重要的前提是,足夠多數(shù)據(jù)集對大模型進行高效訓(xùn)練和存儲調(diào)度。否則的話,就算是有愛因斯坦的大腦,不識字不讀書,那也很難進行創(chuàng)造性的思考。

Q3:那也就說,不管你有多少GPU,但沒有足夠多的數(shù)據(jù)集訓(xùn)練和存儲調(diào)度,也是無法頓悟?

A3:是的,頓悟是模型涌向能力的形象說法,該能力無處不在,只要摸清條件,做好AI全流程的數(shù)據(jù)存儲和資源調(diào)度,大模型就會頓悟,只是早晚的事。

AI全流程包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型訓(xùn)練與評估、模型部署應(yīng)用這四個階段,每個階段都涉及海量數(shù)據(jù)的存儲與訪問。大模型的存儲系統(tǒng)應(yīng)該是什么樣子呢?

這套存儲系統(tǒng)需要同時具備高性能層和大容量層,并對外呈現(xiàn)統(tǒng)一的命名空間,具備數(shù)據(jù)全生命周期管理的能力。同時,這套存儲還得可以承載AI全流程業(yè)務(wù),支持NAS、大數(shù)據(jù)、對象、并行客戶端等多種訪問傳輸協(xié)議。而且呢,這套存儲還得具備數(shù)千節(jié)點的橫向擴展能力,隨著存儲節(jié)點數(shù)的增加,系統(tǒng)帶寬和元數(shù)據(jù)訪問能力可實現(xiàn)線性增長。這些需求,傳統(tǒng)的存儲,無論是集中式還是分布式,都是無法有效滿足大模型訓(xùn)練的特殊應(yīng)用場景。

Q4:在大模型場景中,京東云海是否具備以上特點?

A4:京東云海是京東云的存儲底座,利用完全自研的統(tǒng)一存儲引擎,提供塊文件 對象 并行 分布式 大數(shù)據(jù)等五種協(xié)議訪問,所有需要高效處理的數(shù)據(jù) 均在高性能存儲層完成,AI全流程各階段協(xié)同時,不再需要頻繁遷移數(shù)據(jù)。

直播首秀 AI大模型的存儲之道 -AI.x社區(qū)

京東云??梢源蠓嵘鼳I大數(shù)據(jù)訓(xùn)練數(shù)據(jù)準備效率,提高AI計算集群的GPU利用率,顯著降低算力投資成本 和數(shù)據(jù)預(yù)處理成本,大大縮短AI大模型開發(fā)的周期。生產(chǎn)一個千億級參數(shù)的大模型端到端TCO總體擁有成本可以降低10%以上。

Q5:如此說來,京東云海確實是一款大模型訓(xùn)練必備產(chǎn)品,怎么才能稱得上好呢?

A5:京東云海一套系統(tǒng)、一套參數(shù)具備高性能動態(tài)混合負載的承載能力。這該怎么理解呢?

在數(shù)據(jù)導(dǎo)入階段,大小文件同時寫入;在數(shù)據(jù)預(yù)處理階段,大小文件批量讀取處理后生成海量小文件;在模型訓(xùn)練階段,海量小文件批量隨機讀?。辉谏蒀heckPoint時,要能滿足大高帶寬寫入;在模型部署階段,即使大并發(fā)讀取同一個模型文件,隨著部署設(shè)備數(shù)量的增加,集群聚合吞吐帶寬仍然可以線性增長。譬如,千億級大模型產(chǎn)生的模型文件有 400 GB 左右,向業(yè)務(wù)推送時,需要并發(fā)分發(fā)到前端數(shù)千個業(yè)務(wù)實例上。分發(fā)過程涉及 數(shù)百TB數(shù)據(jù)的讀取,因此需要高并發(fā)大帶寬讀取分發(fā)能力。

再說到一款好的產(chǎn)品是怎么樣的?必然是成本更低 性能更優(yōu)和穩(wěn)定可靠三項特征的集合,而京東云海,就是這三者合一的最佳之選。還有很關(guān)鍵的一點是,交付方式十分靈活,可以是通過純軟件授權(quán),軟硬件一體機和系統(tǒng)集成的方式交付。

截止目前除了互聯(lián)網(wǎng)電商場景外,在一些大的算力中心,銀行證券醫(yī)療等行業(yè)已有落地案例。


本文轉(zhuǎn)載自公眾號數(shù)字化助推器  作者:天涯咫尺TGH

原文鏈接:??https://mp.weixin.qq.com/s/OeKlgw_mOZTIkb6rxBDFIw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦