出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
DeepSeek “開源周”第五天,依舊保持了一如既往地“務(wù)實(shí)”風(fēng),滿滿的誠(chéng)意。
先來(lái)回憶下前四天,源神的慷慨發(fā)布——
第一天,2月24日,最為外界稱道的MLA技術(shù)率先開源,這項(xiàng)解碼加速器FlashMLA技術(shù)能夠讓英偉達(dá)Hopper架構(gòu)GPU跑得更快,效果更好!
緊接著,25日,直接亮出首個(gè)面向MoE模型的開源專家并行通信庫(kù)DeepEP,實(shí)現(xiàn)了MoE訓(xùn)練推理的全棧優(yōu)化;
第三天,則進(jìn)一步祭出一項(xiàng)跨時(shí)代的發(fā)布:FP8通用矩陣乘法加速庫(kù),從底層讓模型訓(xùn)練、微調(diào)變得更加流暢絲滑;
第四天,也就是昨天的并行優(yōu)化“三劍客”:DeepSeek-V3和R1 模型背后的并行計(jì)算優(yōu)化技術(shù)——DualPipe(雙向流水線并行算法,讓計(jì)算和通信高效協(xié)同)、EPLB ( 專家并行負(fù)載均衡器,讓每個(gè) GPU 都“雨露均沾”)、profile-data (性能分析數(shù)據(jù),可以理解成V3/R1 的并行優(yōu)化的分析經(jīng)驗(yàn))
可以說(shuō)前四天的發(fā)布聚焦在算力通信、模型架構(gòu)優(yōu)化,也就是算力和算法的層面,而接下來(lái)第五天的開源則補(bǔ)上了AI三駕馬車的最后一塊,也是用戶體驗(yàn)感知更為明顯的一塊優(yōu)化動(dòng)作:高性能分布式文件系統(tǒng)(數(shù)據(jù)存儲(chǔ)層面的改進(jìn))。
五天整體看下來(lái),可以說(shuō)是把R1技術(shù)報(bào)告中沒(méi)來(lái)得及公開的“黑科技”一股腦的全部開源了!
第五天究竟開源了什么呢?
“開源周”活動(dòng)中發(fā)布的第5天,DeepSeek主要Open他們開源的兩個(gè)項(xiàng)目:3FS(高性能分布式文件系統(tǒng))和 Smallpond(基于3FS的數(shù)據(jù)處理框架)。
為了便于大家理解,這里為大家梳理一下。
首先,3FS 是什么?簡(jiǎn)單來(lái)說(shuō),就是一個(gè)專為現(xiàn)代硬件設(shè)計(jì)的 并行分布式文件系統(tǒng),目標(biāo)是最大化利用SSD硬盤和高速網(wǎng)絡(luò)(RDMA,繞過(guò)CPU直接傳輸數(shù)據(jù))的性能,解決海量數(shù)據(jù)(如AI訓(xùn)練、推理)的存儲(chǔ)和訪問(wèn)速度問(wèn)題。
那,為什么需要3FS?因?yàn)樵贏I訓(xùn)練、大數(shù)據(jù)分析等場(chǎng)景需要處理TB/PB級(jí)數(shù)據(jù),傳統(tǒng)文件系統(tǒng)可能成為性能瓶頸。3FS厲害之處就在于,通過(guò)并行技術(shù)和硬件優(yōu)化(如SSD+RDMA),實(shí)現(xiàn)超高吞吐量和低延遲。
DS還給出了3FS 的三個(gè)性能亮點(diǎn)——
- 速度驚人
- 180臺(tái)機(jī)器集群:每秒讀取6.6 TiB(約等于同時(shí)傳輸10部4K電影)。
- 25臺(tái)機(jī)器:每分鐘排序3.66 TiB數(shù)據(jù)(GraySort基準(zhǔn)測(cè)試,體現(xiàn)大數(shù)據(jù)排序能力)。
- 單客戶端節(jié)點(diǎn):每秒40+ GiB的鍵值緩存查詢(適合AI推理中的快速數(shù)據(jù)檢索)。
- 架構(gòu)優(yōu)勢(shì)
- 解耦架構(gòu) (Disaggregated):計(jì)算和存儲(chǔ)資源分離,可按需擴(kuò)展。
- 強(qiáng)一致性:多節(jié)點(diǎn)讀寫時(shí),數(shù)據(jù)始終保持一致(避免臟讀/臟寫)。
- 應(yīng)用場(chǎng)景
- AI數(shù)據(jù)預(yù)處理、模型訓(xùn)練時(shí)的數(shù)據(jù)集加載
- 模型訓(xùn)練中快速保存/恢復(fù)檢查點(diǎn)(防止中斷丟失進(jìn)度)
- 向量搜索(如推薦系統(tǒng)、語(yǔ)義匹配)
- 推理時(shí)的鍵值緩存(加速實(shí)時(shí)查詢)
再來(lái)看Smallpond。它是DeepSeek基于3FS開發(fā)的一種數(shù)據(jù)處理框架,可理解為在3FS上高效管理數(shù)據(jù)的“工具箱”。
這種工具就非常容易上手了,值得各位大模型“煉丹”士擁有,因?yàn)樗軌蚝?jiǎn)化數(shù)據(jù)清洗、轉(zhuǎn)換、加載(ETL)等流程,適合大規(guī)模數(shù)據(jù)處理任務(wù)。
Github鏈接奉上——
- 3FS代碼倉(cāng)庫(kù):https://github.com/deepseek-ai/3FS
- Smallpond代碼倉(cāng)庫(kù):https://github.com/deepseek-ai/smallpond
具體都用在哪兒?
- AI/大數(shù)據(jù)團(tuán)隊(duì):用3FS可加速訓(xùn)練和推理,減少數(shù)據(jù)讀寫等待時(shí)間。
- 需要高吞吐存儲(chǔ)的場(chǎng)景:如科學(xué)計(jì)算、實(shí)時(shí)分析、推薦系統(tǒng)等。
整體上看,DeepSeek AI 通過(guò)開源3FS和Smallpond,提供了針對(duì)AI和大數(shù)據(jù)場(chǎng)景的高性能存儲(chǔ)與數(shù)據(jù)處理方案,解決海量數(shù)據(jù)下的速度瓶頸問(wèn)題。
大佬點(diǎn)評(píng):AI Infra的又一福音!
業(yè)內(nèi)對(duì)于今天DeepSeek開源的神器評(píng)價(jià)很高。知名大模型+AI芯片專家陳巍第一時(shí)間表達(dá)了驚嘆,稱“3F和smallpond是從1到10的優(yōu)化典范,從底層重構(gòu)AI Infra?!?/span>
陳巍認(rèn)為,3F和smallpond絕對(duì)是基層煉丹師的福音?!昂?jiǎn)化分布式應(yīng)用程序的開發(fā),提供輕量級(jí)的數(shù)據(jù)庫(kù)整合系統(tǒng),減少超大模型訓(xùn)練中的維護(hù)和斷點(diǎn)保存,將大模型IT拯救于水火。預(yù)計(jì)該框架會(huì)迅速整合到現(xiàn)有training framwork中,加速工業(yè)界和學(xué)術(shù)界牛馬的發(fā)paper tps。”
硅基流動(dòng)創(chuàng)始人袁進(jìn)輝也稱今天的發(fā)布是:“DeepSeek可以用好硬盤緩存的秘密”。
DeepSeek:中國(guó)大模型的生態(tài)崛起的希望
去年大家還在糾結(jié)國(guó)產(chǎn)的萬(wàn)卡系統(tǒng)很難建設(shè),其中有各種問(wèn)題。去年中國(guó)工程院院士鄭緯民就曾對(duì)此提出了擔(dān)憂:“現(xiàn)在用國(guó)產(chǎn),我們的生態(tài)不太好,我們想辦法要做好十個(gè)軟件:并行系統(tǒng)、編程框架、通信庫(kù)、AI編譯器、算子庫(kù)、編程語(yǔ)言、調(diào)度器、容錯(cuò)系統(tǒng)、內(nèi)存分配系統(tǒng)、存儲(chǔ)系統(tǒng)?!?/span>
鄭院士還舉了自研國(guó)產(chǎn)并行系統(tǒng)和通信庫(kù)、內(nèi)存分配系統(tǒng)、存儲(chǔ)系統(tǒng)的必要性。
比如,并行系統(tǒng),現(xiàn)在不是1塊卡,而是1000塊卡、1萬(wàn)塊卡,1塊卡訓(xùn)練一百天,我們買100塊卡,一天就訓(xùn)練完了。但中間要交換數(shù)據(jù),交換一次是人家的90倍了,如果做得不好的話,100塊卡我們希望有100倍效能,只能做到3、4倍的效率。我們希望有70倍、80倍、90倍這就叫并行系統(tǒng),想辦法接近100倍。做得不好,20倍。
再比如通信庫(kù),1000塊卡、1萬(wàn)塊卡要通信,怎么寫好?算子庫(kù),寫一個(gè)矩陣軟件,最好不要寫,調(diào)用矩陣成本軟件,碰到什么就調(diào)用什么,這個(gè)庫(kù)要寫得多,寫得好。要有編譯器,國(guó)內(nèi)會(huì)做編譯系統(tǒng)的特別少,龍舟系統(tǒng),一個(gè)小時(shí)就出錯(cuò)了,怎么才能繼續(xù)做下去?
鄭院士還提出,“數(shù)據(jù)實(shí)地化,內(nèi)容主題化,算力國(guó)產(chǎn)化是目前的實(shí)際要求。”
但時(shí)鐘撥回到去年夏天,國(guó)產(chǎn)的大家還是不大愿意用,因?yàn)樯鷳B(tài)不好。
那DeepSeek這波的誠(chéng)意十足的開源,可以說(shuō)讓大家看到了國(guó)產(chǎn)學(xué)術(shù)界、產(chǎn)業(yè)界生態(tài)崛起的希望,這家了不起的公司一股腦把國(guó)產(chǎn)自研的大模型配套的技術(shù)全都搞出來(lái)了,并行、編譯、通信、內(nèi)存、存儲(chǔ)、算子……
可以預(yù)見(jiàn)的是,DeepSeek正在標(biāo)志著國(guó)產(chǎn)算力和國(guó)產(chǎn)模型正在成為新興的大模型勢(shì)力,中國(guó)也將迸發(fā)出性能強(qiáng)大、成本低廉、普惠全面的大模型應(yīng)用。
參考鏈接:https://www.zhihu.com/question/13614300508/answer/112464472761