自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="ovkec"><i id="ovkec"></i></blockquote>}<cite id="ovkec"></cite>

<legend id="ovkec"><track id="ovkec"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速

發(fā)布于 2025-2-28 12:53

瀏覽

0收藏

最后一天，DeepSeek開源了全生命周期數(shù)據(jù)訪問引擎Fire-Flyer File System（3FS），以及基于3FS的數(shù)據(jù)處理框架Smallpond。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

3FS（螢火蟲文件系統(tǒng)）是一個充分利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)帶寬的并行文件系統(tǒng)，其特點(diǎn)是：

在180節(jié)點(diǎn)集群中實(shí)現(xiàn)了6.6 TiB/s的總讀取吞吐量
在25節(jié)點(diǎn)集群的GraySort基準(zhǔn)測試中達(dá)到了3.66 TiB/min 的吞吐量
每個客戶端節(jié)點(diǎn)的KVCache查詢峰值吞吐量超過40+ GiB/s
采用分離式架構(gòu)，確保了強(qiáng)一致性
全面支持V3/R1的訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、檢查點(diǎn)保存/重載、嵌入向量搜索和KVCache查詢推理

Smallpond是輕量級的數(shù)據(jù)處理框架，其特點(diǎn)是：

基于DuckDB的高性能數(shù)據(jù)處理
可擴(kuò)展性，能夠處理PB級別數(shù)據(jù)集
無需持續(xù)運(yùn)行的服務(wù)，操作簡便

3FS和Smallpond兩大開源項(xiàng)目，正在為AI數(shù)據(jù)處理設(shè)立新的標(biāo)準(zhǔn)——超快的處理速度和無縫集成。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

讓許多人驚嘆不已的是，DeepSeek竟自己編寫了分布式文件系統(tǒng)。

它的成功背后強(qiáng)大得理念，便是將小事做到極致。這種精神，體現(xiàn)了車庫黑客的精髓。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

3FS文件系統(tǒng)

The Fire-Flyer File System（3FS）專為應(yīng)對人工智能訓(xùn)練和推理任務(wù)挑戰(zhàn)而設(shè)計(jì)的高性能分布式文件系統(tǒng)。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

項(xiàng)目鏈接：https://github.com/deepseek-ai/3FS

它采用現(xiàn)代固態(tài)硬盤（SSD）和遠(yuǎn)程直接內(nèi)存訪問（RDMA）網(wǎng)絡(luò)技術(shù)，構(gòu)建了共享存儲層，極大簡化了分布式應(yīng)用的開發(fā)過程。

核心優(yōu)勢

性能與易用性

分布式架構(gòu)：該系統(tǒng)整合了數(shù)千個SSD的高吞吐量和數(shù)百個存儲節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬，使得應(yīng)用程序能夠無視位置差異，高效訪問存儲資源。
強(qiáng)一致性保證：通過采用鏈?zhǔn)綇?fù)制與分配查詢（CRAQ）技術(shù)，確保了數(shù)據(jù)的一致性，使得應(yīng)用程序代碼更加簡潔易懂。
標(biāo)準(zhǔn)文件接口：系統(tǒng)提供了基于事務(wù)性鍵值存儲（如FoundationDB）的無狀態(tài)元數(shù)據(jù)服務(wù)，使用的文件接口通用且易于上手，無需學(xué)習(xí)新的存儲API。

多樣化工作負(fù)載支持
數(shù)據(jù)準(zhǔn)備：系統(tǒng)有效地將數(shù)據(jù)分析管道的輸出組織成分層目錄結(jié)構(gòu)，并高效管理大量的中間數(shù)據(jù)。
數(shù)據(jù)加載優(yōu)化：通過支持計(jì)算節(jié)點(diǎn)間對訓(xùn)練樣本的隨機(jī)訪問，無需進(jìn)行數(shù)據(jù)預(yù)取或洗牌操作，提升了數(shù)據(jù)處理效率。
高效檢查點(diǎn)支持：為大規(guī)模訓(xùn)練任務(wù)提供高吞吐量的并行檢查點(diǎn)功能。
KVCache推理加速：提供了一種成本效益高的DRAM緩存替代方案，具有高吞吐量和更大的存儲容量，適用于推理任務(wù)。

性能

1. 最大吞吐量

下圖展示了一個大型3FS集群在執(zhí)行讀壓力測試時的吞吐量表現(xiàn)。

該集群包含180個存儲節(jié)點(diǎn)，每個節(jié)點(diǎn)均配置有2張200Gbps的IB網(wǎng)卡和16塊14TiB的NVMe固態(tài)硬盤。

測試中使用了約500個客戶端節(jié)點(diǎn)，每個節(jié)點(diǎn)配備1張200Gbps的IB網(wǎng)卡。

在存在訓(xùn)練任務(wù)背景流量的情況下，集群的總讀取吞吐量達(dá)到了約6.6TiB/s。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

2. GraySort

采用GraySort基準(zhǔn)測試，評估smallpond在處理大規(guī)模數(shù)據(jù)集時的排序能力。

實(shí)現(xiàn)采用了兩階段的處理方法：(1) 首先通過鍵的前綴位進(jìn)行數(shù)據(jù)重排來分區(qū)數(shù)據(jù)，(2) 然后在各個分區(qū)內(nèi)部進(jìn)行排序。這兩個階段的數(shù)據(jù)讀寫都依賴于3FS。

測試所用的集群包括25個存儲節(jié)點(diǎn)（每個節(jié)點(diǎn)有2個NUMA域，每個NUMA域運(yùn)行1個存儲服務(wù)，每個節(jié)點(diǎn)配備2×400Gbps網(wǎng)卡）和50個計(jì)算節(jié)點(diǎn)（每個節(jié)點(diǎn)有2個NUMA域，192個物理核心，2.2 TiB內(nèi)存，每個節(jié)點(diǎn)配備1×200 Gbps網(wǎng)卡）。

在8,192個分區(qū)中排序110.5 TiB的數(shù)據(jù)，整個過程耗時30分鐘14秒，平均吞吐量達(dá)到3.66TiB/min。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

3. KVCache

KVCache是一種用于提升大型語言模型（LLM）推理效率的技術(shù)。

它通過緩存解碼器層中先前token的鍵和值向量，避免了重復(fù)的計(jì)算過程。

頂部圖表展示了所有KVCache客戶端的讀取吞吐量，其中既包括了峰值也包括了平均值，峰值吞吐量可達(dá)40GiB/s。

底部圖表則展示了在同一時間段內(nèi)，垃圾收集（GC）過程中操作次數(shù)的變化情況。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

設(shè)計(jì)與實(shí)現(xiàn)

3FS系統(tǒng)由四個主要部分組成：集群管理器、元數(shù)據(jù)服務(wù)、存儲服務(wù)和客戶端。這些組件通過RDMA網(wǎng)絡(luò)（InfiniBand或RoCE）相互連接。

元數(shù)據(jù)和存儲服務(wù)定期向集群管理器發(fā)送心跳信號，以報(bào)告其狀態(tài)。集群管理器負(fù)責(zé)處理集群成員的變更，并將集群的配置信息分發(fā)到其他服務(wù)和客戶端。

系統(tǒng)中部署了多個集群管理器，其中一個被選為主管理器。當(dāng)主管理器發(fā)生故障時，另一個管理器會被提升為主管理器。

集群配置信息通常存儲在一個可靠的分布式協(xié)調(diào)服務(wù)中，例如ZooKeeper或etcd。在生產(chǎn)環(huán)境中，為了減少依賴性，我們使用與文件元數(shù)據(jù)相同的鍵值存儲來保存集群配置。

文件元數(shù)據(jù)操作（如打開或創(chuàng)建文件/目錄）被發(fā)送到元數(shù)據(jù)服務(wù)，由其實(shí)現(xiàn)文件系統(tǒng)的語義。由于文件元數(shù)據(jù)是存儲在一個事務(wù)性鍵值存儲（例如FoundationDB）中的，因此元數(shù)據(jù)服務(wù)是無狀態(tài)的，客戶端可以連接到任何元數(shù)據(jù)服務(wù)。

每個存儲服務(wù)管理一些本地SSD，并提供一個塊存儲接口。

為了確保強(qiáng)一致性，存儲服務(wù)實(shí)現(xiàn)了鏈?zhǔn)綇?fù)制與分配查詢（CRAQ）機(jī)制。CRAQ的寫入全部讀取任意的方法有助于充分利用SSD和RDMA網(wǎng)絡(luò)的高吞吐量。在3FS中，一個文件被分割成相等大小的數(shù)據(jù)塊，并在多個SSD上復(fù)制。

使用

使用以下命令從GitHub克隆3FS倉庫到本地文件系統(tǒng)：

git clone https://github.com/deepseek-ai/3fs

cd 3fs
git submodule update --init --recursive
./patches/apply.sh

# for Ubuntu 20.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \
  libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
  libgoogle-perftools-dev google-perftools libssl-dev ccache libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev


# for Ubuntu 22.04.
apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \
  libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
  libgoogle-perftools-dev google-perftools libssl-dev ccache gcc-12 g++-12 libboost-all-dev

確保安裝了libfuse 3.16.1或更新版本，F(xiàn)oundationDB 7.1或更新版本，以及Rust工具鏈。

在構(gòu)建目錄中構(gòu)建3FS：

cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32

Smallpond：基于3FS的數(shù)據(jù)處理框架

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

項(xiàng)目鏈接：https://github.com/deepseek-ai/smallpond

快速入門

目前smallpond支持從3.8到3.12的Python版本。

pip install smallpond

使用下列命令獲取示例數(shù)據(jù)：

# Download example data
wget https://duckdb.org/data/prices.parquet

輕松上手：

import smallpond
sp = smallpond.init()


#加載數(shù)據(jù)
df = sp.read_parquet("prices.parquet")


#數(shù)據(jù)處理
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)


#保存結(jié)果
df.write_parquet("output/")


#顯示結(jié)果
print(df.to_pandas())

文檔

mallpond同時提供了高級和低級API。

注意：目前，smallpond提供了兩種不同的API，分別用于數(shù)據(jù)流圖的動態(tài)和靜態(tài)構(gòu)建。由于歷史原因，這兩種API使用了不同的調(diào)度器后端，并支持不同的配置選項(xiàng)。

高級API：目前使用Ray框架作為后端，支持?jǐn)?shù)據(jù)流圖的動態(tài)構(gòu)建和執(zhí)行。
低級API：使用內(nèi)置調(diào)度器，僅支持靜態(tài)數(shù)據(jù)流圖的一次性執(zhí)行。然而，它提供了更多的性能優(yōu)化和更豐富的配置選項(xiàng)。正在努力將這兩種API合并，以便在未來，可以使用統(tǒng)一的高級API，并在Ray框架和內(nèi)置調(diào)度器之間自由選擇。

下列鏈接提供入門教程、API參考、性能評估等更多內(nèi)容。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

鏈接：https://github.com/deepseek-ai/smallpond/blob/main/docs/source/api.rst

開發(fā)

pip install .[dev]


# run unit tests,單元測試
pytest -v tests/test*.py


# build documentation，構(gòu)建文檔
pip install .[docs]
cd docs
make html
python -m http.server --directory build/html

性能

采用GraySort基準(zhǔn)測試腳本，在一個由50個計(jì)算節(jié)點(diǎn)和25個運(yùn)行3FS的存儲節(jié)點(diǎn)組成的集群上，對smallpond進(jìn)行了評估。

該基準(zhǔn)測試在短短30分鐘14秒內(nèi)完成了對110.5TiB數(shù)據(jù)的排序，平均吞吐量達(dá)到了3.66 TiB/min。

pip install .[dev]


# run unit tests
pytest -v tests/test*.py


# build documentation
pip install .[docs]
cd docs
make html
python -m http.server --directory build/html

連更五天，最新匯總

DeepSeek開源周，這么快就過去了。連更5天，次次都是小驚喜。

接下來，我們匯總了過去四天所有的開源項(xiàng)目，參見：

第一天：為英偉達(dá)Hopper GPU打造的高效MLA解碼內(nèi)核FlashMLA，5天項(xiàng)目GitHub星標(biāo)唯一過10k的。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

第二天：支持MoE訓(xùn)推的EP通信庫DeepEP，GitHub斬獲6.4k星。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

第三天：支持稠密和MoE模型的FP8 GEMM計(jì)算庫DeepGEMM，GitHub已達(dá)4.2k星。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

??第四天：優(yōu)化并行策略——DualPipe、EPLB、V3/R1模型中的計(jì)算與通信重疊機(jī)制??。

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

DeepSeek第五天開源猛料，3FS并行文件系統(tǒng)榨干SSD！6.6 TiB/s吞吐量堪比光速-AI.x社區(qū)

本文轉(zhuǎn)自新智元，作者：新智元

原文鏈接:??https://mp.weixin.qq.com/s/dJbpVVMc11-D19b3b3fPCw??

標(biāo)簽

已于2025-3-3 09:24:20修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型一對一戰(zhàn)斗75萬輪，GPT-4奪冠，Llama 3位列第五

Crystalcxt ? 3539瀏覽 ? 0回復(fù)
FlashRAG：5大組件、12種RAG技術(shù)、32個數(shù)據(jù)集的開源框架，比LangChain輕量！

PaperAgent ? 8271瀏覽 ? 0回復(fù)
大語言模型時代，提示詞才是王道：堪比專業(yè)翻譯軟件的提示詞

sulu637 ? 2018瀏覽 ? 0回復(fù)
五大主流開源大模型RAG評估框架詳解

玄姐聊AGI ? 5415瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 2068瀏覽 ? 0回復(fù)
OpenAI o3-mini 干翻了 DeepSeek R1？

PyTorch研習(xí)社 ? 1763瀏覽 ? 0回復(fù)
HtmlRAG：RAG系統(tǒng)中，HTML比純文本效果更好

大模型自然語言處理 ? 1616瀏覽 ? 0回復(fù)
DeepSeek開源第3彈：DeepGEMM炸場，算力焦慮終結(jié)者？

智駐未來 ? 1670瀏覽 ? 0回復(fù)
DeepSeek開源優(yōu)化并行策略，提升訓(xùn)練和通信效率

Aceryt ? 1928瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開源了！

PaperAgent ? 1709瀏覽 ? 0回復(fù)
以前做PPT要3天，現(xiàn)在只要10分鐘！DeepSeek+Kimi 讓我效率起飛！

AI取經(jīng)路 ? 2017瀏覽 ? 0回復(fù)
Manus：這個堪比 DeepSeek 的核彈，如何讓普通人也能指揮“數(shù)字員工”？

wsp_ping ? 1538瀏覽 ? 0回復(fù)
比DeepSeek、o1高3倍！首創(chuàng)無服務(wù)器強(qiáng)化微調(diào)，只需十幾個數(shù)據(jù)點(diǎn)

Aceryt ? 1473瀏覽 ? 0回復(fù)
百度秒噠今日全量上線！3分鐘一個應(yīng)用！百度自家的修車大爺現(xiàn)身講述自己用秒噠上線了修車預(yù)約系統(tǒng)！

51CTO技術(shù)棧 ? 1193瀏覽 ? 0回復(fù)
DeepSeek開源新版V3，再次震驚國外

Aceryt ? 1185瀏覽 ? 0回復(fù)
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價(jià)格僅1/30！

AI博物院 ? 1613瀏覽 ? 0回復(fù)
用本地文件調(diào)教 DeepSeek

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 822瀏覽 ? 0回復(fù)
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 478瀏覽 ? 0回復(fù)
五個開源 MCP 服務(wù)器，讓你的AI代理勢如破竹

51CTO技術(shù)棧 ? 933瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU 2025-02-25 12:24:42發(fā)布
編程不再是專業(yè)技能！Replit「Agent」引爆編程革命，零基礎(chǔ)也能輕松上手 2025-02-14 12:45:25發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：剛剛，DeepSeek開源DeepEP通信庫，千億MoE訓(xùn)推顛覆級創(chuàng)新！FP8狂飆，帶飛GPU

社區(qū)精華內(nèi)容

目錄

<cite id="zc8so"><track id="zc8so"></track></cite>