自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="mmtkv"><strike id="mmtkv"></strike></pre>

<cite id="mmtkv"></cite>

<p id="mmtkv"></p><sup id="mmtkv"><rt id="mmtkv"></rt></sup>

<sup id="mmtkv"><rt id="mmtkv"></rt></sup>

<cite id="mmtkv"></cite>

<cite id="mmtkv"><rp id="mmtkv"></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

面向高性能計(jì)算場(chǎng)景的存儲(chǔ)系統(tǒng)解決方案

作者：ZPF 2022-08-17 14:19:05

存儲(chǔ) 新聞

提到超級(jí)計(jì)算機(jī)這個(gè)詞的時(shí)候，大家一定不要把它想象成一臺(tái)巨大的機(jī)器，實(shí)際上一個(gè)超級(jí)計(jì)算機(jī)通常是一整個(gè)集群的機(jī)器，分布在一個(gè)數(shù)據(jù)中心內(nèi)部。

我們進(jìn)入這次分享的主題，將圍繞四個(gè)部分展開。

第一部分介紹一下高性能計(jì)算場(chǎng)景下面臨哪些存儲(chǔ)問(wèn)題，第二部分簡(jiǎn)要介紹一下百度內(nèi)部的高性能存儲(chǔ)實(shí)踐經(jīng)驗(yàn)，第三部分介紹百度滄海是如何解答這些存儲(chǔ)問(wèn)題的，最后是一個(gè)客戶案例。

1. 高性能場(chǎng)景下的存儲(chǔ)問(wèn)題

1.1. 什么是高性能計(jì)算

高性能計(jì)算是 High Performance Computing 的縮寫，簡(jiǎn)稱 HPC。這并不是這些年來(lái)才出現(xiàn)的一個(gè)詞，已經(jīng)有很長(zhǎng)時(shí)間的歷史了，假如我們?nèi)ゲ殚喚S基百科的話，會(huì)發(fā)現(xiàn)在維基百科實(shí)際上把 HPC 當(dāng)做超級(jí)計(jì)算機(jī)的一個(gè)同義詞匯，而超級(jí)計(jì)算機(jī)是這樣定義的：就是那些性能上比同時(shí)代的個(gè)人計(jì)算機(jī)快到至少一到兩級(jí)的計(jì)算機(jī)，可以叫做超級(jí)計(jì)算機(jī)。

提到超級(jí)計(jì)算機(jī)這個(gè)詞的時(shí)候，大家一定不要把它想象成一臺(tái)巨大的機(jī)器，實(shí)際上一個(gè)超級(jí)計(jì)算機(jī)通常是一整個(gè)集群的機(jī)器，分布在一個(gè)數(shù)據(jù)中心內(nèi)部。國(guó)內(nèi)目前最強(qiáng)大的超級(jí)計(jì)算機(jī)是太湖之光，在高性能計(jì)算 TOP 500 榜單上處于第四的位置。它最大的一個(gè)特點(diǎn)就是所使用的 CPU 都是國(guó)產(chǎn)的。HPC 領(lǐng)域近年來(lái)呈現(xiàn)出一些新的發(fā)展趨勢(shì)：

趨勢(shì)一：高性能計(jì)算場(chǎng)景越來(lái)越豐富了。HPC 在原來(lái)的使用上主要是局限在一些科學(xué)計(jì)算、工業(yè)仿真這樣的一些傳統(tǒng)場(chǎng)景，現(xiàn)在越來(lái)越多的行業(yè)發(fā)現(xiàn)，高性能計(jì)算能夠解決他們的實(shí)際問(wèn)題，開始采納高性能計(jì)算的方法和方案。
趨勢(shì)二：高性能計(jì)算上云越來(lái)越流行。隨著云計(jì)算的發(fā)展，云廠商提供的網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算的硬件設(shè)施性能越來(lái)越好，一些原來(lái)因硬件性能問(wèn)題沒(méi)有辦法上云的高性能計(jì)算具備了上云的條件，云原生或者混合云的計(jì)算模式變得越來(lái)越流行。云上進(jìn)行高性能計(jì)算的最大優(yōu)勢(shì)就是彈性。傳統(tǒng)超級(jí)計(jì)算機(jī)在建設(shè)的時(shí)候需要提前規(guī)劃資源需求，建設(shè)龐大的數(shù)據(jù)中心，前期利用率不高資源浪費(fèi)大，后期擴(kuò)建成本高昂，普通客戶也很難享受到高性能計(jì)算的紅利。但云的彈性可以讓用戶很容易運(yùn)行高性能計(jì)算程序，有計(jì)算需求時(shí)隨時(shí)按需創(chuàng)建資源，計(jì)算完銷毀資源。在這種模式下，用戶實(shí)際上只需要為當(dāng)時(shí)正在使用的資源付費(fèi)，因此可以節(jié)省很多成本。
趨勢(shì)三：跨界合作變得越來(lái)越普遍。近些年來(lái)業(yè)界觀察到，大數(shù)據(jù)和 AI 實(shí)際上也是兩種以計(jì)算為主的場(chǎng)景。和 HPC 相比，在方法上可以互相借鑒、互通有無(wú)。這些種類的計(jì)算之間的邊界正變得越來(lái)越模糊。一方面 AI 和大數(shù)據(jù)領(lǐng)域在積極地吸納傳統(tǒng) HPC 里面的一些方法，另外一方面?zhèn)鹘y(tǒng)的 HPC 也開始意識(shí)到，GPU 這樣的專用硬件在特定運(yùn)算方面會(huì)比 CPU 快很多，所以從業(yè)人員也在有意識(shí)地引入 GPU 的硬件和一些新的計(jì)算方法。

在這些發(fā)展趨勢(shì)的推動(dòng)下，如今我們談?wù)摳咝阅苡?jì)算的時(shí)候，通常是指三類計(jì)算：

第一類是傳統(tǒng)意義上的超級(jí)計(jì)算機(jī)，通常就叫 HPC。氣象預(yù)報(bào)、石油勘探、碰撞仿真是典型的 HPC 應(yīng)用。
第二類是人工智能領(lǐng)域的計(jì)算，叫 AI HPC，或者直接簡(jiǎn)稱 AI。這一類計(jì)算有一個(gè)特點(diǎn)是會(huì)大量的使用 GPU 算力，主要的場(chǎng)景包括大規(guī)模的深度學(xué)習(xí)訓(xùn)練等。
第三類是跟大數(shù)據(jù)結(jié)合的一類高性能計(jì)算，叫高性能數(shù)據(jù)分析HPDA。最近一些年，大家可能會(huì)關(guān)注了一個(gè)新聞，很多國(guó)家的科學(xué)家一起成立了一個(gè)人類基因組計(jì)劃，對(duì)人類的基因組進(jìn)行測(cè)序。基因測(cè)序就是一個(gè)很典型的 HPDA 場(chǎng)景。

國(guó)外的一些市場(chǎng)調(diào)研的機(jī)構(gòu)對(duì)這三類場(chǎng)景的市場(chǎng)份額進(jìn)行了調(diào)研。從調(diào)研的數(shù)據(jù)，我們可以發(fā)現(xiàn)，傳統(tǒng) HPC 在高性能計(jì)算領(lǐng)域仍然占據(jù)了主導(dǎo)地位，但是 AI HPC 和 HPDA 占據(jù)的市場(chǎng)份額其實(shí)在逐年擴(kuò)大。以上就是三種典型的高性能計(jì)算，接下來(lái)我來(lái)跟大家分享一下，在這些場(chǎng)景里面到底面臨哪些存儲(chǔ)問(wèn)題。

1.2. 傳統(tǒng) HPC 中的存儲(chǔ)問(wèn)題

傳統(tǒng)HPC有很多科學(xué)計(jì)算問(wèn)題，例如方程式的求解，這里很重要的一個(gè)基礎(chǔ)問(wèn)題就是矩陣運(yùn)算。當(dāng)一個(gè)矩陣非常大的時(shí)候，需要將矩陣拆解成很多子矩陣，由多個(gè)節(jié)點(diǎn)來(lái)協(xié)作完成計(jì)算。下面舉一個(gè)簡(jiǎn)單的例子來(lái)描述一下這個(gè)過(guò)程。

四個(gè)進(jìn)程 P1，P2，P3，P4，一起計(jì)算一個(gè)很大的矩陣，每一個(gè)進(jìn)程分到了矩陣的一個(gè)子矩陣，負(fù)責(zé)子矩陣的運(yùn)算。這一整個(gè)矩陣在存儲(chǔ)系統(tǒng)里面是用一個(gè)大文件來(lái)表示的。這實(shí)際上是一個(gè)很自然的表示，如果我們對(duì) C 語(yǔ)言或者其它的編程語(yǔ)言有一定了解，就會(huì)知道，編程語(yǔ)言在內(nèi)存中去模擬多維數(shù)組或矩陣的時(shí)候，會(huì)使用一個(gè)連續(xù)的內(nèi)存空間，通過(guò)下標(biāo)計(jì)算出在連續(xù)內(nèi)存空間中的偏移（offset），從而得到元素的實(shí)際存儲(chǔ)位置。這是一個(gè)很直觀的表達(dá)方法，在 HPC 計(jì)算里面，也采用類似的表達(dá)方式，只是數(shù)據(jù)不是在內(nèi)存里，而是在存儲(chǔ)系統(tǒng)的文件上。這樣的一種表示方式雖然邏輯上簡(jiǎn)單，但帶來(lái)了兩個(gè)問(wèn)題需要解決。

第一個(gè)問(wèn)題是 I/O 效率問(wèn)題。每一個(gè)進(jìn)程負(fù)責(zé)的數(shù)據(jù)，實(shí)際上會(huì)散落到矩陣文件不連續(xù)的位置上面，這些位置可能在不同的節(jié)點(diǎn)或者不同的存儲(chǔ)設(shè)備上。這就會(huì)導(dǎo)致每個(gè)進(jìn)程分別訪問(wèn)矩陣文件去存數(shù)據(jù)或者取數(shù)據(jù)的時(shí)候，產(chǎn)生大量隨機(jī)的小 I/O。隨機(jī) I/O 對(duì)存儲(chǔ)系統(tǒng)是不夠友好的，如果存儲(chǔ)系統(tǒng)的設(shè)備是機(jī)械硬盤就更糟糕。
第二個(gè)問(wèn)題是進(jìn)程協(xié)同問(wèn)題。整個(gè)矩陣只有都計(jì)算完了之后才是有意義的，因此這些參與計(jì)算的進(jìn)程之間還需要有一個(gè)協(xié)同，等每一部分計(jì)算完了之后要告訴大家，我的運(yùn)算結(jié)束了。當(dāng)所有進(jìn)程的計(jì)算都結(jié)束了，數(shù)據(jù)寫到存儲(chǔ)系統(tǒng)里，才能認(rèn)為是整個(gè)過(guò)程結(jié)束了。這就需要一個(gè)進(jìn)程協(xié)同機(jī)制來(lái)保證。?

為了解決這個(gè)兩個(gè)問(wèn)題，傳統(tǒng) HPC 里面提出了一個(gè)兩階段 I/O 的優(yōu)化方法，這個(gè)方法的核心的思想就是匯聚。

假如大家對(duì)存儲(chǔ)系統(tǒng)有一定了解的話，會(huì)有這樣的一個(gè)認(rèn)識(shí)，就是那些大的、順序的 I/O，對(duì)于整個(gè)存儲(chǔ)系統(tǒng)來(lái)說(shuō)，是表現(xiàn)最好的。在 HPC 里面，兩階段 I/O 要做的就是想辦法把那些小 I/O 匯聚成大 I/O。具體是這樣做的，從那些參與計(jì)算的進(jìn)程里面去挑選出來(lái)一些 I/O 進(jìn)程，由這些進(jìn)程去負(fù)責(zé)存儲(chǔ)設(shè)備數(shù)據(jù)的讀寫，不同的進(jìn)程負(fù)責(zé)的部分不重疊，最好和存儲(chǔ)設(shè)備能夠一一對(duì)應(yīng)上。這樣其它進(jìn)程如果想要訪問(wèn)數(shù)據(jù)的時(shí)候，會(huì)路由到具體負(fù)責(zé)的進(jìn)程上去處理，由這個(gè)進(jìn)程統(tǒng)一處理。在整個(gè)計(jì)算過(guò)程中，這些負(fù)責(zé) I/O 的進(jìn)程實(shí)際上是可以先把數(shù)據(jù)緩存在內(nèi)存里面的，然后等到整個(gè)計(jì)算完了之后，再把數(shù)據(jù)保存回文件，刷回到存儲(chǔ)設(shè)備中。這個(gè)中間里面產(chǎn)生的一些進(jìn)程協(xié)作的問(wèn)題，也是由這個(gè)方法來(lái)完成的。通過(guò)在 MPI 框架中實(shí)現(xiàn)這個(gè)方法，HPC 把整個(gè)過(guò)程的細(xì)節(jié)對(duì)上層的計(jì)算隱藏掉了，整體上使用起來(lái)非常的簡(jiǎn)單和高效。

在這個(gè)過(guò)程中，我們就可以歸納出傳統(tǒng)的 HPC 對(duì)存儲(chǔ)的一些要求。首先在接口上，需要一個(gè)文件接口（POSIX），文件接口能夠很好地支持多進(jìn)程的并發(fā)隨機(jī)讀寫。在這個(gè)文件接口之上，再去支持好上面說(shuō)的兩階段 I/O，這就是 HPC 最常用的 MPI 框架 I/O 部分（MPI-I/O）做的事情。因此，HPC 的接口要求是 POSIX 文件接口和 MPI-I/O 框架支持。在一些很大規(guī)模的訓(xùn)練里面，對(duì)整個(gè)吞吐的要求也是非常高的，通常會(huì)達(dá)到數(shù)十 GB/s 甚至數(shù)百 GB/s。

最后就是在延時(shí)方面，因?yàn)檫@些計(jì)算包含的矩陣運(yùn)算會(huì)分為很多輪，一輪輪運(yùn)算直至收斂，所以數(shù)據(jù)保存和讀矩陣的耗時(shí)是非常關(guān)鍵的，反饋到存儲(chǔ)系統(tǒng)就是 HPC 對(duì)延時(shí)有很苛刻的要求。

?

1.3. AI HPC 中的存儲(chǔ)問(wèn)題

AI HPC 實(shí)際上跟傳統(tǒng) HPC 相似的地方在于一個(gè)典型的計(jì)算也是分為很多輪。在每一輪計(jì)算中，不同的計(jì)算節(jié)點(diǎn)會(huì)去從存儲(chǔ)系統(tǒng)把數(shù)據(jù)先預(yù)讀上來(lái)，進(jìn)行一些預(yù)處理，預(yù)處理完了之后由 GPU 來(lái)進(jìn)行運(yùn)算。在這個(gè)讀的過(guò)程中，每個(gè)計(jì)算的節(jié)點(diǎn)其實(shí)只是負(fù)責(zé)了整個(gè)大的訓(xùn)練樣本集合中的一小部分。這個(gè)讀取工作實(shí)際上是通過(guò)訓(xùn)練框架內(nèi)置的 Data Loader 機(jī)制來(lái)完成。整個(gè)過(guò)程中存在大量的讀 I/O，如果樣本都很小，就是大量的小 I/O。

在大規(guī)模的訓(xùn)練中，訓(xùn)練任務(wù)會(huì)周期性地做一些狀態(tài)的保存，叫做 checkpoint，這里狀態(tài)的保存主要起到故障恢復(fù)的作用。如果一個(gè)訓(xùn)練的耗費(fèi)的時(shí)間非常長(zhǎng)，在訓(xùn)練中間遇到一些機(jī)器故障重新做計(jì)算的代價(jià)就會(huì)很高。假如說(shuō)有一些已經(jīng)保存好的狀態(tài)可以加載上來(lái)，接著這個(gè)狀態(tài)把丟失掉的數(shù)據(jù)重新算一遍，這樣會(huì)比完全重新計(jì)算要快很多。因此，在訓(xùn)練過(guò)程中產(chǎn)生的 checkpoint，可以減少需要故障恢復(fù)的數(shù)據(jù)量。這個(gè)過(guò)程以寫 I/O 為主，在訓(xùn)練中的占比較小。

盡管越來(lái)越多的框架開始支持對(duì)象存儲(chǔ)等接口類型，但這些接口形式使用門檻較高，被廣泛接受還需要時(shí)間。文件接口依然是這個(gè)領(lǐng)域最主流的接口形式，被數(shù)據(jù)科學(xué)家、平臺(tái)工程師、用戶熟悉。

通常在生產(chǎn)環(huán)境下面，我們的 GPU 資源是非常寶貴的，絕大部分的企業(yè)會(huì)想去提高GPU 的利用率，這個(gè)時(shí)候就需要有一個(gè)訓(xùn)練調(diào)度的平臺(tái)，來(lái)幫助我們做資源的調(diào)度方面的一些工作，優(yōu)化資源使用。在優(yōu)化資源的同時(shí)，這些調(diào)度平臺(tái)可以起到的另外一個(gè)作用是屏蔽掉存儲(chǔ)系統(tǒng)的細(xì)節(jié)，簡(jiǎn)化整個(gè) AI 訓(xùn)練使用存儲(chǔ)的復(fù)雜度。當(dāng)下業(yè)界已經(jīng)公認(rèn)的一個(gè)發(fā)展趨勢(shì)就是使用 K8s 這樣的調(diào)度系統(tǒng)來(lái)完成 AI 訓(xùn)練的調(diào)度，這也就要求存儲(chǔ)系統(tǒng)能夠接入 K8s CSI 體系。

在 GPU 訓(xùn)練中，讀寫存儲(chǔ)系統(tǒng)工作通常是由操作系統(tǒng)內(nèi)核來(lái)完成的。具體落實(shí)的時(shí)候是內(nèi)核使用 CPU 先將數(shù)據(jù)拷貝到內(nèi)存里，GPU 使用數(shù)據(jù)的時(shí)候再拷貝到顯存中。硬件廠商如 NVIDIA 在探索的一個(gè)優(yōu)化是讓 GPU 直接去讀取存儲(chǔ)系統(tǒng)，從而減少 CPU 和 GPU 間的這一次拷貝開銷，同時(shí)降低 CPU 使用率。這個(gè)技術(shù)叫 GPU Direct Storage（GDS），如果能夠支持它的話，能夠讓 GPU 訓(xùn)練在數(shù)據(jù)讀寫速度方面有更好的表現(xiàn)。不過(guò)目前這個(gè)技術(shù)在業(yè)界使用得并不廣泛，在未來(lái)它的發(fā)展前景怎么樣，我們還有待觀察。

歸納下來(lái)，AI HPC 對(duì)存儲(chǔ)接口的需求是 POSIX、K8s CSI，可選支持 GDS。

接口層面之外，不同的 AI 訓(xùn)練在負(fù)載方面有不同的特點(diǎn)，但是很多的 AI 訓(xùn)練會(huì)有海量小文件的需求。例如，在一些圖片相關(guān)的訓(xùn)練中，每一個(gè)圖片都很小，但是整個(gè)圖片的樣本集，假如展開來(lái)看的話會(huì)有非常多的小文件，一個(gè)樣本集文件數(shù)多達(dá)幾百萬(wàn)上千萬(wàn)都是有可能的。在整個(gè)的訓(xùn)練過(guò)程中，實(shí)際上對(duì)于那些樣本集里的圖片數(shù)據(jù)是不會(huì)做任何修改的，所以它對(duì)存儲(chǔ)系統(tǒng)的 I/O 需求實(shí)際上是以讀為主的。跟 HPC一樣，為了讀取的高效率，需要滿足高吞吐和低延時(shí)的要求。此外，部分訓(xùn)練涉及到海量小文件的問(wèn)題，海量小文件的特點(diǎn)就是元數(shù)據(jù)請(qǐng)求占比較高，存儲(chǔ)系統(tǒng)的元數(shù)據(jù)性能至關(guān)重要。

?

1.4. HPDA 中的存儲(chǔ)問(wèn)題

因?yàn)?HPDA 就是跟大數(shù)據(jù)結(jié)合的一類高性能計(jì)算，所以說(shuō)它的整個(gè)特點(diǎn)就跟大數(shù)據(jù)一樣。例如，我們?nèi)ビ^察一個(gè)典型的 MapReduce 的任務(wù)，會(huì)發(fā)現(xiàn)在 Map 階段，Map Task 會(huì)去存儲(chǔ)系統(tǒng)里面去把數(shù)據(jù)讀取出來(lái)，然后進(jìn)行運(yùn)算，整個(gè)一輪運(yùn)算的結(jié)束的 Reduce Task 會(huì)把產(chǎn)生的數(shù)據(jù)再存回存儲(chǔ)系統(tǒng)里面。在這一類的場(chǎng)景里面，最早大家都是去使用 Hadoop 自帶的 HDFS 來(lái)作為存儲(chǔ)系統(tǒng)，隨著業(yè)界開始流行一些存算分離的架構(gòu)，大家發(fā)現(xiàn)，這一類計(jì)算使用對(duì)象存儲(chǔ)來(lái)運(yùn)行，成本更低，擴(kuò)展性更好。Hadoop 的客戶端在設(shè)計(jì)的時(shí)候就考慮了第三方存儲(chǔ)系統(tǒng)的兼容需求，存儲(chǔ)系統(tǒng)只要兼容 Hadoop 的存儲(chǔ)接口，也就是 HCFS，就可以很方便的被大數(shù)據(jù)體系所使用。

HPDA 整個(gè)負(fù)載特點(diǎn)是以大文件為主，對(duì)延時(shí)不是特別的敏感，但是對(duì)吞吐要求非常的高。

1.5. 高性能計(jì)算場(chǎng)景存儲(chǔ)需求的總結(jié)

現(xiàn)在可以簡(jiǎn)單地對(duì)這三類高性能計(jì)算的場(chǎng)景做一個(gè)總結(jié)。

首先在性能方面，我們會(huì)發(fā)現(xiàn)，這些計(jì)算對(duì)存儲(chǔ)的需求，絕大部分情況下是發(fā)生在一批計(jì)算前面數(shù)據(jù)加載的階段，和最后的數(shù)據(jù)保存階段，這兩個(gè)階段如果存儲(chǔ)性能跟不上的話，會(huì)導(dǎo)致 GPU、CPU 在那里等待，無(wú)事可做，空轉(zhuǎn)浪費(fèi)算力。GPU、CPU 在成本上來(lái)說(shuō)是遠(yuǎn)高于存儲(chǔ)成本的，存儲(chǔ)一定要減少它們的等待時(shí)間。這些場(chǎng)景共性的要求是高吞吐，對(duì)一些 HPC 或者 AI HPC 的場(chǎng)景，還有額外的低延時(shí)要求。第二點(diǎn)是文件大小的方面。這里面 AI HPC 場(chǎng)景比較特殊，它有海量小文件的需求，海量小文件實(shí)際上對(duì)整個(gè)存儲(chǔ)系統(tǒng)的擴(kuò)展性以及元數(shù)據(jù)性能方面的挑戰(zhàn)是比較大的。第三點(diǎn)是接口方面。到目前為止，POSIX 文件接口還是最主流的。HCFS 是 POSIX的一個(gè)子集，滿足了 POSIX 要求后很容易開發(fā) HCFS SDK。HPC 比較特殊，除了完整的 POSIX 兼容性之外，還需要去適配 MPI-I/O 框架。第四點(diǎn)是對(duì)于所有存儲(chǔ)系統(tǒng)的一個(gè)通用需求。對(duì)于非常重要的數(shù)據(jù)，我們有數(shù)據(jù)持久化要求，確保數(shù)據(jù)不會(huì)丟失。對(duì)于一些特殊的計(jì)算場(chǎng)景，這個(gè)要求可以放松，在一些多輪計(jì)算中，部分結(jié)果是中間生成的臨時(shí)結(jié)果，這些臨時(shí)結(jié)果可以通過(guò)計(jì)算重新生成。對(duì)于這些臨時(shí)的結(jié)果，可以選擇使用一些臨時(shí)存儲(chǔ)空間來(lái)存放，以換取更高的運(yùn)算速度，更低的成本。這種臨時(shí)存儲(chǔ)空間需求在 HPC 和 AI HPC 中比較普遍，存儲(chǔ)系統(tǒng)可以使用單副本來(lái)滿足。最后一點(diǎn)，也是大家去使用存儲(chǔ)系統(tǒng)的一個(gè)通用需求，就是希望在滿足性能需求的前提下，存儲(chǔ)這方面花的成本越低越好，當(dāng)下企業(yè)有很多的原始數(shù)據(jù)和歷史數(shù)據(jù)需要保存，這一點(diǎn)顯得更為重要。

?

2. 百度內(nèi)部的高性能存儲(chǔ)實(shí)踐

百度內(nèi)部高性能計(jì)算場(chǎng)景面臨的情況是非常復(fù)雜的。百度的高性能計(jì)算中，傳統(tǒng) HPC計(jì)算的比重是相對(duì)比較少的，主要是以 AI HPC 和 HPDA 為主。這些計(jì)算包含很多的業(yè)務(wù)，包括自動(dòng)駕駛、語(yǔ)音識(shí)別、廣告推薦之類，這些不同的業(yè)務(wù)有各自的特點(diǎn)，高吞吐、低延時(shí)、大文件、小文件的需求皆有。在計(jì)算硬件方面，也有很多不同的選擇，例如一些業(yè)務(wù)可能主要用 GPU 來(lái)做訓(xùn)練，另外有些業(yè)務(wù)主要用 CPU，百度內(nèi)部也有自研的一體機(jī)和類似于昆侖芯這樣的 AI 專用芯片。這就導(dǎo)致從計(jì)算側(cè)來(lái)看，百度內(nèi)部存儲(chǔ)無(wú)論是業(yè)務(wù)的種類、業(yè)務(wù)的規(guī)模，還是業(yè)務(wù)的復(fù)雜度，面臨的挑戰(zhàn)都是比較大的。

百度內(nèi)部實(shí)踐經(jīng)驗(yàn)中，最核心的一點(diǎn)就是有一個(gè)統(tǒng)一的存儲(chǔ)底座來(lái)做數(shù)據(jù)的流轉(zhuǎn)中心。大家可以想一下，整個(gè)高性能計(jì)算的過(guò)程實(shí)際上是分為很多個(gè)環(huán)節(jié)的。比如說(shuō)自動(dòng)駕駛，要從很多的全國(guó)的道路采集路況信息，數(shù)據(jù)收集完了需要做一些預(yù)處理，例如給行人、機(jī)動(dòng)車、交通標(biāo)示牌做標(biāo)注之類的。做完標(biāo)注之后，才是真正的訓(xùn)練過(guò)程，訓(xùn)練完了之后會(huì)產(chǎn)生一些需要部署到生產(chǎn)系統(tǒng)上的模型，所以還要去做模型的管理、模型的部署。假如這些數(shù)據(jù)分散在不同的存儲(chǔ)系統(tǒng)上的話，對(duì)使用效率和使用方便程度上來(lái)講，是一個(gè)比較大的挑戰(zhàn)。所以百度內(nèi)部使用了一個(gè)統(tǒng)一的存儲(chǔ)底座來(lái)簡(jiǎn)化數(shù)據(jù)的管理和流轉(zhuǎn)。存儲(chǔ)底座的核心能力是高可靠、低成本、高吞吐。首先看可靠性，使用了統(tǒng)一的存儲(chǔ)底座之后，存儲(chǔ)底座是數(shù)據(jù)最可靠、甚至是唯一的數(shù)據(jù)來(lái)源，需要保證數(shù)據(jù)萬(wàn)無(wú)一失。在這個(gè)基礎(chǔ)上，底座存儲(chǔ)的數(shù)據(jù)量非常之大，需要在成本方面需要做到比較優(yōu)。最后，它作為一個(gè)統(tǒng)一的數(shù)據(jù)流轉(zhuǎn)中心，需要有足夠的吞吐能力，能夠支撐很多的流程在上面并發(fā)運(yùn)行。在這個(gè)統(tǒng)一存儲(chǔ)底座的基礎(chǔ)之上，會(huì)去支持一些高性能計(jì)算常用的接口需求，包括POSIX 文件接口以及 HCFS 大數(shù)據(jù)接口。一些對(duì)性能有更高要求的一些業(yè)務(wù)，愿意去做一些定制開發(fā)的話，它可以直接用存儲(chǔ)底座提供的 SDK。

?到了關(guān)鍵的訓(xùn)練環(huán)節(jié)，也就是計(jì)算環(huán)節(jié)，百度內(nèi)部采用了不同的運(yùn)行時(shí)解決方案來(lái)滿足業(yè)務(wù)多樣化的訴求，主要分為兩類：

第一類解決方案解決 AI 訓(xùn)練中存在的海量小文件問(wèn)題。對(duì)于存儲(chǔ)底座來(lái)說(shuō)，它首先要保證的是高吞吐和低成本，會(huì)采用一些相對(duì)比較廉價(jià)的存儲(chǔ)介質(zhì)，雖然單個(gè)設(shè)備的能力較差，但規(guī)模上來(lái)之后就有了規(guī)模效應(yīng)，可以提供很大的吞吐。但這也導(dǎo)致它在處理小文件的時(shí)候，在元數(shù)據(jù)方面以及 I/O 方面的性能是不太理想的，這個(gè)時(shí)候就需要有一些速度更快的解決方案作為彌補(bǔ)。在百度內(nèi)部，根據(jù)數(shù)據(jù)集的大小，業(yè)務(wù)可以有兩種選擇，包括本地盤和并行文件系統(tǒng)。如果數(shù)據(jù)集比較小，計(jì)算節(jié)點(diǎn)的本地盤足夠放下整個(gè)數(shù)據(jù)集，那訓(xùn)練任務(wù)完全就可以把數(shù)據(jù)先存到本地盤上，然后基于本地盤來(lái)做計(jì)算。在另外一些場(chǎng)景下面，本地盤的大小遠(yuǎn)遠(yuǎn)不夠存放下整個(gè)數(shù)據(jù)集，那這個(gè)時(shí)候就需要一個(gè)規(guī)模更大的共享文件系統(tǒng)來(lái)做這個(gè)事情，這是并行文件系統(tǒng)要解決的問(wèn)題。這個(gè)并行文件系統(tǒng)會(huì)有自己獨(dú)立的集群，多租戶共享，支持 RDMA 網(wǎng)絡(luò)、NVMe SSD，軟硬件都做了很多的優(yōu)化，來(lái)保證在海量小文件場(chǎng)景下，能夠有比較好的元數(shù)據(jù)性能和 I/O 性能。
第二類解決方案針對(duì)那些訓(xùn)練時(shí)長(zhǎng)非常長(zhǎng)、重復(fù)較少的一些訓(xùn)練，這類訓(xùn)練主要的要求是能夠把數(shù)據(jù)源源不斷地從存儲(chǔ)底座讀取出來(lái)，吞吐比延時(shí)更重要。這個(gè)時(shí)候很多業(yè)務(wù)的選擇就是去直接訪問(wèn)存儲(chǔ)底座，利用存儲(chǔ)底座比較好的高吞吐能力，來(lái)服務(wù)計(jì)算。

在整個(gè)使用過(guò)程中，還面臨一些關(guān)鍵的使用問(wèn)題。例如，數(shù)據(jù)怎么在不同系統(tǒng)（存儲(chǔ)底座和并行文件系統(tǒng)、存儲(chǔ)底座和本地盤）之間做流轉(zhuǎn)；在使用的過(guò)程中，怎么簡(jiǎn)化不同類型存儲(chǔ)的掛載、卸載和初始化、容量分配等工作。這些工作對(duì)于不同的業(yè)務(wù)來(lái)說(shuō)是一樣的，內(nèi)部的大規(guī)模分布式訓(xùn)練平臺(tái)，為用戶屏蔽掉了這些繁瑣的步驟，讓這些業(yè)務(wù)對(duì)整個(gè)存儲(chǔ)系統(tǒng)的使用，變得非常的簡(jiǎn)單和高效。

?

3. 百度滄海高性能存儲(chǔ)解決方案

在百度內(nèi)部實(shí)踐的基礎(chǔ)上，孵化出了百度滄海存儲(chǔ)在高性能計(jì)算領(lǐng)域的整體解決方案。這個(gè)解決方案，和百度內(nèi)部的實(shí)踐是一樣的，由大容量、高吞吐、低成本的存儲(chǔ)底座，和更快的運(yùn)行時(shí)存儲(chǔ) PFS、RapidFS 組成。

對(duì)象存儲(chǔ)已經(jīng)是業(yè)界共識(shí)的云上數(shù)據(jù)湖的事實(shí)標(biāo)準(zhǔn)，滿足存儲(chǔ)底座的所有條件，同時(shí)還有豐富的生態(tài)。和原來(lái)百度內(nèi)部實(shí)踐的存儲(chǔ)底座相比，百度智能云的對(duì)象存儲(chǔ) BOS 還具備分級(jí)存儲(chǔ)和智能生命周期能力。這兩個(gè)能力可以讓數(shù)據(jù)根據(jù)訪問(wèn)頻次等條件，自由地在不同成本的層級(jí)間流轉(zhuǎn)，達(dá)到整體成本最優(yōu)的狀態(tài)。舉個(gè)例子，現(xiàn)在經(jīng)常要使用的一些數(shù)據(jù)可以放到標(biāo)準(zhǔn)存儲(chǔ)里面，這樣的話它在訪問(wèn)的時(shí)候速度是比較快的，隨著這些數(shù)據(jù)逐漸轉(zhuǎn)冷，可能很長(zhǎng)時(shí)間都不會(huì)再用到，那就可以把這些數(shù)據(jù)通過(guò)生命周期策略，自動(dòng)地往更低頻、更廉價(jià)的存儲(chǔ)分級(jí)去沉降，最后可以一直沉降到磁帶介質(zhì)的歸檔存儲(chǔ)上，以此來(lái)達(dá)到一個(gè)訪問(wèn)性能、成本之間比較好的均衡。運(yùn)行時(shí)存儲(chǔ) PFS、RapidFS 的最大特點(diǎn)就是這兩個(gè)產(chǎn)品是近計(jì)算部署的，主要目的是為了讓它們能夠達(dá)到最好的 I/O 性能。這兩個(gè)系統(tǒng)還需要解決和對(duì)象存儲(chǔ)數(shù)據(jù)湖之間的高效數(shù)據(jù)流轉(zhuǎn)的問(wèn)題，以及在調(diào)度平臺(tái)上如何更簡(jiǎn)單地使用它們的問(wèn)題。接下來(lái)簡(jiǎn)單地介紹一下這兩個(gè)系統(tǒng)。

?

3.1 并行文件存儲(chǔ) PFS?

PFS 是一個(gè)典型的并行文件系統(tǒng)，和業(yè)界的 Lustre、GPFS 這些系統(tǒng)在架構(gòu)上是比較接近的。系統(tǒng)主要的一個(gè)特點(diǎn)就是整個(gè) I/O 路徑會(huì)非常的短，請(qǐng)求從內(nèi)核態(tài)客戶端出來(lái)之后，根據(jù)它的類型的，是元數(shù)據(jù)的請(qǐng)求還是 I/O 的請(qǐng)求，直接發(fā)給對(duì)應(yīng)的元數(shù)據(jù)節(jié)點(diǎn) MDS 或者數(shù)據(jù)節(jié)點(diǎn) OSS 處理。這樣，對(duì)于讀 I/O 來(lái)說(shuō)，I/O 路徑只有一跳。這個(gè)是軟件架構(gòu)上的性能保證，在硬件上我們同樣有一些保證。PFS 采用托管架構(gòu)將系統(tǒng)部署到用戶 VPC 的虛機(jī)或物理機(jī)上，讓它在整個(gè)物理網(wǎng)絡(luò)上和計(jì)算節(jié)點(diǎn)離得非常近，這里的物理網(wǎng)絡(luò)可能是 RDMA 或高速 TCP。PFS 通過(guò)這些軟硬件上的多重保證，來(lái)確保整個(gè)系統(tǒng)的性能是比較高的。?

?

3.2 分布式緩存加速 RapidFS

RapidFS 跟 PFS 一個(gè)最大的差別就是，PFS 使用了獨(dú)立的存儲(chǔ)節(jié)點(diǎn)進(jìn)行部署，對(duì)于客戶來(lái)說(shuō)，仍然有一些成本上的付出。但是對(duì)于一些小規(guī)模的訓(xùn)練，計(jì)算節(jié)點(diǎn)本地有一些冗余的內(nèi)存資源、磁盤資源，假如能把這些資源利用起來(lái)，對(duì)客戶來(lái)說(shuō)，就不需要付出額外的經(jīng)濟(jì)代價(jià)，同時(shí)還能享受到比較好的性能。RapidFS 就是為了解決這樣一類場(chǎng)景而實(shí)現(xiàn)的一個(gè)系統(tǒng)，它的定位是一個(gè)緩存加速系統(tǒng)，原理是將用戶計(jì)算節(jié)點(diǎn)上的冗余資源，組織成一個(gè)小的 P2P 緩存來(lái)加速計(jì)算。RapidFS 加速的能力主要來(lái)自于兩個(gè)方面：

第一個(gè)加速效果來(lái)自層級(jí)命名空間（namespace）。命名空間在存儲(chǔ)系統(tǒng)里負(fù)責(zé)組織文件和目錄之間的關(guān)系以及保存屬性信息，文件系統(tǒng)的元數(shù)據(jù)也是指這一部分。層級(jí)命名空間是 POSIX 使用的命名空間形式，就像一棵倒掛著生長(zhǎng)的樹，從根目錄開始，每一個(gè)文件或目錄都屬于一個(gè)父目錄。平坦命名空間是對(duì)象存儲(chǔ)使用的命名空間，文件和目錄彼此是平等獨(dú)立的，不存在父子關(guān)系，這個(gè)設(shè)計(jì)可以讓命名空間的擴(kuò)展性能更好。對(duì)于用戶來(lái)說(shuō)，想要通過(guò) POSIX 的方式（這是很常見的用法）去訪問(wèn)對(duì)象存儲(chǔ)，會(huì)有很大的元數(shù)據(jù)操作的放大。為了解決這個(gè)問(wèn)題，RapidFS 內(nèi)置了一個(gè)高效的層級(jí)命名空間，來(lái)做 BOS 命名空間的緩存。
第二個(gè)加速效果來(lái)自數(shù)據(jù)緩存。針對(duì)于 BOS 上數(shù)據(jù)訪問(wèn)比較慢的問(wèn)題，RapidFS 將比較熱的數(shù)據(jù)緩存到用戶提供的冗余內(nèi)存和磁盤上面，這樣等用戶去訪問(wèn)的時(shí)候，訪問(wèn)路徑很短。

3.3 高效數(shù)據(jù)流轉(zhuǎn)

有了這兩類運(yùn)行時(shí)存儲(chǔ)之后，需要解決怎么在這兩個(gè)系統(tǒng)和存儲(chǔ)底座之間做數(shù)據(jù)流轉(zhuǎn)的問(wèn)題。實(shí)際上我們是通過(guò)兩種機(jī)制來(lái)滿足的：

第一種機(jī)制是生命周期，這一機(jī)制跟對(duì)象存儲(chǔ)分級(jí)存儲(chǔ)體系類似。在一些場(chǎng)景如 HPC 中，業(yè)務(wù)的整個(gè)訪問(wèn)入口主要是文件系統(tǒng)，也就是 PFS。很多數(shù)據(jù)在 PFS 里產(chǎn)生之后，逐漸轉(zhuǎn)冷，將這部分?jǐn)?shù)據(jù)存儲(chǔ)到到更低成本的系統(tǒng)或介質(zhì)上是一個(gè)普遍訴求。在我們的方案里，PFS 可以通過(guò)生命周期的功能，把近期內(nèi)不再使用的數(shù)據(jù)，自動(dòng)地轉(zhuǎn)移到對(duì)象存儲(chǔ)里面，讓用戶能夠把成本降下來(lái)。用戶去訪問(wèn)的時(shí)候，PFS 又把數(shù)據(jù)自動(dòng)地給加載回來(lái)。這樣用戶自己其實(shí)是不需要去關(guān)心數(shù)據(jù)到底是在對(duì)象存儲(chǔ)還是在 PFS 里面，他只需要關(guān)心哪些目錄需要開啟生命周期功能。在我們的規(guī)劃里，RapidFS 后續(xù)將推出的 Block 模式也具備類似的能力，訪問(wèn)入口在 RapidFS，熱數(shù)據(jù)緩存在計(jì)算節(jié)點(diǎn)本地，數(shù)據(jù)的持久化和冷數(shù)據(jù)由對(duì)象存儲(chǔ)負(fù)責(zé)。
另外一個(gè)機(jī)制是 Bucket Link。Bucket Link 的數(shù)據(jù)流走向跟生命周期正好是反向的。很多情況下，用戶的數(shù)據(jù)實(shí)際上已經(jīng)在對(duì)象存儲(chǔ)里面了，例如自動(dòng)駕駛這樣的業(yè)務(wù)，它的數(shù)據(jù)是線下采集的一些路測(cè)數(shù)據(jù)，這些數(shù)據(jù)通過(guò)對(duì)象存儲(chǔ)服務(wù)提供的工具上會(huì)傳到對(duì)象存儲(chǔ)里，訓(xùn)練時(shí)候的數(shù)據(jù)源實(shí)際上就是對(duì)象存儲(chǔ)。但如果想要用 PFS 或者 RapidFS 來(lái)支撐訓(xùn)練，就需要高效地把數(shù)據(jù)搬過(guò)來(lái)。Bucket Link 要解決的就是這個(gè)問(wèn)題，它本質(zhì)上是將數(shù)據(jù)搬運(yùn)的能力內(nèi)置到了存儲(chǔ)系統(tǒng)里面，用戶只要通過(guò)一個(gè)很簡(jiǎn)單的命令，或者說(shuō)一個(gè)界面的操作，就能夠把 PFS 的一個(gè)目錄或者 RapidFS 的一個(gè)命名空間，和對(duì)象存儲(chǔ)里面的一個(gè)路徑做一個(gè)綁定，這個(gè)綁定就是 Bucket Link。綁定后，PFS 和 RapidFS 可以自動(dòng)地幫用戶完成數(shù)據(jù)的加載，以及數(shù)據(jù)的預(yù)熱。這樣等到用戶訓(xùn)練真正開始運(yùn)行的時(shí)候，PFS 和 RapidFS 里的數(shù)據(jù)已經(jīng)準(zhǔn)備好了，任務(wù)直接可以運(yùn)行。?

?

3.4 統(tǒng)一調(diào)度?

Bucket Link 的能力可以手動(dòng)調(diào)用命令去使用，但是很多情況下，對(duì)客戶來(lái)說(shuō)更方便的使用方法是去結(jié)合作業(yè)調(diào)度器。前面我們已經(jīng)提到了，現(xiàn)在越來(lái)越多的客戶會(huì)使用K8s 作為他們的作業(yè)調(diào)度系統(tǒng)，因此我們選擇將 Bucket Link 整合到 K8s 中。業(yè)界有一個(gè)開源項(xiàng)目叫 Fluid，它可以將整個(gè)訓(xùn)練的過(guò)程分成了兩個(gè)階段，一個(gè)階段是用來(lái)做數(shù)據(jù)加載，另外一個(gè)階段才是用來(lái)做真正的訓(xùn)練。這兩個(gè)階段拆分之后，在不同的任務(wù)之間 pipeline 并發(fā)起來(lái)。舉個(gè)簡(jiǎn)單的例子，整個(gè)系統(tǒng)可能只有四張 GPU 卡，A 訓(xùn)練跟 B 訓(xùn)練都需要去用這四張卡來(lái)做訓(xùn)練，那在 A 訓(xùn)練跑 GPU 任務(wù)的時(shí)候，完全可以讓 B 訓(xùn)練提前做數(shù)據(jù)預(yù)加載的工作，將數(shù)據(jù)提前預(yù)熱到 PFS 或者 RapidFS 里。等到 A 訓(xùn)練任務(wù)完成的時(shí)候，就直接可以讓調(diào)度器把 B 訓(xùn)練跑起來(lái)了。整體上看到的效果就是 B 的數(shù)據(jù)加載階段被隱藏掉了，加載過(guò)程跟計(jì)算過(guò)程分階段 pipeline 化了。對(duì)于那些訓(xùn)練任務(wù)很多的用戶，GPU 等待時(shí)間變少了，利用率得到了很大的提高。PFS 和 RapidFS 統(tǒng)一都支持了 Fluid，在使用上體驗(yàn)接近，可靈活替換。在這個(gè)基礎(chǔ)上，我們也會(huì)支持一些很細(xì)分的策略。那些對(duì) I/O 延時(shí)不太敏感，但對(duì)元數(shù)據(jù)比較敏感的一些訓(xùn)練，可以只讓它加載元數(shù)據(jù)。對(duì)元數(shù)據(jù)和數(shù)據(jù)訪問(wèn)要求都比較高的一些訓(xùn)練，在加載元數(shù)據(jù)的同時(shí)預(yù)熱數(shù)據(jù)。所有的這些技術(shù)手段，目的都是讓用戶感受到比較好的使用體驗(yàn)。?

?

3.5 測(cè)試數(shù)據(jù)?

我們來(lái)簡(jiǎn)單看一下 PFS 和 RapidFS 在實(shí)際支持用戶訓(xùn)練時(shí)候的效果。在這個(gè)例子里，有三組數(shù)據(jù)，分別是基于 RapidFS、PFS、對(duì)象存儲(chǔ)直接來(lái)做 GPU 訓(xùn)練。可以看出，當(dāng)使用 RapidFS 或 PFS 使用 Bucket Link 做完數(shù)據(jù)預(yù)熱之后，整個(gè)訓(xùn)練期間的 GPU 利用率直接打滿。基于對(duì)象存儲(chǔ)直接來(lái)做這個(gè)訓(xùn)練的話，中間很大一部分時(shí)間是消耗在數(shù)據(jù)的讀取上，整個(gè) GPU 利用率在一個(gè)非常低的水位上。通過(guò)這樣一個(gè)實(shí)驗(yàn)，我們大致能夠看到 RapidFS 跟 PFS 在高性能計(jì)算加速這一塊的效果。?

?

4. 客戶案例

最后我們來(lái)介紹一個(gè)典型客戶的案例。

大家都知道百度是國(guó)內(nèi)最大的自動(dòng)駕駛方案廠商，也具備將自動(dòng)駕駛整體解決方案對(duì)外輸出的能力。因此有一些造車新勢(shì)力的企業(yè)，在百度智能云上使用自動(dòng)駕駛的整體解決方案，其中就包含百度滄?！ご鎯?chǔ)提供的解決方案。

在圖示的案例里，客戶的一些采集車線下做路測(cè)，不斷地通過(guò)車上的攝像頭去采集路況數(shù)據(jù)。這些數(shù)據(jù)通過(guò)百度智能云提供的一個(gè)叫“月光寶盒”的專門硬件存儲(chǔ)下來(lái)。采集到的數(shù)據(jù)客戶可以選擇兩種方式上傳到對(duì)象存儲(chǔ) BOS 里面。第一種方式通過(guò)網(wǎng)絡(luò)的方式來(lái)傳輸，這種方式的速度受限于網(wǎng)絡(luò)帶寬，實(shí)際上整個(gè)吞吐不太高。另外還有一種方式可能大家看來(lái)會(huì)是很原始，就是把通過(guò)物流把月光寶盒寄回來(lái)。

月光寶盒這個(gè)設(shè)備可以簡(jiǎn)單的理解為一個(gè)比較大的移動(dòng)硬盤，當(dāng)然它會(huì)比普通的移動(dòng)硬盤盤數(shù)更多，可靠性更高。用戶采集了一批數(shù)據(jù)之后，可以直接把月光寶盒郵寄到百度智能云的數(shù)據(jù)中心，再通過(guò)內(nèi)部的網(wǎng)絡(luò)把這些數(shù)據(jù)上傳到對(duì)象存儲(chǔ) BOS。這樣的解決方案，能夠保證用戶在 10 個(gè)小時(shí)之內(nèi)能夠完成 1PB 數(shù)據(jù)的上傳，遠(yuǎn)比使用網(wǎng)絡(luò)上傳的方式要快很多。所以說(shuō)這種方案雖然看起來(lái)可能比較原始，但是確實(shí)很高效。

客戶將他的數(shù)據(jù)沉淀到對(duì)象存儲(chǔ) BOS 之后，基于這些數(shù)據(jù)來(lái)做后續(xù)的訓(xùn)練，PFS 就是主要用來(lái)支撐它整個(gè) GPU 集群訓(xùn)練的產(chǎn)品。整個(gè)并行文件存儲(chǔ) PFS 集群大概是數(shù) PB 容量，只有在訓(xùn)練的時(shí)候才會(huì)把需要的數(shù)據(jù)加載進(jìn)來(lái)，高效支持了數(shù)千卡 GPU 集群的訓(xùn)練。

用戶實(shí)際上還用了很多百度智能云提供的一些其它能力，包括在 IaaS 側(cè)、PaaS 側(cè)的BBC、BCC、MongoDB 等產(chǎn)品，以及百度智能云針對(duì) AI 領(lǐng)域的一些 SaaS 服務(wù)。這些能力其實(shí)都是在百度內(nèi)部經(jīng)過(guò)大規(guī)模實(shí)踐之后，才在百度智能云產(chǎn)品化出來(lái)的。

客戶訓(xùn)練的結(jié)果又會(huì)反饋到路測(cè)的流程上，形成了一個(gè)完整的閉環(huán)，一輪輪地去做數(shù)據(jù)的采集、訓(xùn)練和方案的迭代。

責(zé)任編輯：張燕妮來(lái)源： DataFunTalk

高性能計(jì)算

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)