自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何通過分布式實現(xiàn)云中的彈性吞吐量以促進AI訓(xùn)練?

譯文
人工智能
本文將討論人工智能量化研究中的挑戰(zhàn)、彈性計算的好處、彈性環(huán)境中的存儲痛點,以及JuiceFS如何用創(chuàng)新技術(shù)解決這些問題。其目標是為開發(fā)基于云的機器學(xué)習(xí)平臺的企業(yè)提供見解,幫助他們解決關(guān)鍵數(shù)據(jù)吞吐量不足的挑戰(zhàn)。

譯者 | 李睿

審校 | 重樓

人工智能現(xiàn)在是量化研究等領(lǐng)域軟件開發(fā)的基石。在工作負載激增期間,量化對沖基金經(jīng)常面臨資源浪費和計算資源不足等挑戰(zhàn)。

為了解決這些問題,基于云的彈性計算提供了一種有效的解決方案。它縮短了上市時間,靈活地分配資源,并促進了最新硬件技術(shù)的采用。

JuiceFS是一款云原生高性能分布式文件系統(tǒng),可以為量化對沖基金增強人工智能訓(xùn)練,并在云中實現(xiàn)彈性吞吐量。它提供了具有加速緩存的經(jīng)濟高效的存儲解決方案,無縫集成了內(nèi)部部署資產(chǎn)與云部署,并優(yōu)化了計算資源。

本文將討論人工智能量化研究中的挑戰(zhàn)、彈性計算的好處、彈性環(huán)境中的存儲痛點,以及JuiceFS如何用創(chuàng)新技術(shù)解決這些問題。其目標是為開發(fā)基于云的機器學(xué)習(xí)平臺的企業(yè)提供見解,幫助他們解決關(guān)鍵數(shù)據(jù)吞吐量不足的挑戰(zhàn)。

一、量化對沖基金面臨的挑戰(zhàn):固定的IT資源和波動的工作負載

量化研究使用數(shù)學(xué)模型分析市場數(shù)據(jù),為投資決策提供信息。這是金融領(lǐng)域的一個重要領(lǐng)域,它應(yīng)用了機器學(xué)習(xí)等人工智能技術(shù)。下圖顯示了量化公司的每日任務(wù)量,黃線表示波動。任務(wù)量在工作時間明顯增加,在正常辦公時間之后下降。

圖片

量化企業(yè)的任務(wù)量

大多數(shù)量化對沖基金依賴于數(shù)據(jù)中心的固定IT資源,包括:CPU、內(nèi)存和存儲。然而,這種設(shè)置帶來了工作負載波動的挑戰(zhàn):

?當數(shù)據(jù)中心提供固定的計算能力時,將會發(fā)生浪費資源和降低效率的情況,導(dǎo)致資源在低需求時期過剩,而研究人員在高峰時段會經(jīng)歷排隊和延遲。研究人員和企業(yè)都在努力實現(xiàn)資源利用率和效率的最大化。

?在工作量激增期間計算資源不足:研究人員經(jīng)常需要大量的計算資源進行大規(guī)模驗證或驗證研究論文。而在工作人員招聘或工作量高峰季節(jié),資源不足成為難題。

?不靈活的擴展時間表:數(shù)據(jù)中心擴展過程通常需要大約三個月的時間,但硬件短缺可能會將這個時間表延長到六個月。供應(yīng)鏈的長時間中斷給滿足業(yè)務(wù)需求帶來了挑戰(zhàn)。

彈性計算為這些挑戰(zhàn)提供了一個簡單而有效的解決方案。

二、彈性計算在量化對沖基金中的好處

近年來,基于云計算的解決方案在量化對沖基金中獲得了顯著的發(fā)展。通過在云平臺上建立他們的研究平臺(例如,在AWS云平臺上),這些公司從無縫部署和優(yōu)化的資源利用中受益。

本節(jié)探討彈性計算在量化對沖基金中的優(yōu)勢,重點是縮短上市時間,促進靈活的資源分配,并支持快速采用最新硬件技術(shù)。

1、最小化上市時間

基于云的研究平臺使量化對沖基金能夠快速部署他們的系統(tǒng),消除了與硬件選擇和采購相關(guān)的延遲。這種簡化的流程加快了對計算資源的訪問,加快了研究和開發(fā)進程。

2、靈活的資源分配

彈性計算使量化對沖基金能夠根據(jù)需求動態(tài)分配計算資源。研究人員可以很容易地調(diào)整資源以滿足他們特定的計算需求,無論他們是需要大量的計算能力還是面臨低需求期。這種靈活性確保了最佳的資源利用率,消除了傳統(tǒng)數(shù)據(jù)中心中與固定計算能力相關(guān)的低效率。

3、成熟企業(yè)的混合云方法

擁有現(xiàn)有IDC設(shè)施的老牌量化對沖基金公司可以有效地利用混合云戰(zhàn)略。通過在平均或低需求時期利用其IDC資產(chǎn)作為固定計算能力,這些公司優(yōu)化了資源配置。同時,他們可以通過利用云資源增加工作負載來擴展計算能力。這種混合方法最大限度地利用了現(xiàn)有資產(chǎn),同時利用了云計算提供的可擴展性和成本優(yōu)勢。

4、快速采用最新硬件

彈性計算使量化對沖基金能夠通過快速采用最新的硬件來保持領(lǐng)先地位。與傳統(tǒng)的硬件采購不同,傳統(tǒng)的硬件采購?fù)ǔI婕叭轿迥甑穆L折舊期,彈性計算允許快速集成尖端硬件設(shè)備。這種靈活性使對沖基金能夠利用最先進的技術(shù)和算法,增強其在市場上的競爭優(yōu)勢。

二、彈性環(huán)境中的存儲痛點

在彈性環(huán)境中,與計算相比,存儲帶來了更復(fù)雜的挑戰(zhàn)。雖然計算任務(wù)很簡單,但在彈性計算過程中,存儲數(shù)據(jù)需要仔細考慮數(shù)據(jù)保留的問題。此外,在擴展計算資源時,存儲系統(tǒng)必須能夠處理不斷增長的需求,同時保證高可用性和可擴展性,以防止數(shù)據(jù)丟失或性能下降。

1、痛點1:平衡性能、成本和效率

企業(yè)在選擇存儲解決方案時,通常會考慮三個相互關(guān)聯(lián)的因素:性能、成本和效率。評估不同的選項對于找到最適合特定企業(yè)需求的解決方案至關(guān)重要。

圖片

存儲選擇的性能、成本和效率

在模型訓(xùn)練階段,優(yōu)先考慮高性能存儲解決方案。例如,內(nèi)部部署環(huán)境可以使用全閃存陣列或高級硬件(例如,AWS FSx For Lustre)來實現(xiàn)卓越的吞吐量性能。

然而,這些高性能選項的成本較高,因此需要探索用于完整數(shù)據(jù)歸檔的低成本存儲解決方案。內(nèi)部部署環(huán)境可以從高密度存儲解決方案中獲益,從而降低成本,而云計算環(huán)境可以利用Amazon S3等對象存儲服務(wù)。

為了在成本和性能之間取得平衡,企業(yè)通常會創(chuàng)建兩組異構(gòu)存儲環(huán)境:

?低成本的全數(shù)據(jù)歸檔存儲系統(tǒng)

?用于模型訓(xùn)練的高性能存儲系統(tǒng)

在這種多存儲環(huán)境中,管理數(shù)據(jù)遷移和數(shù)據(jù)生命周期變得更加復(fù)雜,特別是在處理多個區(qū)域或云計算環(huán)境時。因此,需要一種有效的解決方案來高效地管理存儲,同時保證速度和成本效益。

2、痛點2:緩慢的存儲系統(tǒng)擴展

由于以下原因,擴展存儲系統(tǒng)通常具有挑戰(zhàn)性:

?復(fù)雜的數(shù)據(jù)再平衡:可以通過增加更多的硬盤來擴展傳統(tǒng)的存儲系統(tǒng)的容量。然而,在分布式存儲系統(tǒng)中,擴展變得更加復(fù)雜。它涉及到數(shù)據(jù)再平衡,以有效地管理整個存儲系統(tǒng)中的所有數(shù)據(jù)。這個過程確保了數(shù)據(jù)在多個存儲設(shè)備之間的有效分配和利用。

?性能影響:存儲硬件在性能方面有固有的限制。當一部分硬件容量用于擴展期間的數(shù)據(jù)遷移時,可能會影響在線應(yīng)用程序的性能。這種性能下降會影響應(yīng)用程序有效地提供服務(wù)和滿足用戶期望的能力。

例如,考慮這樣一個場景:一個大型存儲集群減少到只有三臺計算機,每臺計算機配備兩塊硬盤,存儲多個數(shù)據(jù)副本。在分布式系統(tǒng)中,為了保證數(shù)據(jù)的安全,數(shù)據(jù)通常被復(fù)制多次。在這個場景中,圓形、三角形和菱形表示單獨的文件,每個形狀在分布式架構(gòu)中有三個副本。

圖片

分布式存儲中的三個副本

當存儲容量不足時,需要增加新的計算機來擴展存儲空間。然而,這不僅僅是駐留在新的計算機上的新數(shù)據(jù)的問題,必須重新平衡現(xiàn)有數(shù)據(jù),以確保有效的數(shù)據(jù)管理,使用特定的算法將數(shù)據(jù)從舊位置移動到新位置。此外,硬盤提供的容量是有限的,如果保留一部分用于數(shù)據(jù)遷移,則無法有效地為在線應(yīng)用程序操作提供服務(wù)。

圖片

存儲擴展中的數(shù)據(jù)再平衡

存儲可擴展性帶來了挑戰(zhàn),而且數(shù)據(jù)遷移的時機可能像股票市場的時機一樣難以預(yù)測。在不影響在線操作的情況下確保無縫數(shù)據(jù)遷移是一項復(fù)雜的任務(wù),通常需要經(jīng)驗豐富的專業(yè)人員進行人工干預(yù)。

除了增加容量之外,在集群中發(fā)生硬盤故障時,必須將數(shù)據(jù)傳輸?shù)叫碌挠脖P中,同時維護每個數(shù)據(jù)塊的三個副本。因此,即使不進行擴容,大規(guī)模存儲集群也需要每天進行數(shù)據(jù)遷移。

在如此具有挑戰(zhàn)性的存儲系統(tǒng)擴展條件下,存儲限制通常會阻礙新算法的實現(xiàn)和研究人員的靈感。

3、痛點3:盡管有可用容量,但性能不足

量化對沖基金通常需要擴展,因為吞吐量性能不足,而不是存儲容量不足。

硬盤具有性能限制。當現(xiàn)有硬盤達到其性能極限時,必須增加新的硬盤以滿足增加的性能要求。即使擁有足夠多的存儲容量,許多量化基金仍然需要擴展他們的系統(tǒng)以滿足新性能需求。

例如,考慮一個場景,其中需要讀取的數(shù)據(jù)存儲在圖中圓圈表示的范圍內(nèi)。訪問這些數(shù)據(jù)所需的性能非常高。但是,圓圈對應(yīng)的硬盤已經(jīng)達到了性能極限。另一位研究人員現(xiàn)在需要讀取存儲在同一硬盤上的三角形,但這塊硬盤的性能也處于極限。因此,訪問三角形數(shù)據(jù)將明顯變慢。

圖片

性能不足導(dǎo)致存儲擴容,導(dǎo)致存儲空間閑置

為了提高性能,三角形中的數(shù)據(jù)需要遷移到新的硬盤上。這由上圖中未突出顯示的硬盤表示。

量化對沖基金行業(yè)之所以面臨這一挑戰(zhàn)是因為它依賴于來自市場的原始數(shù)據(jù)。雖然處理的原始數(shù)據(jù)量與硬盤容量相比很小,但它可以在多個研究人員之間共享。

即使在存儲容量充足的情況下,數(shù)據(jù)共享和同時訪問也會造成性能瓶頸。正是這一特點,促使量化基金尋求像JuiceFS這樣的解決方案,以克服其業(yè)績限制。

為在整體性能和成本之間實現(xiàn)更好的平衡,必須將存儲與可擴展性能相匹配,特別是在需要熱數(shù)據(jù)生成和極端計算彈性的場景中。

四、JuiceFS如何衡量性能并實現(xiàn)成本效益

當開發(fā)商在2017年開始開發(fā)JuiceFS時,其目標是為云計算環(huán)境設(shè)計一個專門的文件存儲系統(tǒng),并且注意到市場上現(xiàn)有的文件存儲產(chǎn)品已經(jīng)過時,有些甚至可以追溯到上世紀90年代,而這些產(chǎn)品仍被廣泛應(yīng)用于量化對沖基金等行業(yè)。然而,考慮到基礎(chǔ)設(shè)施和資源環(huán)境的變化,而將JuiceFS的發(fā)展與當前環(huán)境的發(fā)展趨勢保持一致是至關(guān)重要的。

圖片

JuiceFS企業(yè)版的架構(gòu)

JuiceFS架構(gòu)由三個組件組成:

?元數(shù)據(jù)引擎

?數(shù)據(jù)存儲

?客戶

1、元數(shù)據(jù)引擎

文件系統(tǒng)是一種用于組織、管理和訪問文件和目錄的技術(shù)。在計算機上,文件系統(tǒng)允許通過文件和目錄與存儲在物理介質(zhì)(如硬盤)上的數(shù)據(jù)進行交互。

例如,在Linux中,在將硬件設(shè)備格式化為文件系統(tǒng)之后,可以將其掛載到目錄中。這將創(chuàng)建一個包含目錄、文件夾和文件的目錄樹。

每個文件都可以具有指定的權(quán)限,并包含元數(shù)據(jù),例如創(chuàng)建和修改時間戳。存儲技術(shù)服務(wù)商Juicedata公司開發(fā)了一個專門的元數(shù)據(jù)引擎來存儲這些信息。文件系統(tǒng)的性能在很大程度上依賴于該引擎的功能。

2、數(shù)據(jù)存儲

數(shù)據(jù)存儲用于存儲文件內(nèi)容。在過去,管理存儲系統(tǒng)涉及數(shù)據(jù)分塊、存儲、副本管理和遷移等復(fù)雜任務(wù)。然而,在云計算環(huán)境中,這些復(fù)雜性已經(jīng)被S3之類的服務(wù)解決了。因此,當決定在云中構(gòu)建文件存儲系統(tǒng)時,使用S3并擴展其功能。在JuiceFS中,所有文件內(nèi)容都存儲在用戶的S3桶中。

3、客戶端

JuiceFS客戶端提供了一個標準的POSIX接口,并支持像HDFS這樣的多個API,使開發(fā)人員能夠選擇最合適的接口。此外,還提供性能可擴展性特性,以滿足更高的性能要求。

為了克服S3在執(zhí)行模型訓(xùn)練或量化分析等任務(wù)時在性能和語義方面的限制,JuiceFS充當了一個中間解決方案。它將數(shù)據(jù)存儲在S3中,并提供POSIX和其他API來滿足不同的應(yīng)用程序需求。通過內(nèi)部優(yōu)化,JuiceFS達到最佳性能。

4、緩存

JuiceFS結(jié)合了緩存來解決量化企業(yè)中熱數(shù)據(jù)的吞吐量限制。當用戶的GPU計算節(jié)點訪問數(shù)據(jù)時,它從S3獲取數(shù)據(jù)并將其存儲在JuiceFS緩存中。后續(xù)訪問由緩存提供,提供類似于全閃存文件存儲的性能。JuiceFS緩存是動態(tài)可擴展的,提供彈性和可擴展的吞吐量。

它可以與計算節(jié)點上的高性能存儲相結(jié)合,創(chuàng)建多級緩存,進一步提高性能。JuiceFS企業(yè)版緩存使用JuiceFS,數(shù)據(jù)可以經(jīng)濟有效地存儲在S3中,同時提供一個加速的緩存層,可以動態(tài)擴展吞吐量性能。

為了解決NVMe存儲熱數(shù)據(jù)數(shù)量有限導(dǎo)致的數(shù)據(jù)熱點問題,采用了緩存分組的方法。用戶可以創(chuàng)建多個緩存組來存儲和管理熱數(shù)據(jù),方便用戶根據(jù)需求進行配置。該方案有效解決了數(shù)據(jù)熱點問題。

圖片

JuiceFS企業(yè)版中的緩存分組

用戶可以定義自己的緩存組或?qū)⒕彺娼M分配給每個團隊。這提高了熱數(shù)據(jù)性能,并實現(xiàn)了系統(tǒng)的近線性可擴展性。此外,在工作時間之后關(guān)閉這些緩存組有助于避免不必要的成本。

5、混合云部署

對于擁有內(nèi)部部署資產(chǎn)的量化對沖基金,混合云部署選項允許將數(shù)據(jù)存儲在S3中,同時使用內(nèi)部部署數(shù)據(jù)中心中的緩存組來加速計算。

圖片

JuiceFS混合云部署架構(gòu)

JuiceFS支持在云計算和內(nèi)部部署環(huán)境中的兩個JuiceFS實例之間透明地對用戶進行數(shù)據(jù)復(fù)制,而無需任何額外步驟。通過在高性能緩存層中自動存儲熱數(shù)據(jù),JuiceFS確保了對熱數(shù)據(jù)的快速訪問,無論任務(wù)是在數(shù)據(jù)中心還是在云中執(zhí)行。這種方法有效地解決了將現(xiàn)有的內(nèi)部部署資產(chǎn)與靈活的云部署集成的挑戰(zhàn)。

六、結(jié)論

JuiceFS為人工智能量化研究提供了一個改變游戲規(guī)則的解決方案。通過優(yōu)化資源利用、加快上市時間、促進無縫擴展和快速采用尖端技術(shù),JuiceFS使企業(yè)能夠釋放其全部潛力,并在人工智能量化研究的動態(tài)環(huán)境中茁壯成長。

原文標題:

Achieving Elastic Throughput in the Cloud With a Distributed File System To Boost AI Training,作者:Rui Su

參考資料:https://dzone.com/articles/elastic-throughput-cloud-distributed-storage-system-boost-ai-traing

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-05-23 16:41:40

2011-11-03 10:07:09

ASP.NET

2011-12-22 09:21:04

云計算Hadoop大數(shù)據(jù)

2024-09-12 15:24:29

2017-09-01 05:35:58

分布式計算存儲

2024-09-09 14:12:38

2021-12-26 00:03:27

響應(yīng)式編程異步

2024-11-08 13:36:09

2019-10-29 14:22:44

阿里云云計算認證測試

2017-05-11 14:05:25

Consul分布式信號量

2019-05-05 08:37:39

分布式PyTorchGPU

2023-08-03 14:18:29

Rust阻塞函數(shù)

2023-11-07 15:11:46

Kafka技巧

2024-11-14 11:56:45

2016-11-11 20:23:17

分布式集群萬億量級計算百度

2016-11-08 21:18:22

百度

2013-04-19 09:45:20

AMPLabHadoopHDFS

2019-08-20 00:20:47

TCPHOL吞吐量

2023-08-21 19:10:34

Redis分布式

2023-02-09 08:57:11

Callable異步java
點贊
收藏

51CTO技術(shù)棧公眾號