自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

乘云向未來 | 算力基礎(chǔ)設(shè)施護(hù)航業(yè)務(wù)平穩(wěn)上云實(shí)踐

云計(jì)算
11月10日-24日,“乘云·向未來”火山引擎公共云·城市分享會(huì)先后走進(jìn)北京、上海、深圳,會(huì)上火山引擎以“算力基礎(chǔ)設(shè)施護(hù)航業(yè)務(wù)平穩(wěn)上云實(shí)踐”為題,分享了火山引擎算力基礎(chǔ)設(shè)施在高性能計(jì)算和存儲(chǔ)集群、云原生和計(jì)算協(xié)同調(diào)度、資源池化和在離線融合等方面的優(yōu)勢(shì),為企業(yè)業(yè)務(wù)平穩(wěn)上云保駕護(hù)航。

數(shù)字時(shí)代,云始終是企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和增長(zhǎng)的關(guān)鍵底座。隨著新一輪公共云競(jìng)爭(zhēng)的日漸火熱,新的基于算力和基礎(chǔ)設(shè)施的需求蓬勃生長(zhǎng)。在這場(chǎng)上云熱潮中,什么樣的基礎(chǔ)設(shè)施產(chǎn)品能夠打出優(yōu)勢(shì),競(jìng)得一方“云上天空”?

11月10日-24日,“乘云·向未來”火山引擎公共云·城市分享會(huì)先后走進(jìn)北京、上海、深圳,會(huì)上火山引擎以“算力基礎(chǔ)設(shè)施護(hù)航業(yè)務(wù)平穩(wěn)上云實(shí)踐”為題,分享了火山引擎算力基礎(chǔ)設(shè)施在高性能計(jì)算和存儲(chǔ)集群、云原生和計(jì)算協(xié)同調(diào)度、資源池化和在離線融合等方面的優(yōu)勢(shì),為企業(yè)業(yè)務(wù)平穩(wěn)上云保駕護(hù)航。

以下為演講實(shí)錄:

圖片

從字節(jié)跳動(dòng)內(nèi)部業(yè)務(wù)演變看底層技術(shù)演進(jìn)

一直以來,火山引擎都在認(rèn)真做“云”。

作為云計(jì)算的“后來者”,火山引擎篤定“幫助客戶做業(yè)務(wù)和客戶的增長(zhǎng)是很重要的事情”。在2021年底,火山引擎正式發(fā)布了云產(chǎn)品。從那時(shí)起,CPU、GPU等算力的大規(guī)模增長(zhǎng)及配套存儲(chǔ)規(guī)模的提升,成為火山引擎基礎(chǔ)設(shè)施產(chǎn)品發(fā)展的“第一要義”。

回顧歷史,2003年到2010年期間,基礎(chǔ)網(wǎng)絡(luò)連接速度為10G。隨著AI的發(fā)展,如今的基礎(chǔ)網(wǎng)絡(luò)速度已經(jīng)達(dá)到了200G甚至400G。這種增長(zhǎng)無疑是驚人的。面對(duì)網(wǎng)絡(luò)的“提速”,為了更好地服務(wù)客戶,火山引擎始終在努力提煉和優(yōu)化自身能力。

在過去的五六年里,火山引擎進(jìn)行了大規(guī)模的服務(wù)器部署和深度系統(tǒng)建設(shè),在IT成本、硬件服務(wù)器成本和運(yùn)營(yíng)成本等方面進(jìn)行了系統(tǒng)、全面的優(yōu)化。例如,在上百萬臺(tái)服務(wù)器上進(jìn)行了強(qiáng)大的供應(yīng)鏈備貨和組裝,并建立了硬件優(yōu)化體系。這使得火山引擎的供應(yīng)體系和硬件測(cè)試優(yōu)化能力都達(dá)到了極致——無論是云服務(wù)器、GPU服務(wù)器、彈性裸金屬,都打出了性價(jià)比優(yōu)勢(shì)。

基于這樣的先發(fā)優(yōu)勢(shì),火山引擎在內(nèi)部和外部都采用了云原生架構(gòu),使得整個(gè)系統(tǒng)實(shí)現(xiàn)了同步和較高利用率。在這基礎(chǔ)之上,通過內(nèi)外復(fù)用技術(shù)提高資源利用率,從而實(shí)現(xiàn)優(yōu)化運(yùn)行。如此一來,在冷啟動(dòng)階段,火山引擎便處于行業(yè)領(lǐng)先水平。

幾年間,經(jīng)過三代架構(gòu)演進(jìn)和大規(guī)模內(nèi)部實(shí)踐,火山引擎有了非常大的進(jìn)步。在資源覆蓋方面,公有云產(chǎn)品已經(jīng)服務(wù)到了華北、華東、華南、東南亞等地區(qū),基于性價(jià)比優(yōu)勢(shì)和安全合規(guī)的基礎(chǔ)設(shè)施,與字節(jié)跳動(dòng)業(yè)務(wù)等進(jìn)行了深度融合。

而在這過程中,每一步的復(fù)制都不是簡(jiǎn)單的“復(fù)制粘貼”,火山引擎要做的,是回歸到提高區(qū)域內(nèi)的使用率和售賣率的目標(biāo)上來。在滿足客戶需求的同時(shí),也錘煉自身強(qiáng)勁的競(jìng)爭(zhēng)力。

圖片

算力基礎(chǔ)設(shè)施進(jìn)化之道

算力基礎(chǔ)設(shè)施具有系統(tǒng)工程優(yōu)化、大規(guī)模訓(xùn)練和推理優(yōu)化、全天候技術(shù)支持、供應(yīng)鏈穩(wěn)定等特性。這些特性雖然在大體上相似,但每家供應(yīng)商都有其獨(dú)特點(diǎn)。其中,供應(yīng)鏈的穩(wěn)定性是提升競(jìng)爭(zhēng)力的關(guān)鍵要素之一。

當(dāng)前,人工智能技術(shù)的推動(dòng),以及由此產(chǎn)生的對(duì)高性能計(jì)算和存儲(chǔ)能力的需求,使得整個(gè)供應(yīng)鏈的不穩(wěn)定性有所增加。因此,風(fēng)險(xiǎn)管理和對(duì)風(fēng)險(xiǎn)的容忍度成了至關(guān)重要的因素。

要應(yīng)對(duì)這種不確定性,算力基礎(chǔ)設(shè)施需要支持各種不同體系架構(gòu)的高性能算力單元,保持集群的穩(wěn)定運(yùn)行是一項(xiàng)極其重要的任務(wù)。我們現(xiàn)在所使用的機(jī)器,每臺(tái)都配備了兩顆CPU、8張GPU卡、4-8張網(wǎng)卡,這比傳統(tǒng)的服務(wù)器復(fù)雜度要高出一個(gè)數(shù)量級(jí)甚至更多。

正是這種硬件配置的復(fù)雜性,導(dǎo)致整個(gè)系統(tǒng)故障率是傳統(tǒng)CPU的10倍以上。當(dāng)一個(gè)集群擁有上千張甚至上萬張GPU時(shí)候,故障的影響范圍將以指數(shù)形式增長(zhǎng)。因此,如何確保百卡、千卡和萬卡規(guī)模的集群能夠長(zhǎng)期穩(wěn)定運(yùn)行,成為了亟待解決的問題。

為了解決這一難題,火山引擎提出進(jìn)行硬件的冷遷移。當(dāng)發(fā)生故障時(shí),可以保留現(xiàn)場(chǎng),將狀態(tài)存儲(chǔ)在云端,并快速進(jìn)行機(jī)器的冷遷移。這種做法能夠最大限度地優(yōu)化加載和存儲(chǔ)過程。此外,還可以對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)監(jiān)控,包括對(duì)GPU故障碼進(jìn)行區(qū)分等,都是有效措施。

從汽車行業(yè)和制造行業(yè)應(yīng)用居多的算力組網(wǎng)來看,行業(yè)需要處理的數(shù)據(jù)往往是多模態(tài)的,因此除了對(duì)算力有高要求外,在存儲(chǔ)和帶寬方面需求也隨之升高。為了更好地監(jiān)控網(wǎng)絡(luò)性能,火山引擎提供了毫秒級(jí)的網(wǎng)絡(luò)監(jiān)控能力。200G的網(wǎng)絡(luò)和400G的網(wǎng)絡(luò)在數(shù)據(jù)傳輸過程中可能會(huì)出現(xiàn)峰值突發(fā)的情況,這種情況會(huì)持續(xù)1至2秒。而毫秒級(jí)的監(jiān)控能夠有效解決這一難題。

對(duì)于萬卡規(guī)模的集群,火山引擎采用了三層架構(gòu)的設(shè)計(jì)。通過使用自主研發(fā)的優(yōu)勢(shì),盡量消除了在計(jì)算方面可能出現(xiàn)的問題。同時(shí),火山引擎在集群上掛載了400個(gè)存儲(chǔ)節(jié)點(diǎn),運(yùn)行文件系統(tǒng)的集群可以很好地提供存儲(chǔ)和帶寬能力。

針對(duì)存儲(chǔ)需求較高的任務(wù),火山引擎在底層構(gòu)建了獨(dú)立的存儲(chǔ)系統(tǒng);而對(duì)于那些對(duì)性能要求較高且計(jì)算較為簡(jiǎn)單的任務(wù),火山引擎提供了更優(yōu)化的方案——通過使用GPU本地盤以及后端緩存分離的技術(shù)實(shí)現(xiàn)分布式緩存架構(gòu)。這種方法對(duì)于容量不大但帶寬需求較大的任務(wù),可以提供性價(jià)比更高的解決方案。

總體而言,充分利用這些算力資源是AI開發(fā)體系中的關(guān)鍵所在。在訓(xùn)練過程中,不同的任務(wù)可能需要從幾十卡到數(shù)千卡的不同計(jì)算資源。如果能夠通過云原生的能力將這些任務(wù)融合在一起,并將底層資源利用到最佳狀態(tài),那么整個(gè)資源的利用率將會(huì)更加高效。

在此過程中,值得一提的是火山引擎自研的DPU卡。從2018年開始研發(fā)的DPU,至今已經(jīng)可以實(shí)現(xiàn)幾千萬pps的性能,能夠完整地將虛擬化和存儲(chǔ)網(wǎng)絡(luò)能力卸載到卡上來,增強(qiáng)虛擬化的同時(shí),很好地解決實(shí)際問題。

目前,火山引擎所有的GPU都已實(shí)現(xiàn)統(tǒng)一配置,并且接入到云上,以便實(shí)現(xiàn)更好的彈性。

圖片

靈活組網(wǎng)撬動(dòng)云上增長(zhǎng)杠桿

除了算力資源之外,火山引擎在網(wǎng)絡(luò)服務(wù)方面也取得了較好的進(jìn)展。從功能上看,火山引擎公共云面向企業(yè)全面上云的網(wǎng)絡(luò)需求,能夠提供形態(tài)完整的網(wǎng)絡(luò)服務(wù),幫助企業(yè)靈活組網(wǎng),構(gòu)建符合企業(yè)要求的高效、可控、合規(guī)的云上網(wǎng)絡(luò)環(huán)境。

同時(shí),火山引擎將致力于實(shí)現(xiàn)異構(gòu)機(jī)密可信,以及解決授信問題等技術(shù)挑戰(zhàn),真正做到“將復(fù)雜的問題留給火山引擎,將更好的服務(wù)帶給客戶”。

責(zé)任編輯:張燕妮 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-12-06 19:50:57

算力云實(shí)踐

2023-12-08 18:40:36

字節(jié)跳動(dòng)云原生火山引擎

2023-12-08 20:57:38

字節(jié)跳動(dòng)火山引擎公共云

2025-01-08 15:28:23

2017-12-27 14:41:57

融合云計(jì)算服務(wù)器

2019-04-01 17:39:05

混合云基礎(chǔ)設(shè)施

2023-05-16 13:46:00

數(shù)據(jù)中心

2023-11-29 20:19:35

實(shí)踐云計(jì)算

2017-03-08 07:50:28

IT基礎(chǔ)設(shè)施

2018-12-17 13:00:19

2022-06-28 09:10:32

K8S容器鏡像滾動(dòng)升級(jí)

2016-11-04 14:38:51

云計(jì)算云市場(chǎng)

2015-09-30 10:58:56

云基礎(chǔ)設(shè)施AWS業(yè)務(wù)增長(zhǎng)

2022-02-10 11:54:34

即時(shí)基礎(chǔ)設(shè)施基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型

2017-04-17 14:15:31

NFV虛擬化運(yùn)營(yíng)商

2017-01-19 10:41:51

云存儲(chǔ)公共云私有云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)