自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破超大規(guī)模智算集群運維瓶頸 天翼云出席全球架構師峰會

企業(yè)動態(tài)
算力層面,天翼云加速推進多層次智算算力布局,打造萬卡級超大規(guī)模智算中心,滿足快速增長的智算算力需求。

近日,ArchSummit全球架構師峰會在深圳隆重開幕,本次大會以“智能進階. 架構重塑”為主題,探討AI浪潮下,企業(yè)架構如何適應大模型和云原生的時代趨勢,尋找既有應用成果又有成本效益的解決方案。國內(nèi)外100余名頂尖專家齊聚一堂,圍繞AI、大模型、云原生等話題展開深度交流。天翼云云網(wǎng)產(chǎn)品事業(yè)部研發(fā)專家黃堅受邀參會,并在“智算平臺建設與應用實踐”專題會上發(fā)表主題演講,分享了天翼云在超大規(guī)模智算集群運維及管理方面的創(chuàng)新思路和實踐經(jīng)驗。

天翼云云網(wǎng)產(chǎn)品事業(yè)部研發(fā)專家 黃堅

隨著大模型風潮來襲,加快建設超大規(guī)模智算集群,已成為增強多元算力供給的重要措施。與傳統(tǒng)云原生大規(guī)模場景相比,超大規(guī)模智算集群的管理復雜度和難度更高。黃堅表示,當前,在充分發(fā)揮超大規(guī)模智算集群的算力方面,整個行業(yè)還面臨著諸多挑戰(zhàn):

● 首先,智算業(yè)務與底層算力高耦合。在基于transformer衍生出來的智算生態(tài)中,要求最大化使用底層算力,這就要求從業(yè)者既要懂算法,又要懂算力,同時需要具備結(jié)合算法算力的工程化思維,從算子優(yōu)化、算子融合、并行計算等多個方向提升算力的使用效率。

● 其次,硬件無明確異常指標,定位難度大。雖然通過監(jiān)控可以覆蓋一些明顯的軟硬件問題,但更多類似于光模塊故障等問題,需要綜合光衰、溫度、功耗等多個維度,并結(jié)合業(yè)務異常,才能實現(xiàn)準確定位。

● 再次,日常管理復雜度高。超大規(guī)模智算集群規(guī)模大、數(shù)量多,如何實現(xiàn)百萬量級元器件的系統(tǒng)化、模塊化、周期化管理,并與業(yè)務方進行有效協(xié)同,是運維的難點。

作為云服務國家隊,天翼云加強核心技術自主研發(fā),積極探索超大規(guī)模智算集群運維之道,不斷升級產(chǎn)品和生態(tài)矩陣,為AI開發(fā)者提供“供得上、用得起、用得好”的智算服務。

在平臺層面,天翼云全新升級一體化計算加速平臺“云驍”,“云驍”具備超大規(guī)模集群管理、運營和算力加速能力,可提供通智超一體化服務,集“異構計算+高速存儲+無損網(wǎng)絡+算力加速+高效運營”五大能力于一體,讓智算更快、更穩(wěn)。

在算力層面,天翼云加速推進多層次智算算力布局,打造萬卡級超大規(guī)模智算中心,滿足快速增長的智算算力需求。目前,天翼云上海臨港國產(chǎn)萬卡算力池已正式啟用,這不僅是國內(nèi)首個投入正式運營的國產(chǎn)單池萬卡液冷算力集群,也是業(yè)內(nèi)領先的全國產(chǎn)化云智一體公共智算中心,創(chuàng)新性采用網(wǎng)絡中置、算力分層的“魔方”型組網(wǎng),實現(xiàn)了單一集群內(nèi)萬卡高速互聯(lián),滿足萬億級參數(shù)大模型訓練所需的多機多卡并行、高吞吐無損通信等需求。

未來,天翼云將持續(xù)堅持科技創(chuàng)新,深耕云智一體,不斷夯實國云智算底座,為數(shù)字經(jīng)濟發(fā)展與數(shù)字中國建設注入澎湃動能。

責任編輯:張誠
相關推薦

2015-12-21 16:22:53

海云

2021-11-16 13:19:04

數(shù)字化

2019-12-18 10:48:52

運維架構技術

2018-08-29 08:24:51

云計算行業(yè)科技

2011-12-16 09:54:17

網(wǎng)絡架構網(wǎng)絡架構系統(tǒng)架構系統(tǒng)

2016-12-14 11:44:25

阿里Docker大數(shù)據(jù)

2017-04-14 13:54:41

WOT2017架構運維

2024-04-30 07:00:00

公共云云策略云計算

2022-02-09 12:44:38

數(shù)倉Hologres運維

2020-01-07 16:45:43

數(shù)據(jù)中心服務器IT

2024-05-13 10:42:05

云計算

2020-07-23 14:03:09

數(shù)據(jù)中心數(shù)據(jù)網(wǎng)絡

2021-03-22 11:16:50

人工智能應用基礎設施

2017-04-15 08:38:29

2022-12-30 14:14:51

數(shù)據(jù)中心服務器

2025-02-26 08:30:00

2020-08-12 10:56:24

云平臺混合云多云

2020-12-11 19:52:06

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-02-14 11:24:36

2017-06-03 16:34:22

云服務數(shù)據(jù)中心公有云
點贊
收藏

51CTO技術棧公眾號