阿里云發(fā)布神龍異構(gòu)超算集群,人工智能深度學(xué)習(xí)訓(xùn)練縮短至分鐘級
人工智能正在召喚“神龍”。3月21日,阿里云發(fā)布業(yè)內(nèi)***公共云異構(gòu)超算集群——基于彈性裸金屬服務(wù)器神龍X-Dragon的SCC-GN6,集群性能接近線性增長,將深度學(xué)習(xí)訓(xùn)練時間縮短至分鐘級,可滿足無人駕駛、智能推薦、機器翻譯等人工智能場景的高性能計算需求。
阿里云發(fā)布***異構(gòu)超算集群
人工智能特別是深度學(xué)習(xí),對算力的要求永無止境。但如果只是堆砌芯片,沒有低延時網(wǎng)絡(luò)、高速讀寫能力,大規(guī)模集群無法發(fā)揮出***的計算性能,性能損耗通常在50%左右。且算力資源并不豐富,有研究顯示,到2030年中國研究人員每人平均只能擁有1-2個GPU,大多數(shù)研究將受到計算能力的嚴重限制。 SCC-GN6是***基于X-Dragon架構(gòu)的超算異構(gòu)產(chǎn)品,神龍云服務(wù)器與阿里云ECS、GPU云服務(wù)器等一起,最多可達512個節(jié)點,計算性能依舊接近線性增長,提供堪比超算中心的并行計算資源。
神龍異構(gòu)超算集群性能接近線性增長
這不僅因為支持節(jié)點數(shù)量多,更因為集成多項自研技術(shù):軟硬結(jié)合的X-Dragon架構(gòu)兼具性能和靈活性,50G RDMA超算網(wǎng)絡(luò)降低網(wǎng)絡(luò)延時,***IOPS性能的ESSD塊存儲提供低于百微秒的讀寫延時,高性能并行文件系統(tǒng)CPFS讀寫吞吐達1TB/s,分布式加速框架Ali-Perseus對集群內(nèi)每一顆GPU工作負載進行優(yōu)化和加速。***可以實現(xiàn)100%的性能提升,從而***限度發(fā)揮芯片的計算性能。
以ImageNet競賽的128萬張圖片的數(shù)據(jù)集為例,用普通計算資源訓(xùn)練ResNet50模型,如要達到75%的精度需要數(shù)天甚至一周的時間,而使用該神龍異構(gòu)超算集群產(chǎn)品,模型訓(xùn)練可以縮短到幾分鐘,大大提升AI算法研發(fā)效率,加速業(yè)務(wù)創(chuàng)新。
阿里云智能創(chuàng)新產(chǎn)品線負責人張獻濤表示:“人工智能對算力提出了新挑戰(zhàn),神龍異構(gòu)超算集群提供了堪比超算中心的并行計算資源,用戶可以隨時獲取高性能計算能力,更不用擔心購買、搭建GPU需要耗費的時間成本。”
此外,阿里云還發(fā)布了國內(nèi)***公共云上的輕量級GPU異構(gòu)計算產(chǎn)品——vGN5i,打破傳統(tǒng)直通模式局限,提供比單顆物理GPU更細粒度的服務(wù),從而讓用戶以更低成本、更高彈性開展業(yè)務(wù)。
作為國內(nèi)***、全球前三的云服務(wù)商,阿里云于2017年10月發(fā)布了全球***新一代“跨界”服務(wù)器彈性裸金屬服務(wù)器神龍X-Dragon,擁有接近物理機的性能以及虛擬機的靈活性,提供了新的計算資源獲取方式,已經(jīng)大規(guī)模服務(wù)于智能客服助手、智能翻譯、無人駕駛、智能推薦等場景。
在2019阿里云峰會·北京上,阿里云還提出未來將圍繞IT基礎(chǔ)設(shè)施的云化、核心技術(shù)的互聯(lián)網(wǎng)化和應(yīng)用的數(shù)據(jù)化、智能化,持續(xù)推出符合用戶需求的產(chǎn)品,同時致力于被生態(tài)伙伴集成,不做SaaS并幫助企業(yè)做更好的SaaS。除了神龍異構(gòu)超算集群外,阿里云還發(fā)布了新版本POLARDB可兼容Oracle、SaaS加速器和小程序云。