對話火山引擎羅浩:大算力基礎設施競爭火熱 核心策略之一是軟硬一體堅持自研
6月16、17日,由51CTO主辦的WOT全球技術創(chuàng)新大會在京召開,50多位來自AI、云計算、大數(shù)據(jù)、架構等領域的講師、專家出席大會,圍繞“云時代基礎設施”、“金融科技創(chuàng)新”、“人工智能算法與實踐”等議題展開深度演講和高端對話,共同探究新技術如何幫助企業(yè)實現(xiàn)數(shù)字化能力的飛躍和提升。
火山引擎云基礎產品負責人羅浩受邀參加首日活動,就“大算力基礎設施技術探索和實踐”發(fā)表獨特見解。據(jù)羅浩介紹,火山引擎自研的DPU網絡性能達到5000萬pps轉發(fā)能力、延遲低至20us,基于自研DPU的各類計算實例性能也有顯著提升。在接受新浪財經采訪中,羅浩指出,“在ChatGPT發(fā)布后,大量的大模型訓練算力需求涌現(xiàn),對GPU算力提出了更高的要求?!?/p>
在他看來,面向未來的提前把控和創(chuàng)新是幫助客戶的一個重要手段,也是構建差異化能力的思路之一。
大模型賽道火熱 算力成“香餑餑”
隨著ChatGPT的誕生,國內外掀起了一波大模型熱潮,在前赴后繼的競爭中,算力成了“兵家必爭之地”。據(jù)羅浩介紹,火山引擎整體的大算力,無論是通用算力還是弱算力,在技術架構上都有著比較快的迭代速度,且擁有長時間的積累?!斑^去幾年,我們基本上做了至少三代架構上的演進,使得從存儲到通用的CPU算力,包括現(xiàn)在大算力體系都有了非常大的進步?!绷_浩說道。
在介紹火山引擎的基礎架構演進時,羅浩詳細闡述了火山引擎是如何找到一條適合自己發(fā)展的路徑。他表示,作為云計算的后來者,火山引擎在聚焦存量市場的同時,不斷提高自身的基礎能力,包括IaaS、PaaS、PaaS+等?!拔矣X得瞄準增長市場,在增長市場里面,我們看得到一些新增的機會到底在什么地方,可能更重要一些。”羅浩說道。
在大模型火熱背后,新的基于算力和基礎設施的需求也在蓬勃生長,尤其是對存儲和網絡等方面的高要求成為了大模型的痛點?!霸谶@樣一個趨勢中,我們會比較務實地去解決技術架構演進過程和算力具體使用中出現(xiàn)的一些突出問題?!绷_浩表示,比如在網絡方面,如何去支持類似于4000卡、8000卡甚至萬卡規(guī)模的集群,實現(xiàn)網絡延時優(yōu)化的效果,以及在達到規(guī)模時,避免發(fā)生一些網絡的擁塞問題等。“解決了這些問題和挑戰(zhàn)后,我們的能力又沉淀到產品上來,形成閉環(huán)。這樣可以更好地服務內部和外部客戶,做好我們的產品競爭力?!绷_浩補充道。
多模態(tài)萬億參數(shù)生變 隱私安全等迎高要求
在ChatGPT發(fā)布后,大量的大模型訓練算力需求不斷增長,同時對網絡、存儲性能和規(guī)模也提出了更高的要求。在訓練任務中,存儲和讀取checkpoint、讀取訓練數(shù)據(jù)、模型文件等場景下需要大量的計算、網絡、存儲之間的交互。分布式訓練任務在擴大GPU集群規(guī)模需求的同時,還要求集群內的高速網絡能夠橫向擴展且保證性能。
“自火山引擎對外發(fā)布起, 軟硬一體堅持自研就是我們的核心策略之一?!睋?jù)羅浩介紹,火山引擎通過自研的DPU 2.0提供更高的帶寬能力和轉發(fā)能力,從而提升計算和存儲之間的傳輸效率,來幫助大模型訓練任務更高效地執(zhí)行。面向大模型訓練場景,火山引擎擁有高算力、網絡性能調優(yōu)、存儲讀寫性能優(yōu)化等優(yōu)勢。在算力方面,火山引擎推出了新一代搭載自研DPU、英偉達A100/A800,以及大規(guī)模RDMA網絡的彈性裸金屬機型,通過DPU的采用進一步釋放單機的GPU算力。
對于未來技術展望方面,羅浩表示,大模型還在迅猛、蓬勃地發(fā)展,多模態(tài)、萬億參數(shù)等在不同行業(yè)生根落地,這些對于模型訓練和部署都提出了更大的挑戰(zhàn)。他指出,“在新一代的AI Infra架構中,我們判斷大模型行業(yè)對算力規(guī)模、集群內網絡帶寬、通信模式、模型訓練并行模式、存儲性能、模型推理部署、隱私安全等都會有更高的要求?!?/p>
“未來,火山引擎還會提供安全可信的大模型服務平臺(MaaS)來構建更加完善的大模型行業(yè)生態(tài),我們始終站在行業(yè)用戶的視角,提供更貼合客戶場景的整體解決方案。”羅浩說道。