自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

120天復(fù)制馬斯克速度!119塊「樂高」搭出算力工廠,破局Scaling Law算力差

人工智能 新聞
馬斯克建超算速度,被中國這家公司用120天復(fù)刻了。119個集裝箱,像搭積木一樣拼出一座算力工廠。這不是科幻電影,而是浪潮信息交付的驚艷答卷。一個全新的AI時代,正在這里拉開序幕。

120天,119個集裝箱,一座算力工廠拔地而起。

馬斯克速度,竟被國內(nèi)這家公司完美復(fù)刻了!

圖片

上面這座算力工廠,采用了浪潮信息專為AI時代提出的預(yù)制化AIDC解決方案。

他們以「搭積木」方式,向世界詮釋了驚人的基建速度。

圖片

它不僅將長達(dá)18個月的建設(shè)周期,大幅縮短至4個月,甚至還實(shí)現(xiàn)了高效節(jié)能、彈性擴(kuò)容、按需定制、便捷運(yùn)維等技術(shù)創(chuàng)新。

更為重要的是,這座算力工廠能夠完全滿足scaling大模型的算力需求。

不論是訓(xùn)練,還是應(yīng)用部署,預(yù)制化AIDC解決方案全面支持了AI大模型創(chuàng)新研發(fā)和應(yīng)用。

而現(xiàn)在,這座元腦「算力工廠」正式投入運(yùn)營。

AI猛吞算力,還需破局之道

算力,就是這個AI時代的「命門」。眾所周知,AI大模型對算力的需求,遠(yuǎn)超乎所有人的想象。

不論是OpenAI、微軟,還是谷歌等科技巨頭們堅(jiān)信的是,scaling law仍在繼續(xù)。

2024年12月,堪稱過去一年AI含金量最高的一個月,從中便可瞥見一二。

OpenAI十二天Devday連更,為所有人送上了滿血版o1、o1 Pro、Sora、高級語音功能,以及初次亮相的o3系模型。

圖片

大批網(wǎng)友上線直接把ChatGPT搞崩了

與之激烈對打的谷歌,更是戰(zhàn)績連連,憑借Gemni 2.0 Flash、Veo 2直接殺出重圍。

邁入2025年,Grok 3、Llama 4、完整版Gemni 2.0等眾多模型,也即將迎來新一輪大戰(zhàn)。

可以預(yù)見的是,每一代新模型都在瘋狂「吃」算力,訓(xùn)練參數(shù)呈指數(shù)級增長。這種瘋狂擴(kuò)張的態(tài)勢,讓人不禁要問:我們的數(shù)據(jù)中心基建,還能支撐多久?

實(shí)際上,當(dāng)前的數(shù)據(jù)中心正面臨著最核心的「三重困境」。

1. 建設(shè)周期長,無法及時彌補(bǔ)高算力需求

作為算力的核心載體,數(shù)據(jù)中心的建設(shè)非一蹴而就。

一般來說,傳統(tǒng)數(shù)據(jù)中心的建設(shè)是一個復(fù)雜的工程,需要經(jīng)過設(shè)計(jì)、土建、機(jī)電安裝、調(diào)試等多個階段。其中,光規(guī)劃和建設(shè)就要3-5年時間,占到了整個生命周期的約1/3。

圖片

老黃同樣說過,「建造一個超算通常需要3年的規(guī)劃時間,外加1年設(shè)備交付和調(diào)試時間」。

而我們所看到的,馬斯克10萬塊GPU建設(shè)速度,甚至即將要建的100萬塊GPU搭建的超算,也只是個例。

圖片

3年,這一時間跨度,對于快速發(fā)展的AI時代顯得尤為漫長。

比如,3年前規(guī)劃的數(shù)據(jù)中心普遍采用5-10kW/標(biāo)準(zhǔn)柜,而如今單臺AI服務(wù)器的功耗就已突破10kW。

顯而易見,AI迭代與基建建設(shè)的速度,嚴(yán)重不匹配,導(dǎo)致數(shù)據(jù)中心還未建成就已落后于時代。

同時,這種「建設(shè)慢,需求快」的矛盾,不僅影響了產(chǎn)業(yè)發(fā)展速度,還直接影響了投資方資金回報周期,形成了惡性循環(huán)。

圖片

2. 功耗攀升,能源利用率低

其次,隨著算力需求的暴增,數(shù)據(jù)中心的能耗問題也愈發(fā)突出。

AI大模型訓(xùn)練的耗電量,堪比一個小城市的用電量。而這樣比比皆是的報道,也早已家喻戶曉。

平均而言,ChatGPT查詢所需的電力是谷歌搜索的近10倍。高盛研究估計(jì),到2030年,數(shù)據(jù)中心的電力需求將增長160%。

圖片

從2023年-2030年,AI數(shù)據(jù)中心功耗的增長將達(dá)到每年200Twh。

。另一方面,數(shù)據(jù)中心功耗也面臨著巨大的挑戰(zhàn)。

從芯片設(shè)計(jì)方面來看,CPU熱設(shè)計(jì)功率(TDP)在過去十年幾乎翻倍,GPU熱設(shè)計(jì)功耗從2008年不足200W飆升至現(xiàn)如今1000W。

再加上,集群越來越大,高密度服務(wù)器部署來帶的散熱壓力,與日俱增。

與此同時,信通院發(fā)布的《中國綠色算力發(fā)展研究報告(2024年)》顯示,我國數(shù)據(jù)中心的平均電能利用效率(PUE)在2023年時為1.48,而新的國家政策規(guī)定,新建數(shù)據(jù)中心的PUE不得超過1.25。

如何保持高性能計(jì)算的同時,達(dá)到節(jié)能標(biāo)準(zhǔn),已經(jīng)成為一大難題。

而當(dāng)前,智算中心需要探索的是,與綠色電力深度融合,實(shí)現(xiàn)能源高效利用,讓算力向智力有效轉(zhuǎn)化。

圖片

3. 擴(kuò)容難題,升級有限,無法第一時間進(jìn)行升級

不僅如此,AI快速迭代對數(shù)據(jù)中心的靈活性,提出了更高的要求。

然而,傳統(tǒng)數(shù)據(jù)中心的固定架構(gòu),限制了升級空間,無法及時采用新一代技術(shù),難以快速響應(yīng)業(yè)務(wù)需求的變化。

另一方面,數(shù)據(jù)中心還將面臨建成即落后、供不應(yīng)求的窘境,投資回報率難以保障。

針對這些挑戰(zhàn),這些年,一些企業(yè)打造的預(yù)制模塊化數(shù)據(jù)中心應(yīng)用而生,并將成為主流模式。

根據(jù)規(guī)模不同,可分為單元級(Unit)、包間級(Pod)、建筑級(Stack Cube)、園區(qū)級(Base)等細(xì)粒度。

在AI時代下,我們就需要專為AI而生的預(yù)制化AIDC。

浪潮信息,便是這個方案的引領(lǐng)者。

圖片

算力工廠,全方位為AI而生

算力工廠是一種創(chuàng)新的數(shù)據(jù)中心全生命周期服務(wù)模式,核心是通過規(guī)(劃)、建(設(shè))、運(yùn)(營)一體化的「交鑰匙」工程。

其總體架構(gòu)自下而上,由算力底座、算力支撐、算力運(yùn)營三部分組成。

算力底座

首先,算力底座,就是我們可以直觀看到的算力中心。

元腦「算力工廠」這座智算中心采用創(chuàng)新的預(yù)制化AIDC解決方案,僅需119個預(yù)制化集裝箱單層拼接,4個箱體即可實(shí)現(xiàn)千卡規(guī)模AI算力。

正如之前所述,它書寫了驚人搭建速度的傳奇,直接將同等規(guī)模數(shù)據(jù)中心的建設(shè)周期,從18個月縮減至4個月。

這種創(chuàng)新方案,可以說完全顛覆了行業(yè)常規(guī)。

具體來說,它具備了以下幾點(diǎn)優(yōu)勢:

- 快速交付,工期可縮短80%左右

因?yàn)椴捎昧祟A(yù)制化集裝箱建設(shè)方式,同等規(guī)模數(shù)據(jù)中心的建設(shè)周期從18個月縮減至4個月,工期縮短了近80%。

- 高效節(jié)能,PUE可低至1.1以下

因?yàn)閯?chuàng)新地應(yīng)用了液冷、光伏、儲能、余熱回收等節(jié)能技術(shù),提高了散熱及能源利用效率,PUE可降至1.1以下,全年節(jié)省電費(fèi)近2億元,運(yùn)營成本大幅降低。

- 靈活擴(kuò)展,最高可擴(kuò)容至5層,實(shí)現(xiàn)全場景覆蓋

預(yù)制模塊化疊箱體系建設(shè)模式可根據(jù)業(yè)務(wù)規(guī)模,分期高效地進(jìn)行水平及豎向擴(kuò)容,有效節(jié)省前期投入成本。

圖片

同時,八種模塊化的功能箱體可根據(jù)不同場景、規(guī)模靈活組合,并按照功率區(qū)段分區(qū)部署,實(shí)現(xiàn)風(fēng)冷/液冷、AI/通用/高密度等多種形態(tài)靈活兼容,匹配智算算力、通用算力、邊緣算力等多種應(yīng)用場景。

元腦算力工廠包含了數(shù)據(jù)處理、AI大模型、業(yè)務(wù)應(yīng)用、研發(fā)測試等多個集群,為全球服務(wù)器壓力測試、大模型開發(fā)應(yīng)用等多種業(yè)務(wù)應(yīng)用,提供了綠色高效的算力支撐。

算力運(yùn)營

如前所述,在大模型時代,算力需求呈爆發(fā)式增長,但高效運(yùn)營AI算力卻面臨著諸多的挑戰(zhàn)。

該如何調(diào)度資源?如何控制成本?如何保障算力平臺穩(wěn)定性和可用性?如何讓AI算力性能持續(xù)優(yōu)化?

在大規(guī)模AI訓(xùn)練場景下,算力資源調(diào)度堪稱一大難題。

一方面,不同AI任務(wù)對于算力需求各不相同;另一方面,如何在多用戶、多任務(wù)場景在實(shí)現(xiàn)資源最優(yōu)分配,避免算力的浪費(fèi),都是亟待解決的問題。

不僅如此,隨著算力規(guī)模的擴(kuò)大,運(yùn)營成本也會隨之攀升。諸如電力消耗、運(yùn)維人員等各方面成本,都是企業(yè)面臨的挑戰(zhàn)。

另外,對于企業(yè)級AI應(yīng)用來說,對算力平臺穩(wěn)定性提出了高標(biāo)準(zhǔn)、高要求。

然而,集群規(guī)模擴(kuò)大管理只會愈加復(fù)雜,硬件出現(xiàn)故障的風(fēng)險就會增加,隨之帶來的是系統(tǒng)性能波動頻繁,數(shù)據(jù)安全隱患增高。

還有需要考慮到的一點(diǎn)是,AI算力性能必須持續(xù)優(yōu)化。這當(dāng)中也涉及到了多個層面,比如硬件協(xié)同優(yōu)化、軟件架構(gòu)改進(jìn)、算法效率提升等等。

為了應(yīng)對這些挑戰(zhàn),元腦算力工廠為企業(yè)提供了全方位的運(yùn)營方案。

圖片

- AI基礎(chǔ)設(shè)施管理平臺

AI基礎(chǔ)設(shè)施管理平臺面向金融、通信、互聯(lián)網(wǎng)等多行業(yè)的數(shù)據(jù)中心,可實(shí)現(xiàn)前所未有的一體化管理。

平臺突破性解決了IT基礎(chǔ)設(shè)施管理與動力環(huán)境管理割裂的痛點(diǎn),帶來了全新的管理體驗(yàn)。

首先,它實(shí)現(xiàn)了智算中心全生命周期的統(tǒng)一納管,運(yùn)維效率提升100%。

平臺還創(chuàng)新實(shí)現(xiàn)了高密單排微模塊2D/3D、核心制冷部件遠(yuǎn)程調(diào)控等5大功能,安全性能飆升30%,為超大規(guī)模數(shù)據(jù)中心穩(wěn)定高效運(yùn)行提供重要保障。

- 人工智能開發(fā)平臺AIStation

作為深度學(xué)習(xí)開發(fā)平臺,AIStation能夠?yàn)槠髽I(yè)客戶提供強(qiáng)大的開發(fā)支持。

比如,統(tǒng)一管理和精細(xì)調(diào)度AI計(jì)算資源,全面整合計(jì)算資源、訓(xùn)練數(shù)據(jù)和開發(fā)工具。

不僅如此,AIStation還提供了完整的AI軟件棧和敏捷標(biāo)準(zhǔn)化的開發(fā)流程,降低資源投入同時,大大提升開發(fā)效率。

基于系列平臺的創(chuàng)新與整合,對于企業(yè)來說,算力的高效穩(wěn)定運(yùn)營也不再是難題。

大規(guī)模AI訓(xùn)練與應(yīng)用

既然有了這樣一個堪稱「黑科技」含量最高的解決方案,對于大模型時代下的訓(xùn)練和部署,意味著什么?

當(dāng)前,AI大模型正在經(jīng)歷著前所未有的進(jìn)化:從單一語言模型走向多模態(tài);突破長文本限制;引入MoE架構(gòu);強(qiáng)化學(xué)習(xí)能力不斷提升。

不僅如此,大模型進(jìn)化Scaling Law仍在繼續(xù),老黃還在CES大會上首次提出了AI時代三個Scaling Law。

圖片

這暗示著,大模型的突破未來有著更加廣闊的空間,唯一的限制,就是如何構(gòu)建出強(qiáng)大的算力基礎(chǔ)設(shè)施。

如今,AI大模型的參數(shù)規(guī)模已經(jīng)從千億級別攀升到了萬億級別。AI大模型廠商紛紛投建大規(guī)模算力資源,壓縮大模型訓(xùn)練周期。

顯而易見的是,隨著算力規(guī)模的不斷擴(kuò)展,單顆芯片的性能瓶頸愈發(fā)明顯,整個AI系統(tǒng)的通信效率成為焦點(diǎn)之一。

圖片

大型AI模型訓(xùn)練過程中,網(wǎng)絡(luò)通信通常占據(jù)整體訓(xùn)練時間的20%到40%,這造成了大量算力資源浪費(fèi),優(yōu)化網(wǎng)絡(luò)通信效率,成為AI大模型發(fā)展的關(guān)鍵議題。

然而,目前的傳統(tǒng)RoCE網(wǎng)絡(luò)面臨著網(wǎng)絡(luò)性能不足、難以滿足多樣化AI系統(tǒng)網(wǎng)絡(luò)需求、部署周期長、可靠性低、管理難度大等問題。

對此,元腦算力工廠采用了專門面向生成式AI打造的超級AI以太網(wǎng)交換機(jī)——X400,大幅降低網(wǎng)絡(luò)通信占比,革命性地提升了大規(guī)模GPU訓(xùn)練性能;同時,采用浪潮信息 ICE智能云引擎,實(shí)現(xiàn)智能化的網(wǎng)絡(luò)管控。

這,就成為了新型的AI訓(xùn)練網(wǎng)絡(luò)解決方案,打造業(yè)界領(lǐng)先的AI Fabric。

超級AI以太網(wǎng)交換機(jī)X400,采用AR自適應(yīng)路由、RTT CC擁塞控制、亞毫秒級故障自愈等技術(shù),擁有高性能(高吞吐量、高帶寬、低延遲)、高可靠性、快速部署、靈活拓展等核心優(yōu)勢。同時,它還具備多租戶隔離、多業(yè)務(wù)并發(fā)支持的能力,以應(yīng)對AI模型訓(xùn)練的復(fù)雜需求。

性能方面,X400的吞吐量達(dá)到了業(yè)界最高的51.2T,較上一代產(chǎn)品提升了4倍。在4U空間可提供128個400Gb/s的高速網(wǎng)絡(luò)端口,相比傳統(tǒng)RoCE網(wǎng)絡(luò)性能提升了1.6倍。

值得一提的是,其對AI網(wǎng)絡(luò)的帶寬利用率可達(dá)95%以上,同時還可將通信時延降低30%。

綜上,X400的應(yīng)用將大幅提升大模型的訓(xùn)練效率,縮短訓(xùn)練時長,降低訓(xùn)練成本。

此外,在 AIGC 時代,網(wǎng)絡(luò)管理已不再是傳統(tǒng)的設(shè)備配置與監(jiān)控,而是面向未來的智能化、自動化以及可視化的平臺。

浪潮信息ICE智能云引擎正是這一趨勢下的先行者,基于數(shù)字孿生技術(shù),打造網(wǎng)絡(luò)虛擬仿真和優(yōu)化驗(yàn)證平臺,并利用人工智能技術(shù)實(shí)現(xiàn)自動化管理和智能化監(jiān)控,提升管理效率與故障響應(yīng)速度,讓企業(yè)在復(fù)雜環(huán)境中實(shí)現(xiàn)高效、可靠的網(wǎng)絡(luò)運(yùn)維,助力企業(yè)充分釋放AIGC潛能。

系統(tǒng)性創(chuàng)新,三層無縫銜接

算力基礎(chǔ)設(shè)施有了之后,如何解決算力與應(yīng)用之間斷層問題?

在此之前,浪潮信息早已給出了完美的解決方案——企業(yè)大模型開發(fā)平臺「元腦企智」EPAI。

它猶如一座「橋梁」,通過提供軟件棧及綜合服務(wù),賦能算力挖潛、模型優(yōu)化和應(yīng)用開發(fā)。

這次,元腦算力工廠直接搭載了EPAI,連接了多元算力、多元模型、應(yīng)用層,直接加速LLM應(yīng)用落地。

圖片

元腦企智EPAI的完整架構(gòu)

EPAI可實(shí)現(xiàn)百萬token、千億參數(shù)、領(lǐng)域大模型的高效微調(diào),可以更好地適應(yīng)具體行業(yè)場景下的任務(wù)需求,快速打造領(lǐng)域LLM。

與此同時,它還提供面向多元多模的計(jì)算框架,讓LLM應(yīng)用在跨算力平臺上無感遷移。

這個過程,就降低了多模、多元的適配與試錯成本,為企業(yè)用戶根據(jù)實(shí)際場景需求,選擇開發(fā)部署適合自己的大模型,提供了極大便利。

通過EPAI,企業(yè)可以高效地開發(fā)部署生成式AI應(yīng)用,打造智能生產(chǎn)力。

在AI時代浪潮下,算力基建正成為決定創(chuàng)新速度、深度的關(guān)鍵要素。

基于預(yù)制化AIDC解決方案的算力工廠,不僅僅是一次技術(shù)創(chuàng)新,更是對這整個產(chǎn)業(yè)發(fā)展模式的革新。

算力工廠重新定義了算力釋放的價值與效率,實(shí)現(xiàn)了基建與算力的強(qiáng)綁定,是以算力為中心來確定建設(shè)模式和內(nèi)部的算力模組,所有設(shè)計(jì)都是算力的一部分,實(shí)現(xiàn)了投入即產(chǎn)出。

這一次,浪潮信息向世界真正展現(xiàn)了,中國速度與中國智慧的完美融合。

算力工廠的模式將成為智算中心建設(shè)的主流。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-27 00:50:00

2025-02-19 15:40:44

2024-05-29 14:11:00

2024-04-24 13:21:01

Llama 3視頻AR

2024-08-02 12:24:44

2024-09-05 13:30:00

2020-08-31 12:01:43

網(wǎng)絡(luò)攻擊惡意軟件網(wǎng)絡(luò)安全

2023-07-21 15:05:27

超算算力

2023-11-15 18:55:27

2023-01-31 15:10:30

AI模型

2021-09-22 16:25:17

服務(wù)器戴爾科技集團(tuán)

2022-01-14 11:56:21

數(shù)據(jù)中心算力工信部

2024-11-14 11:09:09

銳捷網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號