自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Nature:探秘世界最快超算的一天

人工智能 新聞
在美國(guó)田納西州東部的山區(qū),一臺(tái)名為Frontier的破紀(jì)錄超算為科學(xué)家提供了前所未有的機(jī)會(huì),讓他們得以研究從原子到星系的一切。

超算建設(shè)如火如荼,無(wú)論是主權(quán)AI還是科技巨頭,都在源源不斷地給英偉達(dá)輸血、建數(shù)據(jù)中心。

前段時(shí)間,馬斯克建成的有10萬(wàn)張H100的Colossus集群,號(hào)稱是世界上最強(qiáng)大的AI訓(xùn)練系統(tǒng)。

而在這之前,截止到2023年12月,世界上運(yùn)算速度最快的超算,是位于美國(guó)田納西州橡樹嶺的Frontier,也被稱為OLCF-5。

Frontier配備的是AMD的CPU和GPU,有5萬(wàn)個(gè)處理器(其中包含3.8萬(wàn)個(gè)GPU),運(yùn)算速度為1.102 exaFLOPS,即每秒1.102百億億(1018)次浮點(diǎn)運(yùn)算。

這個(gè)速度甚至比10萬(wàn)臺(tái)筆記本同時(shí)工作還要更快,而且在2022年首次亮相時(shí),F(xiàn)rontier還破了一個(gè)紀(jì)錄——第一次突破了百億億次運(yùn)算速度的門檻。

圖片

Frontier超算的覆蓋面積比兩個(gè)籃球場(chǎng)還要大

之所以要追求如此卓越的速度和規(guī)模,是為了滿足各領(lǐng)域前沿科學(xué)研究中模擬計(jì)算的需要。

Frontier十分擅長(zhǎng)創(chuàng)建模擬,并能同時(shí)捕捉到大尺度的模式和小尺度的細(xì)節(jié),比如微小的云滴如何影響氣候變暖的速度。

如今,研究人員們從世界各地登錄Frontier,創(chuàng)建從亞原子粒子到星系的一切尖端模型,包括模擬蛋白質(zhì)進(jìn)行藥物發(fā)現(xiàn)和涉及、模擬湍流以改進(jìn)飛機(jī)發(fā)動(dòng)機(jī),以及訓(xùn)練能和谷歌、OpenAI競(jìng)爭(zhēng)的開源LLM。

但是,就在今年四月的一天,F(xiàn)rontier的運(yùn)作出現(xiàn)了一點(diǎn)意外。

Frontier所在的田納西州橡樹嶺國(guó)家實(shí)驗(yàn)室科學(xué)主任Bronson Messer表示,為了為了跟上世界各地科學(xué)家們的要求,F(xiàn)rontier的功耗急劇上升,峰值達(dá)到了約27兆瓦,足以為大約1萬(wàn)個(gè)家庭供電。

圖片

這也為超算的冷卻系統(tǒng)帶來(lái)了挑戰(zhàn),用Messer的話說(shuō),「機(jī)器像一條被燙傷的狗一樣在運(yùn)行」。

根據(jù)2023年的統(tǒng)計(jì),F(xiàn)rontier共有1744個(gè)用戶,遍布18個(gè)國(guó)家,貢獻(xiàn)的計(jì)算和數(shù)據(jù)支撐了至少500篇已經(jīng)公開發(fā)表的論文。

探秘Frontier「大腦」內(nèi)部

和我們想象的場(chǎng)景類似,F(xiàn)rontier所在的機(jī)房類似于一個(gè)倉(cāng)庫(kù),運(yùn)轉(zhuǎn)時(shí)發(fā)出的電子嗡嗡聲穩(wěn)定而輕柔。

機(jī)房中共有74個(gè)機(jī)架,每個(gè)節(jié)點(diǎn)分別包含4個(gè)GPU和1個(gè)CPU。之所以有如此快的運(yùn)算速度,就是得益于龐大的GPU數(shù)量。

實(shí)驗(yàn)室主任Messer形容道,「這些GPU運(yùn)行得非常快,但也愚蠢至極,它們可以一遍又一遍地做同一件事?!?/span>

這種同時(shí)處理多項(xiàng)運(yùn)算的功能對(duì)超算的快速工作非常有用,但除此之外,也沒(méi)什么其他任務(wù)了。

這種「愚蠢至極」的背后,是一種通用性,各領(lǐng)域的科學(xué)家都可以通過(guò)定制代碼來(lái)運(yùn)行GPU。

Frontier的運(yùn)轉(zhuǎn)日夜不停,同樣連軸轉(zhuǎn)的還有負(fù)責(zé)運(yùn)營(yíng)、維護(hù)的工程團(tuán)隊(duì)。

負(fù)責(zé)建造這臺(tái)超算的工程師團(tuán)隊(duì)來(lái)自惠普公司,其中一位技術(shù)人員Corey Edmonds表示,他們有一個(gè)工程團(tuán)隊(duì)會(huì)對(duì)Frontier進(jìn)行持續(xù)監(jiān)控,判斷是否存在故障跡象。

比如其中一位夜班人員Conner Cunningham的工作時(shí)間就是晚7點(diǎn)到早7點(diǎn),負(fù)責(zé)用十多個(gè)監(jiān)視器關(guān)注網(wǎng)絡(luò)和建筑物的安全,并監(jiān)控當(dāng)?shù)靥鞖猓_保Frontier正常運(yùn)轉(zhuǎn)。

實(shí)際上,大多數(shù)夜晚都是「平安夜」,Cunningham一般只需要巡查幾次,其余時(shí)間都可以在工位上學(xué)習(xí)。

「這項(xiàng)工作有點(diǎn)像消防員,如果發(fā)生任何事,需要有人在崗監(jiān)控。」

助力大科學(xué)

雖然Frontier日夜不停地運(yùn)轉(zhuǎn),但研究人員想要申請(qǐng)到使用機(jī)會(huì),也并不是一件容易的事。

科學(xué)主任Messer和其他3位同事負(fù)責(zé)使用提案的評(píng)估和批準(zhǔn),他們?nèi)ツ旯才鷾?zhǔn)了131個(gè)項(xiàng)目,通過(guò)率約為1/4,

申請(qǐng)人需要表明其項(xiàng)目需要利用整個(gè)超算系統(tǒng)才能獲批,一般用于對(duì)各種時(shí)間和空間尺度進(jìn)行建模。

Frontier每年共有約6500萬(wàn)個(gè)節(jié)點(diǎn)時(shí)(node-hour)可用,研究人員得到的最常見(jiàn)的分配額度為50萬(wàn)個(gè)節(jié)點(diǎn)時(shí),相當(dāng)于全系統(tǒng)連續(xù)運(yùn)行三天。

Messer表示,相比其他數(shù)據(jù)中心,研究人員在Frontier上獲得的計(jì)算資源大約多出十倍。

圖片

Frontier擁有超過(guò)5萬(wàn)個(gè)處理器,并采用液冷

有了更快的運(yùn)算速度、更多的計(jì)算資源,研究人員們就能做出更加雄心勃勃的「大科學(xué)」。

比如,在原子級(jí)精度精確地模擬生物過(guò)程,像是溶液中的蛋白質(zhì)或核酸如何與細(xì)胞其他部分發(fā)生相互作用。

今年5月,有學(xué)者用Frontier模擬了含有超過(guò)1550億個(gè)水分子的立方體形狀的水滴,大小約為人類頭發(fā)寬度的十分之一,是有史以來(lái)規(guī)模最大的原子級(jí)模擬之一。

短期內(nèi),研究人員希望模擬細(xì)胞器來(lái)為實(shí)驗(yàn)室提供信息;此外他們還希望將這些高分辨率的模擬結(jié)果,與X射線自由電子激光器的超快成像相結(jié)合,以加速發(fā)現(xiàn)。

這些工作都是為今后更大的目標(biāo)做鋪墊——從原子開始對(duì)整個(gè)細(xì)胞進(jìn)行建模。

有了Frontier,氣候模型也變得更加精確。

圖片

去年,氣候科學(xué)家Matt Norman和其他研究人員使用Frontier運(yùn)行了分辨率為3.25公里的全球氣候模型,其中還結(jié)合了分辨率更加精細(xì)的復(fù)雜的云層運(yùn)動(dòng)。

為了創(chuàng)建長(zhǎng)達(dá)數(shù)十年的預(yù)測(cè)模型,F(xiàn)rontier的計(jì)算能力是十分必要的,而且需要用上整個(gè)系統(tǒng)的算力才能做到。

對(duì)于一個(gè)適用于天氣和氣候預(yù)測(cè)的模型,至少需要每天進(jìn)行一年的模擬運(yùn)行。

Frontier每天可以模擬1.26年,這個(gè)速度可以使研究人員能夠創(chuàng)建比以前更準(zhǔn)確的50年預(yù)測(cè)。

如果換到其他計(jì)算機(jī)上運(yùn)行,要達(dá)到相同的分辨率,同時(shí)考慮云的影響,計(jì)算速度則會(huì)慢得多。

在更大的宇宙級(jí)尺度上,F(xiàn)rontier也能帶來(lái)更高的分辨率。

匹茲堡大學(xué)的天體物理學(xué)家Evan Schneider也在使用Frontier,研究銀河系大小的星系如何隨著年齡的增長(zhǎng)而演化。

他們創(chuàng)建的星系模型跨越四個(gè)數(shù)量級(jí),最大規(guī)??蛇_(dá)約10萬(wàn)光年。而在Frontier之前,以類似的分辨率模擬的最大結(jié)構(gòu)是矮星系,質(zhì)量約為五十分之一。

Frontier對(duì)AI意味著什么

作為曾經(jīng)的世界第一,F(xiàn)rontier的地位顯得更加獨(dú)特,因?yàn)檫@臺(tái)超算是為數(shù)不多的屬于公共部門的設(shè)備,而非由工業(yè)界主導(dǎo)。

由于AI領(lǐng)域的研究往往需要吞噬龐大的算力,學(xué)術(shù)界和工業(yè)界的成果存在巨大的鴻溝。

有學(xué)者統(tǒng)計(jì)過(guò), 2021 年,96%的最大的AI模型來(lái)自工業(yè)界。平均而言,工業(yè)界模型的規(guī)模是學(xué)術(shù)模型的近30倍。

這種差異在投資金額方面也很明顯。美國(guó)的非國(guó)防公共機(jī)構(gòu)在2021年提供了15億美元支持AI研究。同年,全球工業(yè)界支出超過(guò)3400億美元。

而自從GPT-4、Gemini Ultra等商業(yè)LLM發(fā)布以來(lái),兩者之前的差距又被進(jìn)一步擴(kuò)大,這種投資鴻溝導(dǎo)致工業(yè)界和學(xué)術(shù)界可用的計(jì)算資源明顯不對(duì)稱。

由于工業(yè)界的模型開發(fā)以盈利為目的,往往會(huì)忽視很多技術(shù)發(fā)展中必須要面對(duì)的重要問(wèn)題,比如基礎(chǔ)研究、低收入群體的需求、評(píng)估模型風(fēng)險(xiǎn)、糾正模型偏見(jiàn)等等。

如果學(xué)術(shù)界要承擔(dān)起這些責(zé)任,就需要能和行業(yè)規(guī)模匹配的算力,這就是Frontier的用武之地。

一個(gè)最典型的例子,科技公司訓(xùn)練出的LLM往往保留不同程度的專有性,但研究者們往往會(huì)獎(jiǎng)自己開發(fā)的模型免費(fèi)提供給任何人使用。

馬里蘭大學(xué)帕克分校的計(jì)算機(jī)科學(xué)家Abhinav Bhatele表示,這將有助于大學(xué)研究人員與公司競(jìng)爭(zhēng),「學(xué)術(shù)界人士訓(xùn)練類似規(guī)模模型的唯一方法是獲得像Frontier這樣的資源。」

Bhatele認(rèn)為,F(xiàn)rontier等設(shè)施在AI領(lǐng)域就是發(fā)揮著這種至關(guān)重要的作用,讓更多的人參與到技術(shù)開發(fā)中,共享成果。

但值得注意的是,這場(chǎng)國(guó)家之間、科技公司和非營(yíng)利機(jī)構(gòu)間的算力基礎(chǔ)設(shè)施競(jìng)賽,依舊在持續(xù),能力強(qiáng)大如Frontier也終會(huì)有跌落的一天。

橡樹嶺實(shí)驗(yàn)室已經(jīng)在規(guī)劃Frontier的繼任者,名為Discovery,計(jì)算速度將提升3~5倍。

作為參考,F(xiàn)rontier相比2014年的最快的超算天河二號(hào)A快了35倍,比2004年最快的超算Earth Simulator快3.3萬(wàn)倍。

圖片

研究人員仍然渴望更快的速度,但工程師們面臨著持續(xù)的挑戰(zhàn),其中一方面就是能源。

Frontier的能源效率相比Summit就提升了4倍多,很大程度上是源于不同的冷卻方案。

Frontier使用室溫水進(jìn)行冷卻,與Summit使用冷水不同。Frontier總能耗的大約3%~4%用于冷卻,而Summit 的這一比例為10%。

與 Summit 使用冷凍水不同。Frontier 總能耗的大約 3-4% 用于冷卻,而 Summit 的這一比例為 10%。

多年來(lái),能源效率一直是構(gòu)建更先進(jìn)超算的關(guān)鍵瓶頸,而在可預(yù)見(jiàn)的將來(lái),這個(gè)瓶頸估計(jì)會(huì)持續(xù)存在。

實(shí)驗(yàn)室主任Messer表示, 「我們本可以在2012年建造一臺(tái)百億億次級(jí)別的超算,但提供動(dòng)力的成本太高了,需要多一兩個(gè)數(shù)量級(jí)的電力?!?/span>

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2010-10-29 14:34:10

中國(guó)超算世界最快電腦

2010-12-24 10:56:22

2013-02-25 15:20:29

超算競(jìng)賽TOP500

2021-06-29 15:29:38

超算排名計(jì)算機(jī)

2015-07-16 15:15:55

超算Linux

2024-01-15 07:10:00

超算訓(xùn)練

2017-11-23 08:49:03

超算計(jì)算機(jī)系統(tǒng)

2012-02-10 09:17:41

高性能計(jì)算重慶超算中心

2013-08-12 10:35:17

超算天河二號(hào)HPC

2014-05-19 16:15:26

天河二號(hào)超級(jí)計(jì)算機(jī)

2019-04-28 09:56:15

程序員互聯(lián)網(wǎng)脫發(fā)

2020-05-08 16:03:00

Nature諾貝爾科學(xué)

2016-10-08 15:19:05

百度云百度開放云天算

2012-06-14 09:46:38

超算

2013-06-19 09:58:03

2016-11-17 14:34:18

超算

2011-11-18 09:26:09

IBM超級(jí)計(jì)算機(jī)藍(lán)色基因

2013-08-06 09:54:14

超算模擬人腦計(jì)算

2020-02-13 10:54:29

源碼模式Mybatis

2021-02-03 21:15:44

Ansible系統(tǒng)運(yùn)維系統(tǒng)管理員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)