為了應(yīng)對(duì)AI熱潮專家討論了液體冷卻策略

作者：Drew Robb 2024-04-29 07:03:00

“AFCOM數(shù)據(jù)中心報(bào)告”的作者Bill Kleyman強(qiáng)調(diào)：“隨著AI需求的增長(zhǎng)，數(shù)據(jù)中心運(yùn)營(yíng)商必須調(diào)整其基礎(chǔ)設(shè)施以適應(yīng)高功率密度的服務(wù)器集群?！?/div>

科學(xué)家預(yù)測(cè)，在未來幾十年內(nèi)全球溫度可能會(huì)穩(wěn)步上升，數(shù)據(jù)中心經(jīng)理們不需要等那么久，一股熱浪正因最新的GPU、CPU和AI應(yīng)用而向他們襲來。

一些芯片制造和液體冷卻領(lǐng)域最聰明的專家聚到一起進(jìn)行了討論，可以預(yù)期的熱量有多少，下一代芯片和AI如何在數(shù)據(jù)中心基礎(chǔ)設(shè)施中驅(qū)動(dòng)變革，以及如何與正確的電力策略配合部署新的液體冷卻解決方案，以緩解強(qiáng)烈的熱量。

Vertiv的全球高科技發(fā)展總監(jiān)Greg Stover說：“變革已經(jīng)來臨，我們不能僅靠空氣來抵抗熱量。在未來幾年內(nèi)，大多數(shù)數(shù)據(jù)中心將從100%的空氣冷卻過渡到空氣/液體冷卻的混合模式?！?/p>

Mohammad Tradat 博士，Nvidia 數(shù)據(jù)中心機(jī)械工程經(jīng)理，展示了一個(gè)圖表，預(yù)測(cè)了微芯片熱設(shè)計(jì)功率(TDP)的增長(zhǎng)。每個(gè)處理器的瓦特?cái)?shù)正處于從幾百瓦增長(zhǎng)到超過1000瓦的初期階段。他提到了他的公司的一款新芯片，能在一個(gè)機(jī)架中提供138千瓦的功率。僅用空氣冷卻是無法保持這樣的機(jī)架密度冷卻的。

“自2020年以來，TDP一直在激增，”Tradat說?！拔覀冃枰ㄟ^加入液體來重新思考冷卻路線圖?！?/p>

他認(rèn)為單相技術(shù)是有限的。另一方面，他補(bǔ)充說，兩相制冷劑可以應(yīng)用于每個(gè)機(jī)架200千瓦或更多的能力。

“從單相到兩相液體冷卻的轉(zhuǎn)變將比從空氣到單相液體冷卻發(fā)生得更快，”Tradat說。

為應(yīng)對(duì)熱量改造現(xiàn)有數(shù)據(jù)中心

數(shù)據(jù)中心的設(shè)計(jì)能夠計(jì)劃新結(jié)構(gòu)并以完整的液體冷卻基礎(chǔ)設(shè)施開始運(yùn)營(yíng)。大多數(shù)現(xiàn)有的數(shù)據(jù)中心沒有這種奢侈。Tradat建議運(yùn)營(yíng)商根據(jù)現(xiàn)有設(shè)計(jì)和空間的限制引入盡可能多的液體。

這可能需要引入液體對(duì)空氣(L2A)冷卻分配單元(CDU)，這些單元帶來了液體冷卻的好處，而無需全面實(shí)施設(shè)施水系統(tǒng)。CDU在最需要的地方提供局部液體冷卻，并利用現(xiàn)有的空氣冷卻系統(tǒng)來散熱機(jī)架或行。

“這項(xiàng)技術(shù)可以在大多數(shù)數(shù)據(jù)中心迅速部署，干擾最小，”Tradat說?！暗坏C(jī)架密度上升，數(shù)據(jù)中心經(jīng)理需要開始考慮液體對(duì)液體CDU?！?/p>

他補(bǔ)充說，一個(gè)4U CDU可以提供100千瓦的冷卻能力，但液體冷卻行業(yè)需要為制冷劑和兩相技術(shù)制定標(biāo)準(zhǔn)，以便其順利進(jìn)入主流市場(chǎng)。

你應(yīng)該投資哪種液體冷卻方法?

Intel的高級(jí)首席工程師兼熱管理架構(gòu)師 Dev Kulkarni 博士，介紹了四種主要的液體冷卻方法，并對(duì)每種方法進(jìn)行了簡(jiǎn)短的評(píng)述：

單相直接芯片冷卻——最成熟的液體技術(shù)，擁有眾多供應(yīng)商選項(xiàng)
兩相直接芯片冷卻——冷卻潛力更大，但供應(yīng)商較少，成熟度較低
單相浸沒冷卻——材料兼容性問題尚未解決，但許多供應(yīng)商正在研究此技術(shù)
兩相浸沒冷卻——仍存在嚴(yán)重的流體、腐蝕和安全問題

Kulkarni 說：“你必須根據(jù)你的需求來實(shí)施這些不同的冷卻解決方案。但重要的是要向前看兩到三代。如果你全力以赴只做單相，你可能會(huì)發(fā)現(xiàn)在短時(shí)間內(nèi)需要將一些基礎(chǔ)設(shè)施轉(zhuǎn)換為兩相技術(shù)?！?/p>

他的建議是關(guān)注硅和AI硬件的發(fā)展路線圖，并使你的公司和客戶的需求與之對(duì)齊。同時(shí)，關(guān)注環(huán)境、社會(huì)和治理(ESG)目標(biāo)以及你如何能夠迅速擴(kuò)展你的部署。

但他補(bǔ)充說，不要等到部署AI。他建議你找到一種方法立即引入它，同時(shí)你可以規(guī)劃更大規(guī)模的部署。最后，他說要找到可以在AI、冷卻、可擴(kuò)展性和可持續(xù)性方面與你合作的伙伴。

災(zāi)難近在咫尺

Vertiv的熱管理和數(shù)據(jù)中心副總裁Steve Madara向與會(huì)者介紹了一些液體冷卻技術(shù)的現(xiàn)實(shí)情況。

他說：“如果直接導(dǎo)向芯片的流體停止流動(dòng)超過一秒鐘，高功率服務(wù)器就會(huì)宕機(jī)。可靠性需要達(dá)到極其關(guān)鍵的任務(wù)級(jí)別?！?/p>

他建議將導(dǎo)向芯片的冷卻循環(huán)置于不間斷電源(UPS)系統(tǒng)上，以確保即使電網(wǎng)斷電也永不失電。Madara舉了一個(gè)例子：如果電力丟失，數(shù)據(jù)中心需要15秒鐘轉(zhuǎn)換到發(fā)電機(jī)電力，冷卻器可能需要一分鐘才能再次啟動(dòng)并提供所需的冷卻水平。在此期間，最新一代服務(wù)器的水溫可能會(huì)上升高達(dá)20℉。

他說：“在液體冷卻領(lǐng)域，正在發(fā)展一整套可靠性策略?！?/p>

他推薦L2A CDUs作為部署最簡(jiǎn)單的液體冷卻技術(shù)。他說，這些可以立即進(jìn)入現(xiàn)有的數(shù)據(jù)中心。

預(yù)測(cè)：更多的熱量和更多的液體

那么，未來一段時(shí)間內(nèi)數(shù)據(jù)中心的天氣預(yù)報(bào)將是更多的熱量和更密集的機(jī)架。這也意味著需要更多的液體冷卻。

Stover表示：“目前我們的大部分詢問都是關(guān)于為傳統(tǒng)場(chǎng)所使用的液體對(duì)空氣冷卻，但是從芯片中帶走熱量只是一方面，你還需要將熱量從建筑中帶出去?！?/p>

這需要一個(gè)協(xié)調(diào)的推動(dòng)力，以增加新的冷卻技術(shù)，提高現(xiàn)有冷卻和電力解決方案的效率，并達(dá)到更高水平的可持續(xù)性。

IDC的分析師Courtney Munroe表示：“數(shù)據(jù)中心提供商需要支持超出常規(guī)10-20千瓦/機(jī)架的密度范圍，達(dá)到70千瓦/機(jī)架甚至200-300千瓦/機(jī)架，這將需要?jiǎng)?chuàng)新的冷卻技術(shù)、熱量散發(fā)以及使用可持續(xù)和可再生的能源來源?！?/p>

責(zé)任編輯：姜華來源：企業(yè)網(wǎng)D1Net

數(shù)據(jù)中心 AI 服務(wù)器

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為了應(yīng)對(duì)AI熱潮 專家討論了液體冷卻策略

為應(yīng)對(duì)熱量改造現(xiàn)有數(shù)據(jù)中心

你應(yīng)該投資哪種液體冷卻方法?

災(zāi)難近在咫尺

預(yù)測(cè)：更多的熱量和更多的液體

為了應(yīng)對(duì)AI熱潮專家討論了液體冷卻策略