為了應(yīng)對(duì)AI熱潮 專家討論了液體冷卻策略
科學(xué)家預(yù)測(cè),在未來幾十年內(nèi)全球溫度可能會(huì)穩(wěn)步上升,數(shù)據(jù)中心經(jīng)理們不需要等那么久,一股熱浪正因最新的GPU、CPU和AI應(yīng)用而向他們襲來。
“AFCOM數(shù)據(jù)中心報(bào)告”的作者Bill Kleyman強(qiáng)調(diào):“隨著AI需求的增長(zhǎng),數(shù)據(jù)中心運(yùn)營(yíng)商必須調(diào)整其基礎(chǔ)設(shè)施以適應(yīng)高功率密度的服務(wù)器集群。”
一些芯片制造和液體冷卻領(lǐng)域最聰明的專家聚到一起進(jìn)行了討論,可以預(yù)期的熱量有多少,下一代芯片和AI如何在數(shù)據(jù)中心基礎(chǔ)設(shè)施中驅(qū)動(dòng)變革,以及如何與正確的電力策略配合部署新的液體冷卻解決方案,以緩解強(qiáng)烈的熱量。
Vertiv的全球高科技發(fā)展總監(jiān)Greg Stover說:“變革已經(jīng)來臨,我們不能僅靠空氣來抵抗熱量。在未來幾年內(nèi),大多數(shù)數(shù)據(jù)中心將從100%的空氣冷卻過渡到空氣/液體冷卻的混合模式?!?/p>
Mohammad Tradat 博士,Nvidia 數(shù)據(jù)中心機(jī)械工程經(jīng)理,展示了一個(gè)圖表,預(yù)測(cè)了微芯片熱設(shè)計(jì)功率(TDP)的增長(zhǎng)。每個(gè)處理器的瓦特?cái)?shù)正處于從幾百瓦增長(zhǎng)到超過1000瓦的初期階段。他提到了他的公司的一款新芯片,能在一個(gè)機(jī)架中提供138千瓦的功率。僅用空氣冷卻是無法保持這樣的機(jī)架密度冷卻的。
“自2020年以來,TDP一直在激增,”Tradat說?!拔覀冃枰ㄟ^加入液體來重新思考冷卻路線圖?!?/p>
他認(rèn)為單相技術(shù)是有限的。另一方面,他補(bǔ)充說,兩相制冷劑可以應(yīng)用于每個(gè)機(jī)架200千瓦或更多的能力。
“從單相到兩相液體冷卻的轉(zhuǎn)變將比從空氣到單相液體冷卻發(fā)生得更快,”Tradat說。
為應(yīng)對(duì)熱量改造現(xiàn)有數(shù)據(jù)中心
數(shù)據(jù)中心的設(shè)計(jì)能夠計(jì)劃新結(jié)構(gòu)并以完整的液體冷卻基礎(chǔ)設(shè)施開始運(yùn)營(yíng)。大多數(shù)現(xiàn)有的數(shù)據(jù)中心沒有這種奢侈。Tradat建議運(yùn)營(yíng)商根據(jù)現(xiàn)有設(shè)計(jì)和空間的限制引入盡可能多的液體。
這可能需要引入液體對(duì)空氣(L2A)冷卻分配單元(CDU),這些單元帶來了液體冷卻的好處,而無需全面實(shí)施設(shè)施水系統(tǒng)。CDU在最需要的地方提供局部液體冷卻,并利用現(xiàn)有的空氣冷卻系統(tǒng)來散熱機(jī)架或行。
“這項(xiàng)技術(shù)可以在大多數(shù)數(shù)據(jù)中心迅速部署,干擾最小,”Tradat說?!暗坏C(jī)架密度上升,數(shù)據(jù)中心經(jīng)理需要開始考慮液體對(duì)液體CDU?!?/p>
他補(bǔ)充說,一個(gè)4U CDU可以提供100千瓦的冷卻能力,但液體冷卻行業(yè)需要為制冷劑和兩相技術(shù)制定標(biāo)準(zhǔn),以便其順利進(jìn)入主流市場(chǎng)。
你應(yīng)該投資哪種液體冷卻方法?
Intel的高級(jí)首席工程師兼熱管理架構(gòu)師 Dev Kulkarni 博士,介紹了四種主要的液體冷卻方法,并對(duì)每種方法進(jìn)行了簡(jiǎn)短的評(píng)述:
- 單相直接芯片冷卻——最成熟的液體技術(shù),擁有眾多供應(yīng)商選項(xiàng)
- 兩相直接芯片冷卻——冷卻潛力更大,但供應(yīng)商較少,成熟度較低
- 單相浸沒冷卻——材料兼容性問題尚未解決,但許多供應(yīng)商正在研究此技術(shù)
- 兩相浸沒冷卻——仍存在嚴(yán)重的流體、腐蝕和安全問題
Kulkarni 說:“你必須根據(jù)你的需求來實(shí)施這些不同的冷卻解決方案。但重要的是要向前看兩到三代。如果你全力以赴只做單相,你可能會(huì)發(fā)現(xiàn)在短時(shí)間內(nèi)需要將一些基礎(chǔ)設(shè)施轉(zhuǎn)換為兩相技術(shù)?!?/p>
他的建議是關(guān)注硅和AI硬件的發(fā)展路線圖,并使你的公司和客戶的需求與之對(duì)齊。同時(shí),關(guān)注環(huán)境、社會(huì)和治理(ESG)目標(biāo)以及你如何能夠迅速擴(kuò)展你的部署。
但他補(bǔ)充說,不要等到部署AI。他建議你找到一種方法立即引入它,同時(shí)你可以規(guī)劃更大規(guī)模的部署。最后,他說要找到可以在AI、冷卻、可擴(kuò)展性和可持續(xù)性方面與你合作的伙伴。
災(zāi)難近在咫尺
Vertiv的熱管理和數(shù)據(jù)中心副總裁Steve Madara向與會(huì)者介紹了一些液體冷卻技術(shù)的現(xiàn)實(shí)情況。
他說:“如果直接導(dǎo)向芯片的流體停止流動(dòng)超過一秒鐘,高功率服務(wù)器就會(huì)宕機(jī)。可靠性需要達(dá)到極其關(guān)鍵的任務(wù)級(jí)別?!?/p>
他建議將導(dǎo)向芯片的冷卻循環(huán)置于不間斷電源(UPS)系統(tǒng)上,以確保即使電網(wǎng)斷電也永不失電。Madara舉了一個(gè)例子:如果電力丟失,數(shù)據(jù)中心需要15秒鐘轉(zhuǎn)換到發(fā)電機(jī)電力,冷卻器可能需要一分鐘才能再次啟動(dòng)并提供所需的冷卻水平。在此期間,最新一代服務(wù)器的水溫可能會(huì)上升高達(dá)20℉。
他說:“在液體冷卻領(lǐng)域,正在發(fā)展一整套可靠性策略?!?/p>
他推薦L2A CDUs作為部署最簡(jiǎn)單的液體冷卻技術(shù)。他說,這些可以立即進(jìn)入現(xiàn)有的數(shù)據(jù)中心。
預(yù)測(cè):更多的熱量和更多的液體
那么,未來一段時(shí)間內(nèi)數(shù)據(jù)中心的天氣預(yù)報(bào)將是更多的熱量和更密集的機(jī)架。這也意味著需要更多的液體冷卻。
Stover表示:“目前我們的大部分詢問都是關(guān)于為傳統(tǒng)場(chǎng)所使用的液體對(duì)空氣冷卻,但是從芯片中帶走熱量只是一方面,你還需要將熱量從建筑中帶出去?!?/p>
這需要一個(gè)協(xié)調(diào)的推動(dòng)力,以增加新的冷卻技術(shù),提高現(xiàn)有冷卻和電力解決方案的效率,并達(dá)到更高水平的可持續(xù)性。
IDC的分析師Courtney Munroe表示:“數(shù)據(jù)中心提供商需要支持超出常規(guī)10-20千瓦/機(jī)架的密度范圍,達(dá)到70千瓦/機(jī)架甚至200-300千瓦/機(jī)架,這將需要?jiǎng)?chuàng)新的冷卻技術(shù)、熱量散發(fā)以及使用可持續(xù)和可再生的能源來源?!?/p>


2011-05-19 15:51:54




