谷歌發(fā)布TPU 3.0,“液冷”降溫不得不“行”
今年的谷歌I/O開(kāi)發(fā)者大會(huì),AI一如既往仍是核心主題,CEO Sundar Pichai表示谷歌有責(zé)任在這個(gè)信息爆炸、技術(shù)不斷革新的時(shí)代里擔(dān)負(fù)起推動(dòng)科技創(chuàng)新的使命,而AI就是其中一種途徑。作為能給谷歌AI產(chǎn)品提供強(qiáng)大計(jì)算服務(wù)支持的“幕后英雄“——TPU,今年已升級(jí)至3.0版,并在本次大會(huì)上閃亮登場(chǎng)。
TPU作為一種專為機(jī)器學(xué)習(xí)設(shè)計(jì)的芯片,從2016年***代助AlphaGo成功打敗李世石開(kāi)始,就注定會(huì)成為萬(wàn)眾矚目的科技界“大佬“,擁有不平凡的一生。2017年TPU順勢(shì)升級(jí)至第二代,TPU2.0單個(gè)浮點(diǎn)運(yùn)算能力高達(dá)180teraflops,主要采用云服務(wù)Cloud TPU的形式對(duì)外賦能。但谷歌似乎覺(jué)得這個(gè)速度還未達(dá)到一個(gè)”大佬“應(yīng)有的水準(zhǔn),直接使用新的高速網(wǎng)絡(luò)將64個(gè)TPU組合成究極進(jìn)化版——“TPU Pod”機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī),浮點(diǎn)運(yùn)算能力飆升至11.5 petaflops。一個(gè)簡(jiǎn)單對(duì)比,谷歌在其2017年發(fā)布的TPU技術(shù)細(xì)節(jié)論文中提到,雖然應(yīng)用范圍受限,但TPU的平均處理速度比當(dāng)前的GPU或CPU快15~30倍,性能功耗比高出約30~80倍(TPU:我不是針對(duì)誰(shuí),我是說(shuō)在座的各位都……)。到如今TPU3.0發(fā)布,谷歌宣稱TPU3.0 pod的功率是TPU2.0 pod的8倍,每個(gè)TPU3.0 pod可提供超過(guò) 100 petaflops的運(yùn)算能力,但在系統(tǒng)接口和行為方面,TPU3.0盡可能保留了第二代的特征,對(duì)于其它GPU和CPU巨頭來(lái)說(shuō),3.0的提升不大可謂讓他們送了一口氣。
雖然此次的TPU升級(jí)算不上改頭換面,甚至稱為T(mén)PU2.5的發(fā)布更為合適,但我們?nèi)孕枰吡疗渲械囊粋€(gè)細(xì)節(jié),那就是TPU3.0讓谷歌不得不也***次在其數(shù)據(jù)中心中使用液冷技術(shù)。液冷技術(shù)并不是一個(gè)全新的概念,它在衛(wèi)星、火箭發(fā)動(dòng)機(jī)等航天領(lǐng)域也已有很長(zhǎng)的運(yùn)用歷史,在IT基礎(chǔ)設(shè)施領(lǐng)域國(guó)內(nèi)外眾多廠商也有很多較為成功的實(shí)踐??傮w來(lái)說(shuō),市場(chǎng)上對(duì)于液冷技術(shù)的研究和實(shí)驗(yàn)源于這項(xiàng)技術(shù)可以大大降低能耗、減少數(shù)據(jù)中心的支出成本,像谷歌這樣坦誠(chéng)其芯片的運(yùn)行溫度過(guò)高而不得不使用液冷技術(shù)的情況其實(shí)并不常見(jiàn)。
通過(guò)對(duì)比TPU2.0 pod(左)和 TPU3.0 pod(右)的機(jī)架可以發(fā)現(xiàn),3.0機(jī)架的TPU數(shù)目是原來(lái)的兩倍,而且機(jī)架的computing unit (板卡)間距大大減少。谷歌曾稱部署TPU2.0的數(shù)據(jù)中心溫度約在 80°F (26.6666℃)到 95°F(30℃) 之間,因此必須使用高效龐大的風(fēng)冷散熱器才能達(dá)到降溫目的,可以想見(jiàn),當(dāng)升級(jí)至TPU3.0,部署密度大幅提升的情況下,還想獲得較好的降溫效果也確實(shí)只能直接借助液冷手段。此外,谷歌采用的是開(kāi)放式機(jī)架,并沒(méi)有形成封閉的盡量小的風(fēng)循環(huán)機(jī)架環(huán)境,這樣一來(lái)使用風(fēng)冷散熱對(duì)抗如此高密度的熱插槽的成本其實(shí)非常高昂。
谷歌將數(shù)據(jù)中心降溫方式向液冷方向轉(zhuǎn)變,這不得不行的一步或許是受TPU3.0高密度規(guī)格的形勢(shì)所迫,但從成本節(jié)約的角度來(lái)看,這也未嘗不是一種更好的選擇。而液冷技術(shù)本身的研究和革新似乎也會(huì)被加速推進(jìn),畢竟當(dāng)它作為不可替代的角色被推到舞臺(tái)中間時(shí),不行也得行。
總體來(lái)看,一方面,數(shù)據(jù)中心的各種成本越來(lái)越高,另外一方面,業(yè)界能夠?qū)崿F(xiàn)的計(jì)算密度越高越高。如何在單位體積內(nèi)部署更多的計(jì)算能力是擺在我們面前的很現(xiàn)實(shí)的問(wèn)題,也許液冷將會(huì)使這個(gè)問(wèn)題得到很好的解答。
ODCC將在液冷方面開(kāi)展更多的工作,敬請(qǐng)期待。