爭建AI算力中心熱潮背后:誰在花冤枉錢?
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
AI智算中心,如今已成各地必備基建。
放眼全國,已有4個人工智能計算中心建成,西安、許昌等地智算中心也已開工。南京、杭州、廣州、大連、青島、長沙、太原、南寧等地也在規(guī)劃中。
但任何一次高速擴(kuò)張,隨之而來的當(dāng)然是概念魚目混珠,價格亂得天上地下,這問題可得解決。
價格亂象癥結(jié):缺乏體系標(biāo)準(zhǔn)
先來具體看看現(xiàn)存的問題。
一份公開資料顯示,2020年城市A的智能計算中心,每100P Flops (每秒10億億次浮點運算)16位精度的算力建設(shè)成本為7500萬元。
而2021年城市B同等精度下的100P FLops算力建設(shè)成本卻達(dá)到了4.6億元。
明明是定位相同、功能相近的智算中心,建設(shè)投入相差達(dá)到6.2倍之多,行業(yè)價格混亂程度可見一斑。
價格之外還有第二個問題:算力背后運算數(shù)據(jù)的精度混淆。
技術(shù)視角看,不同領(lǐng)域?qū)刃枨蟾鞑幌嗤?/p>
科學(xué)和工程計算對精度的要求最高,需要使用64位雙精度。
人工智能訓(xùn)練階段主要用到32位單精度和16位半精度,在推理階段可以用16位或者更低一些。
你看,數(shù)值同是100P的算力,背后的精度若僅有16位只能算是AI專用算力,若是涵蓋64位就能支撐更多通用算法。
兩種精度的運算量級不止是單純差了4倍,但在行業(yè)落地中,忽略及混淆的情況不少。
△雙精度、單精度和半精度格式
很多應(yīng)用場景都不是單靠AI本身就能完成的。如天氣預(yù)測、材料設(shè)計、藥物發(fā)現(xiàn)等任務(wù)上都需要AI與高精度科學(xué)計算相結(jié)合。
△DeepMind使用AI預(yù)測蛋白質(zhì)結(jié)構(gòu)
相應(yīng)的,智算中心也要做到以AI算力為主,融合多種算力,才能真正釋放算力的價值。
如果以專用算力為噱頭,表面上的數(shù)值高了就可以哄抬價格。這樣修建出來的智算中心就成了“偏科”,往往無法真正適應(yīng)行業(yè)需求。
這兩個問題如不解決,修建出的智算中心既在價格上不匹配真實價值,也無法滿足相應(yīng)需求,勢必造成資源浪費又阻礙行業(yè)發(fā)展——
行業(yè)亟須有人站出來統(tǒng)一標(biāo)準(zhǔn)。
首個智算標(biāo)桿:專治價格亂象
針對上述問題,中科院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟聯(lián)合院內(nèi)多家院所企業(yè)做了相應(yīng)努力:
在WAIC 2021上發(fā)布了新一代人工智能計算平臺,要打造智算中心的建設(shè)標(biāo)準(zhǔn)。
為什么說是新一代呢?
聯(lián)盟聯(lián)合了院內(nèi)多家院所企業(yè),基于科學(xué)院多項重大科技成果,讓平臺做到“用得上”和“用得好”。
“用得上”,也就是滿足產(chǎn)業(yè)需求。
一個城市建起智算中心,是要為周邊地區(qū)的各行各業(yè)服務(wù),需要計算平臺有通用性。
此次發(fā)布的新平臺采用開放架構(gòu),可以兼容各大AI框架和數(shù)據(jù)處理平臺,還做到了遷移靈活、編譯開發(fā)難度低。
同時支持CPU、通用GPU、專用AI加速芯片的多元芯片組合,提供覆蓋各精度算力,可勝任模擬、訓(xùn)練、推理等AI全鏈條應(yīng)用需求。
基于以上兩點,新平臺成為了國內(nèi)首個跨模態(tài)、通用化的AI公共創(chuàng)新服務(wù)平臺。
解決了“用得上”,還要做到“用得好”。
面對這個問題,新平臺基于中科院多項重大科技成果,聯(lián)合多家院所企業(yè),也有著獨特的技術(shù)優(yōu)勢。
在硬件設(shè)施上,新平臺采用浸沒式相變液冷技術(shù),節(jié)能效果高達(dá)30%。
配合超高密度立體擴(kuò)展的建設(shè)模式,節(jié)省機房面積90%,可以最小化土建上的投入,把基礎(chǔ)設(shè)施和IT設(shè)備打包成模塊整體交付,做到快速業(yè)務(wù)上線。
中科院計算所研究員、CCF高性能計算專業(yè)委員會秘書長張云泉表示,建設(shè)智算中心的成本中有3個重點:
- 芯片、服務(wù)器設(shè)備的硬件成本
- 機房、土建的基礎(chǔ)設(shè)施成本
- 建成后持續(xù)運營產(chǎn)生大量的電力成本
新平臺明確了智算中心需要哪些芯片,給出了服務(wù)器、機房的建設(shè)方案和節(jié)能上的改進(jìn)。
還給出了具有說服力的算力價格標(biāo)準(zhǔn)方案:
在綜合存儲、能耗、開發(fā)、定制、數(shù)據(jù)調(diào)度等一系列因子,并代入明確的算法標(biāo)準(zhǔn)后,得出在同時具備5P雙精度算力(64位)、25P單精度算力(32位)和100P半精度算力(16位)的情況下,智能計算中心的基礎(chǔ)設(shè)施價格約為1億-1.5億。
國科控股黨委副書記、副董事長、總經(jīng)理楊建華對此這樣評價:
平臺集諸多中科院人工智能技術(shù)成果于一體,擁有清晰的實施路徑,可為區(qū)域智算中心建設(shè)提供標(biāo)準(zhǔn)的可復(fù)制范本。
同時中科院科技戰(zhàn)略咨詢研究院院長潘教峰表示:
平臺依托中科院頂層戰(zhàn)略規(guī)劃,匯聚算力、算法、數(shù)據(jù)、軟件、人才、應(yīng)用等資源要素,將為AI產(chǎn)業(yè)化發(fā)展、行業(yè)數(shù)智化轉(zhuǎn)型和政府智慧化治理提供有力支撐。
價格規(guī)范讓算力像水電一樣,服務(wù)全社會
在“算法、數(shù)據(jù)、算力”人工智能三要素里,目前哪一個是最大的短板?
張云泉這樣回答:
現(xiàn)在是算力。大數(shù)據(jù)已經(jīng)發(fā)展很多年了,算法的演化很快,對算力的需求很大,是在拉著算力往上走。
建設(shè)智算中心將過去分散在各企業(yè)、研究機構(gòu)的算力聚合起來去補齊這個短板,推動產(chǎn)業(yè)良性健康發(fā)展。
在工業(yè)時代,城市靠集中供水、供電方便和豐富了千家萬戶的生活。
在AI時代,城市也要把聚合起來的算力,高效流通和分配出去,促進(jìn)千行百業(yè)的生產(chǎn)。
這就使算力的價格標(biāo)準(zhǔn)與水價、電價標(biāo)準(zhǔn)同樣重要。
中科院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟在做的,就是為智算中心建設(shè)提供了一個可復(fù)制范本。
用這個范本樹起透明的價格標(biāo)桿,讓算力像自來水一樣流淌。