預(yù)計(jì)2020年出現(xiàn)百億億次級(jí)超級(jí)計(jì)算機(jī)
如果超級(jí)計(jì)算機(jī)繼續(xù)以當(dāng)前的速度增長(zhǎng),我們將在2020年看到第一臺(tái)百億億次級(jí)計(jì)算機(jī)。
然而,田納西大學(xué)諾克斯維爾分校的研究員Jack Dongarra表示,這樣的大型計(jì)算機(jī)系統(tǒng)架構(gòu)師將面臨一系列關(guān)鍵問(wèn)題的挑戰(zhàn)。
在達(dá)到百億億次級(jí)(exascale)性能前我們可能還有很長(zhǎng)一段路要走。一個(gè)exascale機(jī)器將有一百億億次FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))的能力,即使是今天最快的超級(jí)計(jì)算機(jī),也只有exascale計(jì)算機(jī)不到20%的計(jì)算機(jī)能力。

新的高度
在上周公布的最新一期的超級(jí)計(jì)算機(jī)Top500名單中,最快的計(jì)算機(jī)是美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Titan系統(tǒng),能夠達(dá)到17.59petaflops。
但每年統(tǒng)計(jì)兩次的500強(qiáng)名單顯示了超級(jí)計(jì)算的速度正在快速增長(zhǎng),從名單上看,超級(jí)計(jì)算機(jī)似乎每十年左右就增加十倍的功率。1996年,500強(qiáng)名單上出現(xiàn)了第一個(gè)teraflop級(jí)計(jì)算機(jī),2008年首個(gè)petaflop級(jí)計(jì)算機(jī)出現(xiàn)在名單中。根據(jù)這個(gè)進(jìn)度,可以推斷出exascale級(jí)計(jì)算可能在2020年實(shí)現(xiàn)。
高性能計(jì)算(HPC)社區(qū)已經(jīng)把exascale計(jì)算看做一個(gè)重要的里程碑。英特爾已經(jīng)創(chuàng)建了一個(gè)系列的大型多核處理器,稱為Phi,英特爾希望Phi將來(lái)可以作為exascale計(jì)算機(jī)的基礎(chǔ)。
Dongarra勾勒出了exascale機(jī)器的一些特點(diǎn):這樣的機(jī)器的節(jié)點(diǎn)數(shù)量可能會(huì)介于10萬(wàn)和100萬(wàn)之間,將能夠在任何給定的時(shí)間執(zhí)行多達(dá)十億個(gè)線程。單個(gè)節(jié)點(diǎn)的性能應(yīng)該介于1.5和15teraflops之間,并且每秒將需要有200到400千兆字節(jié)的吞吐量。
Dongarra表示,超級(jí)計(jì)算機(jī)制造商將不得不構(gòu)建他們的機(jī)器,使其成本和能耗并不會(huì)和性能一樣以線性方式增加。

軟件挑戰(zhàn)
除了硬件上的挑戰(zhàn),exascale級(jí)超級(jí)計(jì)算機(jī)的設(shè)計(jì)師也必須解決軟件問(wèn)題。今天的機(jī)器在許多不同的節(jié)點(diǎn)間傳遞任務(wù),但這種方法隨著節(jié)點(diǎn)數(shù)量的增加需要進(jìn)行精簡(jiǎn)。
Dongarra 表示:“目前我們的并行處理模型是一個(gè)Fork/Join模型,但是你不能在exascale級(jí)別上這么做。我們必須改變我們的模型,我們必須更加同步。”同時(shí),算法需要開(kāi)發(fā),以減少整體節(jié)點(diǎn)之間的通信量。
另外,還必須考慮其他因素。軟件必須配備內(nèi)置的例程以進(jìn)行優(yōu)化。“我們不能依靠用戶正確的設(shè)置讓軟件在接近峰值性能的地方運(yùn)行,” Dongarra說(shuō)。故障恢復(fù)將是另一個(gè)重要功能,重復(fù)性的結(jié)果或復(fù)雜的計(jì)算在運(yùn)行時(shí)將會(huì)不止一次的產(chǎn)生完全相同的答案。
重現(xiàn)性可能看起來(lái)像一臺(tái)計(jì)算機(jī)的明顯特征。但事實(shí)上,它對(duì)多節(jié)點(diǎn)超級(jí)計(jì)算機(jī)上的龐大計(jì)算來(lái)說(shuō)可能是一個(gè)挑戰(zhàn)。
“從數(shù)值方法的角度來(lái)看,很難保證操作可重復(fù)性,” Dongarra說(shuō),“主要的問(wèn)題是對(duì)一個(gè)并行的總結(jié)數(shù)據(jù)做簡(jiǎn)化。如果我不能保證這些聚在一起的數(shù)字的順序,我就會(huì)有不同的舍入誤差。這樣微小的差異被放大到某種程度,可能導(dǎo)致答案災(zāi)難性的分歧。”
Dongarra 表示:“我們必須想出一個(gè)場(chǎng)景,在該場(chǎng)景中,我們可以保證這些操作的順序完成,所以我們可以保證我們能得到相同的結(jié)果。”