先睹為快:亞馬遜的世界級(jí)數(shù)據(jù)中心生態(tài)系統(tǒng)
譯文只要亞馬遜的James Hamilton發(fā)言,凡是對(duì)數(shù)據(jù)中心技術(shù)有點(diǎn)興趣的人都會(huì)洗耳恭聽。在今年的AWS re:Invent大會(huì)上,亞馬遜副總裁兼杰出工程師Hamilton描述了歷時(shí)五年對(duì)驅(qū)動(dòng)亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)的數(shù)據(jù)中心生態(tài)系統(tǒng)進(jìn)行的自上下而的全面整改。
網(wǎng)絡(luò)方面需要搞定
Hamilton一開始表示,網(wǎng)絡(luò)是需要改進(jìn)的頭號(hào)目標(biāo)。與網(wǎng)絡(luò)有關(guān)的成本急劇上升,而計(jì)算成本卻一路下跌。首要原因是,亞馬遜的工程師們無法改動(dòng)現(xiàn)成的網(wǎng)絡(luò)設(shè)備和現(xiàn)有協(xié)議,以滿足負(fù)載需求。于是這家公司弄清楚了要做哪些工作,并與一家原始設(shè)計(jì)制造商(ODM)簽訂了合約,制造定制的網(wǎng)絡(luò)設(shè)備。此外,亞馬遜聘請(qǐng)了一隊(duì)人馬,開發(fā)一套新的協(xié)議堆棧,以減少網(wǎng)絡(luò)層次體系和網(wǎng)絡(luò)延遲。
值得關(guān)注的是,Hamilton在整個(gè)發(fā)言期間數(shù)次提到現(xiàn)成的設(shè)備從來不是企業(yè)數(shù)據(jù)中心的上好選擇?,F(xiàn)成設(shè)備旨在滿足一大批客戶的要求,繼承了軟硬件臃腫的毛病,這個(gè)問題讓企業(yè)根本無法對(duì)特定的操作進(jìn)行各種簡(jiǎn)化。
亞馬遜數(shù)據(jù)中心生態(tài)系統(tǒng)概況
隨后,Hamilton詳細(xì)介紹了AWS當(dāng)前的數(shù)據(jù)中心生態(tài)系統(tǒng),首先從該公司的全球基礎(chǔ)設(shè)施開始說起。
圖A
AWS地區(qū)(圖A):亞馬遜將全球分成11個(gè)地區(qū)。這么做為亞馬遜客戶帶來了下列優(yōu)點(diǎn):
- 簡(jiǎn)化了遵從數(shù)據(jù)存儲(chǔ)方面的政府法規(guī)這項(xiàng)任務(wù)。
- 縮短了客戶的網(wǎng)絡(luò)與亞馬遜的轉(zhuǎn)運(yùn)中心(Transit Center)之間的延遲。
Hamilton表示,亞馬遜還很早就決定在各地區(qū)之間鋪設(shè)專用光纖,這消除了爭(zhēng)奪資源的現(xiàn)象,提高了可靠性,縮短了延遲,并且便于容量規(guī)劃。
圖B
AWS可用區(qū)域(圖B):28個(gè)可用區(qū)域分布在AWS的11個(gè)地區(qū),這意味著亞馬遜至少建有28個(gè)數(shù)據(jù)中心。每個(gè)可用區(qū)域都有冗余路徑通向轉(zhuǎn)運(yùn)中心和同一地區(qū)的其他可用區(qū)域,使用密集波分復(fù)用(DWDM)鏈路。亞馬遜要求可用區(qū)域之間的延遲低于2毫秒,可用區(qū)域之間的光纖鏈路必須處理每秒25 Tb的流量負(fù)載。
圖C
AWS數(shù)據(jù)中心(圖C):Hamilton提到亞馬遜選定的數(shù)據(jù)中心規(guī)模為25兆瓦到30兆瓦,相當(dāng)于50000臺(tái)到80000多臺(tái)服務(wù)器。據(jù)Hamilton聲稱,這個(gè)規(guī)模是最優(yōu)規(guī)模:再增大規(guī)模,亞馬遜的投資回報(bào)率就要下降。此外,萬一出現(xiàn)災(zāi)難性故障,更龐大的數(shù)據(jù)中心無異于增加了風(fēng)險(xiǎn)。每個(gè)數(shù)據(jù)中心經(jīng)過精心配置,以處理每秒102 Tb的負(fù)載。
圖D
AWS機(jī)架、服務(wù)器和網(wǎng)卡(圖D):除了網(wǎng)絡(luò)延遲外,Hamilton表示他們還發(fā)現(xiàn)服務(wù)器軟件堆棧方面的延遲無法接受:
- 軟件堆棧包括應(yīng)用程序、訪客操作系統(tǒng)、虛擬機(jī)管理程序和網(wǎng)卡,延遲為數(shù)毫秒。
- 流量通過網(wǎng)卡傳輸,延遲為數(shù)微秒。
- 流量通過光纖鏈路從一臺(tái)服務(wù)器傳輸?shù)搅硪慌_(tái)服務(wù)器,延遲為數(shù)納秒。
為了消除軟件堆棧延遲,現(xiàn)在亞馬遜為每個(gè)訪客提供了一塊虛擬網(wǎng)卡,采用單個(gè)Root輸入/輸出虛擬化(SR-IOV)技術(shù)。Hamilton解釋,使用SR-IOV方面的難點(diǎn)在于,弄清楚如何隔離每個(gè)虛擬網(wǎng)卡、防止分布式拒絕服務(wù)攻擊(DDoS)以及監(jiān)控容量。
圖E
AWS定制服務(wù)器和存儲(chǔ)設(shè)計(jì)(圖E):之前提到了現(xiàn)成的網(wǎng)絡(luò)設(shè)備對(duì)亞馬遜來說是一大阻礙。Hamilton表示,現(xiàn)成的網(wǎng)絡(luò)設(shè)備對(duì)服務(wù)器來說同樣是一大阻礙,于是公司決定制造專有的服務(wù)器、處理器和機(jī)架:
- 服務(wù)器由亞馬遜負(fù)責(zé)設(shè)計(jì)、OEM廠商負(fù)責(zé)制造。
- 處理器采用了亞馬遜與英特爾共同開發(fā)的定制設(shè)計(jì)。
- 亞馬遜機(jī)架里面裝有864個(gè)硬盤,重量超過2000磅。
圖F
AWS電力基礎(chǔ)設(shè)施(圖F):制造專有的網(wǎng)絡(luò)設(shè)備、服務(wù)器、處理器和機(jī)架似乎并不是非同尋常??捎姓l(shuí)想到建造變電站?規(guī)劃和建造變電站似乎是個(gè)漫長(zhǎng)的過程,實(shí)在太漫長(zhǎng)了,而亞馬遜在不斷建造數(shù)據(jù)中心。于是,亞馬遜管理層認(rèn)為,建造自己的變電站、消除瓶頸對(duì)公司最有利。
至于電力方面,與谷歌和微軟一樣,亞馬遜也青睞電力采購(gòu)協(xié)議(Power Purchasing Agreements)以及相關(guān)的可再生能源證書(Renewable Energy Certificate)。
Hamilton的結(jié)束語(yǔ)
Hamilton在發(fā)言結(jié)束時(shí)談到了亞馬遜的“創(chuàng)新步伐”。AWS在迅速發(fā)展,這就帶來了一些管理方面的問題:在競(jìng)爭(zhēng)激烈的市場(chǎng)如何保持靈活。Hamilton語(yǔ)氣歡快地聲稱,AWS正以更快的步伐交付更多的服務(wù),可靠性也有所增強(qiáng)。
英文原文鏈接:http://www.techrepublic.com/article/a-look-at-amazons-world-class-data-center-ecosystem/