亞馬遜AWS業(yè)務(wù)副總裁:如何在基礎(chǔ)設(shè)施上降成本
亞馬遜Amazon Web Services業(yè)務(wù)的副總裁、著名工程師詹姆斯?jié)h密爾頓(James Hamilton)在AWS re:Invent大會上解釋了公司是如何盡可能地將成本降低,同時又盡可能地將創(chuàng)新提高的,其實關(guān)鍵在于控制基礎(chǔ)設(shè)施。
如果有人還想搞清大型云服務(wù)供應(yīng)商如何不斷推出新功能并降低服務(wù)價格的話,不妨聽聽詹姆斯?jié)h密爾頓是如何說的。他的回答其實很簡單,就兩個字:規(guī)模。
規(guī)模就是AWS成功的秘訣。為了說明這個問題,漢密爾頓指出了一個經(jīng)常被引用的統(tǒng)計數(shù)據(jù):當亞馬遜網(wǎng)站的銷售額達到70億美元的時候,為了支持公司的整體運作,AWS每天都要增加大量新的容量。他補充說:“實際上,它當時的規(guī)模比那大得多,公司的業(yè)務(wù)每一天都在壯大。”
漢密爾頓說,一周七天就是AWS的周轉(zhuǎn)時間。AWS現(xiàn)在已經(jīng)在全球9個地區(qū)部署了服務(wù)器,有些地區(qū)還建了多個數(shù)據(jù)中心。他解釋說,你建的數(shù)據(jù)中心越多,你獲得的業(yè)績就越好,冒的風險就越小。在創(chuàng)新方面,你能做的***的事情就是降低失敗的風險,加快周轉(zhuǎn)的速度。
大規(guī)模提供一項服務(wù)的成本主要取決于基礎(chǔ)設(shè)施。漢密爾頓說,軟件技術(shù)方面的成本幾乎為零。
因此他認為他在過去5年里看到的創(chuàng)新比之前他在20年里看到的創(chuàng)新還要多。因為象亞馬遜、Facebook、谷歌(微博)和微軟那樣的公司,已經(jīng)在調(diào)整基礎(chǔ)設(shè)施的規(guī)模方面做得非常好了。
亞馬遜的團隊在網(wǎng)上交易數(shù)據(jù)庫性能上創(chuàng)造了一項世界紀錄:平均每秒鐘達成69項交易!他笑稱:“派對的時間很長啊。”現(xiàn)在,亞馬遜的一個DynamoDB服務(wù)地區(qū)每月可處理2萬億條指令。亞馬遜S3存儲系統(tǒng)的高峰處理速度達到了每秒150萬條指令。
亞馬遜是如何保證將成本降到盡可能低,同時讓創(chuàng)新保持盡可能高的呢?
服務(wù)器
與谷歌和Facebook一樣,亞馬遜也在設(shè)計自己的服務(wù)器,那些服務(wù)器都是專門為他們提供的服務(wù)而定制的。以前,漢密爾頓曾經(jīng)勸公司只從服務(wù)器廠商申請1或2個SKU以降低復雜性,但是時過境遷,現(xiàn)在的情況已經(jīng)不同了。一旦你控制了這個過程,直接帶著設(shè)計去服務(wù)器廠商那里的話,可以將價格砍掉30%,而且這樣做還可以提高性能和加快周轉(zhuǎn)速度。
他說:“現(xiàn)在,你可能會希望你的客戶不要去優(yōu)化你的硬件。”
存儲設(shè)備
漢密爾頓在AWS客戶定制存儲資源問題上沒有透露太多的內(nèi)容,但他談了一則軼聞。現(xiàn)在你在市面上能夠買到的最密集的存儲服務(wù)器,是由廣達電腦設(shè)計的。滿滿一機架的存儲服務(wù)器的重量大約為四分之三噸。漢密爾頓說:“我們有更緊密的設(shè)計,它的重量超過了1噸。”
網(wǎng)絡(luò)
網(wǎng)絡(luò)是一個大問題,因為價格不斷上漲和很多公司過分降低其數(shù)據(jù)中心的帶寬。
漢密爾頓說,在很多典型案例中,每60臺服務(wù)器中也只有1臺服務(wù)器可以滿負荷運作。它們的工作效率還不錯,因為整體交易量還不算大。當然,它們并不是真地在為AWS服務(wù)工作。AWS無法控制用戶們運行的所有負載。他解釋說:如果他們運行某些應(yīng)用比如RapReduce,集群中的每一臺服務(wù)器可能都會達到100%的帶寬容量。
與Facebook、谷歌一樣,AWS也在開發(fā)自己的硬件和產(chǎn)品,漢密爾頓說:“我們已經(jīng)接管了網(wǎng)絡(luò),我們突然就能象平時一樣做各種事了。”
在數(shù)據(jù)中心外面,AWS還將投資各種關(guān)鍵的資源,以保證它能獲得所需的帶寬。
發(fā)電
AWS還建了自己的電站,鑒于每一個電站的發(fā)電量都在50到100兆瓦,因此這絕不是一項規(guī)模較小的資產(chǎn)。
設(shè)備可能會非常昂貴。亞馬遜甚至還聘請了固件工程師,他的任務(wù)就是重新編寫通常在開關(guān)設(shè)備上運行的軟件。
漢密爾頓說:“我們的目標不是保護發(fā)電機,而是保證服務(wù)器可以持續(xù)運行。”
資源利用
各種公司都曾在如何高效利用各種資源的問題上糾結(jié)了若干年,因為他們購買了大量的服務(wù)器來保證他們可以控制高峰時期的工作負載,并且在其他時間保持空閑。它并未改變它們是首先被亞馬遜購買的產(chǎn)品,它并未改變這一事實。實際上,資源利用的問題是AWS在降低成本時遇到的***的問題。
當你在網(wǎng)絡(luò)上規(guī)模化運營時,能夠改變這一數(shù)據(jù)的任何東西都值很多錢。
幸運地是,亞馬遜的一家正宗的云服務(wù)供應(yīng)商,因此它的設(shè)備利用率通常都在20%以上。
AWS推出了Spot Instance定價系統(tǒng)以保證在服務(wù)計費時將沒有被使用過的資源剔出來,希望以更低的利潤將它賣出去。漢密爾頓說,任何客戶支付的服務(wù)費超過了運行那些服務(wù)的成本的話,從補償資本開支的角度來說都是值得的。
漢密爾頓笑稱,如果分析師們還是不給亞馬遜股票買入評級的話,那他們可能并不了解AWS。他說:“我們認為云計算市場與電子商務(wù)市場一樣,都是薄利多銷的行業(yè)。”