數(shù)據(jù)中心的建設(shè)之路 滿漢全席還是營(yíng)養(yǎng)快餐?
根據(jù)“互聯(lián)網(wǎng)女皇”Mary Meeker 2012年的互聯(lián)網(wǎng)趨勢(shì)的報(bào)告,截止2011年底,中國(guó)網(wǎng)民數(shù)量達(dá)到了5.13億,數(shù)量排名居全球第一。而在全球市值TOP 25的互聯(lián)網(wǎng)公司中,來(lái)自美國(guó)的有14家,來(lái)自中國(guó)的有6家,俄羅斯2家,日本和韓國(guó)均僅有1家。由此可見,中國(guó)不僅是全球最大和發(fā)展最快的互聯(lián)網(wǎng)市場(chǎng),也是互聯(lián)網(wǎng)發(fā)展水平最高的國(guó)家之一。
互聯(lián)網(wǎng)公司的多樣化服務(wù)是如何從一段段代碼變?yōu)橛脩艚K端上的應(yīng)用?其源頭就是通過(guò)規(guī)模龐大遍布全國(guó)甚至全球的數(shù)據(jù)中心,而服務(wù)器的數(shù)量通常是判斷IT基礎(chǔ)設(shè)施最主要的一個(gè)評(píng)估維度。目前全球服務(wù)器數(shù)量最多的公司是谷歌,關(guān)于谷歌到底有多少臺(tái)服務(wù)器一直是業(yè)界之謎,據(jù)說(shuō)在2009年的時(shí)候已經(jīng)超過(guò)了100萬(wàn)臺(tái),占當(dāng)時(shí)全球所有服務(wù)器總數(shù)的2%。電子商務(wù)起家,以云計(jì)算為未來(lái)主營(yíng)業(yè)務(wù)的亞馬遜,據(jù)分析截至2012年3月的服務(wù)器總臺(tái)數(shù)約為45萬(wàn)4千臺(tái)。而國(guó)內(nèi)的互聯(lián)網(wǎng)公司也不甘落后,騰訊的服務(wù)器規(guī)模已超過(guò)30萬(wàn)臺(tái),與Facebook基本相當(dāng)。
互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)與其他行業(yè)相比,區(qū)別主要在于規(guī)模和成本兩個(gè)方面。
首先看規(guī)模,一方面是業(yè)務(wù)的規(guī)模,互聯(lián)網(wǎng)公司都在經(jīng)歷著從單一業(yè)務(wù)、到單一業(yè)務(wù)群、到多業(yè)務(wù)群、到開放平臺(tái)的發(fā)展道路,以騰訊為例,其開放平臺(tái)已有近30萬(wàn)開發(fā)者入駐、有超過(guò)4萬(wàn)款應(yīng)用提交上線申請(qǐng)。因此IT基礎(chǔ)設(shè)施需要滿足龐大的不同種類的業(yè)務(wù)數(shù)量的多樣化需求。
另一方面是用戶數(shù),以剛剛過(guò)去的2012年11月11日的天貓大促銷來(lái)說(shuō),在大促剛開始的一分鐘內(nèi),即有1000萬(wàn)用戶涌入,全天處理訂單數(shù)量超過(guò)一億,這樣的突發(fā)用戶的規(guī)模,其他行業(yè)相比,即便是最嚴(yán)苛的12306的網(wǎng)站相比,也不過(guò)每天166萬(wàn)訂單。接下來(lái)我們看成敗,對(duì)于互聯(lián)網(wǎng)公司來(lái)說(shuō),在很長(zhǎng)的一段時(shí)間內(nèi),需要花錢賺吆喝、用戶和流量,甚至大多數(shù)互聯(lián)網(wǎng)公司還沒有實(shí)現(xiàn)盈利。因此IT基礎(chǔ)設(shè)施的投資和建設(shè),不能照搬其他行業(yè)已經(jīng)走過(guò)的道路。那么,該如何建設(shè)互聯(lián)網(wǎng)數(shù)據(jù)中心?
通常看來(lái),擺在面前的有三條道路。我們拿吃飯來(lái)打個(gè)比方,有三種不同的吃法。第一種吃法是大排檔,所謂大排檔就是但求喂飽肚子,不論營(yíng)養(yǎng)衛(wèi)生,也就是有需求就上,不管好壞只求能用。這是很多初創(chuàng)型互聯(lián)網(wǎng)公司的必經(jīng)之路,然而隨著用戶數(shù)量的增加,業(yè)務(wù)種類的豐富,流量模型越來(lái)越復(fù)雜,大排檔式的數(shù)據(jù)中心網(wǎng)絡(luò)無(wú)法滿足要求。第二種吃法是滿漢全席,所謂的滿漢全就是想吃的一定有,不想吃的也有,就是只有想不到的,沒有吃不到的。也許其他行業(yè)用戶的做法正是采用滿漢全席的方案,但是其性價(jià)比無(wú)法滿足互聯(lián)網(wǎng)公司持續(xù)的業(yè)務(wù)擴(kuò)展。業(yè)界盛傳的一個(gè)故事是,Google當(dāng)年也曾聘請(qǐng)了IBM為他們?cè)O(shè)計(jì)數(shù)據(jù)中心,但經(jīng)過(guò)認(rèn)真的核算后,發(fā)現(xiàn)如果采用此方案則公司會(huì)破產(chǎn)。第三種吃法就是營(yíng)養(yǎng)快餐,所謂的營(yíng)養(yǎng)快餐主要有兩個(gè)特點(diǎn),一方面是可以豐儉由人,按需所取,另一方面是可以快速?gòu)?fù)制、標(biāo)準(zhǔn)化經(jīng)營(yíng)。無(wú)數(shù)的事實(shí)經(jīng)驗(yàn)證明,絕大多數(shù)的互聯(lián)網(wǎng)公司的數(shù)據(jù)中心建設(shè)都走上了營(yíng)養(yǎng)快餐式的道路。
營(yíng)養(yǎng)快餐式的互聯(lián)網(wǎng)數(shù)據(jù)中心建設(shè)道路如何走,主要需要關(guān)注四個(gè)方面:模型化,開放性,可用性,簡(jiǎn)易快捷性。
首先是模型化。在互聯(lián)網(wǎng)領(lǐng)域,業(yè)務(wù)發(fā)展和變化的速度永遠(yuǎn)快于IT基礎(chǔ)設(shè)施的速度。如果針對(duì)不同的業(yè)務(wù)應(yīng)用設(shè)計(jì)獨(dú)立的數(shù)據(jù)中心,也就是業(yè)務(wù)與資源綁定,這樣帶來(lái)的問題輕則是資源利用效率低下,不同數(shù)據(jù)中心模型管理運(yùn)維的復(fù)雜度提升,更重要的是不同業(yè)務(wù)發(fā)展速度的變化最終會(huì)讓IT基礎(chǔ)設(shè)施的設(shè)計(jì)和運(yùn)維無(wú)計(jì)可施。因此,大多數(shù)互聯(lián)網(wǎng)公司會(huì)采用統(tǒng)一的數(shù)據(jù)中心基礎(chǔ)設(shè)施模型以承載多樣化的業(yè)務(wù),一方面在提升資源利用率和運(yùn)維效率的同時(shí)加快業(yè)務(wù)部署速度,另一方面通過(guò)對(duì)于后續(xù)業(yè)務(wù)的預(yù)估和新技術(shù)的采用和積累,不斷優(yōu)化數(shù)據(jù)中心基礎(chǔ)設(shè)施模型使其滿足業(yè)務(wù)變化的要求。
第二是開放性?;ヂ?lián)網(wǎng)公司具備很強(qiáng)的技術(shù)實(shí)力,用“只有想不到,沒有做不到”來(lái)形容他們也不為過(guò),尤其是在IT基礎(chǔ)設(shè)施層面。放眼看國(guó)外的谷歌,除了提供大家所熟識(shí)的搜索及Android平臺(tái)業(yè)務(wù)以外,其所有IT基礎(chǔ)設(shè)施從服務(wù)器、存儲(chǔ)到網(wǎng)絡(luò),甚至是廣域網(wǎng)的鏈路資源均是自主研發(fā)。因此,當(dāng)某一天他們從ICP華麗地向ISP轉(zhuǎn)身的時(shí)候,我們應(yīng)該不會(huì)意外。而國(guó)內(nèi)互聯(lián)網(wǎng)領(lǐng)域大多數(shù)用戶近期都有一項(xiàng)很著名的工程,叫做“去IOE工程”,就是在自己的基礎(chǔ)設(shè)施中,去掉IBM大機(jī)/小機(jī)、Oracle的數(shù)據(jù)庫(kù)、EMC的存儲(chǔ)等,這些雖然技術(shù)領(lǐng)先產(chǎn)品可靠,但是由于采用了大量的私有化技術(shù),使用戶后續(xù)的發(fā)展被強(qiáng)制綁定,長(zhǎng)此以往,前面講到的Google和IBM的故事可能就要成為現(xiàn)實(shí)。正因如此,幾乎所有的互聯(lián)網(wǎng)公司只會(huì)選擇開放標(biāo)準(zhǔn)的技術(shù)與產(chǎn)品,
第三是可用性。對(duì)于部分傳統(tǒng)行業(yè)來(lái)說(shuō),IT基礎(chǔ)設(shè)施的要求只是連通就可以,有時(shí)候即便是出現(xiàn)中斷,對(duì)于業(yè)務(wù)影響也不是很大。而互聯(lián)網(wǎng)行業(yè)來(lái)說(shuō),IT部門是主營(yíng)的業(yè)務(wù)部門,而IT基礎(chǔ)設(shè)施是生命線,任何的故障都會(huì)造成重大且直接的損失,甚至是毀掉一家互聯(lián)網(wǎng)公司。并且由于前面的“去IOE工程”,基礎(chǔ)設(shè)施的可靠性不能寄托在采用私有技術(shù)高成本的商用產(chǎn)品上,系統(tǒng)設(shè)計(jì)的可用性和冗余性就尤為重要。在架構(gòu)設(shè)計(jì)、技術(shù)路線選擇、產(chǎn)品選型等各方面均需要充分評(píng)估與驗(yàn)證。雖然互聯(lián)網(wǎng)用戶技術(shù)實(shí)力很強(qiáng),并且富有創(chuàng)新精神,但是在數(shù)據(jù)中心方面,絕對(duì)不會(huì)為了技術(shù)而技術(shù),高可用性永遠(yuǎn)是擺在第一位的。
第四是簡(jiǎn)易性與快捷性。隨著基礎(chǔ)設(shè)施規(guī)模的不斷增加,如何用最少的人高效且準(zhǔn)確的管理維護(hù)的大規(guī)?;A(chǔ)設(shè)施,是互聯(lián)網(wǎng)用戶面對(duì)的又一個(gè)問題。而在互聯(lián)網(wǎng)行業(yè),一個(gè)應(yīng)用或者游戲從開發(fā)到上線通常只有幾個(gè)月的時(shí)間,在新業(yè)務(wù)上線或者變更的時(shí)候,如何將IT基礎(chǔ)設(shè)施從原有下單到基礎(chǔ)設(shè)施部署一個(gè)月以上的時(shí)間,縮短到兩周以內(nèi)甚至更短。在激烈競(jìng)爭(zhēng)的互聯(lián)網(wǎng)市場(chǎng),業(yè)務(wù)的率先上線代表著搶占了市場(chǎng)的先機(jī),因此業(yè)務(wù)部署的快捷性成為互聯(lián)網(wǎng)公司綜合競(jìng)爭(zhēng)力的重要一環(huán)。如果騰訊的微信再晚一個(gè)月出來(lái)的話,那么也許米聊就已經(jīng)一統(tǒng)江湖,小米手機(jī)將會(huì)賣的更多。
基于以上四方面的要求,目前互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)中心技術(shù)發(fā)展的速度得到了所有行業(yè)用戶的高度認(rèn)可?;ヂ?lián)網(wǎng)數(shù)據(jù)中心的技術(shù)領(lǐng)先,個(gè)人認(rèn)為是由其與生俱來(lái)的基因所決定的。也許營(yíng)銷能夠讓一家公司成名,資本能夠讓一家公司富有,商業(yè)模式能夠讓一家公司搶占先機(jī),但放眼全球,任何一家成功的互聯(lián)網(wǎng)公司,強(qiáng)大的技術(shù)實(shí)力是其成功的必要條件,也是其長(zhǎng)期的核心競(jìng)爭(zhēng)力所在。因此,各大互聯(lián)網(wǎng)公司都在自己可能會(huì)涉及的領(lǐng)域毫不吝嗇的加強(qiáng)在各方面的人才和技術(shù)儲(chǔ)備。就拿數(shù)據(jù)中心來(lái)說(shuō),全球的互聯(lián)網(wǎng)大鱷們已經(jīng)聘請(qǐng)了很多業(yè)內(nèi)頂尖的能源、制冷、布線、存儲(chǔ)、服務(wù)器、甚至網(wǎng)絡(luò)等方面的研究人員,部分研發(fā)的成果已經(jīng)達(dá)到了業(yè)界領(lǐng)先的水平。從公開的資料中我們已經(jīng)看到了Google的廣域網(wǎng)Openflow實(shí)踐,使其廣域網(wǎng)鏈路利用效率提升至接近100%;我們也看到了國(guó)內(nèi)騰訊、百度、阿里三家互聯(lián)網(wǎng)公司共同推進(jìn)的天蝎計(jì)劃,通過(guò)提出一種統(tǒng)一標(biāo)準(zhǔn)的設(shè)計(jì)規(guī)范,采用以機(jī)架為單元,模塊化的設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)中心服務(wù)器低成本的可靠靈活擴(kuò)展。現(xiàn)階段大部分互聯(lián)網(wǎng)公司只是做“營(yíng)養(yǎng)快餐”的“好廚子”,也許過(guò)不了多久,他們就會(huì)構(gòu)建其完善的“營(yíng)養(yǎng)快餐”的全產(chǎn)業(yè)鏈。