專訪阿里巴巴勝通:“雙十一”的備戰(zhàn)及去IOE這條路
原創(chuàng)【51CTO原創(chuàng)稿件】2013年7月13日, 由阿里巴巴集團(tuán)主辦的ADC·阿里技術(shù)嘉年華將在杭州海外海國際會展中心隆重開幕。51CTO記者很榮幸受邀參與了本次技術(shù)峰會,并采訪到了阿里巴巴的DBA陳昭尚(花名:勝通),就淘寶“雙十一”促銷活動相關(guān)技術(shù)和 去IOE 相關(guān)問題進(jìn)行交流與探討。對比感興趣的朋友,不妨看看本文的采訪實(shí)錄。
以下是采訪實(shí)錄:
“雙十一”的前奏和預(yù)熱
51CTO:勝通您好,首先請做一下自我介紹。
勝通:我是陳招尚,花名勝通。零七年加入阿里巴巴,負(fù)責(zé)過淘寶的所有的核心系統(tǒng)數(shù)據(jù)庫,經(jīng)歷和參與了淘寶幾乎所有核心數(shù)據(jù)庫的改造升級過程,淘寶***個(gè)分布式系統(tǒng)、***個(gè)核心系統(tǒng)分布式改造、歷年雙十一的數(shù)據(jù)庫主要負(fù)責(zé)人。
51CTO:那您在阿里巴巴目前主要職責(zé)是什么?
勝通:阿里巴巴這個(gè)團(tuán)隊(duì)分了很多方向,有的是更專注基礎(chǔ)的,有的是專注產(chǎn)品應(yīng)用的。產(chǎn)品應(yīng)用就是我們數(shù)據(jù)庫系統(tǒng)應(yīng)用在具體的產(chǎn)品里面,***事件這種。有的是專注集團(tuán)核心的層面的,還有是專注一些類似的核心產(chǎn)品研發(fā)。比方說我們的數(shù)據(jù)流技術(shù),這方面的新產(chǎn)品研發(fā)。我個(gè)人是在產(chǎn)品的應(yīng)用,就是將數(shù)據(jù)庫應(yīng)用到***的應(yīng)用的狀態(tài),就是使用上面。
51CTO:阿里巴巴每天數(shù)據(jù)量那么大,作為一個(gè)DBA而言,是不是會感覺比一般企業(yè)的DBA更有壓力?
勝通:說實(shí)話壓力確實(shí)有,在阿里來說的確得到很大的磨煉,有的時(shí)候,很多問題都是別人追著你來解決,那你就必須頂著這個(gè)壓力去做。我認(rèn)為這樣有壓力其實(shí)就有鍛煉的機(jī)會,我們不能夠逃避。
51CTO:在去年淘寶“雙十一”促銷活動中,淘寶技術(shù)支撐受到了很多網(wǎng)民的追捧和認(rèn)可,請問阿里在購物高峰的時(shí)候,怎么樣才能保證網(wǎng)站能夠正常的運(yùn)行?你們利用了哪些相關(guān)的技術(shù)?
勝通:像“雙十一”這種非常重要的促銷活動,我們?yōu)樗鼫?zhǔn)備了很多。不是說我用了一個(gè)技術(shù),就可以解決這些事情,包括很多方面。我可以簡單講一下我們做了一些主要的準(zhǔn)備的事情。這個(gè)事情做完過后才能保證在“雙十一”當(dāng)天不會出大簍子。
首先我們對業(yè)務(wù)要非常熟悉,核心流程的數(shù)據(jù)量化是***步。
第二步我們系統(tǒng)的,根據(jù)業(yè)務(wù)仔細(xì)研究,然后再根據(jù)業(yè)務(wù)的指標(biāo),我評估它的壓力會有多少,對系統(tǒng)有一個(gè)評估。接下來對它進(jìn)行升級。
51CTO:是不是把升級做好就OK了?
勝通:從去年經(jīng)歷的“雙十一”的經(jīng)驗(yàn)來講,不是把系統(tǒng)升級就OK的。首先想各種預(yù)案,有些預(yù)案數(shù)據(jù)庫就可以直接解決的,出了問題數(shù)據(jù)庫解決。另外數(shù)據(jù)庫解決不了,再想辦法解決。這種全部弄下來以后,我們需要不停地去演練。
第二點(diǎn)就是我們的容量非常準(zhǔn)確地預(yù)估出來。我們預(yù)案估不是拍拍腦袋預(yù)估出來,而是有很多數(shù)據(jù)作為依據(jù),一次交易會有多少個(gè)系統(tǒng)去訪問,會帶來什么東西?如果中間一步斷了,它又會去訪問哪里?***量化,***一位到個(gè)位數(shù)。現(xiàn)在說我我的個(gè)位數(shù)肯定不準(zhǔn),這個(gè)系統(tǒng)會有多少,一天會有多大的數(shù)據(jù)量,這個(gè)容量評估,評估后就是升級。然后再基于所有的各種產(chǎn)品進(jìn)行演練。容災(zāi)這個(gè)事情,如果在“雙十一”真的遇到這種情況,平時(shí)沒有演練的話,就會手忙腳亂。只有不停地鍛煉才會這樣子的結(jié)果,因?yàn)?ldquo;雙十一”是阿里非常重要的一個(gè)活動,我們對它準(zhǔn)備要非常地充分。基本上“雙十一”搞定了,全年的活動就搞定了一大半。
51CTO:淘寶強(qiáng)大的技術(shù)使命會讓很多人聯(lián)想起12306購票,就是一票難求。很多網(wǎng)友就將二者對比,12306能不能應(yīng)用阿里“雙十一”的技術(shù)應(yīng)對搶票的問題,您對這個(gè)事情是怎么看待的?
勝通:淘寶也有有壓力的時(shí)候,在過去并不是說從來就沒有出過簍子,不是這樣的情況,它也是一步一步鍛煉出來。我們看12306在剛出來,在后來一段時(shí)間,個(gè)人認(rèn)為是有很大改進(jìn)的。但這個(gè)改進(jìn),用這樣的技術(shù),用淘寶這種思想去做。我認(rèn)為假如真的投入這樣進(jìn)去,肯定是能夠有很大的緩解。其實(shí)12306有的時(shí)候可能真的不是技術(shù)的問題,客運(yùn)量就只能拉這么拉這么多人,如果超出了這個(gè)范圍,真的是沒辦法。這不是我們計(jì)算技術(shù)能解決的。
51CTO:可能也是客觀的因素,技術(shù)不是主要的因素?
勝通:12306怎么說呢?在我們的政府網(wǎng)站中還算是走的比較遠(yuǎn)的,走的比較快的,政府的其他東西好像還沒有它的步伐邁的快是不是?技術(shù)上我是覺得,雖然說外面有批評。但是他們后期做了很多改進(jìn),我們不能總看到人家一個(gè)缺點(diǎn),看不到他們的改進(jìn)。其實(shí)淘寶也正是因?yàn)橐淮我淮蔚膯栴},一次次地改進(jìn),才有了今天這樣的比較完善的架構(gòu)和技術(shù)體系。
51CTO:今年的“雙十一”你們有做哪些準(zhǔn)備?是階段性的么?還是說從年初就開始著手做這件事了?
勝通:去年“雙十一”過后也遇到很多問題,年后就開始改進(jìn)。今年正式啟動“雙十一”,我們已經(jīng)開始著手做各方面的準(zhǔn)備了。去年的部分問題我們都進(jìn)行修復(fù)了。今年為了解決去年一些比較核心的問題也做了很大的改進(jìn),甚至成立專門的團(tuán)隊(duì)來做這些事。但是有些東西可能還不太方便說。但是我想說的是,今年我們要做的比去年好。去年大家感覺不爽的地方,今年一定不讓大家感覺到不爽,這是我們的目標(biāo)。如果真的還會有,比方說新的業(yè)務(wù)的變化,有的一些新的東西,問題進(jìn)來了,我不知道會不會有,但是我們肯定要對這種情況去分析,去做準(zhǔn)備。
51CTO:您剛剛提到的規(guī)?;\(yùn)維。規(guī)?;\(yùn)維與自動化運(yùn)維的關(guān)系是?淘寶的規(guī)?;\(yùn)維大概是什么樣?
勝通:規(guī)模化運(yùn)維是從面對人的角度來說,自動化運(yùn)維把我們的系統(tǒng)往自動化運(yùn)維方向去做。就是用技術(shù)的手段來解決規(guī)?;瘑栴},是這樣的一個(gè)結(jié)果,它們倆就是這樣的關(guān)系。提到淘寶的規(guī)模化運(yùn)維,其實(shí)之前還沒到這么大的規(guī)模。我們之前可能只有十幾道庫,不能算是規(guī)?;5乾F(xiàn)在三千套了,一旦達(dá)到規(guī)模以后,從機(jī)器的采購到交付到上架,再到上系統(tǒng),再到投入使用。每一個(gè)環(huán)節(jié)都要相互銜接好,因?yàn)槎际遣煌娜藖碜?。每個(gè)環(huán)節(jié)單獨(dú)的一方面,包括程序?qū)ο到y(tǒng)的應(yīng)用,我們需要做到非常一體化的這種,天衣無縫,人介入其中肯定是越來越少了,就是讓系統(tǒng)來實(shí)現(xiàn)這樣子的。#p#
阿里 去IOE 這條路
51CTO:阿里走上 去IOE 這條路,主要是出于什么原因考慮的?
勝通:我覺得是三個(gè)方面的因素推動的:
***方面是直接的因素,我們不會回避,直接的因素是錢的問題。如果再次做一遍成本有點(diǎn)高,這是***點(diǎn)。我們老板講過一句話,IT這個(gè)行業(yè)存在的原因就是為了給大家省錢,效率提高,錢就省下來了,這是最直接的原因。但是它不是唯一的原因,它的占比也不是非常高。
第二方面是本身的資源的問題。比方說,在當(dāng)時(shí)的那套系統(tǒng)環(huán)境下,可能預(yù)計(jì)一年后無法滿足業(yè)務(wù)需求,業(yè)務(wù)的高速發(fā)展絕對會突破當(dāng)時(shí)所能夠達(dá)到的***線,所以我們在整體架構(gòu)上必須要做這樣一個(gè)轉(zhuǎn)變。把這個(gè)比喻為土地的話,可能更好理解。當(dāng)土地不夠用了,必須得要挖更多的土地出來。
第三個(gè)方面是人的因素,也是最重要的一個(gè)原因。當(dāng)時(shí)技術(shù)把控,掌控力這塊,像 Oracle 這么大, IBM 這么大,其實(shí)他們的很多技術(shù)無法滿足我們在推動產(chǎn)品方面的需求。而且他們是一個(gè)邊緣的市場,再加上我們的技術(shù)能力來說,雙方都無法滿足了。
在這種狀態(tài)下,就促使我們走上了 去IOE 這條路。
51CTO:阿里 去IOE 這條路也適用于其它企業(yè)么?
勝通:首先一點(diǎn),我們這個(gè)方向是正確的。但是并不代表所有的企業(yè)都得往這個(gè)方向走,假設(shè)你的技術(shù)沒有那么強(qiáng),而且你還沒有那么到必須走這條路的時(shí)候,提前做這件事情,其實(shí)不太好的。我不是給那些商業(yè)公司打廣告,他們的確在某些方面做的很好, Oracle 的監(jiān)控其實(shí)做的很好。以前看到他們的報(bào)表,我就知道到底是什么問題了。我覺得其實(shí)很好,***走了這條路,我們實(shí)在是因?yàn)榈搅四莻€(gè)時(shí)候,沒有辦法才走這條路的。所以千萬要保持頭腦冷靜一點(diǎn),不要一股腦跟風(fēng)。因?yàn)闃I(yè)界上也有一些比較牛逼的、出名的公司,結(jié)果因?yàn)榧夹g(shù)改造改掛了,也有這種出現(xiàn)過。所以一定要謹(jǐn)慎,但是整體方向上,個(gè)人認(rèn)為是不會錯(cuò)的,如果你有那個(gè)實(shí)力的時(shí)候。
個(gè)人感覺其實(shí)永遠(yuǎn)沒有一個(gè)***的技術(shù),只有一個(gè)最合適的技術(shù)。淘寶早期的時(shí)候,業(yè)務(wù)目標(biāo)是***的,那么可能需要我們以最快的方式滿足業(yè)務(wù),因?yàn)樗且粋€(gè)粗放性的公司。如果一個(gè)粗放性的公司,你說我一開始就走現(xiàn)在這條路可不可以?其實(shí)是可以的,但是商業(yè)市場是否允許你這樣去做,這是自己本身的一個(gè)決斷。這件事情本身是有很大風(fēng)險(xiǎn)的。中間任何地方出了問題,都可能會產(chǎn)生很大的影響??茨闶遣皇怯羞@個(gè)決心去做這件事了,而且做這件事情必須要有個(gè)非常強(qiáng)的組織保障,必須要把其它阻力劃界,然后來做這樣一件事情。
另外一點(diǎn),從技術(shù)上來說,往開放的方向走肯定是正確的。第二要架構(gòu)上靈活。你往這兩個(gè)方向上走肯定是正確的,其實(shí) 去IOE 并不等于是去掉 IBM 、去掉 Oracle 、去掉 EMC 。它只是技術(shù)架構(gòu)本身的一個(gè)革新,我們在走這樣一條路而已。
整體上來說,我是認(rèn)為,從環(huán)境、從時(shí)勢上來看,各公司都有各種不同的策略,還是得根據(jù)自己公司的實(shí)際情況來衡量一下。公司很小的時(shí)候,船小好掉頭,如果你有這個(gè)精力。
51CTO:在 去IOE 整個(gè)過程中,你們遇到的***的困難是什么?或者是遇到了哪些挑戰(zhàn)?
勝通:我大致講一點(diǎn),***點(diǎn)可能很多人不理解是業(yè)務(wù)重要還是技術(shù)重要?你為什么要做這件事情?畢竟你現(xiàn)在完全滿足我一兩年以后的市場。這個(gè)事情其實(shí)你去說服他也很困難,這個(gè)首先組織上要有這個(gè)意識,你上層領(lǐng)導(dǎo)對你做這個(gè)事情的態(tài)度很重要。
還會有一些的想法,比方說有的人會說,你說只有合適的***時(shí)間對不對?我這個(gè)地方到底去不去按照你這條路來走?其實(shí)應(yīng)該根據(jù)我來判斷對不對?一些東西都是很多的應(yīng)用,這個(gè)時(shí)候我是,***總結(jié)多做事,你把事情做出來以后,有的事情不是說當(dāng)時(shí)就能夠證明你是正確的??赡苁莾赡暌院蟆⑷暌院蟛艜l(fā)現(xiàn)這些。如果當(dāng)時(shí)不走這條路,其實(shí)在去年的“雙十一”就非常的困難。
好的,訪談就到這里,非常感謝勝通的分享!各位網(wǎng)友如有相關(guān)問題,歡迎您留言討論。