電商混合云在1號店的運維實踐
嘉賓介紹
黃哲鏗
––– 1號店,技術(shù)總監(jiān)
負責云計算平臺、移動分銷、互聯(lián)網(wǎng)金融等領(lǐng)域工作
曾服務于MySteel,曾作為技術(shù)合伙人參與龍財網(wǎng)、UFO鞋業(yè)等創(chuàng)業(yè)項目
2015年出版?zhèn)€人專著《技術(shù)管理之巔—如何從零打造高質(zhì)效互聯(lián)網(wǎng)技術(shù)團隊》
個人擁有多項技術(shù)發(fā)明和專利,在超大型電商系統(tǒng)設(shè)計、大型IT團隊治理等領(lǐng)域享有盛譽。
熱愛生活和搖滾樂,曾接受《芭莎男士》等時尚雜志采訪。
專欄介紹
本專欄文章內(nèi)容,主要節(jié)選自我的新書《技術(shù)管理之巔—如何從零打造高質(zhì)效互聯(lián)網(wǎng)技術(shù)團隊》。本文是其中第一篇,希望大家喜愛。
在技術(shù)開發(fā)的整個周期中,運維平臺是支撐生意發(fā)展最基本的保證。今天跟大家分享混合云在電商中的應用,如何做到成本優(yōu)化和高效穩(wěn)定兼顧,下面我們一起來解密1號店的電商混合云。
混合云
融合了公有云和私有云,是近年來云計算的主要模式和發(fā)展方向。我們已經(jīng)知道私有云主要是面向企業(yè)用戶,出于安全考慮,企業(yè)更愿意將數(shù)據(jù)存放在私有云中,但是同時又希望可以獲得公有云的計算資源。
在這種情況下混合云被越來越多的采用,它將公有云和私有云進行混合和匹配,以獲得最佳的效果,這種個性化的解決方案,達到了既省錢又安全的目的。
下面我們跟隨1號店的案例,來了解電商企業(yè)是如何思考和運用混合云的:
1號店營銷帶來各種業(yè)務高峰
1號店的營銷創(chuàng)意常常能夠讓人眼前一亮,留下深刻印象,引發(fā)互聯(lián)網(wǎng)業(yè)界的大范圍傳播,如下圖:
“牛奶吉尼斯”活動,目標是沖擊“當日銷售牛奶盒數(shù)最多”的吉尼斯世界記錄。
“11•11屬于全人類”活動,是在11月11日當天,包下了紐約時代廣場的大屏幕,展示“11•11屬于全人類”的文字,喊出了電商人的心聲,借此調(diào)侃國內(nèi)某電商巨頭想壟斷“雙11”這個商標的荒唐行徑。
如何應對突增的訪問壓力?
成功的營銷帶來的是數(shù)十倍于平日的訪問壓力,如何應對這些訪問壓力?最直接的方式是增加服務器。
然而,我們注意到一個問題,數(shù)百臺的服務器如果只是為了每年幾次的營銷活動而準備,利用率是非常低的,對公司而言這樣的成本投入是不劃算的,所以我們考慮用公有云的服務器來應對營銷活動的訪問壓力。
1號店已經(jīng)建立起了頗具規(guī)模的私有云平臺,在此基礎(chǔ)上構(gòu)建了混合云管理平臺,混合云的接入和使用過程如圖所示。
1.服務器校驗
首先,混合云平臺對公有云提供的服務器進行校驗,校驗內(nèi)容包括IP地址、內(nèi)存、硬盤等信息是否跟清單匹配,通過校驗后,混合云平臺把機器配置模板和鏡像傳輸給公有云機器。
2.服務器授權(quán)
接著,混合云平臺對公有云機器進行授權(quán),通過授權(quán)的混合云機器才能夠訪問私有云網(wǎng)絡資源,否則訪問會被拒絕訪問。
3.公有云初始化
然后,通過之前拷貝過來的配置模板,對公有云機器進行初始化,使公有云機器從一臺裸機變成符合生產(chǎn)環(huán)境配置要求的生產(chǎn)機器。
#p#
4.部署及回收公有云
最后,通過自動化發(fā)布程序,把應用部署到公有云機器上,它就可以對外提供服務了。在使用結(jié)束后,混合云平臺會對混合云機器的授權(quán)進行回收、費用結(jié)算等操作。
5.混合云管理平臺工作流程
下圖是混合云管理平臺工作流程圖,私有云和公有云是通過混合云管理平臺進行整合,共同為業(yè)務提供服務。
實施混合云的6項注意
在實施混合云的過程中,需要注意6個方面:成熟的私有云平臺、帶寬和網(wǎng)絡延遲、IO性能、API接口支持、穩(wěn)定性和安全性。
下面我們分別加以敘說。
1.成熟的私有云平臺
首先需要強調(diào)的是,成熟的私有云平臺是實現(xiàn)混合云的前提條件。否則還是少談混合云的事情,否則顧此失彼,首尾難顧。這是因為:
只有企業(yè)自身已具備完善的管理流程、高度自動化的運維管理和監(jiān)控預警系統(tǒng),在這基礎(chǔ)上,再將公有云的資源納入到管理體系中,才能夠很好的對這些外部資源進行高效管理。
與此同時,企業(yè)在發(fā)展的過程中,需要逐步進行運維平臺的升級,一步步過渡到自動化運維、私有云的階段,這些都是不斷積累和演進的結(jié)果。
2.帶寬和網(wǎng)絡延遲
在業(yè)務邏輯復雜的電商系統(tǒng)中,對數(shù)據(jù)交互、交易事務的完整性要求很高,幾十毫秒的數(shù)據(jù)延遲都可能導致交易失敗,混合云的場景下網(wǎng)絡延遲是不可避免的,這就必須從應用層面做出規(guī)定:
核心交易相關(guān)應用不能使用混合云,同時優(yōu)化應用程序,以減少帶寬。
比如,有的開發(fā)人員喜歡在一個for循環(huán)里進行程序調(diào)用,在混合云的架構(gòu)中開銷就太大了,所以必須把循環(huán)調(diào)用,改成批處理方式去提交作業(yè)。
一般而言,能夠接受的延遲是10毫秒以內(nèi)。通過拉專線或光纜,連接私有云和公有云,如果兩個IDC在不同的城市,那么距離一般需要控制在200公里左右。
3.IO性能
公有云服商機器的IO性能差別是很大的,在選擇供應商的時候要關(guān)注IO性能,如果把主從關(guān)系的數(shù)據(jù)庫放在公有云上,那對IO的要求是非常高的,許多應用場景中,程序大量讀取備庫,稍有性能問題,會導致線上事故。
選擇使用了SSD硬盤的公有云提供商,是個不錯的選擇。
4.API接口支持
良好的私有云平臺應該有豐富的API接口支持,方便跟公有云對接,提升接入效率,使云服務的費用結(jié)算更精確。
比如,當完成了跟公有云的對接后,我們可以隨時開通公有云的服務,而且使用了多少機器、使用了多久,都可以實時查到,真正做到像使用“自來水”一樣的使用云服務。
5.穩(wěn)定性
云服務發(fā)生故障的概率還是不小的,這需要流量調(diào)度機制足夠靈活,一旦出現(xiàn)問題可以立即切換回私有云,根據(jù)業(yè)務特點能夠?qū)崿F(xiàn)秒級、分鐘級的切換時效。
另外對公有云要做比較完備的監(jiān)控、心跳檢測等等,一旦發(fā)現(xiàn)服務不穩(wěn)定,可以通過GSLB,把流量切回私有云。
相反的,如果私有云有問題了,也可以把一些流量切換到公有云上,這是混合云平臺必須具備的能力。
6.安全性
將公有云與私有云進行整合后,公有云機器相當于進入了企業(yè)數(shù)據(jù)中心,如果公有云的機器沒有做好安全管理工作的話,會對企業(yè)數(shù)據(jù)中心造成威脅。因此公有云和私有云的通訊必須做嚴格的審計和限制,敏感數(shù)據(jù)不保存在云端。
安全問題,我個人認為主要有兩個挑戰(zhàn):
-
一個是在技術(shù)層面,技術(shù)問題也許經(jīng)過一段時間,隨著技術(shù)的發(fā)展會得到解決;
-
另一個是心理層面,國內(nèi)企業(yè)的老板們對云的安全性都有顧慮。他們覺得“錢放在外人那里,哪有放在我家枕頭下安全”,
如果今天你跟你的老板說我的用戶我的數(shù)據(jù)都在公有云里,老板一下子就把你拍死了,你沒有機會跟他解釋,在技術(shù)是如何的有安全保障。
所以,怎么合理規(guī)劃、站在公司的角度來充分考量整個方案(而不僅僅是技術(shù)方案),非常重要。
以上就是我在混合云實踐中的一些思考和經(jīng)驗,正如我在新出版的《技術(shù)管理之巔》一書中介紹的,希望對大家有一些借鑒作用:
技術(shù)與業(yè)務融合,能夠驅(qū)動業(yè)務的發(fā)展,發(fā)揮技術(shù)的巨大價值。
如何一起愉快地發(fā)展
“高效運維”公眾號(如下二維碼)值得您的關(guān)注,作為高效運維系列微信群的唯一官方公眾號,每周發(fā)表多篇干貨滿滿的原創(chuàng)好文:來自于系列群的討論精華、運維講壇線上/線下活動精彩分享及部分群友原創(chuàng)。“高效運維”也是互聯(lián)網(wǎng)專欄《高效運維最佳實踐》及運維2.0官方公眾號。
提示:目前高效運維兩個微信主群僅有少量珍貴席位,如您愿意,可添加蕭田國個人微信號 xiaotianguo 為好友,進行申請;或申請加入我們技術(shù)交流群(技術(shù)討論為主,沒有主群那么多規(guī)矩,更熱鬧)。
重要提示:除非事先獲得授權(quán),請在本公眾號發(fā)布2天后,才能轉(zhuǎn)載本文。尊重知識,請必須全文轉(zhuǎn)載,并包括本行及如下二維碼。