通威股份CIO周勇:低成本、普適性的云容災(zāi)成為可能
原創(chuàng)【51CTO.com原創(chuàng)稿件】時(shí)隔三年,再見(jiàn)通威股份有限公司CIO周勇,是在位于成都的通威總部,現(xiàn)代化的辦公環(huán)境,富有科技感的IT創(chuàng)新體驗(yàn)中心,都給筆者留下了深刻印象。在周勇的引導(dǎo)下,筆者參觀了通威的信息化展廳以及先進(jìn)的私有云機(jī)房,切身地感受了信息化建設(shè)給通威帶來(lái)的巨大變革。
回顧三年前,彼時(shí)的通威正在邁開(kāi)IT轉(zhuǎn)型的步伐,建設(shè)集中一體化運(yùn)營(yíng)的ERP系統(tǒng),建立通心粉社區(qū),打造全球水產(chǎn)人的網(wǎng)上家園,建立通威智能水產(chǎn)養(yǎng)殖系統(tǒng)實(shí)現(xiàn)智能養(yǎng)殖,以私有云為架構(gòu)建立FBC融合業(yè)務(wù)云平臺(tái)開(kāi)啟云化轉(zhuǎn)型,這一系列的信息化建設(shè)舉措為通威業(yè)務(wù)的快速發(fā)展夯實(shí)了基礎(chǔ)。
通威股份有限公司CIO周勇
通威股份是較早一批采用統(tǒng)一通訊系統(tǒng)的企業(yè),目前已更新至第三代云視頻會(huì)議系統(tǒng),企業(yè)內(nèi)部跨地域、跨國(guó)之間的視頻會(huì)議均免費(fèi),內(nèi)部溝通與協(xié)作十分高效。此外,通威已完成SRM供應(yīng)商&協(xié)同管理系統(tǒng),HRM人力資源管理系統(tǒng),決策分析BI系統(tǒng)等信息化建設(shè)工作,為助力集團(tuán)業(yè)務(wù)發(fā)展,促進(jìn)管理提升打下了良好基礎(chǔ)。
借助先進(jìn)的技術(shù)平臺(tái)和管理思想,通威構(gòu)建了面向未來(lái)的數(shù)字神經(jīng)網(wǎng)絡(luò),這讓通威更具競(jìng)爭(zhēng)力,與此同時(shí),業(yè)務(wù)對(duì)IT的重度依賴,也讓周勇身上的負(fù)擔(dān)越來(lái)越重。通威的私有云數(shù)據(jù)中心采用了雙電源、三條互聯(lián)網(wǎng)線路,通威大樓也配備發(fā)電機(jī),周勇提到:“雖然我們的私有云數(shù)據(jù)中心非常先進(jìn),但是隨著業(yè)務(wù)對(duì)IT的依賴度越來(lái)越高,一旦機(jī)房、網(wǎng)絡(luò)出現(xiàn)問(wèn)題,一個(gè)電話都打不出去,對(duì)業(yè)務(wù)造成的影響更是無(wú)法估量,IT團(tuán)隊(duì)時(shí)刻處于提心吊膽的狀態(tài)。”
從隱患存在到事故發(fā)生只需要一根引線,有一年9月底,由于光纖被挖斷,通威當(dāng)天要進(jìn)行月度結(jié)算,數(shù)據(jù)中心的運(yùn)算量非常大,如果不能快速修復(fù),對(duì)于已經(jīng)上市的通威來(lái)說(shuō)可能造成較高的收入結(jié)算影響。這樣的后果顯然不是IT團(tuán)隊(duì)能承擔(dān)的,還好當(dāng)天事故得以快速解決,沒(méi)有造成嚴(yán)重的后果,但是這樣玩心跳的狀態(tài)顯然不是周勇想要的。
公有云容災(zāi)方案初探
要想保證私有云上IT系統(tǒng)的穩(wěn)定性和連續(xù)性,容災(zāi)模式是必然選擇。對(duì)于像通威這樣以農(nóng)業(yè)為主的傳統(tǒng)企業(yè)來(lái)說(shuō),99%以上的企業(yè)都沒(méi)有做容災(zāi),成本太高、技術(shù)難度大、建設(shè)周期長(zhǎng)、管理維護(hù)復(fù)雜、擴(kuò)展性差是主要原因。
傳統(tǒng)容災(zāi)不可取,周勇很快想到用公有云環(huán)境做容災(zāi)的可行性,這是公有云的創(chuàng)新應(yīng)用,可參考的案例非常少,合作伙伴的選擇更需謹(jǐn)慎。另外,公有云容災(zāi)涉及到將傳統(tǒng)核心系統(tǒng)向公有云遷移的問(wèn)題,受傳統(tǒng)IT架構(gòu)的影響,數(shù)據(jù)上云容易,要想保證公有云和本地?cái)?shù)據(jù)中心的數(shù)據(jù)同步卻是一個(gè)很大的難題。
經(jīng)過(guò)慎重的綜合考察,通威選擇與AWS及AWS高級(jí)咨詢合作伙伴四川知行志成科技有限公司共同探索公有云容災(zāi)方案。提及選擇AWS的原因,周勇認(rèn)為主要有三個(gè)理由:一是AWS在全球云計(jì)算領(lǐng)域領(lǐng)軍者的地位;二是AWS在中國(guó)擁有大量的實(shí)踐案例,也有中國(guó)本地的數(shù)據(jù)中心,業(yè)務(wù)與支撐服務(wù)發(fā)展?fàn)顟B(tài)良好;三是AWS對(duì)創(chuàng)新項(xiàng)目的支持非常給力,雙方在背后均付出了大量的努力。
云遷移的思路,一般都是從簡(jiǎn)單應(yīng)用開(kāi)始,通威則恰恰相反。在周勇看來(lái),與其對(duì)HR等獨(dú)立性較強(qiáng)、集成度較低的單個(gè)系統(tǒng)做容災(zāi)測(cè)試,不如直接做復(fù)雜核心系統(tǒng)的容災(zāi),因?yàn)楹诵南到y(tǒng)的容災(zāi)對(duì)企業(yè)來(lái)說(shuō)更有價(jià)值,對(duì)企業(yè)業(yè)務(wù)的影響更大。
“坦率地說(shuō),AWS開(kāi)始做我們的項(xiàng)目,也不一定非常有底。”周勇如是說(shuō):“基于IaaS環(huán)境做容災(zāi),遷移到云上沒(méi)有問(wèn)題,但是我們選了FBC融合業(yè)務(wù)云平臺(tái)這個(gè)復(fù)雜的核心系統(tǒng)來(lái)做,所以他們也不是很有底,但是他們做到了,而且做成了一個(gè)非常好的方案和服務(wù)。”
FBC融合業(yè)務(wù)云平臺(tái)的復(fù)雜度在于它是一個(gè)應(yīng)用集,包含了門戶、BPM(流程管理)、身份管理、BI、SLA、EBS(企業(yè)服務(wù)總線)、知識(shí)管理等各類應(yīng)用。FBC與三十余個(gè)系統(tǒng)集成,是通威當(dāng)之無(wú)愧的核心系統(tǒng),與之有關(guān)聯(lián)的接口多達(dá)500余個(gè)。FBC一旦出現(xiàn)問(wèn)題,所有的業(yè)務(wù)系統(tǒng)可能都會(huì)受其影響,對(duì)FBC進(jìn)行云容災(zāi),風(fēng)險(xiǎn)和難度可想而知。
周勇回憶,通威云容災(zāi)項(xiàng)目從2018年6月開(kāi)始進(jìn)行技術(shù)方案測(cè)試,到2018年10月,云上、云下遷移的技術(shù)方案已全部完成測(cè)試驗(yàn)證。在隨后的一年里,通威一方面進(jìn)行AWS技術(shù)認(rèn)證,另一方面針對(duì)非云架構(gòu)的自有系統(tǒng),進(jìn)行改造和解耦來(lái)適應(yīng)云架構(gòu),解決數(shù)據(jù)傳輸速度和效率問(wèn)題的同時(shí),也攻克了多用戶在云上運(yùn)行效率的難關(guān)。
普適性、低成本的云容災(zāi)成為可能
值得一提的是,2019年6月份,通威遇到了云容災(zāi)項(xiàng)目中的一大瓶頸,那就是大量數(shù)據(jù)交互的問(wèn)題。系統(tǒng)和接口的改造帶來(lái)了集成方式和網(wǎng)絡(luò)環(huán)境的變化,同時(shí)也會(huì)帶來(lái)效率、集成和速度方面的問(wèn)題。通威的本地?cái)?shù)據(jù)中心用的是雙路光纖、萬(wàn)兆光纖通信,系統(tǒng)和數(shù)據(jù)放在云上,傳輸效率是否會(huì)大打折扣是周勇非常擔(dān)心的問(wèn)題。經(jīng)過(guò)對(duì)比測(cè)試后發(fā)現(xiàn),在云上用500 Mbps與本地的萬(wàn)兆光纖進(jìn)行數(shù)據(jù)傳輸,足以滿足業(yè)務(wù)的訪問(wèn)需求,隨后項(xiàng)目團(tuán)隊(duì)又測(cè)試了200 Mbps的云上傳出方案,也足以支撐實(shí)際生產(chǎn)環(huán)境中數(shù)據(jù)交換集成對(duì)網(wǎng)絡(luò)環(huán)境的要求。至此,通威打通了私有云數(shù)據(jù)中心與AWS公有云之間的通路,其核心應(yīng)用FBC系統(tǒng)成功在AWS云上實(shí)現(xiàn)容災(zāi),形成了具有安全性、高可用、可擴(kuò)展的混合云架構(gòu)。
通威混合云容災(zāi)備份架構(gòu)圖
在筆者看來(lái),周勇是一個(gè)懷揣夢(mèng)想、勇于探索的實(shí)干家。以往容災(zāi)只有銀行、證券等金融行業(yè)的大企業(yè)才做的起,通威云容災(zāi)項(xiàng)目的初衷是打造一個(gè)低成本的容災(zāi)項(xiàng)目,讓中國(guó)企業(yè)不會(huì)在談到容災(zāi)時(shí)因?yàn)榧夹g(shù)和成本問(wèn)題望而卻步。通威FBC平臺(tái)云容災(zāi)項(xiàng)目的順利交付,不僅成就了通威、AWS以及知行志成三方,也給傳統(tǒng)企業(yè)進(jìn)行云容災(zāi)開(kāi)辟出了一條通路。周勇強(qiáng)調(diào):“200 Mbps意味著什么?意味著這是一款云上災(zāi)備的普適性、低成本的方案,這個(gè)項(xiàng)目做完了,中國(guó)企業(yè)的傳統(tǒng)數(shù)據(jù)中心在云上做災(zāi)備,沒(méi)有做不成的。”
為了降低項(xiàng)目的總體成本,實(shí)現(xiàn)云容災(zāi)的普適性,通威與AWS進(jìn)行了多次嘗試。一是更換了項(xiàng)目災(zāi)備軟件中核心的VRP(通用路由平臺(tái)),將VRP的成本降到很低的水平;二是考慮到云上資源的占用差異,將業(yè)務(wù)中斷時(shí)間設(shè)置為30分鐘,在節(jié)約成本的同時(shí),30分鐘內(nèi)就可以切換到云上,快速恢復(fù)核心業(yè)務(wù),解決了IT的核心問(wèn)題。另外,云上的服務(wù)器無(wú)需開(kāi)機(jī),企業(yè)只需支付日常的存儲(chǔ)費(fèi)用,只有在異常事件發(fā)生需要啟動(dòng)云容災(zāi)時(shí)才會(huì)開(kāi)機(jī),因此可以將容災(zāi)費(fèi)用降低至十分之一、百分之一甚至更低水平。
當(dāng)前,中國(guó)的大部分企業(yè)都處于輕基礎(chǔ)架構(gòu)、重應(yīng)用的狀態(tài),因此企業(yè)需要一個(gè)龐大的IT團(tuán)隊(duì)去維護(hù)基礎(chǔ)架構(gòu)。通威云容災(zāi)項(xiàng)目的另一個(gè)核心價(jià)值,在于能將IT團(tuán)隊(duì)從復(fù)雜、繁瑣的運(yùn)維管理工作中解放出來(lái),有更多的時(shí)間和精力去關(guān)注業(yè)務(wù)和創(chuàng)新,為企業(yè)的IT轉(zhuǎn)型提供更重要的支撐。
探索未來(lái)
將FBC系統(tǒng)遷移至公有云只是通威云容災(zāi)的初步探索,接下來(lái)周勇期望繼續(xù)探索企業(yè)上云路徑,將ERP以外的系統(tǒng)全部在云上做災(zāi)備,嘗試將公有云作為主環(huán)境,用本地?cái)?shù)據(jù)中心做備份環(huán)境,甚至不再擴(kuò)建本地?cái)?shù)據(jù)中心,而是采用多云數(shù)據(jù)災(zāi)備的形式,在保障企業(yè)已有IT投入的同時(shí),能夠跟上技術(shù)發(fā)展的潮流。
未來(lái),通威IT團(tuán)隊(duì)將在三個(gè)方面繼續(xù)發(fā)力,一是通過(guò)數(shù)字中臺(tái)實(shí)現(xiàn)前端業(yè)務(wù)的轉(zhuǎn)型創(chuàng)新,二是探索混合云建設(shè)路徑,三是摸索提高IT團(tuán)隊(duì)響應(yīng)效率的管理方法,如流程驅(qū)動(dòng)、敏捷開(kāi)發(fā)模式,DevOps及IT運(yùn)維轉(zhuǎn)型等。通威IT團(tuán)隊(duì)將通過(guò)以上三種途徑,助力通威提升數(shù)字化競(jìng)爭(zhēng)力,加快數(shù)字化轉(zhuǎn)型進(jìn)程。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】