14年的蛻變:從菜鳥到卡廠運(yùn)維總架構(gòu)師
嘉賓介紹
任明,中國卡廠技術(shù)委員會專家,信息總中心架構(gòu)室負(fù)責(zé)人。高可用、問題、容量性能經(jīng)理。運(yùn)維架構(gòu)師、布道師、企業(yè)講師。曾獲人民銀行科技發(fā)展一等獎。負(fù)責(zé)卡廠云平臺與運(yùn)維平臺的建設(shè)。
熱愛純技術(shù),從事過網(wǎng)絡(luò)協(xié)議開發(fā)、省級銀行數(shù)據(jù)大集中建設(shè)、卡廠二代系統(tǒng)建設(shè)、卡廠云計(jì)算系統(tǒng)建設(shè),對運(yùn)維技術(shù)與管理有十多年的深刻理解與掌握。
專注于數(shù)據(jù)中心架構(gòu)、運(yùn)維架構(gòu),云計(jì)算、自主開源以及DEVOPS在傳統(tǒng)企業(yè)的思考與實(shí)踐。
前言
大家好,我是任明。
很高興和大家做這次在線的分享交流。今天我要講的題目包括以下四個(gè)部分:
- 運(yùn)維歷程
- 運(yùn)維體系
- 運(yùn)維思想
- 從運(yùn)維到放棄
希望能對運(yùn)維的小伙伴有所啟發(fā)和收獲。
先放一張圖說明幾個(gè)數(shù)字:
- 交易量1億/日
- 核心系統(tǒng)10年無故障
- 核心系統(tǒng)五個(gè)9
- 異地切換100秒
- 10000個(gè)節(jié)點(diǎn)管理
- 3000交易TPS
運(yùn)維歷程
階段1:菜鳥呱呱叫(before 2006)
階段特點(diǎn):
- 用啥學(xué)啥
需求:協(xié)議分析 圖形展現(xiàn) 組網(wǎng)
學(xué)習(xí):使用fluke協(xié)議分析 tcp經(jīng)典三卷 Java ccnp
需求:數(shù)據(jù)移植
學(xué)習(xí):sql db2 jdbc infomix ds8000 shark b16
需求:系統(tǒng)部署 系統(tǒng)上線
學(xué)習(xí):aix suse hacmp power/lpar shell ds8000 shark catalyst
需求:大小額、信貸系統(tǒng)、卡前置、支票影像
學(xué)習(xí):sybase 、MQ 、cics tsm
為了實(shí)現(xiàn)一些明確的需求,而針對性的以自學(xué)為主的學(xué)習(xí)?;臼裁幢O(jiān)控、巡檢、備份、日常操作等均用shell+java編寫完成
- 單兵作戰(zhàn)
由于沒幾個(gè)人、且都是新手,因此基本靠自己測試、實(shí)驗(yàn)。
且當(dāng)時(shí)運(yùn)維學(xué)習(xí)資源、溝通方式較匱乏。
加班是常態(tài)、熬夜是正常。
- 兩聯(lián)兩天
金融行業(yè)早一批的MA大牛黃埔軍校,現(xiàn)在銀行和很多集成商的專家和領(lǐng)導(dǎo)均出自那里。
- 管理員時(shí)代
似乎沒有運(yùn)維這一說法,系統(tǒng)管理員、網(wǎng)管。也試著弄過許多證書DB2 AIX cate、CCNP、OCP、系統(tǒng)分析師、RHCE等。
階段2:運(yùn)維在路上(2007-2011)
階段特點(diǎn):
1.專業(yè)分工
企業(yè)大了、管理分工細(xì)化了后,則更專注于偏系統(tǒng)的運(yùn)維和部分應(yīng)用運(yùn)維,雖然可以更精細(xì)、系統(tǒng)的了解的系統(tǒng)性知識,但是也會造成全面性的缺失。
2.ITIL
在接觸ITIL之前,一直認(rèn)為是一個(gè)高大上的東西,也深深的學(xué)習(xí)了一把,考了master的認(rèn)證。鬼子對方法的總結(jié)確實(shí)很精細(xì),然而在許多傳統(tǒng)企業(yè)落地的時(shí)候,確成了對人員的流程管控/記錄工具,而和技術(shù)本身關(guān)系很弱。
例如:CMDB 交流過許多銀行、保險(xiǎn)、證券、航空、制造、物流、電力、煙草等企業(yè),從沒有認(rèn)為cmdb做的成功的,可見一斑。問題在于大家在做的時(shí)候還是為了ITIL而ITIL,并沒有去從實(shí)際的需求出發(fā),進(jìn)行自動化、便捷性的考慮,沒有從運(yùn)維消費(fèi)場景出發(fā)。
我開始負(fù)責(zé)公司的問題管理流程(含對生產(chǎn)問題的技術(shù)質(zhì)量控制)、高可用流程(演練、故障模擬、測試方法、應(yīng)急三板斧)、容量性能管理(容量模型、容量活動)、災(zāi)備技術(shù)方案等。
3.培訓(xùn)講師
一個(gè)偶然的機(jī)會,代替朋友去做了一次企業(yè)培訓(xùn)(AIX),便慢慢開始兼職做IT專業(yè)講師,為煙草、電力、銀行等進(jìn)行一些培訓(xùn),主要為power aix db2 cics hacmp等。占用了機(jī)會所有業(yè)余時(shí)間,但是還是有收獲的:
- 準(zhǔn)備課件能力(PPT、組織邏輯)
- 演講能力(反應(yīng)、語言、表達(dá))
- 備課可以讓自己的學(xué)習(xí)更鞏固
- money
- 了解了許多企業(yè)的運(yùn)維技術(shù)及運(yùn)維方式
4.產(chǎn)品為王
傳統(tǒng)企業(yè)的運(yùn)維大多是靠購買產(chǎn)品的,無論是備份(tsm/nbu)、監(jiān)控(tivoli/patrol)、測試(loadrunner、qtp)、os、db、middleware等全是購買商業(yè)產(chǎn)品,除了一些日常簡單運(yùn)維用用shell以外。
階段3:山雨欲來云滿樓(after 2011)
當(dāng)我正在感嘆傳統(tǒng)的IT運(yùn)維陷入平臺期的時(shí)候,變化就這么巧然而至了。上面是我當(dāng)時(shí)在12年寫的一個(gè)云計(jì)算的內(nèi)部技術(shù)宣導(dǎo)材料。
階段特點(diǎn):
1.開源自主
公司開始了開源自主的技術(shù)路線,對于一個(gè)大公司來說,技術(shù)戰(zhàn)略的明確是非常有用的,這樣不會產(chǎn)生由于自下而上的使用開源產(chǎn)品時(shí)候帶來的質(zhì)疑和反對。大膽的去選擇、測試、試點(diǎn)就可以進(jìn)行推廣了。Bind、haproxy、mysql、jboss、redis、memcached、zabbix、openstack逐步替代了原有的產(chǎn)品為王。
這是我們當(dāng)時(shí)依據(jù)業(yè)界的熱門技術(shù)進(jìn)行的技術(shù)雷達(dá)分析。
2.云計(jì)算
這幾年搞IT的不說自己玩過云計(jì)算都不好意思和同行交流了。確實(shí)因?yàn)樵朴?jì)算和devops、開源等再次指明我在技術(shù)道路的前行之路。
十年前交流時(shí)說自己是搞AIX的,覺得很高大上,現(xiàn)在必須說自己是玩云/x86的。
回顧三年半前的這個(gè)文,看來也并沒有猜錯。
3.Devops
開發(fā)和運(yùn)維各進(jìn)一步,解決原有的部門墻和責(zé)任問題,通過平臺、機(jī)制優(yōu)化、技能強(qiáng)化共同為應(yīng)用、業(yè)務(wù)、市場的快速變化負(fù)責(zé)。我們也根據(jù)這樣的變化衍生了“托管”、“聯(lián)合運(yùn)營”的開發(fā)運(yùn)維模式。
這是我們今年的校園招聘JD,已經(jīng)明顯的偏devops技能了。
4.傳統(tǒng)+互聯(lián)網(wǎng)
隨著互聯(lián)網(wǎng)企業(yè)對傳統(tǒng)企業(yè)的業(yè)務(wù)“彎道超車”,卡廠也大量增加了許多面向持卡人及商戶的2b 2c的應(yīng)用。銀聯(lián)錢包、互聯(lián)網(wǎng)在線、營銷活動等業(yè)務(wù)直接帶來更多的無法用以往的經(jīng)驗(yàn)進(jìn)行處理的問題。
因此各種學(xué)習(xí)、交流、測試、問題處理又開始成了工作的重心。
同時(shí)由于卡廠這條路在傳統(tǒng)金融行業(yè)走的比較徹底(開源自主),已經(jīng)采用了大量的開源軟件在增量應(yīng)用中
運(yùn)維體系
1.運(yùn)維技術(shù)框架
運(yùn)維的道法術(shù)
道:基礎(chǔ)的扎實(shí)學(xué)習(xí)很有用,在實(shí)際學(xué)習(xí)的使用,tcpip、算法、數(shù)據(jù)庫原理、操作系統(tǒng)原理等都是在實(shí)際使用時(shí)候才覺得很有用的東西。
術(shù):基本的操作、命令、配置。
法:將測試、監(jiān)控、容量、高可用、容災(zāi)、安全、備份、自動化進(jìn)行提煉、規(guī)范,進(jìn)而平臺化,提升運(yùn)維級別。
2.運(yùn)維可用性
運(yùn)維的可用性從高可用、安全指標(biāo)、性能容量指標(biāo)、監(jiān)控四個(gè)技術(shù)維度以及演練、應(yīng)急三板斧兩個(gè)管理維度進(jìn)行衡量。
高可用指標(biāo)
我們可以看到,通過對環(huán)境、網(wǎng)絡(luò)、存儲、服務(wù)器、數(shù)據(jù)庫、中間件、應(yīng)用、安全、數(shù)據(jù)、災(zāi)備全層面的可用性指標(biāo)梳理,解決每一個(gè)可能發(fā)生風(fēng)險(xiǎn)的技術(shù)單點(diǎn)。
容量性能指標(biāo)
監(jiān)控
安全
演練
通過演練的全盤規(guī)劃,可以看見我們幾乎每天都有多個(gè)實(shí)戰(zhàn)演練在進(jìn)行。
應(yīng)急三板斧
確保值班人員能明確、快速的進(jìn)行故障的處理。
3.運(yùn)維平臺
運(yùn)維理解
1.懂業(yè)務(wù)
必須要懂業(yè)務(wù),否則你連應(yīng)用發(fā)布干什么你都不知道、除了問題你只會打電話、語句慢了你不知道影響什么、營銷來了不知所措、你只能原地踏步
2.不停抽象
不斷去總結(jié)、抽象自己的工作和思考方式,“為什么要這么做”、“能不能做的更好”、“別人再怎么做”、“能不能推廣到別的地方”、“能不能更快、更好”……
3.不增值就自動化掉
OS安裝、was安裝、應(yīng)用安裝、重建、自恢復(fù),等所有不增值的重復(fù)勞動盡量想辦法自動化。
換個(gè)維度解決問題比死磕有效一百倍!
4.聽說讀寫
沒有聲音再好的戲也出不來。
學(xué)技術(shù)重要,然而隨著年齡、經(jīng)驗(yàn)、圈子的變化,聽說讀寫也非常重要。
經(jīng)常總結(jié)自己的經(jīng)驗(yàn)、經(jīng)常學(xué)習(xí)新的東西、測試并寫出來。
經(jīng)常與人交流,交換大家的技術(shù)和想法。
“從運(yùn)維到放棄”
每一件事都一樣,精力時(shí)間的分配決定了前行的遠(yuǎn)度。
Q&A
Q1:請問你們開始上docker了嗎?
A1:還在試點(diǎn),主要是前端的jboss apache haproxy 以及mysql用來替代cgroup。
Q2: 請問這個(gè)圖是什么意思?
A2:這是每個(gè)月實(shí)戰(zhàn)演練的次數(shù)。
Q3:你們有沒有打算把自己的安全整合成安全云模式?你對這塊怎么看?有什么架構(gòu)設(shè)計(jì)?
A3:安全這塊還是以產(chǎn)品為主,如ips、堡壘機(jī)、防病毒等?,F(xiàn)在在增加的是host ips,類似于云盾的模塊,但是并沒有計(jì)劃在入口做一個(gè)安全云集群。
Q4:見過很多高大上的架構(gòu),可卻不知道怎么去實(shí)現(xiàn)。請問什么樣的方式有助于更好地去實(shí)現(xiàn)?
A4:其實(shí)這個(gè)問題問應(yīng)用架構(gòu)師更好,但是一般通用回答如下:一是大系統(tǒng)小做,確定層級、框架、數(shù)據(jù)同步,還可用接口等關(guān)鍵方案后,逐步分析拆解、設(shè)計(jì)。二是根據(jù)業(yè)務(wù)特點(diǎn),如后臺、前臺、2b、2c開確定技術(shù)需求。最終你會發(fā)現(xiàn)同樣技術(shù)需求的應(yīng)用系統(tǒng)在設(shè)計(jì)完成后是一致的。
Q5:請問對于搞IT的軟件開發(fā)的,35歲以后有合適的出路嗎?做云計(jì)算的項(xiàng)目,停留在開發(fā)的層面,不知道后面的路怎么走合適。
A5:主要看你個(gè)人的發(fā)展了,你喜歡不喜歡開發(fā)。如果是則加強(qiáng)聽說讀寫和總結(jié),經(jīng)常與自己的上平下同事交流,與外部同行甚至跨行交流。如果不是那就轉(zhuǎn)產(chǎn)品、業(yè)務(wù)、市場、開發(fā)轉(zhuǎn)這些很有特效的。國內(nèi)確實(shí)環(huán)境不好,尤其互聯(lián)網(wǎng)時(shí)代之后,前兩天去武大南大招聘,男孩子都是只愿意做開發(fā)的。因此后浪太多了,所以前浪們只好利用優(yōu)勢和經(jīng)驗(yàn),去慢慢布道后浪。
Q6:有把Oracle真做成云的嗎?
A6:云計(jì)算的開發(fā)很熱門,我們現(xiàn)在就很需要云計(jì)算開發(fā)和運(yùn)維開發(fā),專注做下去非常搶手的。不過oracle db2還做云干什么,有點(diǎn)悖論的感覺,除非量非常大,自主化需求頻繁。