Flashcat來煒:如何把運(yùn)維的飯碗端穩(wěn)
原創(chuàng)講壇第1期《??井源 - 運(yùn)維幾何???》和前段時(shí)間馬馳的《??是時(shí)候讓運(yùn)維集體下崗了??》在業(yè)界引起廣泛討論,運(yùn)維崗位真的沒有前途了嗎?如何把飯碗端穩(wěn)?這一期,我們采訪了快貓星云的來煒,來煒是運(yùn)維破圈創(chuàng)業(yè)人士,既然能創(chuàng)業(yè),一定是在行業(yè)內(nèi)有很深的積累的,他會(huì)怎么看待這個(gè)問題?讓我們一起來聽一種新的聲音!
這里是接地氣、有高度的《??運(yùn)維百家講壇??》第 3 期,開講!
介紹一下您自己以及現(xiàn)在的公司?
大家好,我是快貓星云的來煒。快貓星云是一家云原生智能運(yùn)維科技公司,由開源監(jiān)控工具“夜鶯監(jiān)控”的核心開發(fā)團(tuán)隊(duì)組成。快貓星云打造的云原生監(jiān)控分析平臺(tái)——“Flashcat平臺(tái)”,旨在解決云原生架構(gòu)、混合云架構(gòu)下統(tǒng)一監(jiān)控難、故障定位慢的問題。
如果想更多了解快貓星云創(chuàng)立背后的故事,大家可以進(jìn)一步閱讀 ITPub 對(duì)我的一個(gè)專訪??《十年死磕,從一線工程師到CEO》??,歡迎大家指正。
有些運(yùn)維老炮反映公司對(duì)運(yùn)維的價(jià)值所知甚少,您是怎么給公司講清楚運(yùn)維的價(jià)值的?
把工作的價(jià)值,如何通俗易懂的給公司管理層講清楚,并取得理解和支持,是所有中后臺(tái)技術(shù)團(tuán)隊(duì)普遍面臨的難題,否則失業(yè)分分鐘的事情,運(yùn)維工作的價(jià)值講清楚更是難上加難。
從我的朋友圈來看,時(shí)不時(shí)就會(huì)看到勸運(yùn)維下崗/轉(zhuǎn)行的帖子:
- 比如瑞典馬工的??《是時(shí)候讓運(yùn)維集體下崗了》???,振聾發(fā)聵,開篇就提到:?
?明人不說暗話:在云原生和DevOps成熟的今天,運(yùn)維作為一個(gè)崗位和團(tuán)隊(duì)已經(jīng)完成了歷史任務(wù),應(yīng)該退出舞臺(tái)了。?
? - 再比如帶我入行的井老板,在 SRETalk 第一期中,用心良苦的勸導(dǎo):?
?隨著科技的發(fā)展,時(shí)代的變化,一個(gè)崗位的消亡是很正常的事情,及時(shí)做好調(diào)整和規(guī)劃才是思考的重心。?
?
但是,運(yùn)維這個(gè)崗位以及背后的運(yùn)維人,從來都是一次次站在要被淘汰的邊緣徘徊,又一次次倔強(qiáng)的起死回生,柳暗花明。他們往往樂于自嘲、主動(dòng)擁抱危機(jī)、敢于求變?;叵胂拢陙?,云計(jì)算也好、云原生也罷、DevOps 也算,SRE 也行,所有這些 IT 的大變革,都是嘗試在不斷優(yōu)化和改進(jìn)“大運(yùn)維”這個(gè)領(lǐng)域。運(yùn)維這個(gè)行業(yè)沒有消亡,反而是不斷進(jìn)化,生發(fā)出了新的內(nèi)涵。
這說明了什么?說明運(yùn)維很重要,說明運(yùn)維也很難!但是如何把這個(gè)價(jià)值說清楚,我們從站位、目標(biāo)設(shè)定、投入產(chǎn)出比上來分別著手分析,下個(gè)問題見。
您覺得運(yùn)維工作最重要的幾個(gè)目標(biāo)是什么?您是怎么落地這些目標(biāo)的?運(yùn)維的價(jià)值如何更好的得到體現(xiàn)?
聚焦經(jīng)典的運(yùn)維領(lǐng)域,最主要的幾個(gè)工作職責(zé):
- 代碼發(fā)布和交付(delivery),做好最后一公里的價(jià)值交付;
- 提升架構(gòu)的可伸縮性(scalability)并付諸實(shí)施;
- 保障系統(tǒng)的穩(wěn)定性(reliability)并不斷改善;
- 在滿足前三項(xiàng)目標(biāo)的同時(shí),不斷優(yōu)化并降低系統(tǒng)的運(yùn)行成本(finops)。
如果你發(fā)現(xiàn)自己的工作,并不是圍繞著以上范疇展開,那么有兩種可能,你不是運(yùn)維或者你的工作超綱了!
明確了工作范疇,說大點(diǎn)就是明確了運(yùn)維的使命之后,設(shè)定目標(biāo)就相對(duì)容易些了,比如:
- 針對(duì)代碼發(fā)布和交付,可以簡單的用發(fā)布次數(shù)來度量;
- 針對(duì)系統(tǒng)的伸縮性,可以用擴(kuò)容的時(shí)效性來度量;
- 針對(duì)穩(wěn)定性,我們可以通過觀察核心功能的不可用時(shí)長來度量;
- 針對(duì)系統(tǒng)運(yùn)行成本,我們可以計(jì)算到每完成一筆核心交易所花費(fèi)的資源成本和人力成本來表示和追蹤。
關(guān)于如何體現(xiàn)運(yùn)維的價(jià)值:
首先我們運(yùn)維人要轉(zhuǎn)變的是態(tài)度和立場(chǎng):堅(jiān)定和業(yè)務(wù)站在一起,爭取共背業(yè)務(wù)目標(biāo)。
我舉個(gè)例子,HR部門,也是屬于公司內(nèi)部后臺(tái)的不能再后臺(tái)的部門了,但是我所接觸過的優(yōu)秀的hr中,不管是recruiter、還是hrbp,從來都是把自己當(dāng)作業(yè)務(wù)部門的一份子,把業(yè)務(wù)部門的目標(biāo)當(dāng)作自己的目標(biāo)。當(dāng)立場(chǎng)一致,大家都是自己人的時(shí)候,價(jià)值就好說了。
其次,價(jià)值這個(gè)事情,永遠(yuǎn)都是和“成本投入”相對(duì)應(yīng)的。你如果組建了一個(gè)很大的運(yùn)維團(tuán)隊(duì),人力成本在公司很顯眼,那么你就很容易成為老板眼中的“重點(diǎn)關(guān)注對(duì)象”,也會(huì)受到業(yè)務(wù)方更苛刻的挑戰(zhàn),正所謂,楚人無罪懷璧其罪:) 客觀上來講,運(yùn)維團(tuán)隊(duì)的資源投入,一定是要和業(yè)務(wù)收入相匹配的,過高過低都是不健康的,不利于團(tuán)隊(duì)發(fā)展的。所以,“運(yùn)維的價(jià)值創(chuàng)造”最后會(huì)落到運(yùn)維效率的競(jìng)爭上來。
最后,關(guān)于價(jià)值,定量和定性的描述都得有。譬如和行業(yè)水平的定量對(duì)比,來自公司內(nèi)業(yè)務(wù)部門滿意度調(diào)查的定量數(shù)據(jù)。也要有比如對(duì)公司戰(zhàn)略項(xiàng)目支撐中的“存在感”這些定性數(shù)據(jù)。
ChatGPT這樣的AI能力您覺得未來是否有可能解決運(yùn)維行業(yè)的問題?
首先我們看看,ChatGPT的核心優(yōu)勢(shì)是什么?ChatGPT,在知識(shí)的豐富度、自然語言理解能力(以及上下文理解)、內(nèi)容生成能力方面,有著代際的革新。
然后,我們?cè)俜治鱿逻\(yùn)維行業(yè)的核心問題是什么?
- 是缺少領(lǐng)域知識(shí)嗎?
- 是交互效率低嗎?
- 是內(nèi)容輸出難嗎?
以上都不是,運(yùn)維行業(yè)所處理的問題,本質(zhì)上還是一個(gè)系統(tǒng)性的工程問題,是為了解決IT系統(tǒng)價(jià)值快速交付的問題、解決伸縮性的問題、解決穩(wěn)定性的問題、是不斷提高系統(tǒng)運(yùn)行維護(hù)性價(jià)比的問題。
目前來看,云計(jì)算、微服務(wù)對(duì)于運(yùn)維行業(yè)的改變來的要更實(shí)質(zhì)性一些。ChatGPT能有效改善運(yùn)維行業(yè)知識(shí)沉淀的問題,或許會(huì)很快代替一些初級(jí)的運(yùn)維架構(gòu)師崗位。
工具選型這塊,到底是自研,還是使用開源,還是使用商業(yè)產(chǎn)品,是如何抉擇的?
這個(gè)問題沒有絕對(duì)的答案,從我個(gè)人的從業(yè)經(jīng)驗(yàn)來看,大概有以下幾種情況:
自研的好處:
- 心理上的自主可控感會(huì)更強(qiáng)一些;
- 短中期維度來看,對(duì)于團(tuán)隊(duì)的發(fā)展空間會(huì)更有利;
- 能根據(jù)自己的實(shí)際情況進(jìn)行有針對(duì)性的、靈活的設(shè)計(jì)。
自研的弊端:
- 時(shí)間成本很高,會(huì)造成較長一段時(shí)間拖后腿的情況,給業(yè)務(wù)的發(fā)展帶來一定的影響;
- 人力成本高,以北京為例,要招聘一位相對(duì)資深的工程師,每年的薪資大概在50萬,如果要自研相關(guān)運(yùn)維工具到成熟,投入兩位工程師還是需要的;
- 受限于研發(fā)人員的認(rèn)知,自研容易和行業(yè)最佳實(shí)踐脫鉤,長期會(huì)造成內(nèi)部工具落后于時(shí)代。
開源和開源二次開發(fā):
好處是能很快見效,投入生產(chǎn)。
壞處有三:
- 開源工具一般注重靈活性,功能上也比較聚焦,在產(chǎn)品化和用戶體驗(yàn)上通常比較欠缺,拿來快速使用存在體驗(yàn)方面的問題;
- 寫代碼的朋友大家都有個(gè)體會(huì),完全讀懂和理解別人的代碼和自己開發(fā)一套,難度其實(shí)是相當(dāng)?shù)?,所以開源項(xiàng)目投入到生產(chǎn)環(huán)境,也是要投入足夠的人力和時(shí)間去掌握的;
- 大多數(shù)針對(duì)開源項(xiàng)目的二次開發(fā),會(huì)導(dǎo)致和社區(qū)主干脫鉤,導(dǎo)致無法順利升級(jí)到后續(xù)的最新版本,享受不到開源項(xiàng)目真正的紅利。
使用商業(yè)產(chǎn)品和解決方案:
優(yōu)勢(shì):
- 時(shí)間成本優(yōu)勢(shì)明顯,借助商業(yè)產(chǎn)品能夠快速敏捷的支持業(yè)務(wù)的發(fā)展需要,首先做到不拖后腿!
- 原則上來講,商業(yè)化產(chǎn)品的成本相比自研會(huì)有數(shù)倍的降低。這個(gè)成本差距是由商業(yè)模式?jīng)Q定的。商業(yè)產(chǎn)品能盈利的根本原因就是產(chǎn)品研發(fā)成本(加上銷售成本)隨著客戶數(shù)量的增加而攤薄,否則這個(gè)公司沒有存在的意義和可能;
- 商業(yè)產(chǎn)品的核心競(jìng)爭力包括領(lǐng)域know-how、極致的產(chǎn)品體驗(yàn)、良好的技術(shù)支持和服務(wù)共同構(gòu)成的,這通常意味著采用商業(yè)產(chǎn)品的技術(shù)團(tuán)隊(duì)會(huì)在公司業(yè)務(wù)方取得更好的口碑。
不足:
- 國內(nèi)tob領(lǐng)域起步較晚,目前阻礙客戶采用商業(yè)化產(chǎn)品最大的問題是缺少極致好用的產(chǎn)品,以及價(jià)格優(yōu)勢(shì)還不明顯;
- 很多甲方客戶技術(shù)歷史包袱較重,個(gè)性化方案多,商業(yè)化產(chǎn)品往往很難做到完全匹配,導(dǎo)致客戶不得不硬著頭皮選擇自研。
業(yè)內(nèi)有觀點(diǎn)認(rèn)為云計(jì)算和Kubernetes這樣的基礎(chǔ)設(shè)施的崛起會(huì)讓運(yùn)維崗位逐漸消亡,您是怎么看待這樣的觀點(diǎn)呢?
誠然,云計(jì)算、K8s的出現(xiàn),核心是為了改進(jìn)“運(yùn)維”這個(gè)行業(yè),對(duì)運(yùn)維行業(yè)的工作方式發(fā)生了重大影響。比如:
- 以前的 clickops 逐步過渡到 IaC
- 傳統(tǒng)監(jiān)控升級(jí)為更全面的可觀測(cè)性體系
- release 也從大版本定期發(fā)布變成了更敏捷的持續(xù)集成
- 老中醫(yī)式的開源軟件維護(hù)模式,變成了對(duì)應(yīng)的云服務(wù)的正確選型和使用
- 扛機(jī)器上架的體力活變成了簡單的控制臺(tái)分分鐘開通
- 手敲命令配置網(wǎng)絡(luò)路由的專家工作轉(zhuǎn)變成云服務(wù)的各個(gè)網(wǎng)絡(luò)產(chǎn)品的組合搭配
- 從物理機(jī)混部提升利用率轉(zhuǎn)變?yōu)椴捎梦⒎?wù)、云原生架構(gòu)成本天然下降
- …
我們看到,運(yùn)維工作的內(nèi)涵并沒有變,工作的價(jià)值也并沒有變?nèi)?,只是運(yùn)維要掌握的技能樹在升級(jí)。運(yùn)維人繼續(xù)保持危機(jī)感、保持主動(dòng)求變精神、立足服務(wù)好業(yè)務(wù),就能永立潮頭,處處柳暗花明。
可選的監(jiān)控工具有很多,用戶選擇貴司的 Flashcat 平臺(tái),理由是什么?
的確,開源的、商業(yè)化的監(jiān)控平臺(tái)有很多,我之前也寫過一篇博客:??《二十年里12個(gè)開源監(jiān)控工具大對(duì)比》??,大家可以參考。
回到為什么選擇Flashcat平臺(tái),需要從監(jiān)控系統(tǒng)的發(fā)展趨勢(shì)以及Flashcat平臺(tái)的特點(diǎn)說起。監(jiān)控系統(tǒng)的發(fā)展趨勢(shì),可以參考我之前的博客文章 ??《云原生監(jiān)控的十大特點(diǎn)和趨勢(shì)》??。而Flashcat平臺(tái),正是面向這些趨勢(shì)而生的針對(duì)性的解決方案:
- Flashcat面向更廣泛多元的用戶群:從面向運(yùn)維工程師群體到面向全體研發(fā)、運(yùn)營、CTO/CIO,F(xiàn)lashcat 讓監(jiān)控分析、信息拉齊如此簡單;
- Flashcat與業(yè)務(wù)指標(biāo)密切聯(lián)動(dòng):當(dāng)業(yè)務(wù)受損時(shí),F(xiàn)lashcat 總能第一時(shí)間發(fā)現(xiàn),并和 IT 系統(tǒng)深入聯(lián)動(dòng),輔助技術(shù)團(tuán)隊(duì)快速展開調(diào)查;
- 云原生、混合云統(tǒng)一監(jiān)控:無論采用什么樣的 IT 架構(gòu),您只需要一套 Flashcat 平臺(tái)。