2018再迎運維新挑戰(zhàn) 三位大咖告訴你如何實現(xiàn)智能運維
原創(chuàng)【51CTO.com原創(chuàng)稿件】在云計算遍及業(yè)界的趨勢下,以及 DevOps 和 SRE 等先進運維理念的強勢助推中,運維創(chuàng)新已然成為驅動各大公司研發(fā)運維流程和理念變革的關鍵角色,如持續(xù)集成和發(fā)布、場景化的運維自動化、智能監(jiān)控等理念的落地執(zhí)行。同時,運維所從事的工作角色定位也在悄然地發(fā)生著變化,從原來的末端被動響應,逐步轉向技術產品、技術運營和平臺建設者的角色。
6月30日,雖然午后驕陽似火,但是由51CTO 主辦的第二十一期Tech Neo “運維新挑戰(zhàn)”技術沙龍的“上座率”依然爆棚。來自一線的三位運維專家,與在座的一百多位IT專業(yè)人士,共同分享了他們在基于容器的持續(xù)集成和發(fā)布、智能監(jiān)控和故障自愈、成本和性能優(yōu)化幾個方向上的實踐和思考?,F(xiàn)場討論環(huán)節(jié)非?;鸨瑢<业难葜v也干貨滿滿,直戳運維痛點,臺下時不時爆發(fā)出會心的笑聲。
新浪微博于炳哲:基于實時日志收集系統(tǒng)在運維領域的實踐
于炳哲是新浪微博部門日志系統(tǒng)負責人,在日志處理領域有5年的實踐經(jīng)驗,負責新浪微博手機微博產品部移動服務保障部的日志系統(tǒng)的維護。
在演講中,于炳哲先向大家介紹了新浪手機微博MAPI日志架構,然后他從實踐的角度給大家展示了如何利用這套架構進行鏈路監(jiān)控、從客戶端角度對服務端進行性能分析、客戶端視頻多維度間的計算,以及ES實時API服務、成本核算等操作。
當然,于炳哲也分享了技術團隊在工作中遇到的問題并一一給出解決辦法,如日志丟失問題、ES集群監(jiān)控問題、ES服務器質量不均衡問題,以及Rsyslog中轉到Kafka隊列的架構遷移、Kafka的監(jiān)控與管理等。以ES服務器質量不均衡問題為例,技術團隊首先根據(jù)不同機器的回歸負載情況對機器上的分片進行預遷移,然后根據(jù)業(yè)務不同進行預分布,保證獨立資源服務獨占自己的資源池,共享用戶使用公用資源。
Qunar呂曉旭:去哪兒網(wǎng)運維平臺從0到1的演進
呂曉旭是去哪兒網(wǎng)實時系統(tǒng)負責人,也是Qunar運維開發(fā)總監(jiān)。他主要負責Qunar的數(shù)據(jù)流基礎設施建設和維護工作。曾供職于中國雅虎和淘寶網(wǎng),主要工作是Etao網(wǎng)數(shù)據(jù)抓取和網(wǎng)頁分析工作。
呂曉旭和大家介紹了去哪兒網(wǎng)的的實時數(shù)據(jù)平臺-Prism。Prism是以數(shù)據(jù)可視化為出發(fā)點,以降低數(shù)據(jù)和數(shù)據(jù)分析軟件獲取成本為己任的實時數(shù)據(jù)平臺。通過這個平臺,人們可以進行日志實時監(jiān)控(ELK)、數(shù)據(jù)總線(Kafka)、數(shù)據(jù)實時分析(Spark Streaming/Storm/Flink)、數(shù)據(jù)存儲(Elasticsearch as a Service)、OLAP/試驗平臺(Zeppelin+Spark/Flink)。
那么這個Prism運維平臺經(jīng)過了哪些演進階段呢?他表示,當docker、MARATHOM、MESOS這些技術出現(xiàn),他們像發(fā)現(xiàn)新大陸一樣興奮,利用這些技術,他們讓系統(tǒng)可以快速增減容量,而且還可以實現(xiàn)新工具快速支持、提高硬件資源利用率、降低數(shù)據(jù)軟件的使用成本。呂曉旭在現(xiàn)場非常詳細地介紹了這些技術如何幫助平臺演進,以及在這些過程中遇到了哪些問題。
演講最后,呂曉旭總結道,他和技術團隊做的事情就是解決數(shù)據(jù)軟件的部署的門檻,解決Mesos環(huán)境部署的門檻。目前仍然存在負載不均衡、數(shù)據(jù)異常定位速度慢的現(xiàn)象,他計劃下一步先解決這兩個問題,然后接入新軟件,進行GPU計算平臺建設。
中油瑞飛孫杰:大型企業(yè)智能運維的探索和實踐
孫杰是從業(yè)十幾載IT老兵了,專注于系統(tǒng)、數(shù)據(jù)庫、云計算和智能運維管理,參與實施數(shù)據(jù)中心建設、私有云架構規(guī)劃及運維管理、大數(shù)據(jù)挖掘等相關工作,IT行業(yè)的實踐者、布道者。
在一開場,孫杰就指出,傳統(tǒng)運維軟件逐漸不適應運維需求,如數(shù)據(jù)分散、重復采集、浪費資源等。他認為運維應該持續(xù)升級,從傳統(tǒng)的“以設備為中心的維護”升級到“以數(shù)據(jù)為中心的運營”,“雖然現(xiàn)在大多數(shù)企業(yè)的運維是以人工運維為主,輔以開發(fā)工具和少量的自動化運維,但是我相信未來智能運維才是主流發(fā)展趨勢。”
在演講中,孫杰描述了自己理想中的智能運維狀態(tài),無論云上云下,保障業(yè)務系統(tǒng)穩(wěn)定運行都是最重要的工作。他列出了三個要點:一通過部署智能運維系統(tǒng),能夠顯著提升運維效率,大大增強運維團隊的能力和價值;二通過部署智能運維系統(tǒng),能夠顯著增加運維透明度,使管理和運維人員增加主動權和掌控力;三通過部署智能運維系統(tǒng),能夠顯著降低故障頻率,使運維更省心。
隨后,孫杰從實踐角度分享了全景業(yè)務服務管理、日志采集監(jiān)控告警、知識庫故障自治等場景運維問題。由于他講的全是實際工作中遇到的問題,所以引起了很多聽眾的共鳴。演講結束后,很多聽眾爭相提問,現(xiàn)場交流氣氛極為熱烈。
51CTO于2016年開始舉辦主題為Tech Neo的技術沙龍,意指在于為IT技術人員提供一個高質量的學習交流的線下平臺,目前僅限北京地區(qū),周期為每月1次,每期圍繞一個話題進行探討,涉及人工智能、大數(shù)據(jù)、云計算、區(qū)塊鏈、物聯(lián)網(wǎng)等多個技術領域。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】