自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

應(yīng)對(duì)多種場(chǎng)景,運(yùn)維人是如何做好業(yè)務(wù)活動(dòng)保障的

新聞 系統(tǒng)運(yùn)維
每一場(chǎng)大規(guī)模業(yè)務(wù)活動(dòng)都是IT運(yùn)維人員的“練兵場(chǎng)”,成功承擔(dān)高并發(fā)訪問(wèn)的背后,都有集團(tuán)科技IT團(tuán)隊(duì)專家們利用自己活動(dòng)保障的豐富經(jīng)驗(yàn)、專業(yè)的技術(shù)水平和夜以繼的辛勤堅(jiān)守。

 [[315314]]

作為金融行業(yè)的領(lǐng)頭羊,平安集團(tuán)每年都要面向廣大客戶舉辦多場(chǎng)業(yè)務(wù)活動(dòng),如秒殺、贈(zèng)險(xiǎn)等。業(yè)務(wù)活動(dòng)形式不同,對(duì)IT系統(tǒng)承載能力的要求也不同。

每一場(chǎng)大規(guī)模業(yè)務(wù)活動(dòng)都是IT運(yùn)維人員的“練兵場(chǎng)”,成功承擔(dān)高并發(fā)訪問(wèn)的背后,都有集團(tuán)科技IT團(tuán)隊(duì)專家們利用自己活動(dòng)保障的豐富經(jīng)驗(yàn)、專業(yè)的技術(shù)水平和夜以繼的辛勤堅(jiān)守。

那么,平安運(yùn)維人是如何做好活動(dòng)保障的呢?

01 梳理IT服務(wù)現(xiàn)狀,尋找風(fēng)險(xiǎn)點(diǎn)

知己知彼,方能百戰(zhàn)不殆。規(guī)劃業(yè)務(wù)活動(dòng)時(shí),IT團(tuán)隊(duì)需對(duì)當(dāng)前服務(wù)現(xiàn)狀進(jìn)行全面梳理,結(jié)合核心業(yè)務(wù)流程,制定有針對(duì)性的、有效的應(yīng)急方案,尋找潛在風(fēng)險(xiǎn)點(diǎn)并優(yōu)化。

活動(dòng)場(chǎng)景梳理

了解活動(dòng)場(chǎng)景是做任何活動(dòng)支持方案的首要行動(dòng)項(xiàng)。不同活動(dòng)形式,如秒殺、免費(fèi)贈(zèng)險(xiǎn)、辦公簽到等,均有不一樣的用戶表現(xiàn)。不同活動(dòng)對(duì)系統(tǒng)性能的要求也不一樣。

例如,秒殺的用戶行為更多表現(xiàn)為集中時(shí)間點(diǎn)登陸,集中訪問(wèn)特定URL;免費(fèi)贈(zèng)險(xiǎn)則為某段時(shí)間內(nèi)的持續(xù)用戶登陸,但廣告推送、非工作等時(shí)間段訪問(wèn)量會(huì)有明顯增量,但相對(duì)均衡;辦公簽到等有時(shí)效要求的活動(dòng),則是在某特定時(shí)間段區(qū)間內(nèi),存在集中峰值。

例如春節(jié)期間的直播活動(dòng),其帶有辦公簽到的集中上線性質(zhì),在該類活動(dòng)中,需重點(diǎn)保障高峰期間用戶登陸、直播間進(jìn)出、推拉流等場(chǎng)景。同時(shí),直播間的個(gè)性化服務(wù),如送禮物、IM等場(chǎng)景,則需分析其業(yè)務(wù)場(chǎng)景的核心程度,定義保障等級(jí)。

活動(dòng)場(chǎng)景梳理完成后,需產(chǎn)出但不限于:業(yè)務(wù)活動(dòng)形式、活動(dòng)最高并發(fā)用戶及請(qǐng)求量、活動(dòng)核心業(yè)務(wù)場(chǎng)景、活動(dòng)時(shí)間區(qū)間等內(nèi)容。

應(yīng)用架構(gòu)梳理

活動(dòng)場(chǎng)景及保障等級(jí)梳理完畢后,可以根據(jù)提供功能的系統(tǒng)組件逐步梳理出組件上下游調(diào)用關(guān)系,整理應(yīng)用架構(gòu)信息。

在整理應(yīng)用架構(gòu)信息時(shí),一方面需關(guān)注組件的架構(gòu)方案是否符合活動(dòng)形態(tài),如秒殺類活動(dòng),不適用對(duì)關(guān)系型DB進(jìn)行高頻次操作的架構(gòu),應(yīng)以異步消息、高速緩存等輕架構(gòu)應(yīng)對(duì)前端高并發(fā)流量;

另一方面需關(guān)注業(yè)務(wù)場(chǎng)景實(shí)現(xiàn)過(guò)程中的調(diào)用關(guān)系及數(shù)據(jù)流,需區(qū)分業(yè)務(wù)場(chǎng)景數(shù)據(jù)流中的“關(guān)鍵”與“增值”。“關(guān)鍵”即為必須調(diào)用鏈,任何情況下均無(wú)法做降級(jí)服務(wù);“增值”即為體驗(yàn)鏈,需考慮功能開(kāi)關(guān)、服務(wù)降級(jí)等措施,可作為應(yīng)急預(yù)案中的有損服務(wù)的保障措施考慮點(diǎn)。

需重點(diǎn)提及,很多團(tuán)隊(duì)在做應(yīng)用架構(gòu)梳理中,主要關(guān)注于應(yīng)用,往往容易忽略網(wǎng)絡(luò)層、機(jī)房等基礎(chǔ)資源。網(wǎng)絡(luò)層如出入口的流量、CDN服務(wù)等;機(jī)房架構(gòu)如多活架構(gòu)、云平臺(tái)底層資源等,均是活動(dòng)期間的評(píng)估維度。

應(yīng)用架構(gòu)梳理完成后,需產(chǎn)出但不限于:應(yīng)用層面架構(gòu)圖、核心數(shù)據(jù)流、關(guān)鍵服務(wù)與非關(guān)鍵服務(wù)清單、組件集群清單等信息,基礎(chǔ)架構(gòu)層面如網(wǎng)絡(luò)、云平臺(tái)、多活策略等信息。

配置信息梳理

應(yīng)用架構(gòu)梳理完畢后,通過(guò)梳理配置信息,了解應(yīng)用層各組件CI的配置環(huán)境。配置環(huán)境包含集群數(shù)量、集群上下游調(diào)用策略、集群在JVM的配置等(如線程數(shù)配置,內(nèi)存配置等)。

同時(shí)需梳理基礎(chǔ)架構(gòu)領(lǐng)域的網(wǎng)絡(luò)帶寬、云主機(jī)的最大IO控制、甚至每個(gè)集群的對(duì)外防火墻策略。

A、應(yīng)用的日志文件及日志輸出級(jí)別是否合理。如常見(jiàn)的nginx日志、tomcat組件的out日志、acclog等,同時(shí)還需關(guān)注SDK日志。在與第三方服務(wù)合作中,常以SDK介質(zhì)作為系統(tǒng)間的融合方案,SDK若涉及到PC客戶端、移動(dòng)客戶端,需重點(diǎn)關(guān)注SDK的奔潰日志、接口請(qǐng)求日志等,需檢查日志是否有回傳機(jī)制,避免在生產(chǎn)發(fā)生異常時(shí),無(wú)法獲取SDK日志信息作為問(wèn)題診斷的基礎(chǔ)。

B、 各應(yīng)用組件的核心URL請(qǐng)求及功能點(diǎn)描述。對(duì)于應(yīng)用服務(wù)的核心URL,需有功能點(diǎn)的登記及描述,可作為請(qǐng)求分析的基礎(chǔ)信息輸入。

監(jiān)控方案檢視及部署

配置信息梳理完畢后,即可對(duì)涉及到的所有顯性CI、隱形CI做監(jiān)控配置的巡查檢視。集團(tuán)IT團(tuán)隊(duì)在用戶體驗(yàn)(客戶端/瀏覽器端/小程序端/用戶感知)-服務(wù)鏈路-基礎(chǔ)資源-業(yè)務(wù)趨勢(shì)等層面,基于存在性-存活性-可用性-健康與效率等四個(gè)方面制定常規(guī)監(jiān)控方案。除此以外,還有不限于以下范圍的特殊監(jiān)控:

A、應(yīng)用異常標(biāo)志性關(guān)鍵字監(jiān)控;

B、 非標(biāo)組件,需研發(fā)配合,實(shí)現(xiàn)可衡量服務(wù)運(yùn)行狀態(tài)正常的標(biāo)記接口或日志;

C、 與第三方服務(wù)交互的應(yīng)用場(chǎng)景,需考慮監(jiān)控需覆蓋第三方服務(wù)可用性、容量,甚至在異?,F(xiàn)場(chǎng)需提供snapshot、崩潰日志、異常請(qǐng)求返回錯(cuò)誤代碼號(hào)等監(jiān)控信息。

容量評(píng)估及擴(kuò)容方案

基于業(yè)務(wù)活動(dòng)重點(diǎn)場(chǎng)景的當(dāng)前CI運(yùn)行狀態(tài)數(shù)據(jù),預(yù)估系統(tǒng)當(dāng)前可支持并發(fā)量,與業(yè)務(wù)預(yù)期并發(fā)量進(jìn)行對(duì)比制定初步擴(kuò)容方案(該評(píng)估為初步評(píng)估,因業(yè)務(wù)活動(dòng)綜合多類場(chǎng)景,無(wú)法準(zhǔn)確評(píng)估容量比例,此評(píng)估可作為擴(kuò)容參考)。其中擴(kuò)容方案除常規(guī)的應(yīng)用實(shí)例擴(kuò)容外,還需考慮網(wǎng)絡(luò)出入口帶寬、CDN帶寬、數(shù)據(jù)庫(kù)容量、存儲(chǔ)容量、信令容量,以及配置類容量(實(shí)例的最大連接數(shù)、主機(jī)的文件打開(kāi)最大數(shù))等。

在擴(kuò)容方案中,需注意:

A、在多層架構(gòu)中,下游系統(tǒng)組件的容量需大于上游系統(tǒng)容量,避免系統(tǒng)容量在上游進(jìn)來(lái)后引起后端的崩潰式堵塞;

B、 擴(kuò)容策略需與業(yè)務(wù)場(chǎng)景充分結(jié)合,業(yè)務(wù)場(chǎng)景的降級(jí)級(jí)別與服務(wù)的容量策略需定義關(guān)系表,如當(dāng)某A組件達(dá)到CPU資源95%時(shí),某低級(jí)別的業(yè)務(wù)場(chǎng)景的降級(jí)服務(wù)需可快速配置,避免影響A組件的整體容量異常。

生產(chǎn)壓測(cè)及監(jiān)控分析

使用壓測(cè)手段驗(yàn)證擴(kuò)容后的效果。結(jié)合活動(dòng)場(chǎng)景、業(yè)務(wù)服務(wù)功能點(diǎn),按逐步提升并發(fā)的方式制定壓測(cè)方案。分析壓測(cè)報(bào)告、監(jiān)控信息的匯總報(bào)告,按照擴(kuò)容策略分析存在容量資源瓶頸點(diǎn),但需要警惕:

A、對(duì)瓶頸組件擴(kuò)容后,同時(shí)需再做一次“回歸壓測(cè)”,觀察其下游服務(wù)是否因此出現(xiàn)瓶頸;

B、 壓測(cè)所發(fā)現(xiàn)的容量或性能瓶頸,并非所有現(xiàn)象均需要通過(guò)擴(kuò)容方式提高保障,有時(shí)可通過(guò)服務(wù)拆解等架構(gòu)優(yōu)化、服務(wù)接口的代碼優(yōu)化等方式達(dá)成效果。

TOP緩慢SQL/接口分析

TOP緩慢SQL/接口的分析梳理,是提升當(dāng)前容量及性能的非常有效的手段。緩慢SQL的優(yōu)化,通過(guò)執(zhí)行計(jì)劃、高并發(fā)類的SQL轉(zhuǎn)換為緩存計(jì)算等方式,可明顯提升對(duì)應(yīng)服務(wù)接口的效率。

每次業(yè)務(wù)峰值,緩慢SQL、緩慢接口很容易導(dǎo)致服務(wù)線程積壓堵塞,甚至占用大量?jī)?nèi)存。對(duì)于緩慢接口可通過(guò)threaddump分析,緩慢SQL如ORACLE,則可WAIT_EVENT/longsession/lock/latch_free等維度做分析,并由DBA/研發(fā)提供優(yōu)化方案。

應(yīng)急預(yù)案整理

應(yīng)急預(yù)案通常分為兩大類型,一是業(yè)務(wù)層面的應(yīng)急方案,二是IT組件異常應(yīng)急方案:

A、業(yè)務(wù)層應(yīng)急方案,可通過(guò)應(yīng)用服務(wù)降級(jí)、服務(wù)中斷、業(yè)務(wù)開(kāi)關(guān)等方式進(jìn)行,同時(shí)可以通過(guò)業(yè)務(wù)錯(cuò)峰等策略,實(shí)現(xiàn)高峰均勻;

B、 IT組件異常方案,一方面需以最窘迫情景分析,以每個(gè)組件為分析對(duì)象,當(dāng)該組件異常時(shí),是否可以以服務(wù)重啟/環(huán)境切換/功能開(kāi)關(guān)調(diào)整等方式恢復(fù);

另一方面,對(duì)于大面積異常時(shí)的方案,是否可采用限流、多活切換、有損提供部分功能等方式繼續(xù)提供服務(wù),但該類策略需與事先與業(yè)務(wù)達(dá)成一致。

02 做好過(guò)程監(jiān)視,不放過(guò)任何細(xì)節(jié)

不放過(guò)波峰細(xì)節(jié),了解業(yè)務(wù)最前線

保留活動(dòng)過(guò)程的現(xiàn)場(chǎng)是IT服務(wù)持續(xù)優(yōu)化的最寶貴信息來(lái)源。在瞬間波峰時(shí),基礎(chǔ)資源的穩(wěn)定性、服務(wù)層面的性能波動(dòng)、服務(wù)層面的功能報(bào)錯(cuò)率、網(wǎng)絡(luò)流量、網(wǎng)絡(luò)建聯(lián)的上限控制等,需充分分析及記錄相關(guān)現(xiàn)象,運(yùn)用監(jiān)控時(shí)序數(shù)據(jù)、應(yīng)用日志、甚至抓包等手段信息,逐步復(fù)原。

注意,我們通常會(huì)關(guān)注波峰時(shí)的系統(tǒng)容量、性能,但往往會(huì)忽略一點(diǎn),即業(yè)務(wù)層面的用戶行為分析。我們?yōu)榱诉_(dá)到整體穩(wěn)定目標(biāo),對(duì)業(yè)務(wù)核心功能進(jìn)行重點(diǎn)保障,對(duì)非核心功能做有效隔離、錯(cuò)峰等措施,也能起到很好的效果。

比如在直播活動(dòng)中,我們最常用到的功能點(diǎn)有直播間的進(jìn)出、直播視頻的推拉流、送禮物、IM聊天等,但對(duì)以上提及的內(nèi)容,最核心的功能點(diǎn)是直播間的進(jìn)出、直播視頻的推拉流。在容量扛不住的情況下,可關(guān)閉送禮物、IM聊天功能;另外一種場(chǎng)景,直播間的創(chuàng)建與直播的現(xiàn)場(chǎng)是兩個(gè)不同場(chǎng)景,但可能會(huì)占用同一組件資源。當(dāng)直播高峰時(shí),可以考慮直播間的創(chuàng)建功能臨時(shí)錯(cuò)峰,避免資源競(jìng)爭(zhēng)。

全面檢查,尋找不合理的表現(xiàn)

在活動(dòng)結(jié)束后,需安排對(duì)業(yè)務(wù)、應(yīng)用、平臺(tái)等方面進(jìn)行全面檢視。如對(duì)監(jiān)控?cái)?shù)據(jù)進(jìn)行全面數(shù)據(jù)分析;對(duì)活動(dòng)高峰期間的業(yè)務(wù)TOP URL/SQL進(jìn)行分析;應(yīng)用層面的服務(wù)鏈路性能及錯(cuò)誤的變化現(xiàn)象;從平臺(tái)層面檢視帶寬、連接數(shù)、云平臺(tái)的超負(fù)荷狀態(tài)等;尋找在資源上、業(yè)務(wù)行為上、代碼健壯性等層面的異常現(xiàn)象,并逐個(gè)形成分析和跟蹤措施,從架構(gòu)優(yōu)化、擴(kuò)縮容、代碼優(yōu)化等方面安排改進(jìn)。

03 良好的組織聯(lián)動(dòng),是成功的關(guān)鍵

團(tuán)結(jié)一心,分工明確,聯(lián)動(dòng)溝通

好的組織紀(jì)律,明確約定的工作溝通方式,團(tuán)隊(duì)間達(dá)成信息透明、主動(dòng)協(xié)作,是保障活動(dòng)工作有效、高效開(kāi)展的條件。

業(yè)務(wù)活動(dòng)保障,通常是由多個(gè)團(tuán)隊(duì)的多個(gè)角色臨時(shí)組件的團(tuán)隊(duì)負(fù)責(zé)完成,有運(yùn)維、業(yè)務(wù)、產(chǎn)品、架構(gòu)、開(kāi)發(fā)、測(cè)試、平臺(tái)、基礎(chǔ)架構(gòu)等各個(gè)技術(shù)領(lǐng)域的人員,還可能涉及外部廠商。我們需要采取措施,妥善組織眾多不同背景的人員,避免混亂,讓大家擰成一股繩,共同朝向一個(gè)目標(biāo)努力。

供應(yīng)商溝通同樣重要

在生產(chǎn)問(wèn)題診斷中,供應(yīng)商是常常被忽略的角色,如網(wǎng)絡(luò)CDN、ORACLE廠商、網(wǎng)絡(luò)設(shè)備廠商等。應(yīng)用層面達(dá)到一定的優(yōu)化程度后,供應(yīng)商從底層出發(fā)協(xié)助提供優(yōu)化方案,往往能夠起到事半功倍的效果。當(dāng)然,在業(yè)務(wù)保障過(guò)程中,對(duì)提供服務(wù)的廠商要信息透明,這也是一項(xiàng)基礎(chǔ)要求。

生產(chǎn)變更操作必須評(píng)審、記錄、透明

活動(dòng)保障過(guò)程中,一切生產(chǎn)變更必須統(tǒng)一評(píng)審后再操作。生產(chǎn)變更歷來(lái)屬于風(fēng)險(xiǎn)極高的動(dòng)作。在業(yè)務(wù)活動(dòng)保障工作中,專業(yè)團(tuán)隊(duì)常會(huì)出現(xiàn)“我發(fā)現(xiàn)了某個(gè)參數(shù)貌似不對(duì)”,就默默地調(diào)整了參數(shù)。

這種做法沒(méi)有在保障團(tuán)隊(duì)中做記錄,當(dāng)參數(shù)的調(diào)整引發(fā)生產(chǎn)問(wèn)題時(shí),無(wú)法回溯變更,無(wú)法快速定位異常導(dǎo)致點(diǎn),常會(huì)導(dǎo)致問(wèn)題定位效率低下。

因此,不管在架構(gòu)檢視、壓測(cè)、擴(kuò)容、業(yè)務(wù)峰值后的檢視措施等過(guò)程中,涉及到的生產(chǎn)變更方案及計(jì)劃,都需要進(jìn)行評(píng)審,記錄,形成有跟蹤措施的變更計(jì)劃,信息要透明。

寫(xiě)在最后

世上本沒(méi)有什么歲月安好,只不過(guò)有人替你負(fù)重前行。疫情前線,醫(yī)護(hù)人員的忘我奉獻(xiàn),譜寫(xiě)著一曲又一曲感人至深的贊歌。互聯(lián)網(wǎng)時(shí)代,在一場(chǎng)轟轟烈烈,用戶拍手叫好的大規(guī)模業(yè)務(wù)活動(dòng)的背后,通常也是有無(wú)數(shù)IT技術(shù)專家們夜以繼日的辛勤堅(jiān)守。

業(yè)務(wù)活動(dòng)的保障支持,是一項(xiàng)極高強(qiáng)度的IT事項(xiàng),需要IT人員具備敏銳的信息收集、分析、應(yīng)急能力,同時(shí)需要各技術(shù)領(lǐng)域?qū)<壹胸暙I(xiàn)專業(yè)能力。只有在每場(chǎng)活動(dòng)中積累經(jīng)驗(yàn),在技術(shù)上不斷尋求創(chuàng)新,我們才能游刃有余,在每場(chǎng)業(yè)務(wù)活動(dòng)中突破自己,締造運(yùn)維人員自己的傳奇!

作者:黃偉星,平安科技運(yùn)營(yíng)工具平臺(tái)團(tuán)隊(duì)監(jiān)控規(guī)劃及方案實(shí)施組,負(fù)責(zé)平安集團(tuán)Wiseapm監(jiān)控產(chǎn)品建設(shè)與實(shí)施工作。 

 

責(zé)任編輯:張燕妮 來(lái)源: 高效運(yùn)維
相關(guān)推薦

2018-05-24 23:26:37

云數(shù)據(jù)中心運(yùn)維云計(jì)算

2013-05-31 09:34:21

IT運(yùn)維云時(shí)代IT運(yùn)維審計(jì)

2022-06-22 08:02:01

業(yè)務(wù)監(jiān)控Web站點(diǎn)監(jiān)控

2018-12-21 08:33:15

數(shù)據(jù)中心機(jī)房運(yùn)維

2016-01-13 13:13:29

運(yùn)維監(jiān)控工具

2018-06-23 07:31:05

2016-01-07 15:21:26

2020-03-10 10:19:21

疫情遠(yuǎn)程辦公技術(shù)

2020-01-31 11:22:33

運(yùn)維架構(gòu)技術(shù)

2018-08-16 08:37:03

機(jī)房運(yùn)維硬件

2016-11-25 17:51:48

華為ICT

2018-11-15 12:19:07

運(yùn)維管理業(yè)務(wù)

2022-03-14 08:40:48

數(shù)據(jù)MRDPRD

2013-05-06 15:10:18

IT運(yùn)維管理大數(shù)據(jù)

2019-03-15 10:13:10

運(yùn)維云計(jì)算運(yùn)營(yíng)

2021-07-03 09:21:15

QQ游戲中心宣發(fā)平臺(tái)運(yùn)營(yíng)

2019-02-19 09:14:52

IT運(yùn)維系統(tǒng)

2015-09-30 11:45:30

自動(dòng)化技能運(yùn)維

2017-10-20 22:57:44

2019-04-29 09:52:46

容器安全漏洞網(wǎng)絡(luò)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)