自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破傳統(tǒng)可靠性測試:混沌工程優(yōu)秀實踐

開發(fā) 新聞
隨著IT和互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,軟件系統(tǒng)的復雜度逐步增加,分布式技術架構(gòu)成為主流。

在數(shù)字經(jīng)濟快速穩(wěn)定發(fā)展背景下,云計算已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的基石。

應用層追求更全面、更便利、更快捷的服務,逆向推動技術層面系統(tǒng)越來越龐大,持續(xù)維護系統(tǒng)的難度與日俱增,故障的發(fā)生不可避免,如何保障業(yè)務持續(xù)的高可用性和穩(wěn)定性成為了大家面臨的挑戰(zhàn)!

在穩(wěn)定性保障能力建設方面,互聯(lián)網(wǎng)公司的思考及實踐已較為深入,從混沌工程到可觀測性、從全鏈路壓測到應用多活。相對而言大部分國內(nèi)傳統(tǒng)企業(yè)還處于大型機到分布式、云原生化改造的階段,對穩(wěn)定性保障能力建設的路徑、障礙并不清晰,對穩(wěn)定性保障技術價值仍不明。

針對可靠性測試的挑戰(zhàn),混沌工程在一定程度上給出了解法,但如何運用平臺的工具進行可靠性測試實踐? 為此PerfMa混沌工程產(chǎn)品負責人葉青山先生,將從可靠性問題分析、可靠性測試方案、尋找可靠性分母、構(gòu)建可靠性用例、可靠性用例執(zhí)行等維度,全方位給大家演示如何推進企業(yè)系統(tǒng)穩(wěn)定性能力建設。

可靠性問題分析

隨著IT和互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,軟件系統(tǒng)的復雜度逐步增加,分布式技術架構(gòu)成為主流。微服務,數(shù)據(jù)庫,緩存,對象存儲,消息等各種分布式組件構(gòu)建成復雜的分布式系統(tǒng)。大型的分布式系統(tǒng)會有成千上萬的節(jié)點,這些節(jié)點在長期運行的時候,會不可避免的出現(xiàn)匿機、斷網(wǎng)、磁盤損壞等各種故障。

分布式組件一般都面向故障進行相關的可靠性設計,通過主備、集群、鏡像、哨兵等多種方式保障系組件的分布式可靠性,那么在實際部署運行環(huán)境,如何確保這些設計依然是有效的就會是一個具備一定挑戰(zhàn)性的測試工作。

故障根因分類

目前主流的分布式系統(tǒng)的可靠性分析一般從設施層,數(shù)據(jù)層,操作系統(tǒng)&語言層,中間件層,服務層進行分層分析。

可靠性測試方案

可靠性測試方案三大步驟:

  1. 對業(yè)務系統(tǒng)進行可靠性風險分析,構(gòu)建風險場景庫
  2. 根據(jù)風險場景,構(gòu)造可靠性用例
  3. 基于混沌工程進行可靠性用例執(zhí)行

可靠性測試目標:提升SLA

  

可靠性測試分母

下圖是一種風險場景分類,一般來說,每個中間件都會有對應的一類風險場景。

而且我們中間件在做風險分析的時候,會取決于它的一些部署架構(gòu),你的一些主從部署跟集群部署,或者你采用哨兵模式,他解析出來整個風險場景是都會有他自己的一些具體的風險項。所以我們這邊也是大致做了一些分類,就是不同的中間件有自己的一些風險庫 

 

風險項模型

  1. 定義狀態(tài)指標,狀態(tài)指標是可以定衡量的一個系統(tǒng)都可以衡量的一個東西,最好是一個量化的。
  2. 正常運行狀態(tài),作為穩(wěn)態(tài)的描述,我們定義了一個資源,指標是什么,范圍區(qū)間是什么?那包括這個穩(wěn)態(tài)如果被破壞以后,它可能產(chǎn)生什么樣的風險和故障。
  3. 我們?nèi)绾稳ケU戏€(wěn)態(tài),它應該在什么范圍內(nèi),用什么技術手段去保障它的運行
  4. 就是,我定義的一些穩(wěn)態(tài),一些技術上我的驗證手段是什么 ,我怎么去這驗證的更多是一些破壞性能,就是我如何破壞這個穩(wěn)態(tài),那混沌工程是一種手段,剛才我們說的一些壓測或者人為破壞也好,手段不限,只要你把它能破壞掉就可以。
  5. 發(fā)現(xiàn)能力,風險巡檢包括這個度量能力息息相關的。
  6. 應急能力,應急里面可能是定義了一些你的自愈能力的要求。

風險項巡檢流程

一個風險項巡檢的例子

假設支付結(jié)果頁對廣告投放是個弱依賴,那么在對下游廣告投放服務進行故障注入后,整體的業(yè)務成功率沒有變化,耗時增長。整個演練流程如下:

仿真環(huán)境需要具備:

  • 和線上環(huán)境部署架構(gòu)一致的業(yè)務系統(tǒng)
  • 規(guī)則完善的監(jiān)控系統(tǒng)
  • 具備應急能力的運維平臺
  • 具備故障注入能力的混沌工程平臺

具體執(zhí)行步驟:

混沌工程介紹

混沌工程平臺能力

  • 混沌工程平臺底層故障注入能力豐富
  • 平臺具備專家場景,便于測試團隊人員快速落地。
  • 可應用在可靠性測試,應急驗證,攻防演練等多種場景。

可靠性測試未來展望

隨著混沌工程理念在國內(nèi)的發(fā)展,逐漸有測試團隊進行引入和應用,但是整體還是偏工具使用,缺乏體系化和完善的方法論。目前來看,未來可以從以下一些方面進行發(fā)展。

相關可靠性測試體系的建立

基于混沌工程的可靠性測試,從用例設計,用例執(zhí)行,故障注入,測試分析等方面看,目前還沒有一個行業(yè)通用的標準和規(guī)范。隨著行業(yè)的發(fā)展,相信相關的標準和規(guī)范也會產(chǎn)出。

可靠性測試平臺的建設

對比功能測試,性能測試,行業(yè)內(nèi)已經(jīng)有很多成熟的工具平臺提供。目前混沌工程的工具平臺也比較多了,但是基于混沌工程的可靠性測試工具平臺市場上還沒有,相信在不久的將來,隨著基于混沌工程的可靠性測試越來越多的落地實踐,相關的工具平臺必然會產(chǎn)出。

前端可靠性測試

移動互聯(lián)網(wǎng)時代早已到來,但是目前主流的混沌工程還是偏服務端應用,從完整的技術鏈路來看,在前端進行可靠性測試也是一個發(fā)展方向。

責任編輯:張燕妮 來源: 軟件質(zhì)量報道
相關推薦

2021-09-03 09:00:00

SREIT運營

2023-06-27 17:50:22

2010-12-28 20:16:24

2010-12-28 20:14:53

2023-11-26 13:41:24

工具信號SRE

2010-12-28 19:50:21

可靠性產(chǎn)品可靠性

2023-05-15 08:00:00

2010-12-28 20:21:26

2011-08-18 13:58:08

2011-08-19 15:59:40

2022-01-12 09:01:24

分布式系統(tǒng)容錯服務

2011-05-25 19:31:07

Stratus信息化

2009-04-08 10:23:00

軟交換網(wǎng)絡可靠

2019-08-30 12:10:05

磁盤數(shù)據(jù)可靠性RAID

2022-09-08 11:48:08

技術債務工程師IT

2011-04-18 14:05:15

可靠性系統(tǒng)測試嵌入式系統(tǒng)

2013-11-04 17:04:22

容錯可靠

2010-12-28 19:55:20

軟件架構(gòu)可靠性

2017-06-23 18:25:51

kafka數(shù)據(jù)可靠性

2020-12-06 14:51:23

物聯(lián)網(wǎng)可靠性IOT
點贊
收藏

51CTO技術棧公眾號