自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

實(shí)現(xiàn)云彈性的一種方法—系統(tǒng)和混沌測(cè)試

譯文
云計(jì)算
在本文中,了解彈性和可觀察性的含義,以及為什么彈性和混沌測(cè)試對(duì)于避免停機(jī)至關(guān)重要,并且對(duì)企業(yè)的重要性。

【51CTO.com快譯】

 

在當(dāng)今數(shù)字技術(shù)時(shí)代,停工就意味著停機(jī),構(gòu)建彈性云結(jié)構(gòu)勢(shì)在必行。例如,在新冠疫情期間,IT 維護(hù)團(tuán)隊(duì)不能再在本地重新啟動(dòng)數(shù)據(jù)中心的任何服務(wù)器。如果本地硬件出現(xiàn)故障,這可能會(huì)導(dǎo)致訪問所有數(shù)據(jù)或軟件的巨大障礙,使得生產(chǎn)率下降,并造成整體業(yè)務(wù)損失。然而,針對(duì)上述問題的解決方案,是將所有 IT 操作傳輸?shù)皆苹A(chǔ)架構(gòu),通過遠(yuǎn)程成員提供 24/7 全天候技術(shù)支持來確保安全。云在這里本質(zhì)上是神一樣的存在。

最近,一些公司已經(jīng)充分利用云的潛力,因此,云操作的可觀察性 和彈性變得勢(shì)在必行,因?yàn)橥C(jī)現(xiàn)在等同于斷開連接和業(yè)務(wù)損失。 

在當(dāng)今技術(shù)驅(qū)動(dòng)的商業(yè)經(jīng)濟(jì)中,想象云失敗將是災(zāi)難性的。任何故障和中斷都會(huì)導(dǎo)致多米諾骨牌效應(yīng),影響公司的系統(tǒng)性能。因此,對(duì)于組織和公司來說,通過混亂和系統(tǒng)化的測(cè)試將云彈性構(gòu)建到云結(jié)構(gòu)中變得十分重要。在這篇文章中,我將帶您了解彈性和可觀察性的含義,以及為什么彈性和混沌測(cè)試對(duì)于避免停機(jī)至關(guān)重要。

為避免云故障,企業(yè)必須通過連續(xù)和混亂的方式對(duì)其云架構(gòu)進(jìn)行測(cè)試,從而在其云架構(gòu)中構(gòu)建彈性。

1.) 可觀察性

可觀察性可以通過兩個(gè)方面來理解。一個(gè)是通過控制理論, 它將可觀察性解釋為通過推斷系統(tǒng)的外部輸出來理解系統(tǒng)狀態(tài)的過程。另一個(gè)方面解釋了可觀察性的學(xué)科和方法,即用來測(cè)量不確定性和未知數(shù)的學(xué)科和方法。
云計(jì)算的可觀察性是利用跨領(lǐng)域、規(guī)模和服務(wù)的端到端監(jiān)控的先決條件。可觀察性不應(yīng)與監(jiān)控相混淆,因?yàn)楸O(jiān)控用于了解應(yīng)用程序中問題和異常的根本原因。 監(jiān)控會(huì)告訴你什么時(shí)候出現(xiàn)了問題,而可觀察性可幫助你了解出現(xiàn)問題的原因。它們各自服務(wù)于不同的目的,但肯定是相輔相成的。

云系統(tǒng)需要具備可觀察性和彈性,以確保更少的停機(jī)時(shí)間、 更快的應(yīng)用程序速度等。

2.) 彈性 

穩(wěn)定

是否開啟/可訪問?

可靠性

它會(huì)以應(yīng)有的方式始終如一地工作,并且在我們需要的時(shí)候工作嗎?

可用性

它是否可以隨時(shí)隨地可靠地訪問?

彈力

系統(tǒng)如何應(yīng)對(duì)挑戰(zhàn)以使其可靠可用?

每個(gè)遷移到云基礎(chǔ)設(shè)施的企業(yè)都應(yīng)確保并測(cè)試其系統(tǒng)的穩(wěn)定性、可靠性、可用性和彈性,其中彈性位于層次結(jié)構(gòu)的頂部。穩(wěn)定性是保證系統(tǒng)和服務(wù)器不會(huì)經(jīng)常崩潰;可用性通過將應(yīng)用程序分布在不同的位置以減輕工作量,從而確保系統(tǒng)正常運(yùn)行時(shí)間;可靠性確保云系統(tǒng)的高效運(yùn)行和可用性。但是,如果企業(yè)想要解決不可預(yù)見的問題,那么不斷測(cè)試彈性就變得必不可少。

彈性是指預(yù)期會(huì)出現(xiàn)的問題,并且系統(tǒng)會(huì)以某種方式進(jìn)行測(cè)試,以解決和調(diào)整該問題。 系統(tǒng)的彈性不是自動(dòng)實(shí)現(xiàn)的。彈性的系統(tǒng)承認(rèn)復(fù)雜的系統(tǒng)和問題,并努力逐步采取措施應(yīng)對(duì)錯(cuò)誤。它需要不斷測(cè)試,以減少問題或故障的影響。持續(xù)測(cè)試可避免云故障,確保更高的性能和效率。

可通過現(xiàn)場(chǎng)彈性設(shè)計(jì)和利用混沌測(cè)試等系統(tǒng)測(cè)試方法實(shí)現(xiàn)彈性。

常規(guī)測(cè)試及其不足

傳統(tǒng)測(cè)試 確保應(yīng)用程序直接安裝和遷移到云系統(tǒng)中,并監(jiān)控它們的性能和工作效率。足以確保云系統(tǒng)不會(huì)根據(jù)設(shè)計(jì)改變應(yīng)用程序的性能和功能。

常規(guī)測(cè)試是不夠的,因?yàn)樗诎l(fā)現(xiàn)潛在的隱藏架構(gòu)問題和異常方面效率低下,一些故障僅在觸發(fā)特定條件時(shí)才可見。

云的高可用承諾

Scott Guthrie 在談到云的未來和前景時(shí)說,“我們看到數(shù)字空間的發(fā)展速度逐漸加快。云讓我們能夠按照摩爾定律的速度進(jìn)行擴(kuò)展,也可以使用更少的基礎(chǔ)設(shè)施快速擴(kuò)展”。由于疫情人們被迫在家工作,云投資并沒有激增。但是,由于這種前所未有的需求,所有超大規(guī)模企業(yè)都必須引入節(jié)流和優(yōu)先級(jí)控制,這違背了公共云的按需彈性原則。

在中斷和停機(jī)方面,公共云并非不可挑戰(zhàn)。例如,谷歌最近的宕機(jī)時(shí)間導(dǎo)致 Gmail 和 Youtube 等多項(xiàng)谷歌服務(wù)停止,這表明公共云也不一定沒有系統(tǒng)宕機(jī)。因此,我想說,大流行為彈性云系統(tǒng)增加了幾個(gè)額外的視角:

1. 即使在線流量意外激增,系統(tǒng)也必須平穩(wěn)運(yùn)行且保持不變
2. 系統(tǒng)必須尋找替代方法來管理功能和資源池,以防云提供商拒絕或限制額外的資源分配請(qǐng)求。
3. 該系統(tǒng)應(yīng)該是可訪問且安全的,以處理未知位置并轉(zhuǎn)移到混合工作環(huán)境(可能是網(wǎng)絡(luò)防火墻之外的許多端點(diǎn))。

疫情突出了對(duì)彈性云系統(tǒng)進(jìn)行連續(xù)測(cè)試和混亂測(cè)試的價(jià)值。一個(gè)有彈性且經(jīng)過全面測(cè)試的系統(tǒng)將能夠以安全、無縫和穩(wěn)定的方式管理額外擁塞的流量。 為了檢測(cè)未知數(shù),需要彈性測(cè)試 和彈性工程 。

單獨(dú)的云原生應(yīng)用程序設(shè)計(jì)無法實(shí)現(xiàn)彈性

在公共云世界中,由于云提供商提供的基礎(chǔ)能力、多層/多種技術(shù)基礎(chǔ)架構(gòu)以及云系統(tǒng)的分布式特性存在差距,因此 應(yīng)用程序彈性 架構(gòu)的構(gòu)建更為關(guān)鍵。 即使云提供商提供了底層基礎(chǔ)架構(gòu)的可用性和彈性,這也可能導(dǎo)致云應(yīng)用程序以不可預(yù)測(cè)的方式失敗。

為建立良好的應(yīng)用彈性基礎(chǔ), 在設(shè)計(jì)過程中,云工程師應(yīng)采用以下策略來測(cè)試、評(píng)估和描述應(yīng)用程序?qū)訌椥裕?/p>

1. 利用架構(gòu)良好的框架實(shí)現(xiàn)總體解決方案架構(gòu),并采用云本機(jī)功能實(shí)現(xiàn)可用性和災(zāi)難恢復(fù)。
2. 與云架構(gòu)師和技術(shù)架構(gòu)師協(xié)作,定義可用性目標(biāo),并派生應(yīng)用程序和數(shù)據(jù)庫層彈性屬性。 
A. 與威脅建模一起,根據(jù)預(yù)期或觀察到的使用模式定義假設(shè)的故障模型,并根據(jù)業(yè)務(wù)影響為這些故障模式建立測(cè)試計(jì)劃。

通過采用架構(gòu)驅(qū)動(dòng)的測(cè)試方法,組織可以在上線之前深入了解云應(yīng)用程序彈性的基本級(jí)別, 并為性能修復(fù)活動(dòng)分配足夠的時(shí)間。但是仍然需要測(cè)試應(yīng)用程序是否存在未知故障以及 云原生應(yīng)用程序設(shè)計(jì)中多個(gè)故障點(diǎn)。

混亂測(cè)試與工程

混亂測(cè)試是一種有意將壓力和異常引入云結(jié)構(gòu)的方法,以系統(tǒng)地測(cè)試系統(tǒng)的彈性。

首先,混亂測(cè)試不能替代實(shí)際的測(cè)試系統(tǒng)。 這只是衡量錯(cuò)誤的另一種方式。通過向系統(tǒng)引入降級(jí),IT 團(tuán)隊(duì)可以看到發(fā)生了什么以及它是如何反應(yīng)的。重要的是,測(cè)試可以幫助測(cè)試人員衡量系統(tǒng)的可觀察性和彈性方面的差距,這些是最初被忽略的事情。

Netflix 在 2011 年遷移到云系統(tǒng)期間首先效仿了這種測(cè)試方法,此后,它有效地建立了這種方法?;靵y測(cè)試揭示了低效率,并引導(dǎo)開發(fā)團(tuán)隊(duì)改變、衡量和提高彈性,并幫助云架構(gòu)師更好地理解和改變他們的設(shè)計(jì)。
持續(xù)、系統(tǒng)和混亂的測(cè)試增加了云基礎(chǔ)設(shè)施的彈性,從而有效地增強(qiáng)了系統(tǒng)的彈性,并最終增強(qiáng)了管理和運(yùn)營團(tuán)隊(duì)對(duì)他們正在構(gòu)建的系統(tǒng)的信心。

彈性企業(yè)必須部分或全部在云 基礎(chǔ)架構(gòu)上創(chuàng)建彈性 IT 系統(tǒng)。

使用混沌和站點(diǎn)可靠性工程可幫助企業(yè)在以下方面保持彈性:
• 云和基礎(chǔ)架構(gòu)彈性
• 通過持續(xù)監(jiān)控實(shí)現(xiàn)數(shù)據(jù)彈性。
• 通過確保用戶界面在高壓力條件下保持穩(wěn)定,實(shí)現(xiàn)用戶和客戶體驗(yàn)彈性
• 通過將安全性與治理和控制機(jī)制相結(jié)合來增強(qiáng)網(wǎng)絡(luò)安全性
• 對(duì)基礎(chǔ)架構(gòu)、應(yīng)用程序和數(shù)據(jù)的彈性支持

為了建立完整的應(yīng)用程序彈性,除了前面提到的云應(yīng)用程序設(shè)計(jì)方面,解決方案架構(gòu)師還需要采用架構(gòu)模式,允許注入特定故障以觸發(fā)內(nèi)部錯(cuò)誤,從而在開發(fā)和測(cè)試階段模擬故障。

故障觸發(fā)器的一些常見示例包括響應(yīng)延遲、資源占用、網(wǎng)絡(luò)中斷、瞬態(tài)條件、用戶的極端行為等等。

1. 針對(duì)常見的已識(shí)別場(chǎng)景,制定持續(xù)監(jiān)控、管理和自動(dòng)化事件響應(yīng)計(jì)劃
2. 建立混沌測(cè)試框架和環(huán)境
3. 注入具有不同嚴(yán)重性和組合的故障,并監(jiān)控應(yīng)用層行為
4. 識(shí)別異常行為并重復(fù)上述步驟以確認(rèn)關(guān)鍵性

如何進(jìn)行混沌測(cè)試

混沌測(cè)試可以通過在云結(jié)構(gòu)的任何七層中引入異常來完成,這有助于評(píng)估對(duì)恢復(fù)力的影響。

當(dāng) Netflix 在 2011 年成功宣布其彈性工具 Chaos Monkey 時(shí),許多開發(fā)團(tuán)隊(duì)將其用于混沌工程測(cè)試系統(tǒng)。還有另一個(gè)由軟件工程師開發(fā)的工具測(cè)試系統(tǒng) Gremlin, 基本上也在做同樣的事情。但是,如果在 COVID-19 的環(huán)境中執(zhí)行混沌測(cè)試,可以使用 GameDay 來實(shí)現(xiàn)。這會(huì)引發(fā)異常情況,其中流量突然增加;例如,客戶同時(shí)訪問移動(dòng)應(yīng)用程序。GameDay 的目標(biāo)不僅是測(cè)試彈性,還要提高系統(tǒng)的可靠性。

確保成功進(jìn)行混沌測(cè)試所需采取的步驟如下:
1. 識(shí)別: 識(shí)別系統(tǒng)中的關(guān)鍵弱點(diǎn),并創(chuàng)建一個(gè)假設(shè)和預(yù)期結(jié)果。工程師需要識(shí)別和評(píng)估在假設(shè)框架內(nèi)注入什么樣的故障。
2. 模擬: 根據(jù)真實(shí)事件在生產(chǎn)過程中注入異常。這樣可以確保將系統(tǒng)中可能發(fā)生的情況包括在內(nèi)。這可能導(dǎo)致應(yīng)用程序或網(wǎng)絡(luò)中斷或節(jié)點(diǎn)故障。
3. 自動(dòng)化:自動(dòng)化這些實(shí)驗(yàn),可能是每小時(shí)/每周等。這確保了連續(xù)性,這是混沌工程中的一個(gè)不利因素。
4. 持續(xù)反饋和改進(jìn): 實(shí)驗(yàn)有兩種結(jié)果??梢源_保彈性或發(fā)現(xiàn)需要解決的問題。這兩種方法都是很好的結(jié)果,你可以從中獲取反饋來完善您的系統(tǒng)。

在系統(tǒng)上引發(fā)錯(cuò)誤攻擊和序列的其他具體方法可能是:
1. 增加網(wǎng)絡(luò)延遲
2. 切斷計(jì)劃任務(wù)
3. 切斷微服務(wù)
4. 斷開系統(tǒng)與數(shù)據(jù)中心的連接

總結(jié)

在當(dāng)今的數(shù)字時(shí)代,增強(qiáng)云彈性以提高應(yīng)用程序的有效性能變得勢(shì)在必行。在項(xiàng)目的生命周期中,持續(xù)和系統(tǒng)的測(cè)試是必不可少的,但同時(shí)也要確保在公共云負(fù)擔(dān)過重的時(shí)候云彈性。 通過防止長時(shí)間的中斷和未來的中斷,企業(yè)可以節(jié)省大量成本,此外還可以確保為客戶提供服務(wù)的持久性。因此,混沌工程成為大規(guī)模分布式系統(tǒng)的一種必然。

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:梁菲 來源: Dzone
相關(guān)推薦

2022-01-06 09:00:00

云計(jì)算技術(shù)架構(gòu)

2011-02-23 09:35:25

Eclipse遠(yuǎn)程調(diào)試

2011-07-04 17:53:48

快速測(cè)試

2020-05-19 17:07:09

Spark測(cè)試數(shù)據(jù)計(jì)算

2010-07-21 16:23:09

運(yùn)行telnet程序

2021-03-21 22:23:38

云計(jì)算數(shù)據(jù)中心IT

2023-02-26 23:10:09

存儲(chǔ)Linux架構(gòu)

2023-07-25 15:10:36

Linux存儲(chǔ)

2021-06-04 08:58:41

Linux運(yùn)維Linux系統(tǒng)

2022-06-14 10:21:51

IT領(lǐng)導(dǎo)者IT組織

2022-08-28 23:48:20

機(jī)器學(xué)習(xí)線性回歸數(shù)據(jù)

2009-06-17 12:01:21

Linux

2015-07-28 13:36:04

2009-06-17 09:05:05

Linux隱藏網(wǎng)絡(luò)鏈接命令

2015-12-18 16:15:55

架構(gòu)新型計(jì)算模型

2013-03-27 09:30:44

數(shù)據(jù)挖掘IT基礎(chǔ)設(shè)施

2011-04-18 15:32:45

游戲測(cè)試測(cè)試方法軟件測(cè)試

2017-05-31 16:30:21

Linux虛擬網(wǎng)絡(luò)網(wǎng)絡(luò)設(shè)置

2016-09-27 09:44:33

云計(jì)算柔性云運(yùn)維

2011-08-22 09:54:40

云計(jì)算虛擬化云成本
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)