云部署的高可用性和災(zāi)難恢復(fù)的四個(gè)專家提示
了解如何使用高可用性 (HA) 和災(zāi)難恢復(fù) (DR) 方法在停機(jī)的情況下繼續(xù)不間斷地運(yùn)行。
業(yè)務(wù)連續(xù)性是指公司在停機(jī)情況下繼續(xù)不間斷運(yùn)營(yíng)的能力。在云環(huán)境中,這通常包括高可用性 (HA) 和災(zāi)難恢復(fù) (DR)。
他們的最終目標(biāo)是盡可能減少所有停機(jī)風(fēng)險(xiǎn),以便您可以在中斷的情況下正常運(yùn)行關(guān)鍵服務(wù)。
繼續(xù)閱讀以了解有關(guān) HA 和 DR 以及如何提高云中業(yè)務(wù)連續(xù)性的更多信息。
高可用性意味著什么?
高可用性的基本理念是讓您的基于云的服務(wù)和工具可以按需訪問(wèn)和工作。但是,HA 的概念所指的遠(yuǎn)比僅僅讓您的云資源在您需要時(shí)隨時(shí)可用更具體。
可用性是您的云基礎(chǔ)架構(gòu)保持運(yùn)行以達(dá)到其目的的時(shí)間百分比,通常以九位表示。例如,“五乘九”表示系統(tǒng)在 99.999% 的時(shí)間內(nèi)完全運(yùn)行,平均每年有 5.5 分鐘的停機(jī)時(shí)間。
如果您希望為您的云部署實(shí)現(xiàn)高可用性,您需要通過(guò)系統(tǒng)冗余來(lái)消除單點(diǎn)故障。HA 還需要編排云系統(tǒng)以自動(dòng)路由網(wǎng)絡(luò)流量并減少用戶和應(yīng)用程序的停機(jī)時(shí)間。
災(zāi)難恢復(fù)意味著什么?
災(zāi)難恢復(fù)是預(yù)測(cè)和解決可能導(dǎo)致 IT 系統(tǒng)崩潰的問(wèn)題的過(guò)程。
DR 可以像從備份中恢復(fù)一樣簡(jiǎn)單,但也可以根據(jù)恢復(fù)時(shí)間目標(biāo) (RTO) 和恢復(fù)點(diǎn)目標(biāo) (RPO) 變得更加復(fù)雜。
RTO 是系統(tǒng)在再次完全運(yùn)行之前可以關(guān)閉的最長(zhǎng)時(shí)間。有些設(shè)置可以停機(jī)數(shù)小時(shí)甚至數(shù)天而不會(huì)造成損害,但對(duì)于關(guān)鍵任務(wù)元素,RTO 通常以秒為單位。
RPO 是可容忍的數(shù)據(jù)丟失量。雖然在某些設(shè)置中丟失一天的數(shù)據(jù)可能是可以接受的,但在更關(guān)鍵的系統(tǒng)中,這可能是幾分鐘。
RTO 和 RPO 的可容忍長(zhǎng)度會(huì)顯著影響您的災(zāi)難恢復(fù)計(jì)劃。它們需要的時(shí)間越短,您就越需要注意活動(dòng)數(shù)據(jù)復(fù)制、更多冗余或更頻繁的備份等因素。
所有這些都會(huì)轉(zhuǎn)化為更高的賬單——成本通常是阻止組織推動(dòng)高可用性和縮短 RTO 和 RPO 的主要因素。達(dá)到最佳平衡點(diǎn)需要平衡費(fèi)用和潛在系統(tǒng)停機(jī)時(shí)間的影響——在某些情況下,HA 和較短的 DR 值可能是不必要的。
這里有四個(gè)專家提示,可幫助您增強(qiáng)云部署的業(yè)務(wù)連續(xù)性。
高可用性和災(zāi)難恢復(fù)的四個(gè)技巧
1. 操作可觀察性
了解云部署的整體健康狀況對(duì)于云環(huán)境的高可用性至關(guān)重要。
操作可觀察性是指將日志記錄、指標(biāo)和跟蹤與用于診斷和故障排除的工具一起聚合的能力。
根據(jù)經(jīng)驗(yàn),您的云部署應(yīng)該集成用于可視化、警報(bào)和通知的日志記錄和關(guān)鍵指標(biāo)。
為此,您可以使用云服務(wù)提供商的本地監(jiān)控和可觀察性工具。例如,AWS 有一個(gè)名為CloudWatch 的工具集,GCP — Google Cloud 的 Operations Suite(以前稱為 StackDriver),以及 Azure — Azure Monitor。然而,這些并不是免費(fèi)的,它們的成本取決于指標(biāo)的數(shù)量和處理的日志數(shù)據(jù)量。
您還可以從眾多第三方工具中進(jìn)行選擇,例如 DataDog、New Relic、Dynatrace 等。來(lái)自Grafana和 Elasticsearch的開(kāi)源解決方案也是受歡迎的選擇。
根據(jù)您的需要選擇合適的工具后,最好通過(guò)基礎(chǔ)架構(gòu)即代碼(IaC) 部署它。
2.使用IaC進(jìn)行備份和恢復(fù)
運(yùn)行 IaC 工具的一個(gè)顯著優(yōu)勢(shì)是它允許您在云中重新創(chuàng)建所有最終工件和組件以實(shí)現(xiàn)完全恢復(fù)。
使用 IaC,您只需要 Git 存儲(chǔ)庫(kù)級(jí)別的傳統(tǒng)備份/恢復(fù)過(guò)程。敏感的備份活動(dòng)必須轉(zhuǎn)移到確保您有足夠的代碼存儲(chǔ)庫(kù)備份策略。您可以使用 Git 工具和跨區(qū)域存儲(chǔ)解決方案來(lái)實(shí)現(xiàn)這一點(diǎn)。
每個(gè)區(qū)域云部署都包含需要備份的數(shù)據(jù)。文件系統(tǒng)、對(duì)象存儲(chǔ)桶和塊存儲(chǔ)卷等應(yīng)用程序可以使用各種存儲(chǔ)解決方案。
每個(gè)工件都需要獨(dú)立于您的云部署的備份和保留策略。您需要為每個(gè)遷移的應(yīng)用程序和關(guān)聯(lián)的存儲(chǔ)組件解決這些問(wèn)題。
3.使用IaC進(jìn)行災(zāi)難恢復(fù)
IaC 的另一個(gè)顯著優(yōu)勢(shì)是它可以在最少的人工干預(yù)下自動(dòng)重建整個(gè)云區(qū)域。
但是,為了滿足您所需的 RTO 和 RPO,您可能需要數(shù)據(jù)同步解決方案。
您的部署應(yīng)包括一個(gè)具有最低限度定義的基礎(chǔ)架構(gòu)的冷備用云區(qū)域。主要目標(biāo)是同步關(guān)鍵基礎(chǔ)設(shè)施組件的存儲(chǔ)和數(shù)據(jù)庫(kù)以及任何特定于應(yīng)用程序的存儲(chǔ)和數(shù)據(jù)庫(kù)資產(chǎn)。
4. 學(xué)習(xí)如何引導(dǎo)一個(gè)區(qū)域
讓我們想象一下您的整個(gè)云區(qū)域出現(xiàn)故障的情況。您的目標(biāo)是為您的云部署記錄平均恢復(fù)時(shí)間,最好以小時(shí)為單位,而不是幾天或幾周。
快速引導(dǎo)區(qū)域的能力證明您可以從高影響可用性事件中快速恢復(fù)。實(shí)例化部署會(huì)有所幫助,尤其是因?yàn)橹挥袔讉€(gè)與網(wǎng)絡(luò)連接相關(guān)的硬性先決條件。
即使缺少數(shù)據(jù)中心連接,您仍然可以在測(cè)試期間快速連續(xù)地啟動(dòng)和拆除大部分云部署組件。您的目標(biāo)應(yīng)該是創(chuàng)建一個(gè)通過(guò) GitOps 和基礎(chǔ)架構(gòu)即代碼驅(qū)動(dòng)的可重復(fù)流程。
概括
高可用性和災(zāi)難恢復(fù)都針對(duì)同一個(gè)問(wèn)題:在出現(xiàn)中斷和其他可能性的情況下保持云系統(tǒng)正常運(yùn)行。
HA 處理操作系統(tǒng)中的問(wèn)題,而 DR 則側(cè)重于在發(fā)生故障后進(jìn)行恢復(fù)。它們共同提高了您的業(yè)務(wù)連續(xù)性,并有助于確保您的云部署保持全面運(yùn)行。
我們希望以上四個(gè)技巧能夠激發(fā)您的云遷移策略并使其更加順利。