公共云中的災(zāi)難恢復(fù)必知
如今,許多企業(yè)都在談?wù)撍麄兊墓苍撇捎糜媱?,而這些討論經(jīng)常圍繞如何避免受到潛在的云服務(wù)中斷影響。而其原因是確實發(fā)生了公共云服務(wù)的中斷,盡管這些中斷現(xiàn)在比以前發(fā)生的要少得多,但企業(yè)最關(guān)心的是如何減少中斷的風險。
好在每個主要的公共云供應(yīng)商都提供了構(gòu)建高度可用環(huán)境的選項,這些環(huán)境可以在某種類型的中斷得以恢復(fù)和幸免。例如,AWS公司提出了利用多個地理區(qū)域的四個選項。這些選項(其他公共云供應(yīng)商也可以使用)具有不同的價格,并提供不同的恢復(fù)點目標(RPO)和不同的恢復(fù)時間目標(RTO)。

企業(yè)可以選擇***其恢復(fù)點目標(RPO)和不同的恢復(fù)時間目標(RTO)的要求和預(yù)算的選項。關(guān)鍵是公共云提供商能夠幫助客戶在其全球基礎(chǔ)設(shè)施上構(gòu)建高可用性解決方案。
以下簡要介紹一下這些選項,并回顧一些使用公共云構(gòu)建高可用環(huán)境的基本原則。以AWS公共云作為示例,但這些原則適用于所有公共云提供商。
首先,企業(yè)需要了解每個應(yīng)用程序的恢復(fù)點目標(RPO)和恢復(fù)時間目標(RTO),以便為每個用例提供正確的解決方案。其次,對于利用多個地理區(qū)域來說,沒有一個***的解決方案。企業(yè)根據(jù)恢復(fù)點目標(RPO)、恢復(fù)時間目標(RTO)、愿意和能夠承擔的成本數(shù)量,以及愿意做出的權(quán)衡,可以采取不同的方法。
以AWS為例,其中一些方法包括:
從備份恢復(fù)到其他區(qū)域,人們將環(huán)境備份到S3,包括EBS快照、RDS快照、AMI和常規(guī)文件備份。由于S3在默認情況下僅將數(shù)據(jù)復(fù)制到單個區(qū)域內(nèi)的可用區(qū)域,因此企業(yè)需要啟用到災(zāi)難恢復(fù)區(qū)域的跨區(qū)域復(fù)制。企業(yè)將承擔在第二個區(qū)域傳輸和存儲數(shù)據(jù)的成本,但不會產(chǎn)生計算、EBS或數(shù)據(jù)庫成本,直到企業(yè)需要在其災(zāi)難恢復(fù)區(qū)內(nèi)生效。而權(quán)衡是啟動應(yīng)用程序所需的時間。
在另一個區(qū)域進行熱備份,將數(shù)據(jù)復(fù)制到第二個區(qū)域,這里企業(yè)將運行一個縮小版的生產(chǎn)環(huán)境。這個環(huán)境始終處于活動狀態(tài),并且其大小適合恢復(fù)業(yè)務(wù)所需的最小容量。企業(yè)根據(jù)需要使用Route 53切換到災(zāi)難恢復(fù)區(qū)域。根據(jù)需要將環(huán)境擴展到全部容量。有了這些選項,企業(yè)可以更快恢復(fù)數(shù)據(jù),但會產(chǎn)生更高的成本。
多區(qū)域“Active/Active”解決方案,在這個方案中,數(shù)據(jù)在兩個區(qū)域之間同步,并且兩個區(qū)域都用于為請求提供服務(wù)。這是最復(fù)雜的設(shè)置和最昂貴的方案。然而,即使整個區(qū)域出現(xiàn)故障,停機時間也會很少或根本沒有。雖然上述方法實際上是災(zāi)難恢復(fù)解決方案,但這個方案是關(guān)于構(gòu)建真正高度可用的解決方案。

成功的多區(qū)域設(shè)置和災(zāi)難恢復(fù)流程的關(guān)鍵之一是盡可能采用自動化工具。這其中包括備份、復(fù)制和啟動企業(yè)的應(yīng)用程序。利用Ansible和Terraform等自動化工具來捕捉環(huán)境狀態(tài)并自動啟動資源。此外,重復(fù)測試以確保企業(yè)能夠成功從可用區(qū)域或區(qū)域故障中恢復(fù)。這不僅要測試工具,還要測試其過程。