自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為故障而設(shè)計(jì):AWS S3云存儲故障給我們的啟示

存儲 存儲軟件
在AWS上部署/使用服務(wù)時(shí),可以選擇要部署到哪個獨(dú)立區(qū)域。顯而易見,通過跨地區(qū)、或者跨云服務(wù)提供商來創(chuàng)造冗余,將提供最健壯的業(yè)務(wù)連續(xù)性。

[[185395]]

如今 2017 年,云是重要業(yè)務(wù)技術(shù)選型的***選擇。使用云也為管理基礎(chǔ)設(shè)施帶來了很多益處,包括提升靈活性、可擴(kuò)展性,同時(shí)降低了 IT 成本。但是上周我們目睹了 AWS S3 停機(jī)故障 ,看來即使是最可靠的服務(wù)提供商也可能遇到倒霉的一天。 服務(wù)不可用直接導(dǎo)致了數(shù)百萬的收入損失,以及難以估量的公司品牌負(fù)面影響。盡管如此,你依然可以采取一些預(yù)防措施來減少這種事件的負(fù)面影響。

事故報(bào)告

亞馬遜 Web 服務(wù)(AWS)是當(dāng)今被廣泛使用的的云基礎(chǔ)設(shè)施服務(wù),占據(jù)全球40%以上的市場份額。一直以來 AWS 的服務(wù)質(zhì)量都高于其服務(wù)質(zhì)量協(xié)議(SLA) ,達(dá)到99.9%的正常運(yùn)行時(shí)間。但是上周發(fā)生的 AWS 簡單對象存儲服務(wù)(S3)故障說明沒有什么服務(wù)是***無懈可擊的。

在星期二上午 11:30 左右,AWS 美國東一區(qū)(US-EAST-1)的 S3 存儲服務(wù)宕機(jī),并且迅速產(chǎn)生了巨大的影響。 服務(wù)恢復(fù)后,AWS 發(fā)布了一個聲明,有意思的是,我們從官方聲明中發(fā)現(xiàn),這次故障既不是人為破壞的,也是不是系統(tǒng)損壞的原因,而僅僅是由簡單的錯誤輸入命令導(dǎo)致。 難以置信吧?但確實(shí)是,一個完全無意的命令輸入錯誤 [1],這導(dǎo)致像 Adobe,Slack,Expedia,甚至是美國證券交易委員會,都遭受了嚴(yán)重的性能影響,據(jù)悉還有小的在線電商網(wǎng)站因此被拖垮。

目前很難準(zhǔn)確估量在這將近 5 個小時(shí)的宕機(jī)過程中造成的財(cái)產(chǎn)損失,但據(jù)不完全統(tǒng)計(jì),已經(jīng)造成了數(shù)千萬的財(cái)產(chǎn)損失,數(shù)十萬的用戶受到影響。

事故真相

整個事故過程中,雖然許多依賴美國東一區(qū) S3 服務(wù)的公司在宕機(jī)期間受到嚴(yán)重影響,但仍然有一些公司部分或全部業(yè)務(wù)毫不受影響。 這是為什么? 有幾個因素發(fā)揮作用。

隱藏的依賴

S3 服務(wù)已經(jīng)成為大多數(shù)基于云的分布式系統(tǒng)中至關(guān)重要的組件。正因?yàn)槠浔粡V泛使用,同時(shí)大量復(fù)雜的服務(wù)或系統(tǒng)構(gòu)建在它之上,所以當(dāng) S3 服務(wù)不可用時(shí)加劇了事故影響范圍和深度。對于那些直接或間接依賴(S3 服務(wù)) 的系統(tǒng),S3 服務(wù)都會成為潛在的影響因素。

網(wǎng)絡(luò)性能監(jiān)控公司 Thousand Eyes 歸納了 3 種可能被所依賴的 S3 服務(wù)影響的表現(xiàn)形式:

  • 如果一個公司的靜態(tài)網(wǎng)頁直接或單獨(dú)托管在宕機(jī)的 S3 服務(wù)器上,那么將變得完全不可用。很不幸,Lululemon Athletica Inc 是這類公司之一。
  • 如果頁面中的某些元素(腳本、資源)直接或間接依賴于 S3 服務(wù),則會發(fā)生部分失效。比如Slack,事故造成它的文件上傳功能變得不可用。
  • 應(yīng)用程序的關(guān)鍵服務(wù)可能依賴于受影響的 S3 或其他 AWS 服務(wù),這將導(dǎo)致應(yīng)用部分或完全無法使用。8th Light 的創(chuàng)始人之一介紹了他對 AWS Lambda 功能的使用,通過它可以實(shí)現(xiàn) rate limit 功能以限制用戶惡意請求,但在宕機(jī)期間它變得無法使用,因?yàn)樵摴δ芤蕾?S3 服務(wù)。***他給出了一條建議:“清楚的認(rèn)識你依賴的依賴。“

滑稽的是,事故剛開始發(fā)生時(shí),AWS 無法將 S3 服務(wù)狀態(tài)更新到儀表板上,因?yàn)樗惨蕾囉?S3 來存儲。這意味著出現(xiàn)故障的服務(wù)在宕機(jī)期間顯示為正常?!這就是我們說的隱藏的依賴!

這里我們強(qiáng)調(diào)的是要知道風(fēng)險(xiǎn)在哪里,并做有針對性得規(guī)劃。 將每個遠(yuǎn)程依賴關(guān)系都看作是潛在的故障點(diǎn)這會有所幫助,特別是以這次 AWS 事故為例,對遠(yuǎn)程依賴關(guān)系的分析首先將會幫你反思是否真的有依賴的必要。

裝滿雞蛋的籃子

AWS 的數(shù)據(jù)中心(zone)遍布全球 16 個不同的國家地區(qū)。在美國,有四個地區(qū):北弗吉尼亞州、俄亥俄州、俄勒岡州和北加利福尼亞州,剩下的則分布在歐洲、亞洲、南美洲和澳大利亞。

在 AWS 上部署/使用服務(wù)時(shí),可以選擇要部署到哪個獨(dú)立區(qū)域。顯而易見,通過跨地區(qū)、或者跨云服務(wù)提供商來創(chuàng)造冗余,將提供最健壯的業(yè)務(wù)連續(xù)性。在這次事故中,只有一個區(qū)(美國東一區(qū))受到影響,但對那些資源/服務(wù)/依賴集中在這個區(qū)的公司來說,這便成他們的噩夢。

為故障而設(shè)計(jì)

前面提到,一些公司在這次事故中損失較小。這是因?yàn)樗麄儾渴鸱?wù)時(shí),帶著某一天某些事會出錯的預(yù)期,從而更有針對性得做準(zhǔn)備。

雖然 AWS 正在處理此次事故的后續(xù)事宜,但是亞馬遜的零售部門(amazon.com),盡管依賴 S3,但在事故期間并沒有受多大影響。誠然,亞馬遜在任何時(shí)候都會采取所有必要和建議的預(yù)防措施,以確保其旗艦產(chǎn)品的健壯。

如何為故障做規(guī)劃和預(yù)防,我們可以參考 Netflix。他們內(nèi)部使用一套被稱為猴子軍團(tuán)(Simian Army)的云測試工具,這些工具專門用于模擬系統(tǒng)上的破壞,以便捕獲可能導(dǎo)致服務(wù)中斷或性能問題的任何潛在故障點(diǎn)。通過規(guī)劃一系列可能遇到的小問題和大問題,Netflix 能夠預(yù)測他們系統(tǒng)面對問題時(shí)反應(yīng),并依此建立各種保護(hù)措施,以確保系統(tǒng)在故障期間依然可以提供服務(wù)。

應(yīng)對故障的準(zhǔn)備措施不應(yīng)采取”一刀切“的方法。亞馬遜和 Netflix 都擁有海量的數(shù)據(jù)、數(shù)億用戶,他們的預(yù)防措施和解決方案可能有很大不同。在決定如何防止第三方故障時(shí),應(yīng)考慮諸如數(shù)據(jù)容量,針對不同情況進(jìn)行防護(hù)的性價(jià)比,以及計(jì)算損失風(fēng)險(xiǎn)等因素。

對于較小的規(guī)模,解決方案可能不是完全預(yù)防,而是如何優(yōu)雅的降級。這意味著需要對應(yīng)用中各個功能進(jìn)行不同優(yōu)先級的容錯。例如網(wǎng)絡(luò)故障時(shí),對于需要遠(yuǎn)程訪問的資源降級成從本地文件/緩存中獲取。

S3事故也暴露了網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的缺陷,AWS 官方提出了未來防止這類事故的舉措,也表態(tài)采取更多的預(yù)防措施來保護(hù)客戶們的業(yè)務(wù)不受損失是十分重要且明智的。

好了,上星期我們學(xué)到了“一個錯誤輸入可以使得一部分互聯(lián)網(wǎng)不可用”,現(xiàn)在我們學(xué)到了更好更充分的準(zhǔn)備和預(yù)防,可以***程度減少故障再次發(fā)生時(shí)的損害和影響。

責(zé)任編輯:武曉燕 來源: 運(yùn)維派
相關(guān)推薦

2017-03-01 09:00:31

亞馬遜AWSAWS S3云計(jì)算宕機(jī)

2015-06-18 09:59:49

2020-06-10 07:40:36

CPU內(nèi)核態(tài)多線程

2017-04-24 11:18:14

美團(tuán)云

2012-04-27 11:09:44

AmazonAWS

2015-09-22 16:13:50

2013-03-14 09:39:37

云存儲Azure亞馬遜S3

2024-08-09 20:11:18

2015-03-09 10:12:51

AWS S3AWSCloudFront

2017-11-28 16:37:19

黑五

2014-05-21 15:15:10

AWS S3

2013-01-09 16:15:31

2015-10-26 11:39:54

互聯(lián)網(wǎng)架構(gòu)設(shè)計(jì)分布式

2017-08-21 13:41:42

AWSAmazon S3AI

2024-01-12 13:27:07

AWS用法S3

2011-10-14 16:01:40

谷歌云存儲亞馬遜

2024-10-24 16:29:07

2014-04-01 10:22:47

Linux命令行Amazon S3云存儲

2009-08-27 10:51:15

ibmdw云計(jì)算

2016-12-07 13:20:45

AWSS3Amazon Athe
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號