自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

存儲系統(tǒng)故障導致臺北桃園機場宕機36小時

存儲 存儲軟件 容災備份
這幾天國內(nèi) IT 業(yè)界最熱門的新聞不外乎是中國臺灣省臺北桃園機場境管系統(tǒng)當機 36 小時了;事情一發(fā)生,各種專業(yè)的,非專業(yè)的猜測,流言,內(nèi)線消息不斷,熱鬧極了。

這幾天國內(nèi) IT 業(yè)界最熱門的新聞不外乎是中國臺灣省臺北桃園機場境管系統(tǒng)當機 36 小時了;事情一發(fā)生,各種專業(yè)的,非專業(yè)的猜測,流言,內(nèi)線消息不斷,熱鬧極了。

有人從政治的角度解讀(這好像是這幾年國內(nèi)各種事件必然要有的一個面相),說是為了掩護某些人士的出境;而筆者看到網(wǎng)絡(luò)上最扯的說法是被“某國”給黑了,放毒了,對于這些,筆者 只能用一句電視上的廣告臺詞“不要再相信那些沒有根據(jù)的傳言了”來響應。

沒有任何一位 IT 人員(尤其是 IT 工程師)愿意看到系統(tǒng)在自己的手上“無法上線”36 個小時,筆者 在這里使用“無法上線”而不使用“宕機”,是因為,就IT工程的角度來說,“宕機”指的是一部機器 (不論是主機或存儲系統(tǒng)) 因為某些原因而無法開機成功回復運作;這次境管系統(tǒng)的事件,從現(xiàn)有枱面上的消息來說,并不是機器無法運作,而是境管查驗系統(tǒng)無法上線作業(yè)。

至于被黑或是中毒的說法,更是一般使用者的猜測;現(xiàn)有的境管系統(tǒng)使用的是 UNIX 操作系統(tǒng),到目前為止,業(yè)界還沒有發(fā)生過 UNIX 作業(yè)平臺的中毒事件;而且境管系統(tǒng)是一套封閉的系統(tǒng),即使有辦法可以黑入移民署或是桃園機場的網(wǎng)站,也不可能連上境管系統(tǒng),因為境管系統(tǒng)根本沒有對外部的網(wǎng)絡(luò)聯(lián)機!

至于系統(tǒng)的備份或是數(shù)據(jù)備份的問題,“在最短時間內(nèi)恢復聯(lián)機操作”本來就是境管系統(tǒng)架構(gòu)當初設(shè)計的目的之一,就 筆者 的了解,桃園機場的境管主機是雙機備份作業(yè)的架構(gòu),也就是只要有一部主機可以運作,就可以維持在線的作業(yè);數(shù)據(jù)備份,也肯定是有的;至于為什么這些設(shè)計沒有在需要的時候發(fā)揮它應有的功能,這是移民署必須要給的答案,筆者 不愿多做猜測。

回歸 IT 專業(yè),這次故障,至少到目前為止,系統(tǒng)維護廠商枱面上給的解釋是某供應商的存儲系統(tǒng)中有三塊磁盤及一片機板故障,而在硬件修復后,必須要等待數(shù)據(jù)由第二套系統(tǒng)回復,所以需要這么久的時間,我們就從這個故障原因談起;機板故障的問題我們不討論,因為機板存粹就是一個硬件組件,換新的就好了。

再來就是磁盤啰!企業(yè)級的存儲系統(tǒng)是不可能出現(xiàn)某幾塊磁盤故障而導致無法開機的。那有沒有可能導致數(shù)據(jù)損毀?當然可能!

存儲系統(tǒng)最重要的數(shù)據(jù)其實并不是用戶的數(shù)據(jù),而是一個我們稱之為“元數(shù)據(jù)”(metadata) 的數(shù)據(jù),metadata 簡單來說就是存儲系統(tǒng)的組態(tài)文件,所有磁盤驅(qū)動器如何劃分,哪些磁盤驅(qū)動器組成一個 RAID 群組,每一個數(shù)據(jù)卷 (volume) 的大小等等,這些相關(guān)信息通通存儲在 metadata 中。所以一旦metadata 損毀,可以想見的是,也許整個存儲系統(tǒng)內(nèi)的用戶數(shù)據(jù)全部都在,但卻不知道如何組織這些數(shù)據(jù),這是存儲系統(tǒng)的最大災難,如何確保metadata 的安全是所有存儲系統(tǒng)的一個重要課題。

不同的存儲系統(tǒng)會使用不同的方法來保存 metadata;企業(yè)級的高端存儲系統(tǒng)會將 metadata 存放在具鏡射保護的非揮發(fā)性內(nèi)存 (non-violated memory) 中,非揮發(fā)性內(nèi)存不會因為沒有電源而失去數(shù)據(jù),另外為了增加系統(tǒng)的可用性,會把 metadata 復制幾份放在磁盤中,以備不時之需。中端存儲系統(tǒng)的 metadata 會存放在以 RAID 保護的特定磁盤中,或是分散在系統(tǒng)的不同硬盤中,保護顯然就沒有大型存儲系統(tǒng)來的好,但也足夠了。

在最壞的情況下,如果 metadata 真的完全損毀而無法由任何備份來回復時,每家存儲系統(tǒng)原廠的研發(fā)部門還是可以在某些特定的狀況下,試著搶救 metadata,不過修復的時間與修復的程度則沒人敢打包票了。就這次的情況來看,境管系統(tǒng)使用的是高端的存儲系統(tǒng),顯然并不是 metadata 的損毀,否則可能還要花更長的時間才能修復。

那么在數(shù)據(jù)硬盤上一次壞掉三顆硬盤?這個就有趣了,值得來討論一下。

我們都知道現(xiàn)在在存儲系統(tǒng)上普遍使用的 RAID (Redundant Array of Independent Disks),就是用來保護資料可以避免因為單一磁盤的故障而致無法使用的技術(shù),RAID5 是可以容許一個 RAID 群組有一顆磁盤故障而不會影響數(shù)據(jù)的存取,雖然新的 RAID6 技術(shù)可以容許二顆磁盤的故障,但 筆者 相信境管系統(tǒng)應該不是使用 RAID6 的技術(shù)。所以,如果使用 RAID5,而這三顆故障的磁盤是分散在三個 RAID 群組中,那就不會出事了,顯然故障的三顆磁盤至少有二顆是在同一個 RAID 群組。

一個 RAID 群組,或是一個數(shù)據(jù)卷無法使用,會導致系統(tǒng)無法上線?存在這個數(shù)據(jù)卷上的是必然是一個極其重要的數(shù)據(jù)文件,沒有它程序無法運作。但從應用系統(tǒng)設(shè)計的角度來看,最重要的數(shù)據(jù)文件會考慮以更好方式來保護,如使用 RAID1,或是在再復制一份存放在其他地方,一旦因為硬件問題無法存取數(shù)據(jù),可以以人工的方式要求程序去讀取備份的數(shù)據(jù)文件,在最短時間內(nèi)恢復聯(lián)機操作。

另外一個可能是,這個故障的數(shù)據(jù)卷是一個大型資料卷的一部份,這在大型資料文件中相當常見;使用數(shù)據(jù)卷管理 (volume management) 軟件,將幾個硬件的數(shù)據(jù)卷合成一個數(shù)據(jù)卷,為了避免 RAID 重復計算導致數(shù)據(jù)訪問時間的延遲,這種大型的數(shù)據(jù)卷通常不會再使用 RAID 保護,而是以 stripping 或是 concatenated 的方式來組成大型數(shù)據(jù)卷,因為沒有 RAID 的保護,一旦有某一個硬件數(shù)據(jù)卷故障,就會導致數(shù)據(jù)無法存取。

在實務(wù)上,筆者通常都會建議使用者在考慮使用這種大型數(shù)據(jù)卷時,數(shù)據(jù)的回復時間一定要考慮進去,因為沒有人敢打包票硬件一定不會故障,硬件故障會不會造成數(shù)據(jù)損毀,通常來講機率不高,但不是零。這也是為什么要一再強調(diào)數(shù)據(jù)備份的重要性。同時還要考慮到,一旦數(shù)據(jù)不見了,需要的回復時間。

所以回歸到硬件上,究竟在一個 RAID 群組發(fā)生二塊以上的磁盤同時故障的機率到底高不高?筆者看到在網(wǎng)絡(luò)上絕大部份的人都認為這是中了簽王,不過是不是真的如此?

磁盤驅(qū)動器的可靠度是以平均故障時間 (MTBF, Mean Time Between Failure) 來評估,以現(xiàn)在的企業(yè)級磁盤驅(qū)動器來說,MTBF 是一百廿萬個小時,大概是 136 年,那在我們有生之年應該看不到磁盤驅(qū)動器故障才對!其實 MTBF 并不是這樣算的,它是指每一百廿萬個使用小時,就可能會有一顆磁盤驅(qū)動器故障,所以有人使用沒幾天,有人可以使用好幾年。所以 MTBF 只是一個參考值,它可以顯示磁盤驅(qū)動器的可靠度,當然 MTBF 越高故障率也越低,但與單一系統(tǒng)可能碰到磁盤故障的機會并沒有絕對的長短關(guān)系。

另外一個與碰到磁盤驅(qū)動器故障機會有關(guān)的因素就是工業(yè)的產(chǎn)品壽命;每一個單一工業(yè)制品都有它的使用壽命,就像電池一樣,使用壽命到了,它就是會報廢。但是使用壽命與使用狀況有極大的關(guān)系,運作環(huán)境當然是一個很重要因素,國外已經(jīng)有報告指出,在平均溫度偏高的環(huán)境中運作的 IT 設(shè)備,它的故障頻率也會相對的高;以磁盤驅(qū)動器來說,除了環(huán)境之外,使用頻率與使用負載也是影響產(chǎn)品壽命的因素。用通俗的話來說,就是操得比較兇的,掛得也比較快。

所以就理論上來說,在各種條件都相同的狀況下,同型的磁盤驅(qū)動器如果開始使用的時間相同,那么它們故障的時間也會接近。在實務(wù)上,筆者 也的確遇到過這樣的狀況,同一批上線的磁盤驅(qū)動器,一旦其中有部份開始出現(xiàn)故障的狀況,在接下來的一段時間,將會出現(xiàn)密集的“換機潮”。

但吊詭的是,在同一部存儲系統(tǒng)的磁盤驅(qū)動器,雖然外在的環(huán)境是相同的,但使用頻率和使用負載應該是不同的,它們的“故障期”應該是不同!這就牽涉到存儲規(guī)劃了。一個有經(jīng)驗的存儲規(guī)劃人員,在建置一個存儲環(huán)境時,通常都會與應用系統(tǒng)或是數(shù)據(jù)庫管理人員有過溝通,了解每一種數(shù)據(jù)型態(tài)未來的使用狀況,并且盡可能的將使用負載分散,這是為了數(shù)據(jù)的存取效能與避免出現(xiàn)磁盤上的熱點 (hot spot,指的是磁盤上大量數(shù)據(jù)存取而容易造成的壞軌)。所以本來應該因為使用狀況不同而不致于同時出現(xiàn)的故障時間,卻因為規(guī)劃時其他的考慮因素,反而使故障時間接近。

這次境管系統(tǒng)當機事件,筆者 看網(wǎng)絡(luò)上一片罵聲,當然,移民署絕對有很多值得檢討的地方;雖然 IT 設(shè)備是造成這次事件的主因,但 筆者 認為 IT 的環(huán)境或是 IT 的建置,是這整個事件最后一個才需要被檢討的部份。不論是政府機關(guān)或是民間企業(yè),IT 的“備份”設(shè)計有沒有被認真當做一件事來討論?根據(jù) 筆者 的經(jīng)驗,一定要發(fā)生大事后,才會有人重視!“備份”這件事,不是只有 IT,它是一套應變的方法,如果連應變的計劃都沒有,那還談什么 IT 備份呢?

【責任編輯:劉強 TEL:(010)68476606】

責任編輯:劉強 來源: WatchStor整理
相關(guān)推薦

2009-01-11 16:20:14

2018-10-26 10:16:55

數(shù)據(jù)中心存儲系統(tǒng)網(wǎng)絡(luò)故障

2018-05-31 08:39:18

單機存儲系統(tǒng)

2020-02-26 14:07:58

刪庫微盟運維

2011-08-29 18:25:19

Ubuntu

2009-07-30 18:33:22

VMware ESXESXi操作系統(tǒng)

2013-08-26 13:18:02

納斯達克股票交易網(wǎng)絡(luò)安全

2018-03-13 18:35:32

華為云軟件開發(fā)開發(fā)云

2011-05-05 17:03:19

硬盤故障

2014-05-09 14:33:35

2013-08-26 09:49:10

系統(tǒng)故障

2018-09-29 14:08:04

存儲系統(tǒng)分布式

2012-10-30 09:36:53

VDI存儲虛擬化

2009-08-21 14:07:14

海纜系統(tǒng)故障光纜修復

2019-08-19 14:51:56

Linux 系統(tǒng) 數(shù)據(jù)

2017-03-08 17:00:20

Windows 7Windows系統(tǒng)故障

2009-04-26 15:56:32

vista驅(qū)動程序瘦身

2010-08-17 15:09:45

綜合布線系統(tǒng)故障

2013-04-10 13:52:23

2009-02-01 11:44:00

點贊
收藏

51CTO技術(shù)棧公眾號