自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

老外教你讓服務(wù)器正常運行時間最大化

運維 服務(wù)器運維
保持服務(wù)器的正常運行和喚醒狀態(tài),或者至少準備好一旦有需要就立刻投入運行,這個目標可能是所有數(shù)據(jù)中心經(jīng)理們最渴望實現(xiàn)的目標之一。本文介紹了不少國外專家對服務(wù)器如何正常運行的一些意見和建議。

保持服務(wù)器的正常運行和喚醒狀態(tài),或者至少準備好一旦有需要就立刻投入運行,這個目標可能是所有數(shù)據(jù)中心經(jīng)理們最渴望實現(xiàn)的目標之一(51CTO推薦閱讀:以魔獸世界為例 網(wǎng)游服務(wù)器搭建方案圖解)。

然而很少有數(shù)據(jù)中心經(jīng)理們能夠誠實地說,他們所做的一切絕對都是為了讓系統(tǒng)的正常運行時間最大化。專家們說,事實上很多經(jīng)理都把大量的時間和金錢浪費在了很少或者不能對正常運行時間產(chǎn)生積極作用的技術(shù)和實踐上去了。

美國金融數(shù)據(jù)服務(wù)商Six Telekurs負責IT運營與后勤保障的副總裁Walter Beddoe認為,實現(xiàn)正常運行時間的最大化既是科學也是一門管理藝術(shù)。“需要將諸多不同的東西組合在一起,包括可勝任此項工作的人員,利用容錯硬件,采納動態(tài)安全、良好的維護與變更管理實踐等。最重要的是,你必須承諾盡最大可能將一切做好。”

普林斯頓一家診斷醫(yī)學成像公司Princeton Radiology的IT部門主任Alan Howard敦促其屬下不要把時間和資源浪費在不能直接對提高正常運行時間有貢獻的行為和工具上面。比方說進行集群的努力就是“相當浪費的”,還不如冗余配置再輔以工具更能實現(xiàn)全自動化。

不能自動化的集群——其中的同步需要手工完成——可能會引起更多的問題,Howard說。“某個主節(jié)點一旦失靈就可能是災(zāi)難性的;與其讓主節(jié)點失靈再去恢復(fù)它,還不如讓備用節(jié)點失靈更好些。”

他舉例說,他的團隊做了一個Windows Server的集群,用作失效備援,結(jié)果卻導(dǎo)致了應(yīng)用程序的崩潰,因為該應(yīng)用配置文件的一個變動未能及時拷到備用服務(wù)器上去。“修復(fù)應(yīng)用崩潰故障所花費的努力往往要比修復(fù)一個集群節(jié)點失靈故障的努力大多了。”

之后,他的團隊就不再配置傳統(tǒng)意義的集群服務(wù)器了。相反,他們配置了一個“單獨的備用服務(wù)器集群”——并將該集群全部映射到一個雙控制器的Compellent存儲中心SAN上,“這樣我們就能夠基本上無縫地按需遷移虛擬機了。”

#p#

精心規(guī)劃

大多數(shù)數(shù)據(jù)中心經(jīng)理都同意,仔細地規(guī)劃所有與服務(wù)器相關(guān)的工作——從采購到管理到替換,是保障系統(tǒng)可靠性的關(guān)鍵性步驟。

華盛頓大學的IT運營及工程設(shè)計經(jīng)理Raoul Gabiam說,生命周期管理是服務(wù)器正常運行時間規(guī)劃的一個內(nèi)在組成部分。“知道在何時、如何更換硬件,并升級軟件是非常重要的,因為這會影響系統(tǒng)的性能、持續(xù)性和總體的正常運行時間。”

比方說,如果你必須做一次軟件升級,那么了解清楚對硬件的需求,以及現(xiàn)有硬件的狀態(tài)就是至關(guān)重要的。你或許得購買硬件來滿足軟件升級的需求,以避免出現(xiàn)更多的宕機,Gabiam解釋道。

Gabiam還強烈地推崇標準化與協(xié)調(diào),作為確保服務(wù)器可靠運營的方法。“在任何人安裝任何東西或者進行某個變動之前,必須先走一個變動管理流程。”

變動管理就是要了解“每件東西是如何配置的,并在實施變動之前對變動做出評估,”Gabiam說。“用這種方法,你就總能了解清楚哪些事情是不允許的,哪些事情可能會產(chǎn)生相互影響。”

他說,遵守變動管理的紀律,就可能預(yù)見到以某種方式配置服務(wù)器,或者將其安放在一個新環(huán)境中時會產(chǎn)生什么影響。

在線資源公司是一家為金融機構(gòu)提供交易服務(wù)的企業(yè),其CTO Paul Franko認為,工作態(tài)度也會產(chǎn)生巨大作用。他說,他進行了一項額外的努力,以確保常規(guī)但很關(guān)鍵的服務(wù)器相關(guān)工作能夠被認真嚴肅地對待,并及時得到處理。

“我們提出了一套系統(tǒng)檢查與平衡機制,以確保我們的各種規(guī)則能夠被遵守,”他說。按照Franko的說法,經(jīng)理們必須常規(guī)性地檢查下屬的管理工作,再輔之以其他手段的雙重檢查,就可以把人工失誤降至最低限度。“是人就會犯錯,如果你沒有設(shè)置多個檢查點,事情就會滑向錯誤的一邊。”

#p#

推行預(yù)防性維護

常規(guī)性的預(yù)防維護措施或許是支撐服務(wù)器可靠運行最容易,也最少痛苦的方法。“系統(tǒng)的正常運行時間只能和整個系統(tǒng)中最弱組件的正常運行時間一樣長,”Beddoe說。長此以往地執(zhí)行各項基本任務(wù)——升級系統(tǒng)軟件、提供有條件的電力,保證適當?shù)睦鋮s環(huán)境——方能在不突破預(yù)算的前提下讓數(shù)據(jù)中心的服務(wù)器無故障地運行,才可不必從其他關(guān)鍵任務(wù)組抽調(diào)人手來修復(fù)故障。

[[17132]]

Paul Franko,在線資源公司的CTO認為,工作態(tài)度在服務(wù)器管理中可以發(fā)揮巨大的作用。他說他他進行了一項額外的努力,以確保常規(guī)但很關(guān)鍵的服務(wù)器相關(guān)工作能夠被認真嚴肅地對待,并及時得到處理。

Franko說,為了確保所有必須要做的工作在需要時加以貫徹,就應(yīng)該確定哪些工作是服務(wù)器維護工作,并將它們組織成明確的日程表。“有些事情是必須立刻執(zhí)行的,比如安全升級,而其他一些任務(wù)批量執(zhí)行,或者每隔一段固定期限加以執(zhí)行是比較合理的。”這第二類任務(wù)就包括軟件非關(guān)鍵性功能改進的升級等。

Franko補充說,服務(wù)器的維護工作應(yīng)該這樣加以處理:維護工作本身不應(yīng)占用服務(wù)器的正常運行時間。“我們不能為了進行某些維護工作而讓系統(tǒng)的運行速度下降,無論如何,我們都得做到這一點。”

如果必須拆下某臺服務(wù)器進行維護的話,F(xiàn)ranko的團隊就會把這項維護工作安排到午夜或周末,用戶的需求量很低的時候進行。在正常工作時間拆下一臺功能服務(wù)器的唯一理由只能是必須安裝或執(zhí)行關(guān)鍵性的軟件升級,例如需要安裝零日安全補丁。

#p#

自動執(zhí)行基本的服務(wù)器管理任務(wù)

在過去數(shù)年間,服務(wù)器的管理已變得越來越復(fù)雜,其中大部分原因是由于虛擬化及其相關(guān)技術(shù)的出現(xiàn);為了提升服務(wù)器的效率和使用率,必須設(shè)計各類最佳實踐。

虛擬化本身有助于保護數(shù)據(jù)中心不受服務(wù)器宕機的影響。通過對服務(wù)器進行整合,在一個共享環(huán)境中相互連接,虛擬化允許多個虛擬機運行在不同的主機上。任何一臺主機的失靈都會導(dǎo)致工作負載在剩余的主機間進行重新分配。“某臺服務(wù)器或許會失靈,但這并不意味著這將會影響到整個服務(wù)的提供,”Gabiam論述道。

為了更有效地管理日益擴張的虛擬化環(huán)境,Xenos軟件、Uptime軟件、Nimsoft和Nagios企業(yè)等公司紛紛推出了旨在幫助數(shù)據(jù)中心工作人員關(guān)注服務(wù)器性能、定位出現(xiàn)的問題,以及充分利用性能改進機會的工具。

Beddoe覺得這樣的工具是必不可少的。“你必須要有某種讓人放心的東西,保證你的所有服務(wù)器能在任何時候做它們該做的事情。”

#p#

讓工具發(fā)布警示

Beddoe使用了Uptime軟件公司的正常運行時間軟件,他認為這種工具很重要,因為它們可以在服務(wù)器的狀況超出某個閥值時,例如內(nèi)存超載或者CPU的使用率過高時可以發(fā)出警示。

雖然大多數(shù)工具都內(nèi)置了警示功能,但Beddoe強調(diào)說,還是應(yīng)該尋找一種可配置警示觸發(fā)條件的產(chǎn)品,例如一旦超過預(yù)設(shè)的閥值便可發(fā)送電子郵件或手機短信的產(chǎn)品。“你需要有意義的警示信息,以便可以采取必要的措施糾正這種情況。”

[[17133]]

Walter Beddoe,Six Telekurs負責IT和后勤的副總裁,他說,“17年來,我們從未出現(xiàn)過影響到客戶利益的重大宕機事件。”

汽車服務(wù)公司Carfax的運營經(jīng)理Jerry Gregg說,重要的是要了解,不少性能測量工具計算出的正常運行時間只是一個近似值。“這樣的數(shù)值,充其量只能用來參考。”

Gregg觀察到,一些初步的正常運行時間測量工具得出的數(shù)值實際上可能引起誤解,因為這些工具不能正確地區(qū)分如下兩種情況:周日清晨睡眠時間發(fā)生的一小時長的服務(wù)器宕機和周四下午正運行關(guān)鍵業(yè)務(wù)進程時的10分鐘的系統(tǒng)失靈。這也是為什么應(yīng)該購買那些可提供全時、基于事件分析能力的測量工具的原因。

為了讓正常運行時間分析更有意義,Gregg決定選用可以顯示服務(wù)器崩潰對關(guān)鍵業(yè)務(wù)服務(wù)產(chǎn)生何種影響的測量工具。Gregg采用了BMC的ProactiveNet性能管理軟件,該軟件可直接將服務(wù)器宕機時間與銷售交易和其他類型的面向業(yè)務(wù)數(shù)據(jù)進行關(guān)聯(lián)。“可以讓我們用美元而不只是用時間來量化服務(wù)器的宕機事件。”

該軟件所生成的信息可幫助他確定宕機事件是否會威脅到企業(yè)的盈虧底線,為購買新服務(wù)器、更好的網(wǎng)絡(luò)設(shè)備或其他可靠性增強技術(shù)及服務(wù)的預(yù)算做辯護。“如果沒有這樣的信息,你就只能在無法真正了解運營成本的情況下進行成本效益決策,”Gregg說。

#p#

別讓黑客“盜取”正常運行時間

在保障服務(wù)器正常運行時間方面,安全也會發(fā)揮重要的作用。假如服務(wù)器遭遇惡意軟件攻擊,或者網(wǎng)絡(luò)路徑不安全,那么服務(wù)器宕機是毫不令人驚訝的。“需要從物理安全起步——也就是數(shù)據(jù)中心的建筑開始,首先保障其物理安全,”Beddoe說。

其次,要建立服務(wù)器的訪問規(guī)則,并予以強制執(zhí)行,同時,還要強制執(zhí)行安全程序、防病毒程序、防火墻,培訓遵紀守法的管理員,都是非常重要的。Beddoe說,“所有這些要素在服務(wù)器安全和提升正常運行時間方面都發(fā)揮著同樣的重要作用。”

為IT咨詢及客戶軟件開發(fā)商Superior科技解決方案公司監(jiān)管服務(wù)器運營的John Luludis說,要想真正讓服務(wù)器的正常運行時間最大化,超越基本的安全實踐是很重要的。Luludis強烈推崇定期的獨立安全審計。“我監(jiān)管的網(wǎng)絡(luò)必須定期進行滲透測試,之所以要這么做就是要讓我的網(wǎng)絡(luò)盡可能的安全,而且最好從外部看也是安全的。”

#p#

保護你的數(shù)據(jù)

盡管Princeton Radiology的Howard也強烈信奉定期的服務(wù)器維護,但是他也指出,經(jīng)理和員工再怎么努力也無法避免一定量故障的發(fā)生。要想防范因服務(wù)器失效而導(dǎo)致的任何數(shù)據(jù)損失,Howard建議制定數(shù)據(jù)保護計劃,并將其整合到企業(yè)全面的業(yè)務(wù)連續(xù)性戰(zhàn)略中去。

Princeton采用了來自Compellent科技的場外存儲解決方案,復(fù)制器所有已存儲的數(shù)據(jù)。“即便有一個災(zāi)難恢復(fù)數(shù)據(jù)中心,我們實際上也得在主要設(shè)施之外運行一些服務(wù)器,所以我們需要雙向備份數(shù)據(jù)。”

[[17134]]

Raoul Gabiam,華盛頓大學的IT運營兼工程設(shè)計經(jīng)理,他認為生命周期管理是服務(wù)器正常運行時間規(guī)劃的一個內(nèi)在組成部分。

華盛頓大學的Gabiam則仰仗內(nèi)置于網(wǎng)絡(luò)基礎(chǔ)設(shè)施中的負載均衡技術(shù)來防范服務(wù)器可能出現(xiàn)的突然宕機。“假如一臺服務(wù)器崩潰或者某個應(yīng)用不響應(yīng),那么網(wǎng)絡(luò)流量就會重定向到其他服務(wù)器,相同的服務(wù)器也能處理這一工作負載。”

和Princeton的Howard不一樣,Gabiam比較看好集群,采用了Novell的集群服務(wù)來提供附加的冗余層。如果集群中的一個節(jié)點失靈,或者有停機維護的需要,那么在該節(jié)點上運行的集群應(yīng)用或者某個服務(wù)組件便可無縫地遷移到集群的另一個節(jié)點上去運行。

這個遷移進程可以配置成手工失效備援或者自動失效備援。“一般而言,在硬件或軟件失效時,應(yīng)該讓應(yīng)用自動失效備援到下一個備選節(jié)點上去,”Gabiam說,不過管理員也可以在某個特定節(jié)點須執(zhí)行維護任務(wù)時,手動將應(yīng)用遷移到另一個節(jié)點去。

#p#

關(guān)注硬件質(zhì)量

購買高質(zhì)量的服務(wù)器而不使用質(zhì)量低劣的設(shè)備,是提升服務(wù)器長期可靠性的一種很明顯的方法。“這里還存在著一個決策上的差異,你是希望遷移到更長壽的硬件呢,還是希望升級到更高級的服務(wù)器,”IT服務(wù)商E-N電腦公司的運營經(jīng)理Jeffrey Driscoll說。

不過在真實世界中,預(yù)算緊張的經(jīng)理們常常要面對這樣一種痛苦的抉擇:是要用低成本的產(chǎn)品去滿足需求呢,還是應(yīng)該購買更好、更可靠的系統(tǒng)去適應(yīng)已經(jīng)確立的一些性能指標。到底該怎么辦?

Driscoll建議應(yīng)該聰明地購買,可以去找優(yōu)惠的產(chǎn)品,但只要有可能,就應(yīng)該去做企業(yè)管理層的工作,反映現(xiàn)實世界的運營需求。向管理層表明質(zhì)量低劣的服務(wù)器可能導(dǎo)致財務(wù)風險是一個不錯的主意。“這是一個可用簡單的數(shù)字和一些預(yù)測便很容易證明的觀點。”

#p#

知道何時該當機立斷

有時候,了解一些簡單的常識也可能是保障服務(wù)器正常運行時間最大化而又無須突破預(yù)算的最佳方法。“硬件就是硬件。到了某個時間,它總是會損壞的,”Gabiam說。“所以重要的是要了解發(fā)生了什么問題,然后準備好一個計劃,一旦問題再次發(fā)生時就不會手忙腳亂。”

利用常識同時也意味著要知道什么時候該當機立斷,減少損失,向新的設(shè)備轉(zhuǎn)移,而不必去管按常規(guī)是不是到了替換周期。“如果你的IT人員經(jīng)常要花費25%的時間去忙于到處救火,支持早已過時的系統(tǒng)的話,那么誰還看不出來這是巨大的時間浪費呢?”Beddoe反問道。

盡管讓服務(wù)器的正常運行時間最大化會產(chǎn)生一些額外的工作量,但是大多數(shù)IT經(jīng)理都認為最終的回報會遠大于體力的支出。“很難說花在正常運行時間上的哪些努力會是白費的,”Luludis說。“你所做的任何事情都是會有幫助的。”

Beddoe認為,努力爭取最大的正常運行時間,幾乎都會保證創(chuàng)建一個更可靠的數(shù)據(jù)中心。他主張一個“積極的環(huán)境”——一個持續(xù)不斷地激勵工作人員去確認并遏制那些可能引起任何危害的潛在問題的環(huán)境,這是保障服務(wù)器正常運行時間最大化的關(guān)鍵。“17年來,我們從未發(fā)生過影響到客戶利益的重大宕機事件。”

#p#

最大化服務(wù)器正常運行時間的六個步驟

1 仔細規(guī)劃。強力實施生命周期管理,并對這項任務(wù)進行雙重檢查,包括系統(tǒng)配置和維護日程安排。服務(wù)器的采購和升級應(yīng)有詳盡規(guī)劃,并與系統(tǒng)的可用性和性能相協(xié)調(diào)。

2 實施定期的預(yù)防性維護。這也許是支撐服務(wù)器可靠性的最容易和痛苦最少的辦法。正如舊車修理業(yè)常說的那句告誡語,“現(xiàn)在掏錢維護要比將來掏錢修省多了。”

3 使用管理和監(jiān)控工具。如果沒有適當?shù)谋O(jiān)管,你就不可能找到導(dǎo)致服務(wù)器正常運行時間不高的根源,也不可能測量宕機對關(guān)鍵業(yè)務(wù)的影響。

4 提升安全性。不要讓攻擊者干擾你實施正常運行時間最大化的目標。防惡意軟件產(chǎn)品、防火墻和獨立審計是能夠?qū)Ψ?wù)器正常運行時間產(chǎn)生正面作用的諸多安全工具和實踐中的幾種。

5 購買高質(zhì)量的硬件。質(zhì)量低劣的服務(wù)器是通往宕機之路的鋪路石。

6 尊重常識。千萬別去浪費時間、人力和金錢,一心想從老舊的、經(jīng)常出問題的服務(wù)器上榨出最后一點兒利用價值來。

 

責任編輯:景琦 來源: 網(wǎng)界網(wǎng)
相關(guān)推薦

2015-08-26 15:57:42

VDI基準測試深信服

2022-11-04 09:09:54

Linux服務(wù)器

2013-04-03 10:06:12

2011-12-08 10:10:57

私有云

2022-03-10 16:39:51

Kyligence數(shù)據(jù)湖OLAP

2021-06-24 10:28:19

uptimed命令Linux

2020-04-22 14:03:30

云服務(wù)云計算企業(yè)

2015-02-04 09:52:22

云服務(wù)云服務(wù)商CloudHarmon

2012-07-11 22:27:21

惠普服務(wù)網(wǎng)絡(luò)

2017-12-21 09:29:47

網(wǎng)絡(luò)運行實踐

2019-01-15 14:00:59

Linux服務(wù)器命令

2022-03-10 06:26:16

預(yù)測性維護工業(yè)物聯(lián)網(wǎng)

2021-08-18 08:32:09

代碼運行時間示波器

2012-09-13 09:37:26

多核處理器AMD云計算

2022-05-09 07:20:10

監(jiān)控項目工具

2014-03-14 13:29:24

VDI配置文件

2016-08-17 11:44:34

存儲

2015-07-20 15:44:46

Swift框架MJExtension反射

2012-02-16 11:29:01

ibmdw

2020-08-24 22:26:21

物聯(lián)網(wǎng)數(shù)據(jù)IOT
點贊
收藏

51CTO技術(shù)棧公眾號