自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

排除AIX服務(wù)器故障的八大步驟

運(yùn)維 服務(wù)器運(yùn)維
全新的 pSeriesp570服務(wù)器上。老的服務(wù)器資源不足(使用WorkloadManager管理服務(wù)器上主要應(yīng)用程序的資源),因此新硬件上新的動(dòng)態(tài)處理器資源應(yīng)該會(huì)提供我需要的計(jì)算能力。

問題1:服務(wù)器更大,而計(jì)算能力卻降低了

當(dāng)時(shí),我需要把一個(gè)AIX5.3LPAR從基于POWER4?的老式IBMpSeries?p670服務(wù)器遷移到基于POWER6?全新的 pSeriesp570服務(wù)器上。老的服務(wù)器資源不足(使用WorkloadManager管理服務(wù)器上主要應(yīng)用程序的資源),因此新硬件上新的動(dòng)態(tài)處理器資源應(yīng)該會(huì)提供我需要的計(jì)算能力。我對(duì)這個(gè)LPAR執(zhí)行了mksysb,然后使用NetworkInstallationManager在新硬件上恢復(fù)它并通過SAN磁盤映射它。

我啟動(dòng)了這個(gè)LPAR,直到啟動(dòng)應(yīng)用程序之前看起來一切順利。突然之間,用戶開始打電話來了。他們根本無法訪問自己的產(chǎn)品了。當(dāng)我登錄時(shí),發(fā)現(xiàn)服務(wù)器完全是空閑的。服務(wù)器上根本沒有消耗資源很多的進(jìn)程。用戶為什么會(huì)遇到問題?

問題2:出故障的硬盤無法解除鏡像

我的一臺(tái)服務(wù)器具有鏡像的root磁盤。有一天,錯(cuò)誤報(bào)告指出在其中一個(gè)磁盤上壞塊無法重新定位。我知道這是硬件故障的先兆,所以開始解除鏡像。但是,服務(wù)器說無法完全解除鏡像,因?yàn)槠渲幸粋€(gè)邏輯卷只有一個(gè)好拷貝,它就在出故障的磁盤上。我應(yīng)該怎么解決這個(gè)問題并更換硬件?

故障排除過程

記住這兩個(gè)示例問題,現(xiàn)在看看解決它們的過程。

步驟1:別亂動(dòng)

一旦發(fā)現(xiàn)有麻煩了,最明智的舉動(dòng)就是別亂動(dòng)。就像印地安納·瓊斯在“奪寶奇兵”中一樣,如果發(fā)現(xiàn)踩上地板就會(huì)有飛鏢射向您,那么就停在原地,不要繼續(xù)前進(jìn)了。更多的變動(dòng)只會(huì)讓問題復(fù)雜化,可能把情況弄得更糟。當(dāng)一個(gè)問題影響系統(tǒng)正常運(yùn)行時(shí),不得不解決多個(gè)問題是沒有意義的。

對(duì)于第一個(gè)示例問題,我讓用戶馬上退出系統(tǒng),然后我終止應(yīng)用程序。我知道在性能很差時(shí)用戶的查詢和輸入會(huì)中斷,這可能會(huì)破壞他們的數(shù)據(jù),在我檢查系統(tǒng)之前不希望他們的環(huán)境有進(jìn)一步的變動(dòng)。盡管用戶不愿意聽到他們現(xiàn)在不能使用新的服務(wù)器,但是知道我正在查找問題的原因,他們會(huì)很高興。另外,這讓我有時(shí)間按自己的方式執(zhí)行其他故障排除步驟。

步驟2:先從基本命令開始,然后增加復(fù)雜性

在我學(xué)功夫時(shí),聽到了一位二級(jí)黑帶在公共汽車站制伏小偷的故事。同學(xué)們都想知道她用哪一招放倒了進(jìn)攻者。是金虎式嗎?還是八卦掌中的圈掌?我們甚至想像她非常厲害,用醉八仙把對(duì)方放倒了。結(jié)果都不是:她使用的是白帶在班上最初學(xué)習(xí)的技術(shù)之一-肘擊前胸,再拳擊鼻子。

AIX提供了用于檢查服務(wù)器的各個(gè)方面的命令,包括硬件和軟件。即使是最基本的命令也會(huì)為分析問題提供很好的基礎(chǔ)。當(dāng)信息不夠或仍然有些東西表現(xiàn)不正常時(shí),可以開始嘗試更復(fù)雜、更強(qiáng)大的工具。但是,應(yīng)該從最簡單的命令和想法開始,然后再使用更強(qiáng)大的工具。

對(duì)于第二個(gè)示例問題,我先通過查看errpt輸出尋找硬件問題,然后使用unmirrorvg命令-嘗試解除鏡像的簡單但強(qiáng)大的工具-而不是對(duì)磁盤上的每個(gè)邏輯卷運(yùn)行rmlvcopy.當(dāng)我發(fā)現(xiàn)有一個(gè)邏輯卷無法刪除時(shí),就使用lspv、lsvg和migratepv等其他基本命令收集信息。我嘗試用extendvg和mirrorvg在另一個(gè)磁盤上創(chuàng)建卷組的另一個(gè)拷貝。這仍然留下了一些舊的分區(qū),所以我更進(jìn)一步,用syncvg和 synclvdom協(xié)調(diào)ObjectDataManager與服務(wù)器。最后,我用migratelp嘗試把各個(gè)邏輯分區(qū)轉(zhuǎn)移出這個(gè)磁盤。不幸的是,這些工具都不奏效,但是它們提供了大量信息。

步驟3:再現(xiàn)問題

按照科學(xué)的方法,任何假想和試驗(yàn)的關(guān)鍵一點(diǎn)是,能夠重建過程并產(chǎn)生相同的結(jié)果。如果做不到,結(jié)論至少是不確定的。在最糟糕的情況下,這會(huì)顛覆科學(xué)家的理論并損害他們的名譽(yù),就像在上世紀(jì)90年代宣稱實(shí)現(xiàn)了室溫冷聚變的物理學(xué)家一樣。

或者,按我的說法:如果一開始不成功,那么在其他地方試試是否可以造成同樣的問題。

在管理AIX服務(wù)器時(shí),如果某些東西出了問題,而您有再現(xiàn)問題所需的資源,那么在另一個(gè)相似類型的LPAR上執(zhí)行相同的操作,看看是否會(huì)產(chǎn)生相同的結(jié)果。如果在另一個(gè)服務(wù)器上修改相同的屬性會(huì)造成相同的結(jié)果,就可以推論這個(gè)操作就是問題的根源。但是,如果產(chǎn)生了完全相反的結(jié)果,那么要研究服務(wù)器之間的細(xì)微差別,嘗試推測造成問題的原因。

對(duì)于第一個(gè)示例問題涉及的LPAR,我發(fā)現(xiàn)當(dāng)把SAN磁盤交換回老的p670服務(wù)器并啟動(dòng)它時(shí),問題沒有出現(xiàn)。用戶能夠訪問他們的應(yīng)用程序,CPU承受正常的負(fù)載,CPU利用率為80%多(10%內(nèi)核+70%用戶)。因此,我能夠斷定是p570服務(wù)器上特有的某些東西導(dǎo)致了問題,而不是遷移過程中引入的某些東西。

#p# 步驟4:研究問題

在信息時(shí)代,只需敲幾下鍵盤,點(diǎn)幾次鼠標(biāo),就能夠獲得大量信息。更好的是,系統(tǒng)管理員往往是大型社區(qū)的成員,社區(qū)記錄了很多人多年的經(jīng)驗(yàn)。

首先應(yīng)該查閱生產(chǎn)商和銷售商自己的資料。IBM這樣的公司在網(wǎng)上公開他們的所有手冊(cè)、Redbook、技術(shù)文件甚至man頁面以供研究。只需在主站點(diǎn)的搜索欄中輸入簡單的關(guān)鍵字,就可以找到大量可能有幫助的建議和信息。

我推薦的其他信息源包括其他系統(tǒng)管理員經(jīng)常訪問的各個(gè)新聞組、論壇和站點(diǎn)。成天與服務(wù)器打交道的人往往會(huì)經(jīng)常訪問技術(shù)站點(diǎn),并對(duì)在工作過程中看到的東西發(fā)表評(píng)論。對(duì)于公開的求助,大多數(shù)系統(tǒng)管理員樂于提供指點(diǎn),或通過電子郵件往來提供幫助。另外,常??梢哉业脚c操作系統(tǒng)和軟件的其他版本相關(guān)的舊信息,可以通過它們找到更多信息。

對(duì)于這些信息源,主要的使用技巧是使用適當(dāng)?shù)年P(guān)鍵字集。如果我使用Google這樣一般性的網(wǎng)站研究AIX問題,那么會(huì)確保搜索字符串以AIX 開頭,以便排除與其他風(fēng)格的UNIX相關(guān)的信息。然后,可能會(huì)包含命令的輸出或errpt產(chǎn)生的標(biāo)簽等內(nèi)容。我還會(huì)確保在特定的短語前后加上雙引號(hào) (“”),以便把搜索限制在這些特定的問題,避免無關(guān)的信息,對(duì)于常用的單詞(比如LogicalVolumeManager)尤其應(yīng)該這么做。

對(duì)于磁盤壞塊重定位失敗的問題,在Google上使用短語AIX“badblockrelocation”failure進(jìn)行搜索產(chǎn)生了幾百個(gè)結(jié)果,但是看起來沒有與我的情況相符的。

步驟5:取消所有更改

有時(shí)候,解決問題最明智的做法是取消已經(jīng)做的所有更改,回到原來的狀態(tài)。這個(gè)步驟并非總是可行的。有時(shí)候,過分熱心的C級(jí)執(zhí)行官強(qiáng)迫您回退他們的服務(wù)器。或者,由于時(shí)間緊迫,有必要這么做。無論如何,回退是可供選擇的最好的戰(zhàn)術(shù)之一。

我把這個(gè)步驟放在故障排除步驟列表的中間位置,這是因?yàn)橛袝r(shí)候必須早點(diǎn)兒這么做,有時(shí)候要晚一些。但是根據(jù)我的經(jīng)驗(yàn),我覺得最好先完成前四個(gè)步驟,然后再考慮取消所有更改。如果在故障排除過程開始時(shí)馬上取消更改,問題很可能沒有解決,下一次嘗試相同的工作時(shí)還會(huì)遇到相同的麻煩。如果在過程中過晚回退,會(huì)影響正常運(yùn)行時(shí)間,或者讓問題復(fù)雜化,到了不可能回退的程度。

對(duì)于第一個(gè)示例,由于時(shí)間的原因,我實(shí)際上不得不回退了服務(wù)器遷移操作。如果這個(gè)生產(chǎn)服務(wù)器停運(yùn)更長時(shí)間,用戶和公司就會(huì)損失金錢。重新安排這項(xiàng)工作花了一周時(shí)間,這讓我能夠多做一些研究,但是當(dāng)我再次嘗試遷移時(shí),問題又出現(xiàn)了。對(duì)于第二個(gè)示例,無法對(duì)硬件問題執(zhí)行回退。無法告訴服務(wù)器,“回到發(fā)生壞塊重定位錯(cuò)誤之前的狀態(tài)!”我不得不繼續(xù)努力克服磁盤的故障。

步驟6:每次只更改一處規(guī)則

如果上面的所有步驟都不奏效,您決定開始更改主要組件或者對(duì)服務(wù)器做更激進(jìn)的操作,那么要記住一條最重要的規(guī)則:每次只更改一處。

多處更改會(huì)導(dǎo)致兩種情況之一。首先,如果這些更改解決了問題,那么您不知道哪個(gè)更改是有效的操作。如果您不關(guān)心究竟是什么解決了問題,這可能沒什么大不了的,但是出色的系統(tǒng)管理員都希望掌握更多知識(shí),因?yàn)樗麄冎绬栴}往往會(huì)在同一地方多次出現(xiàn)。第二,如果問題沒有解決,這可能會(huì)引入更多復(fù)雜性。繼續(xù)這樣做,您會(huì)不知道要取消哪個(gè)更改。如果走得足夠遠(yuǎn),系統(tǒng)會(huì)亂成一鍋粥而您被弄得一頭霧水。(xkcd上有一個(gè)關(guān)于這種情況的笑話。)

如果做一處更改之后問題沒有解決,通常希望取消它并嘗試其他措施。在第一個(gè)示例中就是這種情況:當(dāng)我對(duì)比兩個(gè)服務(wù)器的 HardwareManagementConsole概要文件時(shí),看到它們不一樣。我注意到老的POWER4硬件使用專用的CPU,而新的POWER6硬件使用不封頂?shù)墓蚕鞢PU池。我想知道這一差異如何影響CPU性能,所以修改了POWER6硬件上的概要文件以使用專用的CPU.奇怪的是,根據(jù)用戶的反饋,服務(wù)器“正常”了,我在處理器上看到了負(fù)載。因此,我知道問題肯定與CPU資源有關(guān),但是需要查明為什么會(huì)這樣。

步驟7:求助于IBMSupport

如果已經(jīng)嘗試了所有合理的步驟,需要新的想法,通常應(yīng)該聯(lián)系IBMSupport.他們有高級(jí)的故障排除工具,有精通操作系統(tǒng)和相關(guān)產(chǎn)品(比如 VIO和PowerHA)的每個(gè)方面的專家,可以調(diào)出相關(guān)的案例以證實(shí)并協(xié)助解決相似的問題。但是,如果您以前沒有撥打過800-IBM-SERV,有幾點(diǎn)需要了解。

首先,您應(yīng)該有IBM合同號(hào)。有多個(gè)支持級(jí)別,從最高級(jí)的由專人負(fù)責(zé)的24x7x365支持直到適用于非關(guān)鍵服務(wù)器的上午8點(diǎn)到下午5點(diǎn)支持??梢灾苯訌腎BM購買這些支持服務(wù)包,也可以與增值銷售商簽訂合同。

還需要提供一些信息,讓IBMSupport可以調(diào)出您的賬戶-通常是服務(wù)器所在地的電話號(hào)碼、序列號(hào)、合同號(hào)或物理位置。這一信息很大程度上取決于您建立的是硬件案例還是軟件案例。

還必須讓支持人員了解問題的嚴(yán)重程度或優(yōu)先級(jí)。優(yōu)先級(jí)分為從1到4幾個(gè)級(jí)別。1級(jí)通常涉及系統(tǒng)停止運(yùn)行或生產(chǎn)影響,對(duì)于這個(gè)級(jí)別會(huì)馬上把電話轉(zhuǎn)給技術(shù)人員。4級(jí)意味著處理時(shí)間可以長一些,通常用于一般的管理問題。

您描述問題并建立支持案例之后,會(huì)給您一個(gè)跟蹤號(hào)-通常稱為PMR.這個(gè)號(hào)碼向與您協(xié)作的其他支持人員標(biāo)識(shí)這個(gè)案例。硬件和軟件PMR是惟一的,如果您的問題跨越邊界,就需要得到新的號(hào)碼。

對(duì)于兩個(gè)示例問題,我都不得不聯(lián)系IBM.對(duì)于第一個(gè)問題,IBM調(diào)動(dòng)從VIO支持到內(nèi)核團(tuán)隊(duì)的多方面人員參與解決問題。對(duì)于第二個(gè)問題,只有硬件技術(shù)人員參與,我提供了來自snap命令的信息以供分析。

步驟8:走極端

有時(shí)候,沒有其他方法能夠解決問題,只能嘗試大多數(shù)人認(rèn)為是發(fā)瘋的某些非正統(tǒng)措施。當(dāng)您已經(jīng)絕望,甚至工作或生命岌岌可危時(shí),通常會(huì)這么做。在這種情況下,IBM支持人員常常會(huì)說,“如果您這么做,就會(huì)處于不受支持的狀態(tài),必須重新開始,然后我們才能夠支持它。”但是,如果您的解決方案是有效的,可能能夠化險(xiǎn)為夷。

責(zé)任編輯:張玉 來源: 機(jī)房360
相關(guān)推薦

2011-05-25 10:52:45

2010-03-12 16:14:17

Pythonexe

2023-05-10 14:26:24

云遷移云計(jì)算

2009-10-21 14:16:50

服務(wù)器故障排除

2009-09-08 15:41:08

NFS服務(wù)器

2009-09-17 18:09:53

Nis服務(wù)器

2012-02-28 09:57:32

機(jī)房空調(diào)

2009-10-21 14:39:27

HP服務(wù)器故障排除

2009-12-04 09:47:47

LinuxNFS服務(wù)器

2013-12-06 11:00:16

Linux服務(wù)器Unix服務(wù)器內(nèi)存

2009-12-15 16:30:02

郵件服務(wù)器故障

2011-03-22 14:08:53

2009-07-16 15:27:59

web服務(wù)器

2009-08-26 11:55:55

Dell服務(wù)器故障排除

2009-10-13 10:55:14

Web服務(wù)器故障排除

2010-01-15 11:06:39

企業(yè)級(jí)服務(wù)器

2009-10-12 10:17:37

RHEL5配置NFS

2009-08-24 17:20:29

IBM刀片服務(wù)器宕機(jī)

2009-06-27 20:20:00

LinuxNFS故障

2018-02-10 11:02:07

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)