平均故障間隔時間的說明和標(biāo)準(zhǔn)
避免關(guān)鍵數(shù)據(jù)中心出現(xiàn)故障始終是頭等重要的任務(wù)。如果短時間的停機(jī)可能會對業(yè)務(wù)的市場價值產(chǎn)生負(fù)面影響,那么,支持這個網(wǎng)絡(luò)環(huán)境的物理基礎(chǔ)設(shè)施就一定要可靠。如何才能確信自己實施的解決方案是可靠的?MTBF是比較可靠性最常用的方式。不過,如果沒有透徹地了解MTBF,可能就無法實現(xiàn)業(yè)務(wù)可靠性目標(biāo)。“平均故障間隔時間:說明和標(biāo)準(zhǔn)”介紹了MTBF的基本原則。如果故障定義不明確或者假設(shè)不現(xiàn)實或被曲解,MTBF就毫無意義。
本文說明應(yīng)如何使用MTBF以及將MTBF用作規(guī)格和選擇依據(jù)時的限制。本文還提供一個核對表,作為確保公平有效地進(jìn)行跨系統(tǒng)比較的指導(dǎo)性原則。
MTBF的比較性分析的現(xiàn)實方式和步驟
本文介紹了幾種預(yù)測MTBF的方法。由于有如此多種可用方法,似乎不可能找到使用同一方法的兩個系統(tǒng)。不過,還是有一種方法可以適用于大多數(shù)組織的各種不同過程。現(xiàn)場數(shù)據(jù)評估方法使用實際的現(xiàn)場故障數(shù)據(jù),因此能夠提供比模擬情況更準(zhǔn)確的故障率評估。對于小批量生產(chǎn)的產(chǎn)品或新產(chǎn)品,此數(shù)據(jù)可能找不到;不過,對那些已在現(xiàn)場獲得廣泛應(yīng)用的產(chǎn)品,應(yīng)該始終采用此數(shù)據(jù)。因此,對于跨系統(tǒng)比較,從現(xiàn)場數(shù)據(jù)評估開始比較是最合理也是最現(xiàn)實的。請注意,此方法與其他許多方法一樣,都是基于穩(wěn)定故障率假設(shè)。
本文介紹完成此方法的步驟,列舉并說明各個步驟中可能影響結(jié)果的可變因素。如果要進(jìn)行比較的系統(tǒng)間的關(guān)鍵假設(shè)或可變因素發(fā)生變化,那么評估這些變化對MTBF估計結(jié)果的可能影響就非常重要。
第1步:定義并估計抽樣總體的大小確定年故障率(AFR)并最終確定產(chǎn)品的MTBF的過程中,第一步是確定要分析的特定產(chǎn)品抽樣總體。是基于特定產(chǎn)品型號還是整個產(chǎn)品系列進(jìn)行計算?此抽樣總體中產(chǎn)品的生產(chǎn)時間跨度應(yīng)該多大(以天或月計)?生產(chǎn)日期何時開始何時結(jié)束?為抽樣總體選擇的產(chǎn)品應(yīng)該在設(shè)計方面非常相似,并具有足夠多的數(shù)量以保證所采集數(shù)據(jù)的統(tǒng)計有效性,這非常重要。
第2步:確定采集數(shù)據(jù)的樣本時間范圍過程的第二步是確定從抽樣總體中采集故障數(shù)據(jù)的樣本時間范圍。通常在產(chǎn)品的用戶給供應(yīng)商報告故障時采集數(shù)據(jù)。抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間的適合時間間隔,因產(chǎn)品、地理位置、分銷過程和庫存地點不同而有所差異。例如,如果產(chǎn)品在工廠倉庫中儲存兩個月,在分銷渠道中歷時兩個月,那么最早只能在抽樣總體中最晚產(chǎn)品生產(chǎn)日期的四個月后開始進(jìn)行抽樣。對于需要通過批發(fā)商、經(jīng)銷商和零售商這些環(huán)節(jié)的產(chǎn)品,四個月被視為是考慮上述可變因素的合理時間范圍。
下面說明兩個重要的可變因素:(1)抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間要有足夠的時間間隔(2)數(shù)據(jù)采集窗口要足夠大,以確保結(jié)果的可信度。
如果抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間沒有足夠的時間間隔,那么在抽樣總體中的產(chǎn)品得到完全部署之前可能就已經(jīng)開始進(jìn)行抽樣了。這種情況可能會造成兩種結(jié)果。第一,由于尚未部署的產(chǎn)品不可能出現(xiàn)故障,所以有低估故障率的傾向。第二種結(jié)果就是樣本期間很可能包括大量的安裝故障或設(shè)置故障。因為新產(chǎn)品的故障率可能會顯示為一個標(biāo)準(zhǔn)的“浴缸”型,所以包括大量安裝故障可能會導(dǎo)致高估故障率。盡管我們知道這兩種相反的效果都很明顯,但也不能指望他們能互相抵消。
在抽樣時間方面,另一個需要考慮的重要問題是窗口的持續(xù)時間。需要多少天才能充分采集故障數(shù)據(jù)?采樣時間窗口必須選得足夠?qū)挘员憧梢詮臉颖局幸瞥y(tǒng)計“干擾”。獲得合理準(zhǔn)確度所需的持續(xù)時間取決于抽樣總體的大小。例如,大批量產(chǎn)品可能需要一個月時間,小批量產(chǎn)品可能需要幾個月時間。
第3步:定義故障必須準(zhǔn)確定義故障,確保評估過程的一致性后,才能開始統(tǒng)計故障。
現(xiàn)在假設(shè)在“故障”產(chǎn)品返回工廠時,是由每個技術(shù)人員單獨定義故障。某位技術(shù)人員可能只統(tǒng)計那些出現(xiàn)重大故障的產(chǎn)品,而另一位技術(shù)人員可能統(tǒng)計所有出現(xiàn)了故障(包括重大故障)的產(chǎn)品。這兩種極端的做法使得準(zhǔn)確評估特定產(chǎn)品故障率的可能性幾乎為零,當(dāng)然更不能準(zhǔn)確評估對該產(chǎn)品的過程控制所產(chǎn)生的影響。因此,在診斷任意產(chǎn)品之前,供應(yīng)商必須對故障有一個明確的定義。在計算特定事件的MTBF時,供應(yīng)商可能有多種不同的故障定義。例如,供應(yīng)商會試圖評估導(dǎo)致關(guān)鍵負(fù)載停用的故障的MTBF以及負(fù)載能夠繼續(xù)運(yùn)轉(zhuǎn)的不很嚴(yán)重的故障的MTBF。
第4步:接收、診斷和修理產(chǎn)品樣本期間結(jié)束時間和AFR計算時間之間必須有足夠的時間間隔,以允許一定的時間來接收、診斷和修理報告為有故障的產(chǎn)品。診斷結(jié)果確定故障類型,而修理將會驗證診斷結(jié)果。體積較小的產(chǎn)品通常會發(fā)回供應(yīng)商處,這會導(dǎo)致出現(xiàn)接收延遲或需要一定的產(chǎn)品遞送時間。產(chǎn)品到達(dá)供應(yīng)商處后,必須對其進(jìn)行診斷和修理,這會導(dǎo)致另一個稱為診斷延遲的延遲。大型產(chǎn)品通常在客戶處進(jìn)行診斷和修理,因此基本沒有延遲。在上述任一情況下,都需要在計算AFR前診斷和修理產(chǎn)品。如果是大批量產(chǎn)品,很可能在診斷延遲結(jié)束時仍然有需要修理的產(chǎn)品。在這些情況下,有時會做出未修理產(chǎn)品和以前修理過的產(chǎn)品出現(xiàn)故障的機(jī)率相等這樣的假設(shè)。取決于待評估產(chǎn)品的生產(chǎn)量和產(chǎn)品類型,接收延遲和診斷延遲可以在樣本期間結(jié)束時間后加上幾個星期,您可以在此時間點計算AFR。
第5步:計算年故障率計算年故障率是用來說明某個特定產(chǎn)品在一個日歷年度內(nèi)的預(yù)期故障數(shù)。
計算此數(shù)值的第一步是“按年計算”故障數(shù)據(jù)。將樣本期間中的故障數(shù)乘以每年的樣本期間數(shù),可以得出此值。第二步就是確定整個抽樣總體的故障率。將計算出來的每年故障數(shù)除以抽樣總體期間安裝的產(chǎn)品數(shù),可以得出此值。
此公式有如下兩個假設(shè):(1)產(chǎn)品一年365天、每天24小時連續(xù)運(yùn)轉(zhuǎn)(2)抽樣總體中的所有產(chǎn)品都在同一時間開始運(yùn)轉(zhuǎn)。因此盡管此公式可以用于任意產(chǎn)品,但更適用于連續(xù)運(yùn)轉(zhuǎn)的產(chǎn)品。
本抽樣總體有10,000輛汽車。在2個月(樣本期間)內(nèi),要采集此抽樣總體的故障數(shù)據(jù)。平均而言,一輛汽車每年運(yùn)轉(zhuǎn)400個小時。在這2個月內(nèi),有10輛汽車出現(xiàn)故障。
使用公式1:故障率為10個故障x(每年52個星期/樣本期間為8個星期)/抽樣總體中有10,000臺裝置=0.0065或0.65%。
使用公式2:假設(shè)這些產(chǎn)品同時*開始運(yùn)轉(zhuǎn),抽樣總體的運(yùn)轉(zhuǎn)時間為每年10,000x400小時=每年累計4百萬小時或4,000,000/8760小時=累計457年。
故障率為10個故障x(每年52個星期/樣本期間為8個星期)/累計457年=0.14或14%*請注意,此假設(shè)是為了簡化這個示例?,F(xiàn)實情況是產(chǎn)品在整個期間內(nèi)都有銷售,因此實際運(yùn)轉(zhuǎn)時間將比上面的數(shù)字小。導(dǎo)致AFR值變大。
如果上面的示例是以連續(xù)運(yùn)轉(zhuǎn)產(chǎn)品為例,那么兩個AFR值將相等。即使取消所有產(chǎn)品同時開始運(yùn)轉(zhuǎn)這個假設(shè),AFR值仍然非常接近。因此,了解產(chǎn)品是連續(xù)運(yùn)轉(zhuǎn)還是非連續(xù)運(yùn)轉(zhuǎn)對于進(jìn)行正確地分析至關(guān)重要。
第6步:將AFR轉(zhuǎn)換為MTBF將AFR轉(zhuǎn)換為MTBF(以小時計)是所有步驟中最容易的,不過可能也是最常被誤解的。只有在故障率穩(wěn)定這一假設(shè)下,將AFR轉(zhuǎn)換為MTBF才有效。
#p#
使用AFR評估過程對MTBF計算結(jié)果抽樣
下面的假想示例有助于說明整個過程。
第1步:確定抽樣總體全部為“X”牌15kVA**系統(tǒng),是在2003年的第36周到第47周(9月1日至11月21日)生產(chǎn)的,生產(chǎn)窗口時長共12周。抽樣總體共2000臺裝置。
第2步:確定采樣窗口從2004年2月2日開始,至2004年7月16日結(jié)束。選擇這一采樣窗口時,考慮了在產(chǎn)品庫存和分銷過程中會有10周的延遲。
第3步:將故障定義為由任何原因(包括人為錯誤)引起的關(guān)鍵負(fù)載停用。
第4步:在樣本期間,總共報告了二十起故障。其中,九起故障被劃分為關(guān)鍵負(fù)載停用故障,其他故障為非關(guān)鍵故障。因此,根據(jù)第3步中確定的故障定義,下面計算中使用的故障數(shù)為九。已經(jīng)在計算AFR之前接收、診斷和修理了出現(xiàn)故障的產(chǎn)品。
影響AFR的可變因素大多數(shù)情況下,用戶是從供應(yīng)商處獲取MTBF值,不帶有任何用于證實這些數(shù)值的相關(guān)數(shù)據(jù)。如上所述,當(dāng)查看多個系統(tǒng)的MTBF值(或AFR值)時,了解分析所用的隱含假設(shè)和可變因素(特別是定義故障的方式)非常重要。比較時若忽視了這一點,比較結(jié)果出現(xiàn)偏差的可能性就會變大,可能會出現(xiàn)500%或更高的偏差。最終可能導(dǎo)致不必要的業(yè)務(wù)支出甚至意外停機(jī)。一般來說,必須有明確的可變因素定義、假設(shè)定義以及故障定義,才可以比較兩個或更多系統(tǒng)間的MTBF值。即使兩個MTBF值看起來很相似,仍然有比較結(jié)果出現(xiàn)偏差的可能。因此,必須弄清MTBF結(jié)果后面隱含的內(nèi)容,并仔細(xì)研究和領(lǐng)會這些數(shù)值所包含的含義。
下面將介紹每個可變因素,并說明他們可能對結(jié)果產(chǎn)生的影響。附錄中提供一個核對表,可以用于比較兩個或多個系統(tǒng)間的可變因素。完成比較后,必須再檢查一下核對表,以確定系統(tǒng)間有哪些不同的可變因素。通過逐一嚴(yán)格分析這些不同的可變因素及其對MTBF的影響,可以確定比較是否公正并可以作為產(chǎn)品規(guī)格或購買決策的關(guān)鍵標(biāo)準(zhǔn)。
產(chǎn)品功能、應(yīng)用和邊界在比較兩個或更多MTBF值之前,驗證被比較的兩個產(chǎn)品是否同類非常重要。被比較的產(chǎn)品必須在功能、性能及應(yīng)用方面相似。如果被比較的產(chǎn)品是**,則產(chǎn)品功能就是為連接的負(fù)載提供備用電源。此產(chǎn)品的用途可能是用來支持?jǐn)?shù)據(jù)中心環(huán)境中的關(guān)鍵IT負(fù)載。如果沒有相似的應(yīng)用,就不可能進(jìn)行公正的MTBF比較。例如,對工業(yè)用途和IT用途的比較是不切合實際的。
穩(wěn)定故障率假設(shè)要使計算AFR和MTBF的現(xiàn)場數(shù)據(jù)評估方法有效,必須假設(shè)被分析產(chǎn)品具有穩(wěn)定的故障率。很重要的一點就是要判明此假設(shè)對于被比較產(chǎn)品的類型是否合理。對于電子系統(tǒng)或組件,這個假設(shè)通??梢猿闪?。該產(chǎn)品是否屬于這一類?如果不屬于,計算出來的值可能不會是預(yù)期故障的代表性值,進(jìn)行公正比較的可能性就很小。
抽樣總體大小在明確產(chǎn)品及其應(yīng)用非常相似后,很重要的一項工作就是審查現(xiàn)場數(shù)據(jù)采集過程。在這里,定義抽樣總體大小(生產(chǎn)的產(chǎn)品數(shù)量)是第一個關(guān)鍵的可變因素。如果抽樣總體中定義的產(chǎn)品數(shù)量太少,那么得出的MTBF估計值就很可能沒用。因此,比較MTBF值時,確保每個值都是基于足夠大的抽樣總體大小,這是非常重要的。
盡管被比較產(chǎn)品的生產(chǎn)率可能不同,但需要著重考慮的是抽樣總體中的產(chǎn)品數(shù)量。如果某個產(chǎn)品的生產(chǎn)率較低,那么此產(chǎn)品的生產(chǎn)時間范圍應(yīng)該比較大,以便能夠達(dá)到一個合適的產(chǎn)品數(shù)量。例如,供應(yīng)商“A”在一個月內(nèi)生產(chǎn)1000臺產(chǎn)品,而供應(yīng)商“B”在一個月內(nèi)生產(chǎn)50臺“同類”產(chǎn)品。對于供應(yīng)商“B”,抽樣總體中應(yīng)包括若干個月生產(chǎn)的產(chǎn)品,以確保結(jié)果的統(tǒng)計有效性;對于供應(yīng)商“A”,一個月內(nèi)生產(chǎn)的產(chǎn)品就夠了。
抽樣總體中產(chǎn)品的最晚生產(chǎn)日期和樣本期間開始日期之間的時間間隔如果抽樣總體范圍的結(jié)束時間和樣本采集期的開始時間之間沒有足夠的時間間隔,那么AFR和MTBF值可能是不準(zhǔn)確的。被比較的每個系統(tǒng)的供應(yīng)商必須為其抽樣總體提供足夠時間,以便在開始采集故障數(shù)據(jù)之前系統(tǒng)可以完成庫存及分銷過程。
例如,如果某個特定產(chǎn)品通常在庫房中存放一個月后,進(jìn)入分銷過程(歷時一個月),那么評估故障前設(shè)定的最短時間應(yīng)該是兩個月。總“等待”時間因產(chǎn)品類型而異。由于要進(jìn)行比較的產(chǎn)品類型應(yīng)該相似,所以總體期間和樣本期間之間的時間應(yīng)該相似。如果某個供應(yīng)商明顯沒有足夠的等待時間或根本沒有等待時間,那么他們的系統(tǒng)AFR可能會低于實際值,在比較這些值時要特別注意。
樣本數(shù)據(jù)采集期正如在此過程第2步中所指出的那樣,選擇合適的樣本數(shù)據(jù)采集期非常重要。如果被比較的系統(tǒng)具有相同長度的采樣窗口,并且具有相似的生產(chǎn)量和/或銷售量,就可以進(jìn)行公平比較。不過,情況并不總是這樣。如果各個系統(tǒng)的數(shù)據(jù)采集期時間不同,那么單獨地評估每個系統(tǒng),確定其是否能夠反映準(zhǔn)確的故障率就很重要。
產(chǎn)品數(shù)量越少,窗口應(yīng)該越長。例如,如果某個供應(yīng)商每個月的產(chǎn)品產(chǎn)量為10臺,用一個月時間來采集故障數(shù)據(jù),時間就不充分。因為產(chǎn)品數(shù)量少,所以用這個月內(nèi)報告的故障(如果有)來推斷前幾個月的故障率,可信度很低。
故障定義如果兩個可比較產(chǎn)品間的故障定義不同,那么進(jìn)行故障分析就象比較蘋果和橙子一樣毫無意義。因此,要進(jìn)行有效的MTBF比較,一項基本任務(wù)就是準(zhǔn)確分析每個被比較產(chǎn)品的故障組成。因此,對于MTBF計算,供應(yīng)商應(yīng)該將哪些故障統(tǒng)計在內(nèi)?
將用戶誤用導(dǎo)致的故障統(tǒng)計在內(nèi)是否有用?設(shè)計者可能忽視了許多人為因素,這將導(dǎo)致用戶很容易誤用產(chǎn)品。
在電源保護(hù)行業(yè)中,**故障的最常見“定義”是“負(fù)載停用”故障。這表示向負(fù)載供電超出了可接受范圍,導(dǎo)致了負(fù)載停止運(yùn)轉(zhuǎn)。不過,將由供應(yīng)商維修技術(shù)人員導(dǎo)致的負(fù)載停用統(tǒng)計在內(nèi)是否有用?產(chǎn)品設(shè)計本身是否會提高風(fēng)險程序出現(xiàn)故障的可能性?
如果計算機(jī)上的LED(發(fā)光二級管)出現(xiàn)故障,是否屬于故障(雖然它沒有影響計算機(jī)的運(yùn)行)?
如果耗材(例如電池)的使用期比預(yù)期的時間要短,是否屬于故障?
運(yùn)輸造成的損壞是否屬于故障?這可能表明包裝的設(shè)計不當(dāng)。是否將重復(fù)出現(xiàn)的故障統(tǒng)計在內(nèi)?也就是說,對于同一用戶使用的同一系統(tǒng)內(nèi)診斷結(jié)果相同的故障,是重復(fù)計數(shù)還是僅計數(shù)一次?安裝過程導(dǎo)致的故障是否統(tǒng)計在內(nèi)?此故障可能是供應(yīng)商技術(shù)人員引起的。如果用戶沒有購買推薦的維護(hù)合同或監(jiān)視系統(tǒng),是否將故障統(tǒng)計在內(nèi)?如果地震導(dǎo)致建筑物損害,使得系統(tǒng)出現(xiàn)故障,是否將故障統(tǒng)計在內(nèi)或?qū)⑵湟暈?ldquo;天災(zāi)”?是否將系統(tǒng)外某些組件的故障統(tǒng)計在內(nèi)?對于**系統(tǒng),系統(tǒng)外組件可能是電池或旁路開關(guān)。如果出現(xiàn)連鎖故障,導(dǎo)致后續(xù)系統(tǒng)停機(jī),是將每個系統(tǒng)的故障都統(tǒng)計在內(nèi)還是僅統(tǒng)計第一個系統(tǒng)的故障?
如果某個系統(tǒng)進(jìn)行了“自定義”設(shè)置,是否將該系統(tǒng)的故障從抽樣總體中排除?
工業(yè)中用來計算MTBF的實際故障定義可能會有一些衍生情況。上面列出的只是一小部分。因為將許多異常情況統(tǒng)計為故障,所以MTBF值所反映的系統(tǒng)性能比實際使用情況更可靠。要為合作伙伴和用戶提供AFR和MTBF值,比較MTBF值時需要一個明確的故障定義。
有三個直觀定義:
類型0該產(chǎn)品有一個妨礙其運(yùn)轉(zhuǎn)的缺陷或故障。
類型I產(chǎn)品整體失效,無法實現(xiàn)其所應(yīng)實現(xiàn)的功能。
類型II個別組件失效,無法實現(xiàn)其應(yīng)實現(xiàn)的功能,但不是產(chǎn)品整體失效,無法實現(xiàn)該產(chǎn)品應(yīng)實現(xiàn)的功能。2除了了解每個供應(yīng)商選擇的定義,還必須明確是否包括人為故障。在MTBF計算要包括人為失誤的情況下,比較MTBF值可能更困難。這是因為有多種可能導(dǎo)致故障的人為失誤,使得供應(yīng)商需要篩選出與人為失誤相關(guān)的故障。如果所有供應(yīng)商都沒有篩選出相同類型的故障,那么系統(tǒng)比較結(jié)果就很值得懷疑。