鋼鐵是怎樣煉成的——網(wǎng)絡產(chǎn)品硬件的可靠性保證
現(xiàn)高可用網(wǎng)絡的方法,除了像冗余備份、提高故障診斷能力、增加備件這些減少設備宕機時恢復時間的方法之外,還包括一個重要的指標--設備的可靠性。如何保證硬件設備的可靠性?它包括哪些方面?
可靠性管理:可靠性保證和增長的基礎
之所以把可靠性管理放在第一位,優(yōu)先于可靠性設計、分析和試驗,是因為我們認為后者都是具體的、細節(jié)的技術或方法,是可以短期內(nèi)修正或完善的;而可靠性管理則代表了一個公司可靠性領域在流程和制度上的成熟度,需要時間、實踐、經(jīng)驗和數(shù)據(jù)的積累和沉淀,可以說是員工心智和公司文化的體現(xiàn)。
H3C于2005年正式將可靠性納入公司的流程管理,作為產(chǎn)品開發(fā)過程中的重要一環(huán)。對于研發(fā)的每款產(chǎn)品,H3C都會制定相應的可靠性規(guī)格和過程實施計劃??煽啃砸?guī)格是產(chǎn)品概念階段在可靠性指標上的承諾,根據(jù)各方面的需求決定出要做什么樣的產(chǎn)品??煽啃赃^程計劃則明確定義什么階段、由誰完成哪些可靠性工作,達到什么目標,過程如何規(guī)范,交付哪些內(nèi)容,在執(zhí)行上保證了規(guī)格承諾的兌現(xiàn)。
舉例來說,器件管理和優(yōu)選便是可靠性管理體系中的重要組成部分。做過產(chǎn)品開發(fā)的人都知道,不同廠家的同型號器件,往往很難做到所有參數(shù)完全一致。當器件參數(shù)不一致時,產(chǎn)品在設計初期就需要考慮通過容差設計來兼容這些器件,這樣就對設計和制造提出了更高的要求,一定程度上提高了設計制造的難度和成本。隨著供應商和器件型號的增加,管理費用迅速上升,彼此溝通變成了一個費時費力而且低效的工作。另一方面,設計和制造也不斷出現(xiàn)由"兼容設計"引起的問題,允許免檢直接入庫的器件變少。對于這種問題,在H3C,有專門的部門負責器件優(yōu)選和認證管理工作,他們跟蹤業(yè)界器件技術發(fā)展的動態(tài),對制造、客戶出現(xiàn)的器件問題進行跟蹤和數(shù)據(jù)搜集,提供各類優(yōu)選器件清單,使器件選型工作簡單有效。當有器件需要替代時,必需經(jīng)過足夠環(huán)節(jié)的審核、測試和小批量驗證才能被規(guī)模使用。
可靠性增長的一個重要方法是應用FRACAS系統(tǒng)(Failure Report Analysis and Corrective Action System),其原理是利用"故障反饋、閉環(huán)控制、預防再發(fā)生",通過一系列規(guī)范化的工作程序,及時報告產(chǎn)品故障,分析故障根因并糾正,通過臨時規(guī)避措施減小故障的影響,通過預防再發(fā)生的解決措施實現(xiàn)產(chǎn)品可靠性增長。在H3C,從研發(fā)、試產(chǎn)、生產(chǎn)到客戶現(xiàn)場,各環(huán)節(jié)不同程度都在實施故障報告和閉環(huán)。以HASA(Highly Accelerated Stress Audit,高加速應力稽核)流程為代表,該流程融入了FRACAS和8D的思路,對每一臺HASA過程出現(xiàn)問題的設備,都建立流程跟蹤,從條碼記錄、故障現(xiàn)象、故障風險分析、根本原因總結到解決措施、閉環(huán)實施,把各環(huán)節(jié)有機整合起來,實現(xiàn)發(fā)貨前檢驗的高效率和問題閉環(huán)的有效性。將每個HASA失效都看作改進過程的機會,從而使解決問題的投入達到利益最大化。
根據(jù)流程,所有和可靠性相關的關鍵數(shù)據(jù)都集成到了QA系統(tǒng)的可靠性模塊。在這里,可以查到某款產(chǎn)品在特定發(fā)貨時間的市場失效情況,可以跟蹤市場實際MTBF、累計失效率、制造批次相關的失效率等等。通過數(shù)據(jù)分析和同類產(chǎn)品比對,去發(fā)現(xiàn)設計、制造、管理各環(huán)節(jié)可以提高的機會,實現(xiàn)進一步的可靠性增長。
良好的可靠性管理通過建立一套嚴格的紀律,指導設計人員什么時候要做什么事情;可以讓今天的教訓成為明天的預防,在明天就"一次性把事情做對";可以讓我們"站在巨人的肩膀上",做任何事情都不是從零開始。而所有的目的,只是為了實現(xiàn)可靠性目標的承諾,保證提供給客戶的產(chǎn)品,在承諾的時間內(nèi)是高可靠的、是滿足客戶要求的。
可靠性設計:關注細節(jié),重在執(zhí)行
談到電子產(chǎn)品可靠性設計,我們幾乎馬上會想到熱設計、元器件降額、容差容錯設計、可靠性預計等等。可靠性設計是否成功,有兩點必不可少,其一是執(zhí)行,其二是細節(jié)。
首先是執(zhí)行。以降額設計為例,不少公司都有降額設計規(guī)范,但這個規(guī)范是否被嚴格執(zhí)行了,超出降額的器件有沒有被專業(yè)評估,降額要求是否根據(jù)制造/市場元器件的表現(xiàn)調(diào)整,不同產(chǎn)品是否需要分別對待實現(xiàn)全壽命成本最優(yōu),都是可靠性設計的關鍵。再如熱設計,在H3C,熱設計由可靠性工程師保證。每款產(chǎn)品,在開發(fā)初期,都會對散熱進行評估和仿真,提前釋放散熱風險。在整個評估過程中,可靠性工程師和結構工程師、產(chǎn)品開發(fā)人員、互連設計工程師的溝通非常緊密,結構、布局的變化會知會可靠性工程師進行散熱風險評估。風險沒有釋放,就不能通過下一個技術評審點。
其次是細節(jié)??煽啃栽O計是一個需要注重細節(jié)的工作,所謂"千里之堤,潰于蟻穴"。1980年,阿麗亞娜火箭第二次試飛時,一名工作人員不慎碰落一個部件的商標,堵塞了發(fā)動機燃燒室的噴嘴,造成發(fā)射失敗。1985年,美國發(fā)射"三叉戟"導彈,由于發(fā)動機燃燒室中剝落了一塊黃豆大的絕緣層,結果高溫火焰燒穿了那里的金屬壁,燃氣向外噴射,發(fā)動機爆炸。"Paying attention to details"因此被直接寫入到美軍標338中的,這也是經(jīng)驗和思考的總結。
以H3C為例,熱設計中的熱仿真過程不但仿真常態(tài)情況,還會對風扇停轉等異常狀態(tài)進行仿真;在降額設計上,對各類器件電應力進行遍歷審查,對不同風扇轉速下熱應力進行遍歷測試,保證在規(guī)定環(huán)境下每個器件承受的應力滿足降額要求;對易損耗的器件進行壽命評估,保證在規(guī)定時間內(nèi)設備符合用戶的要求;對關鍵電路進行容差設計和仿真,保證器件參數(shù)隨環(huán)境應力、壽命漂移時,電路依然可以可靠工作。對電路進行簡潔度設計,通過SI/PI仿真減少不必要的器件,簡化設計從而降低單板失效率。
可靠性分析:防患未然,心知肚明
可靠性分析主要包括三部分:可靠性預計、FMEA(故障模式影響分析)和FTA(故障樹分析)??煽啃灶A計通過計算MTBF、返修率等指標,評估維修成本、備件成本和整網(wǎng)可用度,可以提前預計產(chǎn)品在現(xiàn)場運行的可靠性情況。FTA構造繁雜,對人員經(jīng)驗和技能要求高,通常只對重要故障進行分析。對于復雜產(chǎn)品,F(xiàn)MEA是一個防患未然的有效方法。舉個簡單的例子,當我們遇到十字路口紅綠燈失效的情況時,哪種失效現(xiàn)象最不希望出現(xiàn)?顯然,當兩條路上同時出現(xiàn)綠燈時交通事故隱患就被埋下了。那么在開展交通信號燈控制系統(tǒng)的FMEA分析時,就要關注哪些器件失效會出現(xiàn)綠燈同時點亮的情況,是否有解決方法。
在H3C,復雜系統(tǒng)會開展FMEA分析工作,通過對系統(tǒng)中可能出現(xiàn)的故障模式和影響做深入分析,將故障檢測和容錯設計納入產(chǎn)品需求,消除單點故障。對于冗余備份系統(tǒng),保證失效發(fā)生時設備可以快速倒換,業(yè)務運行不受影響,從而提高產(chǎn)品可靠性。在可靠性預計方面,利用強大的數(shù)據(jù)支持,結合歷史數(shù)據(jù)分析,對可靠性預計進行針對性修正,提高了預計的準確性。
可靠性試驗:真金不怕火煉
H3C研發(fā)出來的每一款產(chǎn)品,都會經(jīng)受可靠性試驗的洗禮,其中最嚴酷的當屬HALT試驗(Highly Accelerated Life Test,高加速壽命試驗)。
90年代HALT試驗在國外獲得推廣,國內(nèi)企業(yè)由于各種限制起步相對較晚。與傳統(tǒng)的施加模擬客戶環(huán)境的應力來發(fā)現(xiàn)故障的環(huán)境試驗不同,高加速應力是一種主動的試驗。使用應力步進的方法,使設備不斷接近極限應力,直到故障暴露。通過"暴露缺陷-不斷改進-再試驗-再改進"的方式,持續(xù)發(fā)現(xiàn)并解決設計、來料、工藝等相關問題,從而獲得產(chǎn)品的快速穩(wěn)定。這有點像運動員的訓練,如果要參加100米短跑比賽,那么運動員平常訓練時絕不會只是重復訓練100米沖刺,力量和耐力的訓練必不可少。同樣道理對于產(chǎn)品來說,雖然標稱工作環(huán)境是0~40/45℃,HALT試驗過程中其實都會經(jīng)受100℃高溫和-40℃低溫的極限考驗。
圖1 5臺HALT/HASA試驗箱,對產(chǎn)品進行極限測試
關于HALT試驗的三個疑問
1. HALT試驗做到-40℃和100℃有沒有必要,室內(nèi)應用的產(chǎn)品,怎么可能有這樣的環(huán)境?
經(jīng)驗告訴我們,非常必要且獲益匪淺!按照H3C工程師的說法,不作HALT試驗"心里沒底"。
2. 廠家宣稱的0~70℃的器件能在-40~100℃環(huán)境工作嗎?
實踐表明,在可靠的電路設計下,器件完全可以承受比規(guī)格更高的應力(極少數(shù)器件例外)。
3. 為什么可以用環(huán)境應力暴露未來5年甚至10年可能出現(xiàn)的可靠性問題?
研究一下元器件資料,看看容差設計的原理和品質(zhì)管控方面的書籍,就會發(fā)現(xiàn)一個共同點:器件參數(shù)漂移。當一個器件在極限環(huán)境應力下參數(shù)漂移范圍比工作5年參數(shù)漂移范圍更寬時,只要該器件在電路環(huán)境中能承受極限應力,你就基本可以放心未來5年參數(shù)漂移引發(fā)失效的模式不會在電路中發(fā)生。其他原因如振動累計損傷、磨損引起的失效加速分析等,這里不再展開。
除了HALT試驗,H3C還采用了一個時尚前衛(wèi)的可靠性保證手段,那就是HASA篩選。
研發(fā)出來的產(chǎn)品,到量產(chǎn)后,由于器件批次間的參數(shù)離散、工藝控制的原因,可靠性不可避免會降低。HASA利用溫度、振動、電應力、數(shù)據(jù)流量等多應力同時施加的方式,有效篩選出故障設備,從而實現(xiàn)量產(chǎn)產(chǎn)品在質(zhì)量和可靠性上的快速穩(wěn)定。通常的HASA篩選應力遠超出設備工作應力,比如溫變率,典型應用環(huán)境溫變率不會超過0.5℃/分鐘,H3C篩選應力是40℃/分鐘。
其他常規(guī)試驗如溫濕度類試驗、機械類試驗、EMC的浪涌/靜電/抗干擾試驗、故障插入測試等,都是H3C產(chǎn)品的必檢項,不通過這些試驗,產(chǎn)品是無法到達客戶手中的。
結語
行文至此,相信你已對通信設備以及H3C產(chǎn)品可靠性保證體系有了簡單了解。鋼鐵鑄就源于千錘百煉,提高可靠性,除了規(guī)格和規(guī)范的要求外,正成為H3C從研發(fā)到生產(chǎn),從管理層到普通員工,日常工作的一項自發(fā)要求。正是不同領域團隊對可靠性工作的高度重視和大力投入,才鑄就了H3C產(chǎn)品的高可靠性。