如何利用機(jī)器學(xué)習(xí)來管理數(shù)據(jù)中心電源?
譯文【51CTO.com快譯】數(shù)據(jù)中心變得越來越復(fù)雜不是什么秘密。有更多類型的硬件和管理軟件,更頻繁變化的工作負(fù)載以及公共云。隨著邊緣計(jì)算即將來臨,情況只會(huì)變得更錯(cuò)綜復(fù)雜。
許多業(yè)內(nèi)人士希望機(jī)器學(xué)習(xí)讓數(shù)據(jù)中心的管理人員在面對(duì)這種復(fù)雜情形時(shí)能夠更從容。幾家公司已經(jīng)在銷售使用機(jī)器學(xué)習(xí)算法的數(shù)據(jù)中心管理軟件。一些從數(shù)據(jù)中心作為計(jì)算機(jī)的整體角度來解決問題,另一些選擇單單專注于散熱或電源。雖說散熱是當(dāng)今低效運(yùn)作的數(shù)據(jù)中心浪費(fèi)大量能源的一方面,但利用智能軟件工具來管理電氣數(shù)據(jù)中心基礎(chǔ)設(shè)施卻大有好處。
一家名為Virtual Power Systems(VPS)的初創(chuàng)公司正利用機(jī)器學(xué)習(xí)來消除數(shù)據(jù)中心中通常所謂的“擱置電源”。數(shù)據(jù)中心有一個(gè)為支持超出必要的電源負(fù)載而設(shè)計(jì)的電氣系統(tǒng)很常見。有時(shí)這是有意為之,以確保冗余,而有時(shí)是由于設(shè)計(jì)人員無法預(yù)測(cè)數(shù)據(jù)中心在將來會(huì)如何使用。
VPS的“軟件定義電源”解決方案使用內(nèi)置電池的智能電氣硬件(包括施耐德電氣等合作伙伴的設(shè)備),在整個(gè)數(shù)據(jù)中心內(nèi)更合理而高效地重新配電。該公司表示,需求變化時(shí),它可以動(dòng)態(tài)重新配電。
該軟件名為ICE,使用的機(jī)器學(xué)習(xí)可以集中預(yù)測(cè)電源需求(包括電池管理和電源尖峰概率),并將配置模式發(fā)送到數(shù)據(jù)中心樓層硬件中運(yùn)行的推理引擎,然后根據(jù)實(shí)際需求來調(diào)整每個(gè)機(jī)架可供使用的電源負(fù)載。
VPS的***技術(shù)官Karimulla Shaikh告訴我們:“如果你有冗余的基礎(chǔ)設(shè)施,有兩條電源線進(jìn)入機(jī)架,你以這種方式來部署負(fù)載,那樣萬一發(fā)生故障,可以從一個(gè)切換到另一個(gè)。這意味著你最多使用每一路50%的容量。如果使用我們的交換系統(tǒng),可以使用100%的負(fù)載。如果發(fā)生故障,交換系統(tǒng)是智能的,它能夠介入將所有負(fù)載移到電池上、持續(xù)一小段時(shí)間,然后利用我們的軟件,將應(yīng)用程序轉(zhuǎn)移到別處或者讓工作負(fù)載下線。”
軟件構(gòu)建的機(jī)器學(xué)習(xí)模型還可以用作模擬器,以了解如果你添加更多的服務(wù)器或機(jī)架,電源傳輸會(huì)受到怎樣的影響。
但這僅僅是個(gè)開始。Shaikh表示,VPS正與一些客戶合作,設(shè)法完全避免典型的冗余數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)計(jì)。它還關(guān)注數(shù)據(jù)中心能源之間的動(dòng)態(tài)切換,比如市電、燃料電池和間歇性可再生能源。
Nlyte Software的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件被該公司的***戰(zhàn)略官Enzo Greco比作“面向數(shù)據(jù)中心的實(shí)時(shí)ERP(企業(yè)資源規(guī)劃)”,它最近為其解決方案添加了使用IBM Watson機(jī)器學(xué)習(xí)服務(wù)的預(yù)測(cè)性熱量和電源管理功能。Watson幫助它基于來自傳感器、設(shè)備和應(yīng)用程序工作負(fù)載信息的數(shù)據(jù)來構(gòu)建模型。Greco表示,在許多情況下,收集所有數(shù)據(jù)已經(jīng)相當(dāng)容易,那么為何不更常使用它、為你所用呢?
許多數(shù)據(jù)中心已經(jīng)有溫度和濕度傳感器、實(shí)時(shí)操作服務(wù)器數(shù)據(jù)和功率計(jì)。他說:“幾乎隨時(shí)可以從任何現(xiàn)代設(shè)備獲得數(shù)據(jù),無論是UPS還是PDU。”機(jī)器學(xué)習(xí)系統(tǒng)可以找出隱藏的模式以及不同系統(tǒng)和端點(diǎn)之間的聯(lián)系。
Greco說:“我們能夠預(yù)測(cè)將來某個(gè)時(shí)間服務(wù)器和機(jī)架層面的電源異常。”在穩(wěn)定狀態(tài)下,機(jī)架可能耗電10kW,但在某個(gè)時(shí)候,可能激增至15kW。“有了足夠的歷史數(shù)據(jù),就可以預(yù)測(cè)將來一小時(shí)這個(gè)機(jī)架會(huì)耗電15kW。”電源尖峰可能是機(jī)械問題或應(yīng)用軟件引起的。“也許你是在批處理模式下運(yùn)行SAP,也許你的交易系統(tǒng)在峰值狀態(tài)下運(yùn)行。”
他表示,如果你能預(yù)測(cè)電源尖峰,可以通過移動(dòng)工作負(fù)載、關(guān)閉服務(wù)器或者對(duì)UPS電池進(jìn)行一些預(yù)防性維護(hù)來做好準(zhǔn)備。
大多數(shù)Nlyte客戶在使用機(jī)器學(xué)習(xí)系統(tǒng)來接收警報(bào)、了解可能有問題的方面。該軟件公司還在開發(fā)預(yù)測(cè)故障和預(yù)防性維護(hù)模塊。Greco說:“功率和熱量是預(yù)測(cè)故障的兩個(gè)極好的主要指標(biāo)。如果你可以預(yù)測(cè)功率異常,這是表明你可能遇到應(yīng)用軟件問題或遇到機(jī)械問題的主要指標(biāo)。”
除了比操作人員更迅速地檢測(cè)異常外,機(jī)器學(xué)習(xí)還可以幫助操作員更清楚地了解其數(shù)據(jù)中心中的電氣基礎(chǔ)設(shè)施冗余機(jī)制。Uptime Institute的研究副總裁Rhonda Ascierto告訴我們:“由于某個(gè)因素(比如操作實(shí)踐發(fā)生變化),機(jī)房的電源冗余性可能不如當(dāng)初設(shè)計(jì)時(shí)。關(guān)鍵是確保數(shù)據(jù)中心的每個(gè)部分在冗余配置方面都按照你預(yù)期的那樣來操作運(yùn)行,盡管這些數(shù)據(jù)中心的性質(zhì)在不斷變化。”
機(jī)器學(xué)習(xí)有望將數(shù)據(jù)中心的可用性策略從被動(dòng)變?yōu)橹鲃?dòng)。他解釋道:“UPS是被動(dòng)的,它等到電源故障后切換至正常系統(tǒng)。應(yīng)用軟件在發(fā)生故障后恢復(fù),這是被動(dòng)的。變成主動(dòng)意味著不用等;將來我會(huì)遇到問題,現(xiàn)在就解決問題。”
原文標(biāo)題How Machine Learning Is Used to Manage Data Center Power Today,作者:Mary Branscombe
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】