澳洲電訊(Telstra)利用深度學(xué)習(xí)應(yīng)對(duì)網(wǎng)絡(luò)挑戰(zhàn)!
譯文【51CTO.com快譯】Telstra正在其網(wǎng)絡(luò)數(shù)據(jù)上運(yùn)行深度學(xué)習(xí)算法,以便及早預(yù)測(cè)設(shè)備故障,并找到對(duì)付語(yǔ)音和短信騙局的方法。
數(shù)據(jù)科學(xué)(網(wǎng)絡(luò))團(tuán)隊(duì)經(jīng)理Tim Osborne近日在IBM的Think2020大會(huì)上作了發(fā)言,透露了這個(gè)代號(hào)為T(mén)elstra AI Lab即TAIL的項(xiàng)目。
TAIL在一個(gè)仍在不斷改進(jìn)的應(yīng)用數(shù)據(jù)科學(xué)平臺(tái)上運(yùn)行,該平臺(tái)是在IBM的幫助下搭建的。
它結(jié)合使用了現(xiàn)有的思科UCS C240和新的IBM Power System AC922用于計(jì)算,基于Kubernetes的堆棧在上面,包括用于在Kubernetes上運(yùn)行機(jī)器學(xué)習(xí)算法的Kubeflow。
Osborne稱,TAIL由25位數(shù)據(jù)科學(xué)家和工程師組成的團(tuán)隊(duì)提供支持,他們“與整個(gè)公司的網(wǎng)絡(luò)工程人員全面合作,以期解決數(shù)據(jù)科學(xué)方面最具挑戰(zhàn)性的問(wèn)題。”
他稱TAIL竭力應(yīng)對(duì)的早期挑戰(zhàn)包括網(wǎng)絡(luò)優(yōu)化、電源優(yōu)化、欺詐及與電信有關(guān)的其他騙局。
他說(shuō):“對(duì)我們而言,網(wǎng)絡(luò)優(yōu)化是指能夠進(jìn)行預(yù)測(cè),檢測(cè)和診斷我們未能發(fā)現(xiàn)的問(wèn)題。”
“關(guān)鍵是能夠在我們的業(yè)務(wù)運(yùn)營(yíng)中取得積極的成果,為客戶帶來(lái)積極的成果,并努力思考我們?nèi)绾尾拍軗碛凶越M織的網(wǎng)絡(luò)。此外能夠使用深度學(xué)習(xí)算法理解機(jī)器代碼,弄清楚這意味著什么,以便我們能夠及早解決故障,這確實(shí)很棒,這正是我們眼下在做的事情。”
在電源優(yōu)化方面,Osborne表示公司在探究供暖通風(fēng)空調(diào)(HVAC)的優(yōu)化,不過(guò)他并沒(méi)有透露細(xì)節(jié)。
他還表示,TAIL現(xiàn)用于打擊電信騙局。在過(guò)去這一年,Telstra及其他運(yùn)營(yíng)商在這方面面臨監(jiān)管壓力。
“全球移動(dòng)領(lǐng)域發(fā)生了很多騙局——有人通過(guò)短信發(fā)送騙局;有人打來(lái)電話讓你回電,而打電話很費(fèi)錢(qián)。我們正在采取相應(yīng)對(duì)策。”
這項(xiàng)工作可以追溯到六個(gè)月前,Osborne透露,Telstra已請(qǐng)IBM搭建起了一個(gè)應(yīng)用數(shù)據(jù)科學(xué)平臺(tái),使TAIL能夠順利運(yùn)行。
他說(shuō):“我們有人才,我們有使用場(chǎng)景,機(jī)會(huì)就擺在面前,何況我們有數(shù)據(jù)。我們就是沒(méi)有平臺(tái)。早在2019年12月,我們開(kāi)始與IBM合作。這種合作絕對(duì)堪稱典范。”
“我們有共同的終極目標(biāo)。IBM對(duì)獲得更多的經(jīng)驗(yàn),讓客戶使用其平臺(tái)以及Kubernetes和Kubeflow很感興趣,而我們對(duì)在我們公司內(nèi)使用那些工具并擴(kuò)大規(guī)模很感興趣。”
“我們現(xiàn)在有一個(gè)很出色的機(jī)器學(xué)習(xí)平臺(tái),我們的數(shù)據(jù)科學(xué)家現(xiàn)在心滿意足。”
Osborne說(shuō),數(shù)據(jù)科學(xué)平臺(tái)使其團(tuán)隊(duì)能夠根據(jù)網(wǎng)絡(luò)業(yè)務(wù)的需求迅速調(diào)查,并針對(duì)實(shí)際使用場(chǎng)景迅速擴(kuò)大規(guī)模。
他說(shuō):“隨著我們的業(yè)務(wù)變得更受歡迎,我們可以添加更多機(jī)器,可以在集群中添加更多機(jī)器,并根據(jù)需要擴(kuò)展資源。”
底層揭秘
IBM的AI技術(shù)專家Adam Makarucha表示,應(yīng)用數(shù)據(jù)科學(xué)平臺(tái)已在去年底今年初部署起來(lái)。
它最初基于原生的Kubernetes而建,但是現(xiàn)計(jì)劃將其遷移到Red Hat的OpenShift容器管理平臺(tái),因?yàn)镺penShift版本4.3支持Power System。
在硬件方面,Marakucha表示“總共有六臺(tái)機(jī)器和六個(gè)節(jié)點(diǎn)”。
他說(shuō):“計(jì)算量似乎不大,但是該部署環(huán)境的關(guān)鍵是這些節(jié)點(diǎn)中每個(gè)節(jié)點(diǎn)都有GPU加速功能。這實(shí)際上意味著該機(jī)器的計(jì)算和功能總量實(shí)際上遠(yuǎn)超出了6節(jié)點(diǎn)系統(tǒng)的容量。實(shí)際上,其總性能可能相當(dāng)于160個(gè)節(jié)點(diǎn)。該平臺(tái)總共擁有237.6 Teraflops的[GPU]單精度性能。”
Marakucha稱,雖然Telstra想使用Power System AC922,但也想充分使用已購(gòu)置的思科UCS硬件及其他設(shè)備和服務(wù)。
Marakucha說(shuō):“我們本可以走使用基于x86的集群這條路,但是Telstra希望引入AC922,就因?yàn)樗鼈冊(cè)卺槍?duì)很龐大的數(shù)據(jù)集和大型模型進(jìn)行深度學(xué)習(xí)方面有優(yōu)勢(shì)。”
他表示,雖然這種混合環(huán)境可能很難管理,但Kubernetes能夠承擔(dān)大部分的重任。
Marakucha還說(shuō),該環(huán)境已經(jīng)過(guò)配置,對(duì)單單一個(gè)數(shù)據(jù)科學(xué)家在任何時(shí)間可以使用的資源數(shù)量作了一番限制,以防資源被獨(dú)占。
“如果你是數(shù)據(jù)科學(xué)家,可能會(huì)這么做:我會(huì)試圖獲得盡可能多的CPU核心和計(jì)算資源,即便不會(huì)同時(shí)使用這些資源。這種環(huán)境下的許多數(shù)據(jù)科學(xué)家在做同樣的事情,這意味著我們很快耗盡計(jì)算資源,因?yàn)槲覀冊(cè)谙乃泻诵摹?rdquo;
“于是我們將核心數(shù)量嚴(yán)格限制在兩個(gè),這意味著我們有靈活性,因?yàn)镵ubernetes的優(yōu)勢(shì)在于,如果你要求兩個(gè)核心,起碼保證你有兩個(gè)核心,但又允許你擴(kuò)展到更多的核心,如果有閑置核心的話。我們只是鎖住了一些配置,以防過(guò)度配置。”
原文標(biāo)題:Telstra throws deep learning at its network challenges,作者:Ry Crozier
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】