自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="srlnw"><strike id="srlnw"></strike></pre>

<sub id="srlnw"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

如何最大化機(jī)器學(xué)習(xí)服務(wù)器的利用率和可擴(kuò)展性？

作者：讀芯術(shù) 2020-10-31 21:53:02

人工智能機(jī)器學(xué)習(xí)

人們正在開(kāi)發(fā)計(jì)算解決方案以滿足機(jī)器學(xué)習(xí)和深度學(xué)習(xí)日益增長(zhǎng)的需求。人工智能創(chuàng)新潛在的阻礙就是對(duì)現(xiàn)有計(jì)算利用不足，以及“計(jì)算債務(wù)”的成本不斷增加。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID：AI_Discovery)。

雖然人工智能融合到商業(yè)具有很高的商業(yè)價(jià)值，但通常這個(gè)價(jià)值還不能抵消把模型應(yīng)用到商業(yè)中所需的計(jì)算成本。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是計(jì)算密集型的學(xué)習(xí)，有人認(rèn)為，除非云計(jì)算或本地計(jì)算成本降低，否則盡管具有空前的商業(yè)價(jià)值，也不值得付出這筆成本。

麻省理工學(xué)院的研究科學(xué)家兼《深度學(xué)習(xí)的計(jì)算極限》一書(shū)的作者尼爾·湯普森(Neil Thompson)在《連線》雜志上發(fā)表的文章中提到，Google、Facebook等眾多組織已經(jīng)建立了影響力廣又能節(jié)約成本的模型，但由于計(jì)算成本高而導(dǎo)致這些模型無(wú)法盈利。

湯普森表示在最近的一些演講和論文中表示，從事大型和前沿人工智能項(xiàng)目的研究人員開(kāi)始抱怨，因?yàn)槌杀咎?，他們無(wú)法測(cè)試多個(gè)算法設(shè)計(jì)，或者重新進(jìn)行實(shí)驗(yàn)。

商業(yè)機(jī)構(gòu)需要極大地完善計(jì)算效率的方法，以促進(jìn)創(chuàng)新并提高人工智能工作的投資回報(bào)率。但是，高昂的計(jì)算成本以及人們對(duì)高效計(jì)算的關(guān)注并不應(yīng)該就此背黑鍋。

實(shí)際上，GPU加速基礎(chǔ)架構(gòu)和其他云供應(yīng)商已經(jīng)取得了重大的進(jìn)步，極大提高了訓(xùn)練復(fù)雜人工智能網(wǎng)絡(luò)的能力，這種速度是前所未有的。

2020年5月，DeepCube發(fā)布了基于軟件的推理加速器，大大提高了所有現(xiàn)有硬件上的深度學(xué)習(xí)性能。換句話說(shuō)，人們正在開(kāi)發(fā)計(jì)算解決方案以滿足機(jī)器學(xué)習(xí)和深度學(xué)習(xí)日益增長(zhǎng)的需求。人工智能創(chuàng)新潛在的阻礙就是對(duì)現(xiàn)有計(jì)算利用不足，以及“計(jì)算債務(wù)”的成本不斷增加。

什么是“計(jì)算債務(wù)”?

人工智能的領(lǐng)頭羊或許會(huì)驚訝地發(fā)現(xiàn)，阻礙機(jī)器學(xué)習(xí)投資回報(bào)的主要因素之一是GPU，CPU和內(nèi)存資源利用不足。

公司在計(jì)算上投資了數(shù)百萬(wàn)美元，這些計(jì)算有可能極大地加速人工智能工作的負(fù)載量并提高性能，但最終只利用其中的一小部分，有時(shí)只利用了20%的資源。計(jì)算分配和實(shí)際利用率之間的差距令人震驚，可能需要公司付出比想象中更高的成本。

計(jì)算、分配和利用率之間的差距可稱為“計(jì)算債務(wù)”。指的是分配和能力之間的“浪費(fèi)”。下圖直觀地對(duì)比了綠色所代表的平均利用率和黃色所代表的(當(dāng)時(shí)的)分配。

當(dāng)工作負(fù)載正在運(yùn)行時(shí)，通常僅利用GPU的一部分，而另一部分則被其他潛在的工作負(fù)載所阻擋?；疑珔^(qū)域表示容量即GPU，CPU或內(nèi)存可用的現(xiàn)有計(jì)算量，是所有閑置且未充分利用的計(jì)算區(qū)域。

資料來(lái)源：cnvrg.io

是什么導(dǎo)致了“計(jì)算債務(wù)”?

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是計(jì)算密集型的學(xué)習(xí)，管理起來(lái)很復(fù)雜，降低這種計(jì)算負(fù)擔(dān)會(huì)更難。人工智能基礎(chǔ)設(shè)施團(tuán)隊(duì)面臨的最大挑戰(zhàn)之一是知道如何提高利用率，并以最大化消耗的方式管理資源，提高機(jī)器學(xué)習(xí)項(xiàng)目的投資回報(bào)率。導(dǎo)致“計(jì)算債務(wù)”的主要原因包括：

(1) 基礎(chǔ)設(shè)施團(tuán)隊(duì)缺乏人工智能項(xiàng)目可見(jiàn)性

機(jī)器學(xué)習(xí)項(xiàng)目的基礎(chǔ)設(shè)施成本每年以兩倍的速度增長(zhǎng)，但是IT團(tuán)隊(duì)卻缺乏正確管理、優(yōu)化和預(yù)算機(jī)器學(xué)習(xí)資源的工具。大多數(shù)IT/DevOps領(lǐng)導(dǎo)者無(wú)法在給定時(shí)間了解GPU/CPU和內(nèi)存的利用率、分配和容量。這導(dǎo)致無(wú)法控制消耗，無(wú)法提高效率。

(2) “計(jì)算債務(wù)”增長(zhǎng)

隨著人工智能計(jì)算需求變得越來(lái)越復(fù)雜，計(jì)算分配和實(shí)際利用率之間的差距也越來(lái)越大。通常來(lái)說(shuō)，公司可能只消耗了全部資源的30%。這導(dǎo)致將近70%的計(jì)算資源閑置，浪費(fèi)了公司幾千甚至數(shù)百萬(wàn)美元。

(3) 無(wú)法識(shí)別效率低下的工作

基礎(chǔ)架構(gòu)團(tuán)隊(duì)無(wú)法輕松識(shí)別未充分利用GPU/CPU的工作負(fù)載。如果沒(méi)有收集有關(guān)歷史工作負(fù)載的數(shù)據(jù)，就無(wú)法分析和識(shí)別運(yùn)行效率低下的工作負(fù)載。缺乏可見(jiàn)性導(dǎo)致難以提高利用率，也難以控制工作負(fù)載的優(yōu)先級(jí)。

(4) 生產(chǎn)力中斷

未充分利用的GPU被打斷為其他工作讓路，增加了數(shù)據(jù)科學(xué)家的等待時(shí)間。這導(dǎo)致在等待GPU上浪費(fèi)了很多時(shí)間和資源。同時(shí)還包括資源處于閑置狀態(tài)的問(wèn)題，這些資源本來(lái)可以用于做其他工作的。

圖源：unsplash

(5) 缺乏標(biāo)準(zhǔn)化和統(tǒng)一性

團(tuán)隊(duì)經(jīng)常無(wú)法將一項(xiàng)工作與利用率指標(biāo)關(guān)聯(lián)起來(lái)。沒(méi)有標(biāo)準(zhǔn)的可視化工具來(lái)查看特定時(shí)間點(diǎn)的工作分配、利用率和容量。這使得識(shí)別效率低下的工作變得十分困難，而且難以確定浪費(fèi)的工作量。機(jī)器學(xué)習(xí)已經(jīng)達(dá)到了成熟的階段，為了成長(zhǎng)，必須對(duì)人工智能基礎(chǔ)架構(gòu)進(jìn)行戰(zhàn)略化發(fā)展。

(6) 無(wú)法控制優(yōu)化策略

有些團(tuán)隊(duì)能識(shí)別低效率并計(jì)劃好優(yōu)化的基礎(chǔ)架構(gòu)策略，卻缺乏執(zhí)行這些策略上的工具。IT / DevOps團(tuán)隊(duì)需要控制人工智能工作負(fù)載，以優(yōu)化資源管理。如果沒(méi)有辦法確定工作的優(yōu)先級(jí)、配置計(jì)算模板以及監(jiān)視工作負(fù)載的分配和利用率，就無(wú)法做出重大改進(jìn)。

減少“計(jì)算債務(wù)”的策略

這一問(wèn)題沒(méi)有明確的解決方法，但是有一些方法可以提高資源管理的效率。

(1) 投資最先進(jìn)的具有GPU加速技術(shù)的人工智能基礎(chǔ)設(shè)施

GPU加速技術(shù)已經(jīng)取得了一些成就。硬件和軟件深度學(xué)習(xí)加速解決方案已經(jīng)出現(xiàn)，可提供前所未有的計(jì)算性能。研究最新的GPU加速解決方案，采用真正的現(xiàn)代人工智能基礎(chǔ)架構(gòu)。

(2) 采用混合的云基礎(chǔ)架構(gòu)

結(jié)合公共云、私有云和本地資源可在運(yùn)行人工智能工作負(fù)載方面更加敏捷和靈活。由于人工智能工作負(fù)載之間的負(fù)載類型差異很大，因此公司搭建了混合云基礎(chǔ)架構(gòu)后，能夠更靈活地分配資源和自定義大小?？梢允褂霉苍平档唾Y本支出，并提供高計(jì)算需求期間所需的可伸縮性。

如果一些公司有著嚴(yán)格的安全性要求，則必須添加私有云，隨著時(shí)間的推移可降低運(yùn)營(yíng)支出?；旌显瓶蓪?shí)現(xiàn)必要的控制和靈活性，以改善資源預(yù)算。

(3) 利用估算工具估算GPU / CPU內(nèi)存消耗

根據(jù)Microsoft Research對(duì)Microsoft的4960個(gè)失敗的深度學(xué)習(xí)任務(wù)的研究，8.8%的失敗是由GPU內(nèi)存耗盡導(dǎo)致的，這是所有深度學(xué)習(xí)故障中最主要的問(wèn)題。當(dāng)前已經(jīng)開(kāi)發(fā)出許多估算工具用以預(yù)估GPU內(nèi)存消耗以減少這些故障。此外，如果能夠收集利用率數(shù)據(jù)，則可以使用此歷史數(shù)據(jù)更好地預(yù)測(cè)每個(gè)季度的GPU / CPU和內(nèi)存需求。

圖源：unsplash

(4) 規(guī)模化MLOps

引入可以簡(jiǎn)化機(jī)器學(xué)習(xí)工作流程，并標(biāo)準(zhǔn)化科學(xué)和工程角色之間轉(zhuǎn)換的方法。由于IT和DevOps負(fù)責(zé)部署和管理工作負(fù)載，因此在執(zhí)行不同的工作時(shí)擁有清晰的溝通渠道非常重要。適當(dāng)?shù)恼{(diào)度工具和對(duì)資源模板進(jìn)行策略化可以改善人工智能工作負(fù)載的資源管理。

(5) 最大限度地提高利用率，減少“計(jì)算債務(wù)”

為了提高利用率，有必要將計(jì)算債務(wù)作為基礎(chǔ)架構(gòu)團(tuán)隊(duì)和數(shù)據(jù)科學(xué)團(tuán)隊(duì)的KPI。如果公司能減少計(jì)算債務(wù)并提高利用率，就可以在向人工智能的競(jìng)爭(zhēng)中脫穎而出。

要想讓基礎(chǔ)架構(gòu)團(tuán)隊(duì)最大限度地提高GPU/CPU的可見(jiàn)性和內(nèi)存消耗從而提高利用率，基本上是沒(méi)有萬(wàn)全之策。盡管業(yè)界正在迅速構(gòu)建更高效的硬件和軟件來(lái)解決計(jì)算債務(wù)的威脅，但仍然任重而道遠(yuǎn)。很多公司花費(fèi)了幾百萬(wàn)美元在計(jì)算上，而這些計(jì)算并未被充分利用。

通過(guò)使用現(xiàn)有資源并完善資源管理，公司可以使人工智能基礎(chǔ)架構(gòu)具有巨大的可擴(kuò)展性。根據(jù)文章中的策略，你可以完全利用好計(jì)算資源。公司若專注于優(yōu)化基礎(chǔ)架構(gòu)，將會(huì)看到辛苦付出得到更高的投資回報(bào)率，從而在競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)。

責(zé)任編輯：趙寧寧來(lái)源：今日頭條

機(jī)器學(xué)習(xí)人工智能 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="3im1g"><li id="3im1g"></li></p>

<sup id="3im1g"></sup>

<ruby id="3im1g"><samp id="3im1g"></samp></ruby>