訓(xùn)練速度提升12倍 UAI-Train幫你解除計(jì)算資源運(yùn)維困擾
人工智能(AI)已經(jīng)成為新一輪產(chǎn)業(yè)變革的關(guān)鍵領(lǐng)域。麥肯錫今年6月發(fā)布的報(bào)告指出,以機(jī)器學(xué)習(xí)為主要實(shí)現(xiàn)方式的人工智能,有望在15-20年內(nèi)成為世界所有主要經(jīng)濟(jì)體中主要產(chǎn)業(yè)的基礎(chǔ)支撐方式,為人類帶來14萬億的直接經(jīng)濟(jì)效益。
計(jì)算資源的運(yùn)維困擾
UCloud的這位用戶是人工智能領(lǐng)域的一家數(shù)據(jù)分析公司,研發(fā)總部位于北京,主要服務(wù)對(duì)象為東歐等亞歐板塊國(guó)家,通過算法模型,可快速將不同場(chǎng)景或大量數(shù)據(jù)整合、分析,并輸出可視化的分析圖,從而幫助客戶找到所需答案。
該公司所有的數(shù)據(jù)源都來自最終客戶,但為了驗(yàn)證模型的準(zhǔn)確性和通用性,依舊需要使用自己收集的公共數(shù)據(jù)來訓(xùn)練一個(gè)通用的模型。而對(duì)于一家?guī)缀醵际怯蓴?shù)據(jù)科學(xué)家組成的公司來說,管理和維護(hù)所需要的計(jì)算資源是一個(gè)巨大的問題。
UAI-Train的充足計(jì)算能力
最近,UCloud發(fā)布了UAI-Train在線訓(xùn)練產(chǎn)品,解決包括代碼管理、運(yùn)行環(huán)境維護(hù)、GPU管理維護(hù)、數(shù)據(jù)管理等模型訓(xùn)練過程中的每個(gè)環(huán)節(jié),提供一站式PaaS解決方案。
(圖:UAI-Train 產(chǎn)品架構(gòu)圖)
UAI-Train是面向AI訓(xùn)練任務(wù)的大規(guī)模分布式計(jì)算平臺(tái),基于UCloud性能強(qiáng)大的GPU云主機(jī)集群構(gòu)建,為AI訓(xùn)練任務(wù)提供充足的計(jì)算能力。該平臺(tái)提供一站式訓(xùn)練任務(wù)托管服務(wù),自動(dòng)實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)調(diào)度、訓(xùn)練環(huán)境準(zhǔn)備、數(shù)據(jù)上傳下載以及任務(wù)容災(zāi)。
AI訓(xùn)練服務(wù)按照實(shí)際計(jì)算消耗付費(fèi),普遍適用于常見的AI模型訓(xùn)練場(chǎng)景,如圖像識(shí)別、自然語言處理、語音識(shí)別等。
使用后的意外收獲
該公司近期在UCloud平臺(tái)上運(yùn)行的是地點(diǎn)分類的訓(xùn)練任務(wù),共計(jì)12個(gè)城市,總訓(xùn)練圖片量在十萬張左右,測(cè)試圖片在2000張,總計(jì)30G的圖片數(shù)據(jù)集,用inceptionv3網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(UAI-Train模型訓(xùn)練場(chǎng)景:通過照片識(shí)別所在城市)
本次訓(xùn)練***epoch是50,在15個(gè)epochs左右發(fā)生了early stop。UAI-Train使用了4張Nvidia P40 GPU資源,總計(jì)訓(xùn)練耗時(shí)在5小時(shí)10分鐘;對(duì)比原來使用6臺(tái)CPU資源,訓(xùn)練速度大概是之前的12倍。
UCloud打造全新計(jì)算資源租賃模式
UCloud的AI訓(xùn)練服務(wù)是一種全新的計(jì)算資源租賃模式,用戶無須購(gòu)買或租賃昂貴的虛擬GPU服務(wù)器,只需要提供Docker鏡像和訓(xùn)練數(shù)據(jù),UAI-Train能夠自動(dòng)為其訓(xùn)練任務(wù)創(chuàng)建運(yùn)行環(huán)境(Docker容器),并調(diào)用GPU計(jì)算資源為用戶提供高性能計(jì)算服務(wù)。
用戶能夠以低廉的價(jià)格,按需使用GPU計(jì)算資源,甚至無需擔(dān)心因訓(xùn)練超時(shí)或忘記關(guān)停而浪費(fèi)租金。在訓(xùn)練的同時(shí),UAI-Train可以通過TensorBoard或控制臺(tái)日志的方式監(jiān)控訓(xùn)練過程。事實(shí)上,以Docker容器方式部署的UAI-Train服務(wù)可以使用任何用戶熟悉的編程語言和框架進(jìn)行建模。