阿里賈揚清:通過大數據和 AI 能力,為企業(yè)提供升級的動力
原創(chuàng)【51CTO.com原創(chuàng)稿件】對企業(yè)來說,業(yè)務要創(chuàng)新、要提高效率,僅僅把數據管好、用好還不夠,還需要AI技術的加持。“大數據和AI密不可分,二者結合在一起,才能幫助企業(yè)在數字時代從容應對不確定性。” 阿里巴巴副總裁、阿里云計算平臺負責人賈揚清表示。
然而很多企業(yè)在進入AI領域時會發(fā)現(xiàn),算法等技術已經不再是關鍵痛點,AI工程化落地場景、快速搭建AI工程化技術方案才是難以逾越的鴻溝。
什么是AI工程化,如何實施AI工程化,阿里云如何支持用戶的AI工程化,賈揚清對此進行了深入介紹。
從供給角度看,AI 工程化是數據和算力的云原生化
眾所周知,AI靠數據和算力來驅動。無論是計算機視覺、自然語言處理,還是其他的 AI 系統(tǒng),都與數據量密不可分。
然而根據摩爾定律,每 18 個月,CPU 單核的計算能力就會增長一倍。但 2008 年前后,摩爾定律就開始失效,算力的增速開始逐漸變緩。
同時,隨著數據量的增多,模型變得越來越精準,無論是在數據還是計算,都需要一個更大規(guī)模、更大體量的底座,來支撐AI 的需求。
日前,阿里巴巴與清華大學合作發(fā)布的超大規(guī)模中文多模態(tài)預訓練千億參數模型M6,其數據集包含超過1.9 TB圖像和292GB文本,參數規(guī)模達到1000億,可以完成產品描述生成、視覺問答、問答、中國詩歌生成等跨模態(tài)任務。
從核心技術角度看,AI 工程化是調度和編程范式的規(guī)?;?/strong>
構建大規(guī)模、大體量底座往往面臨著成本問題。首先,訓練大模型需要GPU來做大規(guī)模計算。如英偉達的 DGX2,售價為每臺20 萬美元。一個訓練模型需要64臺機器、512個GPU。如果搭建一個專門用來做大規(guī)模訓練的集群,可能需要約一個億的成本。
阿里云在訓練M6模型的時候,利用了生產機器明顯的“潮汐效應”:白天在線服務量高,機器用的多,晚上流量少,計算量低。把 AI 計算任務分成一小塊一小塊的任務,部署在資源空閑的機器上,通過這樣的方式,基本上可以實現(xiàn)在訓練M6模型的時候,不用買新的機器,而是在現(xiàn)有生產的集群上,利用這種潮汐能力,把計算量提出來。
第二是人的成本。AI 沒有相對清晰的、以目標為導向的框架,也不能簡單的實現(xiàn)復制。AI 程序要在機器、資源之間調度數據,要把一個算法放到參數服務器上,給各種機器發(fā)布指令。因此,AI 工程師需要寫很多復雜的代碼。
如何更好地做到資源調度和資源調配,以及如何讓工程師更容易撰寫分布式編程范式,特別是如何規(guī)?;@是另外一個明顯的需求。
阿里云設計了一個相對簡單、干凈的編程框架 Whale,讓開發(fā)者能夠更容易地從單機的編程范式跳到分布式的編程范式。比如,只需告訴 Whale,將模型分為 4 個 stage,Whale 就會自動把這些 stage 放到不同的機器上去做運算。
從需求或者出口的角度看,AI 工程化是開發(fā)和服務的標準化、普惠化
AI 有很多有趣的模型,為了使這些模型能夠更加緊密地應用在實際場景中,還需要做很多工作。但并不是每個人都有時間來學習 AI 如何建模,如何訓練和部署等。
所以,阿里云一直在思考如何讓開發(fā)者更容易使用高大上的 AI 技術。
阿里云機器學習平臺 PAI 團隊,基于阿里云 IaaS 產品,在云上構建了一個完整的 AI 開發(fā)全生命周期的管理體系:從寫模型,到訓練模型,再到部署模型。
阿里云機器學習平臺PAI依托于云端計算降低存儲和計算的成本。同時為了能夠讓算法更快地演進,需要提供很多的工具,讓算法工程師能夠非常方便地利用到系統(tǒng)計算的能力以及數據的能力。其中,Studio 平臺提供可視化建模,DLC 平臺(Deep Learning Container)提供云原生一站式的深度學習訓練,DSW 平臺(Data Science Workshop)提供交互式建模, EAS 平臺(Elastic Algorithm Service )提供更簡易、省心的模型推理服務。
截至目前,通過大數據、AI 平臺,阿里云已經服務了各行各業(yè)的客戶,如寶鋼、三一集團、四川農信、太平洋保險、小紅書、VIPKID、斗魚等。阿里云希望通過大數據和 AI 能力,為企業(yè)提供升級的動力。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】