開閘蓄水,企業(yè)機器學(xué)習(xí)井噴
從自動駕駛到機器翻譯,從識別欺詐交易到語音識別,從衛(wèi)星圖像識別到幫助視頻流服務(wù)預(yù)測我們想看哪部電影······
機器學(xué)習(xí)(ML)正在推動人工智能(AI)應(yīng)用爆炸式增長,幫助軟件理解不確定和不可預(yù)測的現(xiàn)實世界。
毫無疑問,得益于數(shù)據(jù)量的增加、算力的豐富、算法的進步,機器學(xué)習(xí)被認(rèn)為是目前最成功的人工智能技術(shù),并徹底改變了行業(yè)競爭態(tài)勢和我們的日常生活。
機器學(xué)習(xí)使計算機能夠處理迄今為止僅由人執(zhí)行的任務(wù)。Gartner的相關(guān)調(diào)查顯示,2020年平均每個企業(yè)部署ML項目為10個,而到2021年將達到20個。機器學(xué)習(xí)在全球?qū)a(chǎn)生高達2.6萬億美元的價值。
那么在企業(yè)服務(wù)領(lǐng)域,當(dāng)前的機器學(xué)習(xí)繁榮靠的是什么?未來又將在哪些方面發(fā)揮更多的作用?
1 機器學(xué)習(xí)應(yīng)用時刻環(huán)繞著我們
每個Google搜索都使用了多種機器學(xué)習(xí)系統(tǒng),通過您的查詢語言作為模型輸入項,以便給您輸出個性化的結(jié)果。因此,搜尋“ bass”的釣魚愛好者,不會被有關(guān)吉他的結(jié)果所淹沒。
同樣,Gmail的垃圾郵件和網(wǎng)絡(luò)釣魚識別系統(tǒng)也使用經(jīng)過大量數(shù)據(jù)訓(xùn)練的機器學(xué)習(xí)模型,以使您的收件箱中沒有惡意郵件。
虛擬助手是機器學(xué)習(xí)功能最明顯的體現(xiàn)之一,如Apple的Siri、亞馬遜的Alexa、Google Assistant和Microsoft Cortana,每一個都嚴(yán)重依賴機器學(xué)習(xí),支持其語音識別和理解自然語言的能力。
除了這些明顯表現(xiàn)之外,機器學(xué)習(xí)幾乎在每個行業(yè)中都找到了一些用途。
如無人駕駛汽車、無人機和送貨機器人的計算機視覺,聊天機器人和服務(wù)機器人的語言識別與合成;安全系統(tǒng)或者無人商超的人臉識別;為商務(wù)會議提供合理準(zhǔn)確的轉(zhuǎn)錄和語音翻譯,幫助放射科醫(yī)生從X射線中找出腫瘤,幫助研究人員發(fā)現(xiàn)與疾病有關(guān)的基因序列,并確定在藥物中更有效的藥物分子;通過分析物聯(lián)網(wǎng) 傳感器數(shù)據(jù),對基礎(chǔ)設(shè)施進行預(yù)測性維護等等。
那么,什么是機器學(xué)習(xí)?
機器學(xué)習(xí)是教計算機系統(tǒng)如何在饋入數(shù)據(jù)時進行準(zhǔn)確預(yù)測的過程。這些預(yù)測可能會回答“照片中的水果是香蕉還是蘋果”,會發(fā)現(xiàn)無人駕駛汽車前過馬路的人,判斷是電子郵件是垃圾郵件,抖音上語音合成自動生成字幕,等等。
機器學(xué)習(xí)是基于已有數(shù)據(jù)、知識或經(jīng)驗自動識別有意義的模式。最基本的機器學(xué)習(xí)使用算法解析和學(xué)習(xí)數(shù)據(jù),然后在相似的環(huán)境里做出決定或預(yù)測。
機器學(xué)習(xí)模型已被教導(dǎo)如何通過對大量數(shù)據(jù)進行訓(xùn)練,并可靠地區(qū)分水果。在這種情況下,可能有大量標(biāo)記為包含香蕉或蘋果的圖像數(shù)據(jù),用來對模型進行訓(xùn)練。
在機器學(xué)習(xí)過程中,并沒有人為指示機器學(xué)習(xí)系統(tǒng)如何對未知環(huán)境做出決策或預(yù)測,這一過程由機器學(xué)習(xí)中的算法從數(shù)據(jù)中學(xué)習(xí)得到的,做出決策的主體是機器學(xué)習(xí)算法,并且決策或預(yù)測是非確定性的結(jié)果,一般以概率的形式輸出,比如80%的可能性是晴天。
機器學(xué)習(xí)與傳統(tǒng)計算機軟件的主要區(qū)別在于,人類的開發(fā)人員尚未編寫代碼來指示系統(tǒng)如何分辨香蕉和蘋果之間的區(qū)別。
與之不同的是,常規(guī)的應(yīng)用程序需要軟件工程師一句句地編寫代碼(特定的指令集),指示程序或軟件做出確定的行為,比如輸出0和1分別表示注冊成功和失敗。做出決策的主體實際是人,程序只是執(zhí)行動作的工具。正因如此,機器學(xué)習(xí)可歸為間接編程,與之對應(yīng)的是常規(guī)編程。
人工智能和機器學(xué)習(xí)之間有什么區(qū)別?
機器學(xué)習(xí)最近獲得了巨大的成功,但它只是實現(xiàn)人工智能的一種方法。
在20世紀(jì)50年代誕生之初,AI被定義為能夠執(zhí)行通常需要人類智能的任務(wù)的任何機器。
人工智能系統(tǒng)通常會表現(xiàn)出這些特征:計劃、學(xué)習(xí)、推理、問題解決、知識表示、感知、運動和操縱,以及在較小程度上具有社會智能和創(chuàng)造力。
除了機器學(xué)習(xí)之外,還有多種其他方法可用于構(gòu)建AI系統(tǒng),包括進化計算和專家系統(tǒng)。在進化計算中,算法經(jīng)過隨機變異和代際組合,以試圖“進化”成最佳解決方案;在專家系統(tǒng)中,計算機模仿了特定領(lǐng)域中人類專家的行為,如自動駕駛系統(tǒng)模仿人駕駛飛機飛行。
現(xiàn)在我們可以看見,機器學(xué)習(xí)系統(tǒng)在我們周圍被廣泛使用,今天已成為現(xiàn)代互聯(lián)網(wǎng)的基石。
更令人震驚的是,2020年,OpenAI的GPT-3以其像人一樣的寫作能力而成為頭條新聞,幾乎涵蓋了能想到的任何主題。
GPT-3是一個經(jīng)過培訓(xùn)的神經(jīng)網(wǎng)絡(luò),可對開放式網(wǎng)絡(luò)上提供的數(shù)十億篇英語文章進行學(xué)習(xí),并且可以根據(jù)文本提示生成文章。
在企業(yè)服務(wù)領(lǐng)域,AI實現(xiàn)的熱門領(lǐng)域隨處可見,如:
用于生產(chǎn)設(shè)備的故障預(yù)測,制定維護周期/計劃,實現(xiàn)7x24全天候運行的目標(biāo);
用于銀行和保險業(yè)貸款和保單自動化承保和決策的人工智能,以及提供反欺詐的早期發(fā)現(xiàn)和預(yù)測;
AI協(xié)助醫(yī)學(xué)診斷,特別是圖形、圖像的模式識別;
用于安全漏洞和入侵檢測的預(yù)防,以及數(shù)據(jù)中心硬件、軟件和環(huán)境維護;
消費者消費行為、模式預(yù)測,市場營銷和銷售策略的決策等。
2 機器學(xué)習(xí)為什么那么成功?
機器學(xué)習(xí)已成為應(yīng)用最廣泛的AI技術(shù)。Gartner的調(diào)查顯示,約有37%的組織在其業(yè)務(wù)中使用某種類型的機器學(xué)習(xí)技術(shù),并且預(yù)計到2022年,80%的現(xiàn)代技術(shù)將基于機器學(xué)習(xí)和人工智能技術(shù)。
德勤發(fā)布的《全球人工智能發(fā)展白皮書》指出,在人工智能眾多的分支領(lǐng)域中,機器學(xué)習(xí)是人工智能的核心研究領(lǐng)域之一。包括89%的人工智能專利申請和40%人工智能范圍內(nèi)的相關(guān)專利均屬于機器學(xué)習(xí)范疇。
盡管機器學(xué)習(xí)不是一種新技術(shù),但近年企業(yè)服務(wù)來對該領(lǐng)域的興趣激增。為什么機器學(xué)習(xí)如此成功?
使這些成功成為可能的因素主要有兩個:一是擁有了可用于訓(xùn)練機器學(xué)習(xí)系統(tǒng)的大量圖像、語音、視頻和文本等數(shù)據(jù)。
更為重要的是,由于現(xiàn)代圖形處理單元(GPU)的出現(xiàn),可以聚集在一起以形成機器學(xué)習(xí)引擎,具備了大量并行處理能力。
如今,具有互聯(lián)網(wǎng)連接的任何人都可以通過亞馬遜、谷歌和微軟,以及阿里云、騰訊云等公司提供的云服務(wù),使用計算集群來訓(xùn)練機器學(xué)習(xí)模型。
隨著機器學(xué)習(xí)使用的日漸普及,很多半導(dǎo)體或者云服務(wù)公司正在創(chuàng)建針對運行和訓(xùn)練機器學(xué)習(xí)模型而量身定制的專用硬件。
Google的Tensor處理單元(TPU)不僅用于訓(xùn)練Google DeepMind和Google Brain的模型,還用于支持Google翻譯和Google Photo中的圖像識別的模型,以及允許公眾使用Google的TensorFlow Research Cloud構(gòu)建機器學(xué)習(xí)模型的服務(wù)。
谷歌表示,到2020年,其第四代TPU比MLPerf中的上一代TPU快2.7倍,該基準(zhǔn)用于衡量系統(tǒng)使用訓(xùn)練有素的ML模型進行推理的速度。
2019年,阿里巴巴發(fā)布了其首款為人工智能(AI)流程提供動力的芯片,名為漢光800。當(dāng)年,華為也宣布其人工智能芯片"Ascend 910"面向數(shù)據(jù)中心,可與高通(Qualcomm)和Nvidia(Nvidia)等美國科技公司對抗。
騰訊與中信、中金資本和Primavera等多家投資者向上海的Enflame科技公司投資了18億元。Enflame技術(shù)制造芯片,用于處理大量數(shù)據(jù)以訓(xùn)練人工智能系統(tǒng)。
隨著硬件的日益專業(yè)化和機器學(xué)習(xí)軟件框架的不斷完善,機器學(xué)習(xí)任務(wù)越來越多地在智能手機和計算機上執(zhí)行,而不是在云數(shù)據(jù)中心中執(zhí)行。
那么在企業(yè)服務(wù)中,機器學(xué)習(xí)應(yīng)用出現(xiàn)的幾大發(fā)展趨向值得關(guān)注。
由IT管理ML項目的比例降低。TechRepublic Premium調(diào)查結(jié)果顯示,由IT和終端業(yè)務(wù)共同管理AI / ML項目的受訪者為23%,由IT管理項目的受訪者為19%,由數(shù)據(jù)科學(xué)部門管理的AI / ML項目的受訪者為11%。這與2019年33%的AI / ML項目由IT管理相比有所降低。
為確保AL / ML項目成功所采取的策略中,最高的三項是與管理層合作,以更好地確定AI / ML的業(yè)務(wù)用例(52%),準(zhǔn)備/培訓(xùn)IT員工(48%)以及對數(shù)據(jù)準(zhǔn)備,計算和自動化流程進行投資(46 %)。
對AI / ML項目實施的擔(dān)憂也有所改變。2020年,最大的顧慮是沒有收到能夠證明投資合理性的業(yè)務(wù)結(jié)果(48%),員工準(zhǔn)備/難以找到AI / ML人才(38%)以及實施時間太長(37%)。
ML更多的應(yīng)用于業(yè)務(wù)。根據(jù)調(diào)查的受訪者,47%的人將AI / ML應(yīng)用于業(yè)務(wù)運營,30%的人將其應(yīng)用于市場營銷/銷售,27%的人將技術(shù)應(yīng)用于工程和IT。
3 機器學(xué)習(xí)已成為云服務(wù)新的增長點
事實上,機器學(xué)習(xí)的快速崛起很大程度上得益于云計算的普及,云計算所展現(xiàn)出的計算能力,能夠滿足日益普及的機器學(xué)習(xí)工作負(fù)載對計算的需求。
目前已經(jīng)有超過10萬客戶在使用AWS的機器學(xué)習(xí)服務(wù),很多客戶已經(jīng)將機器學(xué)習(xí)用于其核心業(yè)務(wù)。
從2016年起,AWS開始在云上提供機器學(xué)習(xí)服務(wù)。經(jīng)過近幾年的持續(xù)創(chuàng)新,AWS在機器學(xué)習(xí)領(lǐng)域已經(jīng)構(gòu)建起一個“全家福”工具集,真正做到了讓客戶可以“開箱即用”。
工具集的底層,AWS提供強大的算力、全面的算力選擇和豐富的機器學(xué)習(xí)框架選擇。
工具集的中間層,AWS的Amazon SageMaker可以提供首個全托管的機器學(xué)習(xí)集成開發(fā)環(huán)境,最大限度地提高用戶開展機器學(xué)習(xí)的效率,降低開展機器學(xué)習(xí)的門檻。
工具集的頂層,AWS提供預(yù)先訓(xùn)練好的模型,涵蓋視覺、語音、對話、文字、業(yè)務(wù)工具、客服中心、搜索、代碼+運維、工業(yè)AI等。
騰訊云提供的智能鈦機器學(xué)習(xí)(TI Machine Learning)是一站式機器學(xué)習(xí)生態(tài)服務(wù)平臺,能夠?qū)Ω鞣N數(shù)據(jù)源、組件、算法、模型和評估模塊進行組合,使得算法工程師和數(shù)據(jù)科學(xué)家在其之上能夠方便地進行模型訓(xùn)練、評估和預(yù)測。智能鈦系列產(chǎn)品支持公有云訪問、私有化部署以及專屬云部署。
其中智能鈦機器學(xué)習(xí)平臺TI-ONE是為AI工程師打造的一站式機器學(xué)習(xí)服務(wù)平臺,為用戶提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估到模型服務(wù)的全流程開發(fā)支持。智能鈦機器學(xué)習(xí)平臺內(nèi)置豐富的算法組件,支持多種算法框架,滿足多種AI應(yīng)用場景的需求。自動化建模(AutoML)的支持與拖拽式任務(wù)流設(shè)計讓 AI 初學(xué)者也能輕松上手。
智能鈦彈性模型服務(wù)TI-EMS是具備虛擬化異構(gòu)算力和彈性擴縮容能力的在線推理平臺,能夠幫助客戶解決模型部署復(fù)雜、資源浪費、手工擴展資源效率低下的問題。
智能鈦工業(yè) AI 平臺TI-Insight是基于智能鈦基礎(chǔ)功能打造的一站式工業(yè)AI平臺方案,包含 AI訓(xùn)練系統(tǒng)和AI推理系統(tǒng)兩個功能組件。
IDC發(fā)布的《中國 AI 云服務(wù)市場(2020 上半年)跟蹤》報告顯示,華為云一站式AI開發(fā)平臺ModelArts位居機器學(xué)習(xí)公有云服務(wù)中國市場份額第一位,高達29%。
華為云一站式AI開發(fā)平臺ModelArts在行業(yè)用戶中的主動提及率非常高。
4 機器學(xué)習(xí)已成為企業(yè)數(shù)字化轉(zhuǎn)型的重要方向
根據(jù)IDC的數(shù)據(jù),當(dāng)前40%的企業(yè)數(shù)字化轉(zhuǎn)型項目都會運用人工智能技術(shù),目前來看最主要是機器學(xué)習(xí)技術(shù)。
在這個時代,人工智能與各行業(yè)融合成為一大發(fā)展趨勢,可以說人工智能迎來技術(shù)落地的最好時期??梢哉f,善于利用人工智能技術(shù)應(yīng)用的企業(yè)將會迎來新一輪發(fā)展紅利。
越來越多的行業(yè)用戶會基于業(yè)務(wù)需求,利用組織內(nèi)部的人才、數(shù)據(jù)等資源,把人工智能嵌入到業(yè)務(wù)流程或用戶界面,給客戶帶來超個性化體驗。
一方面,企業(yè)的數(shù)據(jù)量的增長速度比預(yù)測得要快。專家報告說,世界上90%的數(shù)據(jù)是在過去兩年內(nèi)產(chǎn)生的。由社交媒體和流媒體內(nèi)容、智能家居和可穿戴設(shè)備、數(shù)碼照片和視頻、商業(yè)信息和網(wǎng)上購物等應(yīng)用批量生產(chǎn)數(shù)據(jù),將產(chǎn)生比過去30年更多的數(shù)據(jù)。
IDC數(shù)據(jù)顯示,從2010年至2020年,全球產(chǎn)生的數(shù)據(jù)量增長率接近5000%,過去所謂的"大數(shù)據(jù)"正在被重新定義。
另一方面,擁有所有這些數(shù)據(jù)并不意味著用戶會自動獲得知識。捕獲正確的數(shù)據(jù),使用復(fù)雜的分析平臺,并利用數(shù)據(jù)創(chuàng)造價值,這就是機器學(xué)習(xí)發(fā)展的基礎(chǔ)。
IDC表示,超大規(guī)模計算、5G通信、工業(yè)物聯(lián)網(wǎng)(IIoT)、人工智能/機器學(xué)習(xí)(AI/ML)等顛覆性技術(shù),為更好的激活數(shù)據(jù)價值提供工具。
云計算掃清了廣大企業(yè)應(yīng)用人工智能和機器學(xué)習(xí)的障礙,以此推動企業(yè)數(shù)字化轉(zhuǎn)型。
目前,最有能力接受數(shù)字化轉(zhuǎn)型的行業(yè)是那些以數(shù)字為先的行業(yè),如互聯(lián)網(wǎng)公司、電信公司等。
那些以數(shù)據(jù)驅(qū)動決策為核心的傳統(tǒng)公司,如制藥公司、金融公司、航空公司、制造企業(yè)等正利用機器學(xué)習(xí)等AI技術(shù)實現(xiàn)數(shù)字化轉(zhuǎn)型,打造更具競爭力的新優(yōu)勢。
看來,在數(shù)字化轉(zhuǎn)型方面,AI技術(shù)不會缺席,并可能帶動數(shù)字化升級。