【W(wǎng)OT2018】AI門(mén)檻不斷降低 AI工具人人可用
原創(chuàng)【51CTO.com原創(chuàng)稿件】2018年11月30日-12月1日,WOT2018全球人工智能技術(shù)峰會(huì)在北京·粵財(cái)JW萬(wàn)豪酒店盛大召開(kāi)。60+國(guó)內(nèi)外人工智能一線精英大咖與千余名業(yè)界人士齊聚現(xiàn)場(chǎng),分享人工智能的平臺(tái)工具、算法模型、語(yǔ)音視覺(jué)等技術(shù)內(nèi)容,探討人工智能如何賦予行業(yè)新的活力。兩天會(huì)議涵蓋通用技術(shù)、應(yīng)用領(lǐng)域、行業(yè)賦能三大章節(jié),開(kāi)設(shè)13大技術(shù)專場(chǎng),如機(jī)器學(xué)習(xí)、數(shù)據(jù)處理、AI平臺(tái)與工具、推薦搜索、業(yè)務(wù)實(shí)踐、優(yōu)化硬件等,堪稱人工智能技術(shù)盛會(huì)。
在《AI平臺(tái)和工具》分論壇,ThoughtWorks智能服務(wù)團(tuán)隊(duì)技術(shù)總監(jiān)白發(fā)川、百度深度學(xué)習(xí)技術(shù)平臺(tái)部總監(jiān)馬艷軍和偶數(shù)科技AI負(fù)責(zé)人劉大偉,三位專家分享了各種深度學(xué)習(xí)的框架與工具,如TensorFlow、PaddlePaddle等應(yīng)用及技巧。
持續(xù)智能——打造規(guī)?;腁I服務(wù)
ThoughtWorks智能服務(wù)團(tuán)隊(duì)技術(shù)總監(jiān)白發(fā)川在《持續(xù)智能——打造規(guī)模化的AI服務(wù)》主題演講中提到,持續(xù)集成、持續(xù)交付、持續(xù)部署可以讓軟件在快速迭代的同時(shí)保持著較高的軟件質(zhì)量。隨著機(jī)器學(xué)習(xí)的普及,越來(lái)越多的服務(wù)更加的個(gè)性化、定制化,“持續(xù)智能”定義了一套對(duì)此類服務(wù)進(jìn)行快速迭代和發(fā)布的方法。
智能的定義大致可以分為三個(gè)等級(jí):一是為響應(yīng)當(dāng)前運(yùn)營(yíng)需求而不得不開(kāi)展的一系列工作;二是把AI變成一種基礎(chǔ)服務(wù),融入到業(yè)務(wù)場(chǎng)景中;三是把AI變成個(gè)性化服務(wù),可以組合產(chǎn)生新的業(yè)務(wù)場(chǎng)景。其中,第三個(gè)級(jí)別是較為理想的狀態(tài),通過(guò)人工智能發(fā)現(xiàn)新的業(yè)務(wù)和價(jià)值點(diǎn),達(dá)到更好的用戶體驗(yàn)。
整體來(lái)看,目前人工智能在企業(yè)落地的過(guò)程中仍然面臨諸多挑戰(zhàn)。首先是規(guī)模化的問(wèn)題,AI模型的邊界難以衡量,也很難復(fù)用現(xiàn)有模型的構(gòu)建過(guò)程。其次是工程實(shí)踐的三大難題:難于追蹤,難于重現(xiàn),難于部署。然后是數(shù)據(jù)問(wèn)題,包括數(shù)據(jù)或模擬數(shù)據(jù)量不足,數(shù)據(jù)治理不足,數(shù)據(jù)安全隱患等諸多問(wèn)題。很多開(kāi)發(fā)者發(fā)現(xiàn),對(duì)于一個(gè)機(jī)器模型,數(shù)據(jù)帶來(lái)的挑戰(zhàn)遠(yuǎn)遠(yuǎn)大于調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)或選用算法帶來(lái)的難度。
ThoughtWorks智能服務(wù)團(tuán)隊(duì)技術(shù)總監(jiān)白發(fā)川
人工智能在業(yè)務(wù)系統(tǒng)或生態(tài)環(huán)境中落地實(shí)施,大致可以分為三個(gè)階段。一是做PoCs[鳶瑋1] (Projections onto convex sets),評(píng)估并驗(yàn)證模型、服務(wù)或方案是否可行,完成單個(gè)模型的發(fā)布和上線。第二個(gè)階段開(kāi)始解決規(guī)模化的問(wèn)題,因?yàn)榻?jīng)過(guò)優(yōu)化和訓(xùn)練后的模型,才可用于生產(chǎn)。第三個(gè)階段進(jìn)行跨業(yè)務(wù)系統(tǒng)的AI服務(wù)集成。
在PoCs階段,需要引入數(shù)據(jù)中臺(tái)的概念,使用數(shù)據(jù)治理、血緣分析、可訪問(wèn)性和多語(yǔ)言數(shù)據(jù)存儲(chǔ)構(gòu)建現(xiàn)代數(shù)據(jù)體系結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)只能解決智能的一個(gè)維度,也就是支撐運(yùn)營(yíng),而在機(jī)器學(xué)習(xí)場(chǎng)景下,非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)需要大規(guī)模ETL動(dòng)作,則要使用到數(shù)據(jù)中臺(tái)架構(gòu)。
在第二階段,因?yàn)閺拈_(kāi)發(fā)到發(fā)布訓(xùn)練再到實(shí)施,整個(gè)過(guò)程過(guò)于手動(dòng),需要一個(gè)產(chǎn)品化的機(jī)器學(xué)習(xí)架構(gòu)。通過(guò)引入優(yōu)秀實(shí)踐,例如CI/CD,TDD,Pipeline等技術(shù)方法使模型從創(chuàng)建到發(fā)布的過(guò)程[鳶瑋2] 可被復(fù)用,跟蹤和重現(xiàn)。
在第三階段,需要搭建跨業(yè)務(wù)的機(jī)器學(xué)習(xí)架構(gòu),通過(guò)端到端的機(jī)器學(xué)習(xí)流水線構(gòu)建平臺(tái),更大限度的共享企業(yè)的AI服務(wù)、數(shù)據(jù)和算法,達(dá)到跨業(yè)務(wù)線的智能服務(wù)整合。
可復(fù)用的模型構(gòu)建過(guò)程
- 和數(shù)據(jù)平臺(tái)結(jié)合,利用數(shù)據(jù)平臺(tái)的能力作為數(shù)據(jù)支撐,更好的發(fā)揮數(shù)據(jù)平臺(tái)的價(jià)值;
- 拆分服務(wù)構(gòu)建環(huán)節(jié),智能服務(wù)開(kāi)發(fā)流程化,快速響應(yīng)業(yè)務(wù)需求;
- 利用元數(shù)據(jù)管理方式,提供統(tǒng)一的標(biāo)準(zhǔn)格式,場(chǎng)景可以多人協(xié)同配合開(kāi)發(fā);
- 基礎(chǔ)設(shè)施共享化,模型的訓(xùn)練和發(fā)布與數(shù)據(jù)平臺(tái)有效綁定,服務(wù)的構(gòu)建自動(dòng)化;
- 統(tǒng)一的元數(shù)據(jù)管理系統(tǒng),模型的全生命周期可管理;
- 通用AI能力平臺(tái)化,降低人員要求,提升協(xié)作效率。
數(shù)據(jù)中臺(tái)
要想實(shí)現(xiàn)持續(xù)智能,讓AI模型像流水線一樣可以持續(xù)發(fā)布,需要先解決以下幾層問(wèn)題:一是數(shù)據(jù)中臺(tái),可以將數(shù)據(jù)整合、數(shù)據(jù)加工、數(shù)據(jù)處理、數(shù)據(jù)發(fā)布的過(guò)程形成一整套流水線。二是要有AI基礎(chǔ)設(shè)施平臺(tái),可以選擇所需要的算法、框架和服務(wù),以及模型發(fā)布所需要的運(yùn)行環(huán)境,并實(shí)現(xiàn)流水化。三是數(shù)據(jù)和AI能力的匯聚層,解決數(shù)據(jù)和AI基礎(chǔ)平臺(tái)的銜接問(wèn)題,例如模型的數(shù)據(jù)從哪來(lái),模型在哪發(fā)布,在哪存儲(chǔ)等等。這三層能力構(gòu)建好,就能實(shí)現(xiàn)持續(xù)發(fā)布、持續(xù)迭代和持續(xù)上線,也就是常說(shuō)的AI流水線。
持續(xù)智能架構(gòu)的構(gòu)建步驟
- 從硬編碼到自適應(yīng)模型;
- 使用大規(guī)模數(shù)據(jù)訓(xùn)練特定模型;
- 構(gòu)建可擴(kuò)展的系統(tǒng);
- 創(chuàng)造交互式AI探索開(kāi)發(fā)工具;
- 協(xié)同設(shè)計(jì)算法、軟件和產(chǎn)品。
企業(yè)級(jí)機(jī)器學(xué)習(xí)目標(biāo)
- 大規(guī)模數(shù)據(jù)集下的模型訓(xùn)練;
- 模型分析和比較工具;
- 端到端的模型workflow;
- 可規(guī)模化的機(jī)器學(xué)習(xí)模型生態(tài)系統(tǒng);
- 可復(fù)用的算法和服務(wù);
- 實(shí)驗(yàn)管理。
企業(yè)級(jí)機(jī)器學(xué)習(xí)方案
- 分布式訓(xùn)練工具;
- 性能報(bào)告流程;
- 可視化的構(gòu)建過(guò)程;
- Python Jupyter, R, Sklearn, TensorFlow, PyTorch, SparkML, ONNX等。
可選的工具
白發(fā)川列舉了企業(yè)級(jí)機(jī)器學(xué)習(xí)一個(gè)模型、多個(gè)模型以及跨業(yè)務(wù)線和部門(mén)的案例,并列舉了機(jī)器學(xué)習(xí)的框架及工具。他強(qiáng)調(diào),在考慮AI規(guī)?;涞氐倪^(guò)程中,首先要考慮如何提高底層AI能力,然后再去構(gòu)建上層的AI模型和業(yè)務(wù)場(chǎng)景,如果先考慮解決業(yè)務(wù)場(chǎng)景問(wèn)題,往往會(huì)在AI規(guī)?;倪^(guò)程中處處碰壁。
掃描下方二維碼查看詳細(xì)課程
PaddlePaddle深度學(xué)習(xí)框架
百度深度學(xué)習(xí)技術(shù)平臺(tái)部總監(jiān)馬艷軍在演講中分析了深度學(xué)習(xí)技術(shù)的發(fā)展歷程和未來(lái)趨勢(shì),以及深度學(xué)習(xí)框架的發(fā)展現(xiàn)狀。結(jié)合百度在深度學(xué)習(xí)技術(shù)應(yīng)用的情況,為參會(huì)者帶來(lái)了國(guó)內(nèi)開(kāi)源開(kāi)放的深度學(xué)習(xí)框架PaddlePaddle的進(jìn)展,介紹PaddlePaddle的技術(shù)領(lǐng)先性,分享了PaddlePaddle為各行各業(yè)進(jìn)行AI賦能的經(jīng)驗(yàn)和成果。
百度使用深度學(xué)習(xí)技術(shù)可以追溯到2012年,短短一年時(shí)間就將其應(yīng)用于百度的搜索和推薦業(yè)務(wù),并帶來(lái)業(yè)務(wù)的顯著提升。2015年百度上線了完全基于深度學(xué)習(xí)的翻譯引擎。隨著深度學(xué)習(xí)技術(shù)大火,應(yīng)用場(chǎng)景越來(lái)越多,并且已經(jīng)開(kāi)始工具化,也就是所謂的深度學(xué)習(xí)框架,例如TensorFlow以及PaddlePaddle先后開(kāi)源,而PaddlePaddle是百度內(nèi)部長(zhǎng)期研發(fā)的深度學(xué)習(xí)框架。
百度深度學(xué)習(xí)技術(shù)平臺(tái)部總監(jiān)馬艷軍
實(shí)際上,深度學(xué)習(xí)框架的開(kāi)源從很大程度上降低了技術(shù)的準(zhǔn)入門(mén)檻,但開(kāi)發(fā)者仍然需要特定的知識(shí)背景和硬件資源支持。要深入研究這一系統(tǒng)還是過(guò)于復(fù)雜,因此又誕生了一系列的工具。例如針對(duì)深度學(xué)習(xí)調(diào)參的難題,百度開(kāi)放了網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)化設(shè)計(jì)工具AutoDL,讓開(kāi)發(fā)者無(wú)需經(jīng)過(guò)特殊訓(xùn)練即可完成。此外,百度還發(fā)布了更簡(jiǎn)單的定制化AI模型應(yīng)用平臺(tái)——EasyDL,它是一個(gè)零算法基礎(chǔ)的快速應(yīng)用平臺(tái),無(wú)需代碼,無(wú)需任何專業(yè)背景即可輕松定制模型,與云端結(jié)合,使用戶無(wú)任何后顧之憂。
以深度學(xué)習(xí)框架為核心的“操作系統(tǒng)生態(tài)”
馬艷軍提到,在AI場(chǎng)景下,深度學(xué)習(xí)框架與操作系統(tǒng)類似,它介于用戶程序和硬件資源之間,通過(guò)內(nèi)核為用戶程序提供資源調(diào)度,通過(guò)接口為用戶程序提供開(kāi)發(fā)便利。深度學(xué)習(xí)框架要解決的是如何把底層的硬件性能發(fā)揮到更高水平,向上提供API,讓企業(yè)實(shí)現(xiàn)自己的算法。當(dāng)然,深度學(xué)習(xí)框架之上也會(huì)開(kāi)放很多算法、可視化工具、安裝和部署工具等,企業(yè)或個(gè)人可以直接開(kāi)發(fā)和使用這些模型,搭建自己的AI程序。
PaddlePaddle與其他深度學(xué)習(xí)框架不同的是,一是更注重模型以及API的兼容性,在深度學(xué)習(xí)的安裝環(huán)境適配方面作了深度優(yōu)化和驗(yàn)證,讓開(kāi)發(fā)者能真正用起來(lái);二是更加便于二次開(kāi)發(fā),降低了企業(yè)的應(yīng)用成本;三是性能更加穩(wěn)定,并且更重視對(duì)上層視覺(jué)、語(yǔ)言處理、情感分析、對(duì)話系統(tǒng)等場(chǎng)景應(yīng)用的支持,而不只是底層工具性的應(yīng)用。此外,PaddlePaddle配套的工具和組件也非常豐富,包括AutoDL、VisualDL、EasyDL等等。
此外,PaddlePaddle官方公開(kāi)的模型數(shù)量豐富多樣,且都是百度長(zhǎng)期驗(yàn)證過(guò)的模型,效果持續(xù)、穩(wěn)定。而對(duì)于大規(guī)模的數(shù)據(jù)場(chǎng)景,PaddlePaddle的并行能力也是一大強(qiáng)項(xiàng)。在部署方面,百度開(kāi)放了大量的特有模型,包括推薦模型、視覺(jué)模型、NLP模型等。
馬艷軍表示,百度做了很多跟AI生態(tài)相關(guān)的工作,包括開(kāi)放數(shù)據(jù)、評(píng)估標(biāo)準(zhǔn)以及平臺(tái),舉辦一系列的專家課程,目的就是降低深度學(xué)習(xí)的門(mén)檻,讓AI技術(shù)為行業(yè)賦能,提高行業(yè)生產(chǎn)力。
讓人人都會(huì)使用AI
偶數(shù)科技AI負(fù)責(zé)人劉大偉從人工智能行業(yè)發(fā)展現(xiàn)狀出發(fā),列舉了行業(yè)發(fā)展的機(jī)遇和挑戰(zhàn),進(jìn)而介紹人工智能建模系統(tǒng)的優(yōu)勢(shì)及便利性。另外,以偶數(shù)科技的反洗錢(qián)金融項(xiàng)目為例,對(duì)如何“讓普通人輕松擁抱AI,助力行業(yè)實(shí)踐”進(jìn)行了深入講解。
劉大偉表示,人工智能技術(shù)在語(yǔ)音識(shí)別和圖像識(shí)別領(lǐng)域取得了飛速進(jìn)展,AI技術(shù)已經(jīng)滲透到多個(gè)領(lǐng)域,例如AI模型能夠通過(guò)視網(wǎng)膜診斷糖尿病,AI能夠預(yù)測(cè)工業(yè)生產(chǎn)線上的設(shè)備狀態(tài),通過(guò)AI動(dòng)態(tài)探測(cè)系統(tǒng),來(lái)保護(hù)像東北虎等野生動(dòng)物。
偶數(shù)科技AI負(fù)責(zé)人劉大偉
偶數(shù)科技應(yīng)用AI技術(shù)在反洗錢(qián)領(lǐng)域已經(jīng)取得了成功案例。據(jù)悉,美國(guó)大型征信機(jī)構(gòu)已經(jīng)開(kāi)始利用AI模型來(lái)計(jì)算FICO評(píng)分系統(tǒng),從而鎖定非法交易。在中國(guó)每年有兩千億的洗錢(qián)交易發(fā)生,破壞了金融的穩(wěn)定性,我國(guó)也出臺(tái)了反洗錢(qián)相關(guān)的法律和監(jiān)管政策,因此每個(gè)銀行都有責(zé)任和義務(wù)去監(jiān)管銀行內(nèi)發(fā)生的每筆交易,找出洗錢(qián)行為,上報(bào)央行統(tǒng)一處理。
偶數(shù)科技反洗錢(qián)解決方案底層是數(shù)據(jù)源,包括交易流水,客戶信息,洗錢(qián)模式樣本,訓(xùn)練模型等。中間兩層是OushuDB和LittleBoy人工智能平臺(tái),以及分布式存儲(chǔ)組件。上層經(jīng)過(guò)數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換和交叉驗(yàn)證,得到有意義的洗錢(qián)相關(guān)的數(shù)據(jù)。偶數(shù)科技通過(guò)AI建模,提供了多個(gè)可行的模型方案,減少推送的可疑案件量和人工排查工作量可達(dá)上百倍。
可行模型方案
- 現(xiàn)有方法:查全率100%,查準(zhǔn)率約1%;
- 偶數(shù)模型A:查全率100%,查準(zhǔn)率51.43%;
- 偶數(shù)模型B:查全率86.11%,查準(zhǔn)率92.08%。
在Oushu Lava AI Cloud上承載著OushuDB數(shù)倉(cāng),以及LittleBoy人工智能平臺(tái),既可以在公有云上管理整個(gè)集群,也可以部署在用戶自己的私有云中。反洗錢(qián)解決方案從數(shù)據(jù)、建模、發(fā)布到接入銀行的系統(tǒng),整個(gè)流程聽(tīng)起來(lái)很復(fù)雜,但其實(shí)它很簡(jiǎn)單,甚至不需要學(xué)習(xí)專業(yè)的AI知識(shí)。例如,在LittleBoy的AI工作室里,有很多現(xiàn)成的組件,用戶只需通過(guò)最短半個(gè)小時(shí)的培訓(xùn),了解配置節(jié)點(diǎn)的方法,就能通過(guò)拖拽操作將組件連接成不同的工作流,甚至是構(gòu)建復(fù)雜應(yīng)用。
五步訓(xùn)練分類模型
除此之外,偶數(shù)科技找到了更為簡(jiǎn)便的方法,增加了另一種建模方式,通過(guò)五步的引導(dǎo)式界面,不需要多少AI知識(shí)就可以將AI模型搭建起來(lái)。
- 頭一步:訓(xùn)練數(shù)據(jù),把所有集群、數(shù)據(jù)庫(kù)、數(shù)據(jù)表中的數(shù)據(jù)通過(guò)樹(shù)形結(jié)構(gòu)展現(xiàn);
- 第二步:選取特征及標(biāo)簽,網(wǎng)絡(luò)會(huì)自動(dòng)識(shí)別哪些Feature更加有用,因此不需要做太多的特征工程;
- 第三步:評(píng)估模型;
- 第四步:配置算法,系統(tǒng)默認(rèn)使用AutoML自動(dòng)調(diào)整算法, 它會(huì)自動(dòng)的去探索所需要的神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),而且也會(huì)自動(dòng)地去匹配一套超參組合,因此也無(wú)需配置,如果你是AI工程師,也可以自己填寫(xiě)參數(shù);
- 第五步:點(diǎn)擊啟動(dòng),開(kāi)始訓(xùn)練,訓(xùn)練過(guò)程中可以實(shí)時(shí)監(jiān)控模型收斂狀態(tài)。
模型訓(xùn)練完成后,只需點(diǎn)擊發(fā)布,模型的發(fā)布以及服務(wù)都將在系統(tǒng)中自動(dòng)完成。
此外,偶數(shù)科技還提供通用的REST API調(diào)用工具,用戶只要把這個(gè)接口集成到自己的應(yīng)用中,就能馬上獲得AI能力,非常適合那些已有的不能在短期內(nèi)更新的系統(tǒng),通過(guò)調(diào)用API,這些系統(tǒng)將馬上變成人工智能系統(tǒng)。
掃描下方二維碼查看詳細(xì)課程
以上內(nèi)容是51CTO記者根據(jù)WOT2018全球人工智能技術(shù)峰會(huì)的《AI平臺(tái)和工具》分論壇演講內(nèi)容整理,更多關(guān)于WOT的內(nèi)容請(qǐng)關(guān)注請(qǐng)關(guān)注51cto.com。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】