AI建模不再難:九章云極DataCanvas發(fā)布兩大開源成果
原創(chuàng)【51CTO.com原創(chuàng)稿件】 “軟件基礎(chǔ)設(shè)施會經(jīng)歷一場重大升級,AI落地會是通過軟件基礎(chǔ)設(shè)施升級來實現(xiàn),一千朵行業(yè)云里面的軟件基礎(chǔ)設(shè)施升級會是數(shù)據(jù)智能這個‘新IT’的歷史性機(jī)遇,九章云極DataCanvas預(yù)測這個未來,也擁抱這個愿景?!比涨霸诒本┱匍_的“2021年數(shù)智化高峰論壇”上,九章云極DataCanvas董事長方磊如是說。
中國的AI生態(tài)正呈現(xiàn)蓬勃發(fā)展之勢。如何全面加速AI在各行業(yè)場景的落地應(yīng)用,如何利用AI基礎(chǔ)軟件加速企業(yè)數(shù)智化升級,是當(dāng)前AI領(lǐng)域關(guān)注的焦點(diǎn)。
面向AI落地的諸多挑戰(zhàn),多年來在數(shù)據(jù)科學(xué)領(lǐng)域深耕的九章云極DataCanvas致力于在兩個方面實現(xiàn)突破:一是通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的自動化,將機(jī)器學(xué)習(xí)建模的能力下沉,實現(xiàn)AI能力的普及化;二是讓數(shù)據(jù)分析的速度更快,服務(wù)更及時,從準(zhǔn)實時變成毫秒級的實時響應(yīng)。
就在本次高峰論壇上,九章云極DataCanvas聯(lián)合創(chuàng)始人暨CTO尚明棟現(xiàn)場開源發(fā)布兩大自主研發(fā)的技術(shù)成果——DAT自動機(jī)器學(xué)習(xí)工具包和DingoDB實時交互式分析數(shù)據(jù)庫,恰好為以上兩個方面做出了新解。
端到端AutoML:降低AI建模門檻,推動應(yīng)用百花齊放
傳統(tǒng)的AI模型訓(xùn)練往往要經(jīng)歷數(shù)據(jù)準(zhǔn)備、特征工程、模型選擇、調(diào)參評估等步驟,每一步都無法省略,而且耗時較長,動輒數(shù)月。于是自動機(jī)器學(xué)習(xí)(AutoML)技術(shù)應(yīng)運(yùn)而生,即以自動化的方式,讓機(jī)器自己來解決這些問題。可以說,AutoML是推進(jìn)行業(yè)AI應(yīng)用落地的重要技術(shù)路徑,對于降低AI應(yīng)用門檻、繁榮AI生態(tài)有著深刻意義。
九章云極DataCanvas資深架構(gòu)師楊健介紹,DataCanvas AutoML Toolkit(DAT)是一個自動機(jī)器學(xué)習(xí)工具套件包,包含了一系列功能強(qiáng)大的AutoML開源工具。該自動建模工具從底層的通用自動機(jī)器學(xué)習(xí)框架到用于結(jié)構(gòu)化及非結(jié)構(gòu)化領(lǐng)域?qū)崿F(xiàn)了端到端的覆蓋,并率先突破機(jī)器學(xué)習(xí)建模過程中“不均衡、概念漂移、泛化能力和大規(guī)模數(shù)據(jù)”4大難點(diǎn)。
DAT就像一個儲備豐富的“武器庫”,收羅了包括??Hypernets???、??DeepTables???、??HyperGBM???、??Cooka??在內(nèi)的各式“奇兵神器”。
構(gòu)建模型就像搭積木,第一步要確定哪些部件可以用。為此需要先將可用部件編碼,定義一個搜索空間,在這個范圍內(nèi)進(jìn)行篩選;然后確定搜索策略,也就是以一定的方法在眾多積木里找到最適合的部件,并且適當(dāng)?shù)亟M合它們;最后還需要一個評價標(biāo)準(zhǔn),用來測試搭建好的模型是否能用、是否好用。所以一款優(yōu)秀的AutoML框架應(yīng)當(dāng)具有:富有表現(xiàn)力的搜索空間描述語言、高效搜索算法和高性能的評估策略。Hypernets就是這樣一個自動機(jī)器學(xué)習(xí)的底層通用框架,可以和各種機(jī)器學(xué)習(xí)、深度學(xué)習(xí)框架結(jié)合開發(fā)出專用的自動機(jī)器學(xué)習(xí)工具;同時提供開放的訓(xùn)練服務(wù)框架,可以滿足單節(jié)點(diǎn)及分布式高性能的模型訓(xùn)練需求,大大降低了AutoML工具的開發(fā)門檻;最新的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)算法的支持,也讓深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)設(shè)計實現(xiàn)自動化。
此外,DeepTables作為用于結(jié)構(gòu)化數(shù)據(jù)建模的深度學(xué)習(xí)工具,具有開箱即用、架構(gòu)靈活、簡單易用等特點(diǎn),解決了深度學(xué)習(xí)在結(jié)構(gòu)化數(shù)據(jù)上表現(xiàn)不佳的難題,在大量的公開數(shù)據(jù)集上甚至擊敗了XGBoost、LightGBM等傳統(tǒng)算法;
HyperGBM則是基于Hypernets框架融合了多款先進(jìn)的GBM模型的自動建模工具,不僅能實現(xiàn)全自動機(jī)器學(xué)習(xí)的一鍵訓(xùn)練,同時還能把整個Pipeline合成單一模型實現(xiàn)一鍵上線,徹底解決生產(chǎn)化困擾;
而對于沒有編程基礎(chǔ)的非專業(yè)人員,選擇Cooka可以輕松完成機(jī)器學(xué)習(xí)建模工作。作為一款界面友好的開源交互式自動機(jī)器學(xué)習(xí)系統(tǒng),Cooka操作簡便,安裝在便攜式電腦中即可運(yùn)行。借助Cooka,使用HyperGBM和DeepTables也會變得更加輕松。
綜上可以看到,一個好用的 AutoML 平臺可以覆蓋機(jī)器學(xué)習(xí)的所有步驟。甚至是非IT人員,只要準(zhǔn)備好數(shù)據(jù),就能得到適合任務(wù)目標(biāo)的模型,這必將對于AI融入千行百業(yè),AI應(yīng)用百花齊放影響深遠(yuǎn)。
實時數(shù)據(jù)分析:配合AI模型,更高效地洞察和預(yù)判世界
方磊在大會主題演講中提到,實時的數(shù)據(jù)處理非常重要。假如模型訓(xùn)練完畢后,要很長時間才能輸出結(jié)果,那無疑是令人失望的。比如,一個無人值守的油田發(fā)生某種緊急情況需要報警,那么只有當(dāng)數(shù)據(jù)收集是實時的、數(shù)據(jù)處理是實時的、模型預(yù)測是實時的,最終結(jié)果才能實時通知到相關(guān)個人和團(tuán)隊,或者在別的機(jī)器上有所反映。這一過程所涉及的核心技術(shù)就是實時數(shù)據(jù)庫。只有讓數(shù)據(jù)實時流動起來,配合智能模型才能幫助人類更好地感知這個世界,更加自動化、智能化地做出預(yù)判。
九章云極DataCanvas產(chǎn)品總監(jiān)胡宗星向與會者詳細(xì)解讀了實時分析數(shù)據(jù)庫??DingoDB??。
DingoDB是新一代集分析與服務(wù)于一體的實時分析數(shù)據(jù)庫HSAP(Hybrid Serving & Analytical Processing),支持高頻修改和查詢、實時交互式分析、實時多維分析。
具體來說,這款實時分析數(shù)據(jù)庫的主要創(chuàng)新點(diǎn)在于:其一、智能優(yōu)化器實現(xiàn)行列優(yōu)化選擇。DingoDB數(shù)據(jù)庫內(nèi)置智能SQL優(yōu)化器,能夠?qū)崿F(xiàn)分析性SQL、記錄級SQL的自動優(yōu)化,基于不同的業(yè)務(wù)場景實現(xiàn)行存模式、列存模式的智能選擇。DingoDB能夠通過列存模式實現(xiàn)數(shù)據(jù)聚合計算,實現(xiàn)高效分析;針對記錄級的查詢、更新操作,DingoDB通過行存的模式實現(xiàn)數(shù)據(jù)的快速定位,實現(xiàn)數(shù)據(jù)的查詢和更新操作;其二、高頻點(diǎn)查、修改操作。為了滿足數(shù)據(jù)的時效性需求,DingoDB數(shù)據(jù)存儲采用Key-Value的模式實現(xiàn)存儲,同時基于數(shù)據(jù)的副本策略實現(xiàn)數(shù)據(jù)的行列混合存儲。針對高頻記錄級的場景,如數(shù)據(jù)關(guān)聯(lián)、記錄修改等場景,可以實現(xiàn)記錄級的高并發(fā)、高頻率的查詢、修改操作;其三,多副本機(jī)制存算彈性擴(kuò)展。DingoDB數(shù)據(jù)表采用多分區(qū)多副本機(jī)制,保證了數(shù)據(jù)的安全性和穩(wěn)定性;同時存儲、計算分離的模式保證了容器化部署的橫向擴(kuò)展,實現(xiàn)了計算和存儲的數(shù)據(jù)彈性。
將AI嵌入每一朵云,開啟真正的數(shù)智時代
無論是對于AutoML,還是AI基礎(chǔ)軟件,抑或數(shù)據(jù)智能,很多行業(yè)用戶的認(rèn)知在最開始都并不明晰。在會后的采訪中,九章云極DataCanvas聯(lián)合創(chuàng)始人兼CTO尚明棟提到,原來用戶可能更傾向于拿到某個基于具體業(yè)務(wù)場景的AI解決方案,但這種單獨(dú)定制的解決方案并非長久之計,不僅在后續(xù)運(yùn)維管理中可能遺患無窮,就規(guī)?;涞囟砸彩钦系K重重。因此,加強(qiáng)AI基礎(chǔ)軟件建設(shè),提升AI自主開發(fā)能力對每個企業(yè)的數(shù)智化轉(zhuǎn)型來說都是必要的。
當(dāng)前在一些行業(yè)頭部企業(yè),AI基礎(chǔ)軟件的完善升級已經(jīng)帶來了切實可見的收益,比如實現(xiàn)了智能風(fēng)控、實時審批的金融業(yè),可以進(jìn)行零部件智能檢測、設(shè)備預(yù)測性維護(hù)的制造業(yè)等等。AI應(yīng)用的落地讓降本增效并非空談。
這些行業(yè)的頭部群體也正是九章云極DataCanvas的主要服務(wù)對象。因為這部分客戶的需求最迫切,數(shù)據(jù)資產(chǎn)足夠厚實,且有資金也有技術(shù)能力實現(xiàn)AI的自主開發(fā)?;趯χ袊磥鞟I行業(yè)生態(tài)發(fā)展的預(yù)判,九章云極DataCanvas建設(shè)性地提出了“云中云”戰(zhàn)略,即將AI基礎(chǔ)架構(gòu)及相關(guān)AI能力,嵌入到形形色色的行業(yè)云、企業(yè)云等云中。將九章云極DataCanvas的AI能力隨云輸出,起到事半功倍、借力打力的效用。
在技術(shù)能力上,九章云極DataCanvas將繼續(xù)深化在開源數(shù)據(jù)科學(xué)領(lǐng)域的造詣,為AI應(yīng)用落地打造更普適的工具平臺;在遠(yuǎn)景規(guī)劃上,打造千朵云生態(tài)的AI基礎(chǔ)軟件則為其打開了更廣闊的商業(yè)空間和更有想象力的創(chuàng)造空間。在數(shù)智化浪潮中,且讓我們心懷期待,蓄力前行。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】