現(xiàn)代機(jī)器學(xué)習(xí)工具
語(yǔ)境
數(shù)據(jù)科學(xué)的發(fā)展日新月異,機(jī)器學(xué)習(xí)的角色正從數(shù)據(jù)科學(xué)的混合角色過(guò)渡到更多的工程或面向分析的角色,通常稱(chēng)為A型和B型數(shù)據(jù)科學(xué)家。
一些變化正在促成這些變化:
- 將機(jī)器學(xué)習(xí)模型更多地嵌入到生產(chǎn)系統(tǒng)中,比以前需要更深入的技術(shù)技能
- 商業(yè)產(chǎn)品和用戶(hù)行為的變化步伐加快,對(duì)自動(dòng)化的需求也增加。
- 法規(guī)要求的增加,例如GDPR的"解釋權(quán)",增加了對(duì)數(shù)據(jù)可追溯性以及對(duì)預(yù)測(cè)和決策的可解釋性的需求
換模
這種變化的環(huán)境導(dǎo)致數(shù)據(jù)科學(xué)家使用的工具發(fā)生了變化。 這種發(fā)展促使數(shù)據(jù)科學(xué)家朝著利用云,自動(dòng)化,可解釋性和可重復(fù)過(guò)程的方向發(fā)展。
- 基于可能的機(jī)器學(xué)習(xí):云基礎(chǔ)架構(gòu)和Kubernetes(K8S)改變了我們進(jìn)行機(jī)器學(xué)習(xí)的方式。 從能夠?qū)㈩A(yù)構(gòu)建的解決方案用作Saas應(yīng)用程序到能夠在K8S上運(yùn)行完整的機(jī)器學(xué)習(xí)堆棧。
- AutoML和編排:AutoML簡(jiǎn)化了訓(xùn)練模型,提供了一種自動(dòng)方法來(lái)進(jìn)行數(shù)據(jù)準(zhǔn)備,特征工程,超參數(shù)優(yōu)化或模型選擇。
- 可解釋且可重現(xiàn)的ML:在過(guò)去的幾年中,出現(xiàn)了一些庫(kù)和工具來(lái)幫助理解模型預(yù)測(cè)及其背后的權(quán)重并賦予其含義。 諸如whatiftools,Lime,Shap或Manifold之類(lèi)的工具可以幫助您實(shí)現(xiàn)這一目標(biāo)。
基于云的ML
向云和Kubernetes的遷移已逐漸發(fā)生,從而推動(dòng)了機(jī)器學(xué)習(xí)工程師對(duì)更多DevOps或數(shù)據(jù)操作功能的需求。
人們對(duì)深度學(xué)習(xí)的興趣日益濃厚,特別是Keras幫助使該學(xué)科民主化,這一舉動(dòng)更加突出了這一點(diǎn)。 深度學(xué)習(xí)可能特別需要資源。 它的利用率隨工作負(fù)載的變化而變化,這迫使Tensorflow執(zhí)行器在K8S上運(yùn)行,從而支持對(duì)更彈性和可擴(kuò)展的基礎(chǔ)架構(gòu)的需求

> SageMarker's web interface
促成此舉的另一個(gè)因素是ML在生產(chǎn)中的重要性日益提高。 反過(guò)來(lái),這種轉(zhuǎn)變又增加了原型棧與生產(chǎn)之間緊密結(jié)合的需求,并借助各種Saas云產(chǎn)品(例如AWs sageMaker / Google Cloud ML Engine)……這些工具提供了諸如模型部署和API配置之類(lèi)的功能,從而簡(jiǎn)化了流程 將模型推向生產(chǎn)的過(guò)程。
AutoML和機(jī)器學(xué)習(xí)工作流程
具有生產(chǎn)型機(jī)器學(xué)習(xí)系統(tǒng)的重要性的提高反過(guò)來(lái)加速了從培訓(xùn)到部署的整個(gè)機(jī)器學(xué)習(xí)價(jià)值鏈對(duì)自動(dòng)化的需求。 自動(dòng)化允許更快地迭代和改進(jìn)模型。
AutoML提供了圍繞模型訓(xùn)練過(guò)程的自動(dòng)化層,可處理其某些重復(fù)性任務(wù)。 它可以處理諸如超參數(shù)優(yōu)化,功能和模型選擇之類(lèi)的任務(wù)。 Tpot或AutoKeras等庫(kù)以及大多數(shù)云提供商的ML產(chǎn)品現(xiàn)在都將AutoML作為其解決方案的一部分。
對(duì)自動(dòng)化的需求也增加了對(duì)工具進(jìn)行編排的不同部分的需求。 諸如Airflow,Kubeflow,MLFlow和MetaFlow之類(lèi)的工作流工具是用于幫助實(shí)現(xiàn)這一目標(biāo)的一些關(guān)鍵工具。 他們負(fù)責(zé)將整個(gè)機(jī)器學(xué)習(xí)過(guò)程作為一條流水線(xiàn)來(lái)處理,幫助協(xié)調(diào)從數(shù)據(jù)采集到模型服務(wù)的端到端流程。
可解釋且可重現(xiàn)的ML
GDPR和其他法規(guī)已經(jīng)影響了我們構(gòu)建機(jī)器學(xué)習(xí)模型的方式。 他們推動(dòng)了可解釋和可復(fù)制的模型。
在可解釋的方面,已經(jīng)出現(xiàn)了一系列工具,可以幫助數(shù)據(jù)科學(xué)家更好地利用其模型。 這些工具評(píng)估不同的方案,分析變量如何互操作,并提供儀表板以幫助解釋模型預(yù)測(cè)。 Whatiftool,Lime,SHAP和Manifold是為應(yīng)對(duì)這一挑戰(zhàn)而引入的一些工具。
除了提供可靠的方法來(lái)調(diào)試模型的優(yōu)點(diǎn)外,可重復(fù)性是受法規(guī)影響的另一個(gè)方面。 總有可能使用工作流工具創(chuàng)建可重現(xiàn)的機(jī)器學(xué)習(xí)管道。 盡管如此,仍出現(xiàn)了一些特定的工具來(lái)簡(jiǎn)化該過(guò)程。

> Screenshot of Weight & Biases interface
DVC,Dolt,Weight and Biases(WANDB)和Dags Hub是一些專(zhuān)用工具,這些工具以可重現(xiàn)的方式使構(gòu)建模型更簡(jiǎn)單。 DVC負(fù)責(zé)模型和數(shù)據(jù)集的版本控制,而Dolt嚴(yán)格限于數(shù)據(jù)集本身。 WANDB和Dags Hub則專(zhuān)注于跟蹤模型構(gòu)建/訓(xùn)練的權(quán)重和結(jié)果。
摘要
機(jī)器學(xué)習(xí)工具已經(jīng)從僅僅能夠利用一些預(yù)測(cè)庫(kù)和Jupyter筆記本發(fā)生了很大的變化。 如今,進(jìn)行數(shù)據(jù)科學(xué)需要掌握更廣泛的工具集,其中包括云庫(kù),工作流工具,解釋和版本控制工具。 這種增加的工具應(yīng)有助于數(shù)據(jù)科學(xué)從其某些研究形象轉(zhuǎn)移到更多的工程或業(yè)務(wù)功能上。
我提供的有關(guān)Hacking Analytics的更多信息:
- 成為Python的數(shù)據(jù)處理庫(kù)Pandas的專(zhuān)家
- 筆記本時(shí)代—筆記本如何改變我們開(kāi)發(fā)代碼的方式
- 電子商務(wù)分析:數(shù)據(jù)結(jié)構(gòu)和應(yīng)用
- 在Azure上設(shè)置氣流并連接到Ms sQL Server