你只需要這三個機(jī)器學(xué)習(xí)工具
以快速的步伐,許多機(jī)器學(xué)習(xí)技術(shù)已經(jīng)從概念證明中遷移到為人們依靠每日依賴的重要技術(shù)供電。在嘗試捕捉這種新解鎖的價值時,許多團(tuán)隊(duì)已經(jīng)發(fā)現(xiàn)自己在生產(chǎn)機(jī)器的熱情中陷入了他們的產(chǎn)品,而無需正確的工具。
事實(shí)是,我們正在定義正確的工具套件的早期,用于構(gòu)建,部署和迭代機(jī)器學(xué)習(xí)模型。在這件作品中,我們將討論唯一需要的3個機(jī)器學(xué)習(xí)工具,使您的團(tuán)隊(duì)在產(chǎn)品中應(yīng)用機(jī)器學(xué)習(xí)方面取得成功。
讓我們從過去中學(xué)習(xí)
在我們跳入我們的ML棧建議之前,讓我們快速地關(guān)注軟件工程行業(yè)已經(jīng)解決的工具。一個關(guān)鍵觀察是沒有一個解決方案,用于構(gòu)建,部署和監(jiān)視生產(chǎn)中的代碼。
換句話說,端到端的工具平臺不存在。相反,有一組工具,專注于軟件工程生命周期的特定部分。
> Image by Author
為了簡化軟件的創(chuàng)建,必須創(chuàng)建工具以跟蹤問題,管理版本歷史記錄,監(jiān)督構(gòu)建,并在生產(chǎn)中出現(xiàn)問題時提供監(jiān)控和警報。
雖然不是每個工具都清晰適合其中一個桶,但這些工具類別中的每一個都代表了創(chuàng)建軟件過程中的不同摩擦點(diǎn),這需要創(chuàng)建工具。
我以為這是關(guān)于機(jī)器學(xué)習(xí)?
正如開發(fā)軟件的過程一樣,開發(fā)機(jī)器學(xué)習(xí)模型的過程具有廣泛的類別,如研究,構(gòu)建,部署和監(jiān)視模型所需的內(nèi)容。
在這件作品中,我們將重點(diǎn)關(guān)注在解決實(shí)驗(yàn)室外應(yīng)用機(jī)器學(xué)習(xí)中的一些最大障礙過程中出現(xiàn)的基本ML工具類別。
要創(chuàng)建有效的機(jī)器學(xué)習(xí)工具箱,您真的只需要這3個基本工具:
- 特征存儲:處理離線和在線特征轉(zhuǎn)換
- 模型存儲:作為中心模型注冊表和跟蹤實(shí)驗(yàn)
- 性能評估存儲:監(jiān)控和改善模型性能
> Image by Author
特征存儲
要開始,讓我們潛入潛水。要定義特征存儲的內(nèi)容,讓我們從一個特征存儲開始為您的團(tuán)隊(duì)啟用的東西。
特征存儲啟用應(yīng)該是什么:
- 作為特征轉(zhuǎn)換的中心源
- 允許在離線訓(xùn)練和在線服務(wù)中使用相同的特征轉(zhuǎn)換
- 使團(tuán)隊(duì)成員能夠分享他們的實(shí)驗(yàn)轉(zhuǎn)變
- 提供強(qiáng)大的版本控制特征轉(zhuǎn)換代碼
在一個特征存儲應(yīng)該如何授權(quán)您的團(tuán)隊(duì),這是必須幫助您決定哪種功能存儲最適合您和您的團(tuán)隊(duì)的功能。
您的功能存儲應(yīng)該具有:
- 與您的數(shù)據(jù)存儲/湖集成
- 一種快速的方法,可以提供在線部署模型的特征轉(zhuǎn)換
- 快速輕松地部署到生產(chǎn)中的特征轉(zhuǎn)換代碼
- 與您的性能評估存儲集成以啟用數(shù)據(jù)和功能質(zhì)量檢查
推薦:Tecton
模型存儲
既然您有一個存儲您的特征轉(zhuǎn)換的特征存儲,您需要一個目錄并跟蹤團(tuán)隊(duì)模型創(chuàng)建歷史記錄的工具。這是模型存儲發(fā)揮的地方。
模型存儲啟用是什么:
- 作為所有模型和模型版本的中央存儲庫
- 允許每個型號版本的再現(xiàn)性
- 軌道模型歷史歷史
在這些核心功能之外,有許多模型存儲功能,您可能會發(fā)現(xiàn)真正有助于建設(shè)和部署模型。
您的模型商店應(yīng)該有:
- 應(yīng)該能夠?yàn)槟P偷拿總€版本,git提交,模型的工件(泡沫文件)的每個版本都能跟蹤引用的數(shù)據(jù)集(泡沫文件)
- 應(yīng)該提供最新版本的任何型號才能提供E.G(v2.1)
- 如果需要,保持一致的譜系以回滾版本
- 與您的評估存儲集成,以跟蹤每個版本的模型的評估,以便針對模型回歸
- 與您的服務(wù)基礎(chǔ)架構(gòu)集成,以促進(jìn)模型部署和回滾
推薦:Weights & Biases / MLFlow
性能評估存儲
既然您的模型跟蹤并存儲在模型存儲中,您需要能夠選擇一個模型來運(yùn)送和監(jiān)視它在生產(chǎn)中的性能表現(xiàn)方式。這是評估存儲可以提供幫助的地方。
評估存儲應(yīng)該啟用什么:
- 在任何環(huán)境中的任何型號的聚合(或切片)中的性能度量,在任何環(huán)境中,生產(chǎn),驗(yàn)證,培訓(xùn)
- 使用基線監(jiān)控和識別漂移,數(shù)據(jù)質(zhì)量問題或異常性能降級
- 使團(tuán)隊(duì)能夠?qū)⑿阅艿淖兓B接到它們發(fā)生的原因
- 提供一個平臺,以幫助使用高質(zhì)量和反饋循環(huán)連續(xù)提供型號,以進(jìn)行改進(jìn) - 比較生產(chǎn)到培訓(xùn)
- 為A / B測試模型版本提供實(shí)驗(yàn)平臺
現(xiàn)在轉(zhuǎn)向我們對評估存儲的必備功能的關(guān)注,這里有幾件事讓特定的評估存儲值得考慮。
您的評估存儲應(yīng)該有:
- 存儲模型評估:在環(huán)境中輸入,Shap值和輸出,適用于環(huán)境的每個型號版本:生產(chǎn),驗(yàn)證和訓(xùn)練
- 自動化監(jiān)控以輕松地表面問題 - 基于來自評估存儲的基線
- 為任何類型的性能分析創(chuàng)建靈活的儀表板 - ML的DATADOG
- 與您的功能存儲集成以跟蹤功能漂移
- 與您的模型存儲集成,為每個型號版本具有模型性能的歷史記錄
推薦:Arize
可能適合您的其他工具
數(shù)據(jù)注釋平臺:
讓我們退后一步,并說你剛剛收集了你的數(shù)據(jù),這可能是或可能沒有地面真理標(biāo)簽?,F(xiàn)代統(tǒng)計機(jī)器學(xué)習(xí)模型通常需要大量的培訓(xùn)數(shù)據(jù)表現(xiàn)良好,并能夠用地面真理標(biāo)簽注釋足夠的數(shù)據(jù),使您的模型有效可以是挑戰(zhàn)。
不要擔(dān)心,數(shù)據(jù)注釋平臺將數(shù)據(jù)的批量分發(fā)到分布式的分布式年級集,每個分布式集會器都將根據(jù)您提供的指令標(biāo)記您的數(shù)據(jù)。
推薦:
- Appen
- Scale 用于全自動數(shù)據(jù)注釋服務(wù)
模型服務(wù)平臺:
- 在應(yīng)用機(jī)器學(xué)習(xí)的許多情況下,您需要某種形式的服務(wù)平臺可以將您的模型部署到您的用戶。簡而言之,服務(wù)平臺應(yīng)提供您的團(tuán)隊(duì)的一些核心功能。
適用于服務(wù)平臺的模型啟用是什么:
- 訪問控制圍繞模型服務(wù),只有選擇一組人員應(yīng)該有權(quán)更改部署哪些模型。
- 如果需要,將快速回滾機(jī)制到先前部署的模型版本
- 與模型服務(wù)集成,便于模型促銷
- 與評估存儲相結(jié)合,以實(shí)現(xiàn)生產(chǎn)的模型可觀察性。
推薦:Kubeflow & almorithmia
AI Orchestration平臺
在許多情況下,必須在端到端生命周期上工作的平臺并使團(tuán)隊(duì)能夠協(xié)調(diào)整個工作流程。這些平臺可幫助團(tuán)隊(duì)帶來各種來源,管理培訓(xùn)工作流程,商店型號,服務(wù),并連接到監(jiān)控平臺。在所有這些不同的工具中管理基礎(chǔ)架構(gòu)都可以復(fù)雜,并且AI Orchestration層可幫助數(shù)據(jù)科學(xué)家和ML工程師專注于提供模型。
推薦:Spell
結(jié)論
尋找工作的正確工具有時會感到壓倒性,特別是對于新興領(lǐng)域。就像是軟件工程師今天的工具一樣,在生產(chǎn),部署和監(jiān)控生產(chǎn)中的機(jī)器學(xué)習(xí)模型將不會結(jié)束終端平臺;但是只有這幾個工具,您應(yīng)該能夠?qū)⒛男吞枏膶?shí)驗(yàn)室中趕出,并快速有效地進(jìn)入客戶手中。
原文鏈接:https://towardsdatascience.com/the-only-3-ml-tools-you-need-1aa750778d33