關于機器學習管道需要了解什么?
譯文【51CTO.com快譯】隨著蓬勃發(fā)展的持續(xù)集成 (CI) /持續(xù)交付(CD)推動了機器學習的開發(fā),IT專業(yè)人員可以通過多種選項了解機器學習管道,并維護數據模型的可靠性。
企業(yè)高管經常將機器學習模型的黑盒性質視為一種神秘技術,他們通常認為,IT主管能夠有效調動流程,并使模型表現良好。現實情況是,了解機器學習流程的基礎知識可以使其流程和步驟變得不再神秘,而IT團隊可以更好地管理對當今競爭激烈的商業(yè)環(huán)境至關重要的機器學習技術。
機器學習管道實質上是構建和自動化程序所需輸出的開發(fā)步驟。開發(fā)人員使用“管道”這一術語描述軟件如何從形成源代碼并進入生產環(huán)境中的過程。實際上,人們可能會看到許多商業(yè)的編程服務管道,例如將軟件部署到存儲庫中以進行更新。在采用機器學習的情況下,管道描述了在部署之前調整數據的過程以及部署過程。
機器學習管道包括數據采集、數據處理、數據轉換、模型訓練。每個階段的活動通過數據和代碼的處理方式進行鏈接。數據采集是從計劃的數據源獲取數據。其采集的類型包括從簡單上傳的數據文件到從數據湖或數據庫中查詢所需的數據。
數據處理是創(chuàng)建按行、列和值準備數據集的編程代碼。準備應用基于已知數據質量的更改。用數據集平均值作為對缺失值進行補充。
數據轉換是通過應用程序轉換數據格式,以便模型讀取數據。它旨在以模型可識別的格式排列數據類型,例如應用編碼從數據集中移動分類文本。
模型訓練涉及運行數據以建立模型規(guī)范??梢愿鶕褂玫哪P皖愋徒鉀Q這些問題。一些機器學習框架的擴展旨在簡化模型的部署和調整。例如,TensorFlow在R編程中有一個名為tfdatasets的庫,該庫可用于輸入管道。
在訓練數據模型之后,最后一步是測試模型,以查看其產生預測值的準確性如何,并相應地調整模型的參數。
文檔的重要性
機器學習管道中的另一個重要細節(jié)是文檔。文檔用于建立在指定時間段內運行功能的說明。YAML是用于此目的的文本編程語言。該文檔使用名稱值對(如JSON文件中的名稱對)進行設計。
由于需要大量步驟,IT專業(yè)人員可以通過管理機器學習管道流程的平臺來學習如何管理與管道相關的問題。最常用的是Microsoft Azure ML、Amazon Sagemaker和Google Cloud AI。其中每一個平臺都為開發(fā)管道提供了集成的環(huán)境,并提供了與其他云計算服務一起工作的特定功能。例如,Azure Pipelines與Microsoft IDE,Visual Studio Code同步,為開發(fā)人員提供一個專用的工作流來上傳所需的更正數據。這對于編輯YAML文件進行配置來說特別方便。
相對于語言、平臺和媒介,每種平臺服務都有自己獨特的優(yōu)勢。例如,Azure ML支持Python或R,并為AutoML(基本機器學習過程的框架)提供了更多選項。這一細節(jié)將表明企業(yè)團隊需要培訓哪些專業(yè)知識。
熟悉加速器的使用
除了學習平臺之外,IT團隊還應該熟悉加速器的使用。加速器是一種云計算服務,承載著GPU(圖形處理單元)的多個處理器核心。GPU是一種專用處理器,可為圖形和數學計算提供專用內存。GPU可以處理大量數據,從而節(jié)省了在筆記本電腦處理器上無法實現的測試和訓練時間。
加速器有時需要其他框架來訪問用于連接模型的解決方案。例如,TensorFlow具有一個庫,用于將不同版本的GPU連接到TPU(張量處理單元),以管理在訓練和測試運行期間產生的數百萬個計算參數。因此,IT團隊應尋求有關框架的培訓,以了解可能出現的部署問題。
學習和熟悉管道平臺和加速器為在模型環(huán)境中計劃持續(xù)集成 (CI)/持續(xù)交付(CD)奠定了基礎。而可觀測性成為必不可少的主題,可觀測性允許監(jiān)視模型性能以進行效率調整,這尤其具有價值,因為模型可能需要很長時間進行測試和訓練。可觀測性系統(tǒng)可以使IT團隊對控制模型的更改進行版本控制,從而可以準確調試因性能問題而導致的編程。這種可重復性也為模型驗證奠定了基礎。模型驗證檢查了幾種環(huán)境中的模型操作,有助于企業(yè)選擇最佳的機器學習模型。
一旦規(guī)劃了驗證和版本控制,應該更容易設想持續(xù)集成 (CI) /持續(xù)交付(CD)的實踐。持續(xù)集成 (CI) /持續(xù)交付(CD)的價值在于交付根據管道階段和模型條件精心編排的更新。
了解管道可以為使用持續(xù)集成 (CI) /持續(xù)交付(CD)技術和機器學習模型的IT團隊設置正確的工作流程。它還為IT團隊更好地討論影響業(yè)務運營的管道流程鋪平了道路。這樣就打造了一支積極主動的IT團隊,可以使機器學習保持最新狀態(tài),從而獲得成功。
原文標題:What You Need to Know About Machine Learning Pipelines,作者:Pierre DeBois
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】