MLFlow打包和部署機(jī)器學(xué)習(xí)模型實(shí)戰(zhàn)

作者：朱先忠 2022-09-07 08:00:00

MLFlow是管理機(jī)器學(xué)習(xí)模型的端到端生命周期的工具。本文將向您詳細(xì)介紹這個(gè)工具，包括MLFlow服務(wù)的安裝和配置的介紹，最后還添加了有關(guān)如何與MLFlow生成和共享項(xiàng)目的實(shí)例展示。

譯者? | 朱先忠

審校 | 孫淑娟

簡(jiǎn)介

ML模型生命周期開(kāi)發(fā)每個(gè)階段的基本活動(dòng)之一是協(xié)作。從ML模型的概念到部署，需要構(gòu)建模型所涉及的不同角色之間的參與和交互。此外，ML模型開(kāi)發(fā)的本質(zhì)涉及實(shí)驗(yàn)、工件（artifacts）和指標(biāo)的跟蹤、模型版本管理等，所有這些都需要通過(guò)一種有效的組織來(lái)正確維護(hù)ML模型生命周期。

幸運(yùn)的是，目前已經(jīng)出現(xiàn)類(lèi)似于MLflow這樣的開(kāi)發(fā)和維護(hù)模型生命周期的工具。在本文中，我們將詳細(xì)剖析MLflow，包括其主要組件及特性等內(nèi)容的分析。此外，我們還將提供示例來(lái)說(shuō)明MLflow在實(shí)踐中是如何工作的。

什么是MLflow？

MLflow是一個(gè)開(kāi)源工具，用于在ML模型生命周期的每個(gè)階段進(jìn)行開(kāi)發(fā)、維護(hù)和協(xié)作。此外，MLflow是一個(gè)與框架無(wú)關(guān)的工具；因此，任何ML/DL（機(jī)器學(xué)習(xí)/深度學(xué)習(xí)）框架都可以快速適應(yīng)MLflow提出的生態(tài)系統(tǒng)。

MLflow是作為一個(gè)平臺(tái)的形式出現(xiàn)的，其中提供了跟蹤指標(biāo)、工件和元數(shù)據(jù)等的一系列工具。此外，它還提供了打包、分發(fā)以及部署模型和項(xiàng)目等的標(biāo)準(zhǔn)格式支持。

MLflow還提供了管理模型版本的工具。這些工具分別封裝在下面四個(gè)主要組件中：

MLflow跟蹤（Tracking）
MLflow模型（Models）
MLflow項(xiàng)目（Projects）
MLflow注冊(cè)表（Registry）

MLflow跟蹤

MLflow跟蹤是一種基于API的工具，用于記錄指標(biāo)、參數(shù)、模型版本、代碼版本和文件。MLflow跟蹤與一個(gè)UI集成到一起，用于可視化和管理工件、模型、文件等。

其中，每個(gè)MLflow跟蹤會(huì)話都是在運(yùn)行（run）的概念下組織和管理的。運(yùn)行是指代碼的執(zhí)行；其中，工件日志部分是被顯式執(zhí)行的。

MLflow跟蹤允許您通過(guò)MLflow提供的Python、R、Java等語(yǔ)言以及REST形式的API等方式來(lái)生成運(yùn)行。默認(rèn)情況下，運(yùn)行是存儲(chǔ)在執(zhí)行代碼會(huì)話的目錄中。然而，MLflow還允許在本地或遠(yuǎn)程服務(wù)器上存儲(chǔ)工件。

MLflow模型

MLflow模型允許將機(jī)器學(xué)習(xí)模型打包成標(biāo)準(zhǔn)格式，以便通過(guò)REST API、Microsoft Azure ML、Amazon SageMaker或Apache Spark等不同服務(wù)直接使用。MLflow模型協(xié)定的優(yōu)點(diǎn)之一是包裝是多語(yǔ)言或多風(fēng)味（flavor）支持的。

［譯者注］MLflow中經(jīng)常遇到“flavor”一詞，其主要是指對(duì)于多種語(yǔ)言、多種類(lèi)型組件及庫(kù)的廣泛支持，通過(guò)下面展示的配置文件容易看出這一點(diǎn)。在此，本文統(tǒng)一直接翻譯為“風(fēng)味”。

在打包方面，MLflow生成一個(gè)包含兩個(gè)文件的目錄，一個(gè)是模型，另一個(gè)是指定模型打包和加載細(xì)節(jié)的文件。例如，下面的代碼片段顯示了一個(gè)MLmodel文件的內(nèi)容，其中指定了風(fēng)味加載器（flavor loader）以及定義環(huán)境的“conda.yaml”文件。

artifact_path: model
flavors:
  python_function:
    env: conda.yaml
    loader_module: MLflow.sklearn
    model_path: model.pkl
    python_version: 3.8.2
  sklearn:
    pickled_model: model.pkl
    serialization_format: cloudpickle
    sklearn_version: 0.24.2
run_id: 39c46969dc7b4154b8408a8f5d0a97e9
utc_time_created: '2021-05-29 23:24:21.753565'

MLflow項(xiàng)目

MLflow項(xiàng)目提供了打包、共享和重用機(jī)器學(xué)習(xí)項(xiàng)目的標(biāo)準(zhǔn)格式。每個(gè)項(xiàng)目可以是遠(yuǎn)程存儲(chǔ)庫(kù)或本地目錄。與MLflow模型不同，MLflow項(xiàng)目旨在實(shí)現(xiàn)機(jī)器學(xué)習(xí)項(xiàng)目的可移植性和分布性。

MLflow項(xiàng)目由名為“MLProject”的一個(gè)YAML聲明文件來(lái)定義，其中公開(kāi)了相應(yīng)項(xiàng)目的一系列規(guī)范內(nèi)容。

模型實(shí)現(xiàn)的關(guān)鍵特征在MLProject文件中指定，這些特征包括：

模型接收的輸入?yún)?shù)
參數(shù)的數(shù)據(jù)類(lèi)型
用于執(zhí)行所述模型的命令，以及
項(xiàng)目運(yùn)行的環(huán)境

下面的代碼片段顯示了一個(gè)MLProject文件的示例，其中要實(shí)現(xiàn)的模型是一棵決策樹(shù)形式，其唯一的參數(shù)對(duì)應(yīng)樹(shù)的深度，默認(rèn)值為2。

name: example-decision-tree
conda_env: conda.yaml
entry_points:
  main:
    parameters:
      tree_depth: {type: int, default: 2}
    command: "python main.py {tree_depth}"

同樣，MLflow提供了一個(gè)CLI（command-lineinterface，命令行界面）來(lái)運(yùn)行位于本地服務(wù)器或遠(yuǎn)程存儲(chǔ)庫(kù)上的項(xiàng)目。以下代碼片段顯示了如何從本地服務(wù)器或遠(yuǎn)程存儲(chǔ)庫(kù)運(yùn)行項(xiàng)目的示例：

$ mlflow run model/example-decision-tree -P tree_depth=3
$ mlflow run git@github.com:FernandoLpz/MLflow-example.git -P tree_depth=3

在這兩個(gè)示例中，環(huán)境是基于MLProject文件規(guī)范生成的。觸發(fā)模型的命令將在命令行上傳遞的參數(shù)下執(zhí)行。由于模型允許輸入?yún)?shù)，因此這些參數(shù)可以通過(guò)`-P'標(biāo)志指定。在這兩個(gè)示例中，模型參數(shù)都是指決策樹(shù)的最大深度。

默認(rèn)情況下，如示例中所示的運(yùn)行將把工件存儲(chǔ)在一個(gè)名字為“.mlruns”的目錄。

如何在MLflow服務(wù)器中存儲(chǔ)工件？

實(shí)現(xiàn)MLflow時(shí)最常見(jiàn)的用例之一是使用MLflow服務(wù)器記錄指標(biāo)和工件。MLflow服務(wù)器負(fù)責(zé)管理MLflow客戶(hù)端生成的工件和文件。這些工件可以存儲(chǔ)在從文件目錄到遠(yuǎn)程數(shù)據(jù)庫(kù)等不同存儲(chǔ)形式的方案中。例如，要在本地運(yùn)行MLflow服務(wù)器，我們可以鍵入如下命令：

$ mlflow server

上述命令將通過(guò)IP地址http://127.0.0.1:5000/啟動(dòng)MLflow服務(wù)。為了存儲(chǔ)工件和指標(biāo)，在客戶(hù)端會(huì)話中定義服務(wù)器的跟蹤URI。

在下面的代碼片段中，我們將看到MLflow服務(wù)器中工件存儲(chǔ)的基本實(shí)現(xiàn)：

import MLflow 
remote_server_uri = "http://127.0.0.1:5000"
MLflow.set_tracking_uri(remote_server_uri)
with MLflow.start_run():
   MLflow.log_param("test-param", 1)
   MLflow.log_metric("test-metric", 2)

其中，命令“MLflow.set_tracking_uri()”負(fù)責(zé)設(shè)置服務(wù)器的位置。

如何在MLflow服務(wù)器中執(zhí)行身份驗(yàn)證？

在沒(méi)有身份驗(yàn)證的情況下暴露服務(wù)器可能會(huì)有風(fēng)險(xiǎn)。因此，添加身份驗(yàn)證非常必要，當(dāng)然也非常方便。身份驗(yàn)證將取決于您將在其中部署服務(wù)器的生態(tài)系統(tǒng)：

在本地服務(wù)器上，添加基于用戶(hù)和密碼的基本身份驗(yàn)證就足夠了
在遠(yuǎn)程服務(wù)器上，必須與相應(yīng)的代理一起調(diào)整憑據(jù)數(shù)據(jù)

為了說(shuō)明這些，讓我們看一個(gè)使用基本身份驗(yàn)證（用戶(hù)名和密碼）部署的MLflow服務(wù)器的示例。此外，我們還將看到如何通過(guò)配置客戶(hù)端方式來(lái)使用此服務(wù)器。

示例：MLflow服務(wù)器身份驗(yàn)證

在本例中，我們通過(guò)Nginx反向代理將基本用戶(hù)和密碼身份驗(yàn)證應(yīng)用于MLflow服務(wù)器。

讓我們從Nginx的安裝開(kāi)始，我們可以通過(guò)以下方式完成：

# For darwin based OS
$ brew install nginx

# For debian based OS
$ apt-get install nginx

# For redhat based OS
$ yum install nginx

對(duì)于Windows操作系統(tǒng)，您必須使用本機(jī)Win32 API。您可以按照鏈接（https://nginx.org/en/docs/windows.html）處的詳細(xì)說(shuō)明進(jìn)行這些操作，在此省略有關(guān)介紹。

安裝結(jié)束后，我們將繼續(xù)使用“htpasswd”命令生成具有相應(yīng)密碼的用戶(hù)，如下所示：

sudo htpasswd -c /usr/local/etc/nginx/.htpasswdMLflow-user

上述命令為nginx服務(wù)的“.htpasswd”文件中指定的名字為“mlflow-user”的用戶(hù)生成憑據(jù)。稍后，要在創(chuàng)建的用戶(hù)憑據(jù)下定義代理，請(qǐng)使用配置文件“/usr/local/etc/nginx/nginx.conf”進(jìn)行定義，默認(rèn)情況下具有以下內(nèi)容：

server {
       listen       8080;
       server_name  localhost;
       # charset koi8-r;
       # access_log  logs/host.access.log  main;
       location / {
           root   html;
           index  index.html index.htm;
       }

它必須看起來(lái)像這樣：

server {
       # listen       8080;
       # server_name  localhost;

       # charset koi8-r;

       # access_log  logs/host.access.log  main;

       location / {
           proxy_pass http://localhost:5000;
           auth_basic "Restricted Content";
           auth_basic_user_file /usr/local/etc/nginx/.htpasswd;
       }

在這里，我們通過(guò)端口5000為本地主機(jī)定義身份驗(yàn)證代理。這是默認(rèn)情況下部署MLflow服務(wù)器的IP地址和端口號(hào)。請(qǐng)注意，在使用云端類(lèi)型的提供程序時(shí)，您必須配置實(shí)現(xiàn)所需的憑據(jù)和代理。接下來(lái)，開(kāi)始初始化MLflow服務(wù)器，如以下代碼段所示：

$ MLflow server --host localhost

嘗試在瀏覽器中訪問(wèn)http://localhost時(shí)，需要通過(guò)創(chuàng)建的用戶(hù)名和密碼請(qǐng)求身份驗(yàn)證。

圖1：登錄界面

輸入憑據(jù)后，您將被導(dǎo)航到MLflow服務(wù)器用戶(hù)界面中，如圖2所示。

圖2：MLflow服務(wù)器UI

要從客戶(hù)端將數(shù)據(jù)存儲(chǔ)在MLflow服務(wù)器中，您必須：

定義包含訪問(wèn)服務(wù)器的憑據(jù)的環(huán)境變量
設(shè)置存儲(chǔ)工件的URI

對(duì)于憑證，我們將導(dǎo)出以下環(huán)境變量：

$ export MLflow_TRACKING_USERNAME=MLflow-user
$ export MLflow_TRACKING_PASSWORD=MLflow-password

一旦定義了環(huán)境變量，就只需要為工件存儲(chǔ)定義服務(wù)器URI。

import MLflow

# Define MLflow Server URI
remote_server_uri = "http://localhost"
MLflow.set_tracking_uri(remote_server_uri)


with MLflow.start_run():
   MLflow.log_param("test-param", 2332)
   MLflow.log_metric("test-metric", 1144)

當(dāng)執(zhí)行上面的代碼片段時(shí)，我們可以看到測(cè)試指標(biāo)和參數(shù)反映在服務(wù)器上。

圖3：從服務(wù)器上具有身份驗(yàn)證的客戶(hù)端服務(wù)存儲(chǔ)的指標(biāo)和參數(shù)

如何注冊(cè)MLflow模型？

開(kāi)發(fā)機(jī)器學(xué)習(xí)模型時(shí)的一個(gè)日常需求是維護(hù)模型版本中的順序。為此，MLflow提供了MLflow注冊(cè)表。

MLflow注冊(cè)表是一個(gè)擴(kuò)展，有助于：

管理每個(gè)MLModel的版本，以及
記錄每個(gè)模型在三個(gè)不同階段的發(fā)展進(jìn)程：歸檔（archive）、模擬環(huán)境(staging)和生產(chǎn)（production）。它非常類(lèi)似于Git中的版本系統(tǒng)。

注冊(cè)模型有四種選擇：

通過(guò)UI
作為“MLflow.<flavor>.log_model()”的參數(shù)方式
使用“MLflow.register_model()”方法或
使用“create_registered_model()”客戶(hù)端API。

在以下示例中，使用“MLflow.<flavor>.log_model()”方法注冊(cè)模型：

with MLflow.start_run():

   model = DecisionTreeModel(max_depth=max_depth)
   model.load_data()
   model.train()
   model.evaluate()

   MLflow.log_param("tree_depth", max_depth)
   MLflow.log_metric("precision", model.precision)
   MLflow.log_metric("recall", model.recall)
   MLflow.log_metric("accuracy", model.accuracy)

   # Register the model
   MLflow.sklearn.log_model(model.tree, "MyModel-dt",      registered_model_name="Decision Tree")

如果是新模型，MLFlow將其初始化為版本1。如果模型已進(jìn)行版本控制，則將其初始化成版本2（或后續(xù)版本）。

默認(rèn)情況下，注冊(cè)模型時(shí)，分配的狀態(tài)為“無(wú)”。要將狀態(tài)分配給已注冊(cè)模型，我們可以通過(guò)以下方式執(zhí)行：

client = MLflowClient()
client.transition_model_version_stage(
    name="Decision Tree",
    version=2,
    stage="Staging"
)

在上面的代碼片段中，決策樹(shù)模型的版本2被分配給模擬環(huán)境(staging)。在服務(wù)器UI中，我們可以看到如圖4所示的狀態(tài)：

圖4：注冊(cè)模型

為了實(shí)現(xiàn)模型服務(wù)，我們可以使用MLflowCLI。為此，我們只需要服務(wù)器URI、模型名稱(chēng)和模型狀態(tài)這些信息即可，如下所示：

$ export MLflow_TRACKING_URI=http://localhost
$ mlflow models serve -m "models:/MyModel-dt/Production"

模型服務(wù)和POST請(qǐng)求

$ curl http://localhost/invocations -H 'Content-Type: application/json' -d '{"inputs": [[0.39797844703998664, 0.6739875109527594, 0.9455601866618499, 0.8668404460733665, 0.1589125298570211]}'
[1]%

在上面的代碼片段中，向模型提供服務(wù)的地址發(fā)出POST請(qǐng)求。在請(qǐng)求中傳遞了一個(gè)包含五個(gè)元素的數(shù)組，這是模型期望作為推理的輸入數(shù)據(jù)。在這種情況下，預(yù)測(cè)結(jié)果是1。

需要指出的是，MLFlow允許定義數(shù)據(jù)結(jié)構(gòu)，以便通過(guò)實(shí)現(xiàn)簽名在“MLmodel”文件中進(jìn)行推斷。同樣，通過(guò)請(qǐng)求傳遞的數(shù)據(jù)可以是不同類(lèi)型的，可以在鏈接（https://www.mlflow.org/docs/latest/_modules/mlflow/models/signature.html）處查閱。

前面示例的完整實(shí)現(xiàn)可以在下面的鏈接處找到：

https://github.com/FernandoLpz/MLFlow-example

MLflow插件

由于MLflow的框架不可知性，導(dǎo)致了MLflow插件的出現(xiàn)。該插件的主要功能是以自適應(yīng)方式將MLflow的功能擴(kuò)展到不同的框架。

MLflow插件允許為特定平臺(tái)定制和調(diào)整工件的部署和存儲(chǔ)。

例如，下面這些是用于平臺(tái)特定部署的插件：

MLflow-redisai：它允許從MLflow中創(chuàng)建和管理的模型創(chuàng)建部署到RedisAI（https://oss.redislabs.com/redisai/）
MLflow-torchserve：使PyTorch模型能夠直接部署到torchserve（https://github.com/pytorch/serve）
MLflow-algorithmia：允許將使用MLflow創(chuàng)建和管理的模型部署到Algorithmia（https://algorithmia.com/）基礎(chǔ)設(shè)施
MLflow-ray-serve：支持將MLflow模型部署到Ray（https://docs.ray.io/en/master/serve/）基礎(chǔ)設(shè)施上

另一方面，為了管理MLflow項(xiàng)目，我們還提供了MLflow-yarn，這是一個(gè)在Hadoop/Yarn支持下管理MLProject的插件。對(duì)于MLflow跟蹤的定制，我們有MLflow-elasticsearchstore，它允許在Elasticsearch環(huán)境下管理MLflow追蹤擴(kuò)展。

同樣，也提供了特定的插件以支持部署到AWS和Azure等平臺(tái)，它們是：

MLflow.sagemaker和
MLflow.azureml

必須提到的是，MLflow提供了根據(jù)需要?jiǎng)?chuàng)建和定制插件的能力。

MLflow與Kubeflow的比較

由于對(duì)開(kāi)發(fā)和維護(hù)機(jī)器學(xué)習(xí)模型生命周期的工具的需求不斷增加，出現(xiàn)了不同的管理方案，例如MLflow和KubeFlow等。

正如我們?cè)诒疚闹幸呀?jīng)看到的，MLflow是一種工具，它允許在開(kāi)發(fā)機(jī)器學(xué)習(xí)模型的生命周期中進(jìn)行協(xié)作，主要關(guān)注跟蹤工件（MLflow跟蹤）、協(xié)作、維護(hù)和項(xiàng)目版本控制。

另一方面，還有一個(gè)類(lèi)似的工具是Kubeflow，它與MLflow一樣，是一種開(kāi)發(fā)具有特定差異的機(jī)器學(xué)習(xí)模型的工具。

Kubeflow是一個(gè)在Kubernetes集群上工作的平臺(tái)；也就是說(shuō)，Kubeflow利用了Kubernetes的集裝箱化特性。此外，Kubeflow還提供了Kubeflow管道線等工具，旨在通過(guò)SDK擴(kuò)展生成和自動(dòng)化管道（DAGs）。

此外，Kubeflow還提供??Katib??，這是一種大規(guī)模優(yōu)化超參數(shù)的工具，并提供Jupyter筆記本的管理和協(xié)作服務(wù)。

具體而言，MLflow是一個(gè)專(zhuān)注于機(jī)器學(xué)習(xí)項(xiàng)目開(kāi)發(fā)的管理和協(xié)作工具。另一方面，Kubeflow是一個(gè)專(zhuān)注于通過(guò)Kubernetes集群和使用容器開(kāi)發(fā)、訓(xùn)練和部署模型的平臺(tái)。

這兩個(gè)平臺(tái)都具有各自顯著的優(yōu)勢(shì)，都是開(kāi)發(fā)、維護(hù)和部署機(jī)器學(xué)習(xí)模型的可選擇方案。然而，在開(kāi)發(fā)團(tuán)隊(duì)中使用、實(shí)現(xiàn)和集成這些技術(shù)時(shí)，必須考慮相應(yīng)的技術(shù)壁壘。

由于Kubeflow需要連接到Kubernetes集群才能達(dá)到實(shí)現(xiàn)和集成目的，因此建議由一名專(zhuān)家來(lái)管理該技術(shù)。同樣，開(kāi)發(fā)和配置管道自動(dòng)化也是一項(xiàng)挑戰(zhàn)，需要學(xué)習(xí)曲線，在特定情況下可能對(duì)公司不利。

總之，MLflow和Kubeflow都是專(zhuān)注于機(jī)器學(xué)習(xí)模型生命周期特定階段的平臺(tái)。MLflow是一種面向協(xié)作的工具，而Kubeflow更傾向于利用Kubernetes集群來(lái)生成機(jī)器學(xué)習(xí)任務(wù)。然而，Kubeflow需要MLOps部分的經(jīng)驗(yàn)。您需要了解Kubernetes中的服務(wù)部署，這可能是嘗試接近Kubeflow時(shí)需要考慮的問(wèn)題。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專(zhuān)家博客、講師，濰坊一所高校計(jì)算機(jī)教師，自由編程界老兵一枚。早期專(zhuān)注各種微軟技術(shù)（編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書(shū)），近十多年投身于開(kāi)源世界（熟悉流行全棧Web開(kāi)發(fā)技術(shù)），了解基于OneNet/AliOS+Arduino/ESP32/樹(shù)莓派等物聯(lián)網(wǎng)開(kāi)發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開(kāi)發(fā)技術(shù)。

原文標(biāo)題：??How toPackage and Distribute Machine Learning Models with MLFlow???，作者：Fernando López?

責(zé)任編輯：華軒來(lái)源： 51CTO