譯者? | 朱先忠
審校 | 孫淑娟
簡(jiǎn)介
ML模型生命周期開(kāi)發(fā)每個(gè)階段的基本活動(dòng)之一是協(xié)作。從ML模型的概念到部署,需要構(gòu)建模型所涉及的不同角色之間的參與和交互。此外,ML模型開(kāi)發(fā)的本質(zhì)涉及實(shí)驗(yàn)、工件(artifacts)和指標(biāo)的跟蹤、模型版本管理等,所有這些都需要通過(guò)一種有效的組織來(lái)正確維護(hù)ML模型生命周期。
幸運(yùn)的是,目前已經(jīng)出現(xiàn)類(lèi)似于MLflow這樣的開(kāi)發(fā)和維護(hù)模型生命周期的工具。在本文中,我們將詳細(xì)剖析MLflow,包括其主要組件及特性等內(nèi)容的分析。此外,我們還將提供示例來(lái)說(shuō)明MLflow在實(shí)踐中是如何工作的。
什么是MLflow?
MLflow是一個(gè)開(kāi)源工具,用于在ML模型生命周期的每個(gè)階段進(jìn)行開(kāi)發(fā)、維護(hù)和協(xié)作。此外,MLflow是一個(gè)與框架無(wú)關(guān)的工具;因此,任何ML/DL(機(jī)器學(xué)習(xí)/深度學(xué)習(xí))框架都可以快速適應(yīng)MLflow提出的生態(tài)系統(tǒng)。
MLflow是作為一個(gè)平臺(tái)的形式出現(xiàn)的,其中提供了跟蹤指標(biāo)、工件和元數(shù)據(jù)等的一系列工具。此外,它還提供了打包、分發(fā)以及部署模型和項(xiàng)目等的標(biāo)準(zhǔn)格式支持。
MLflow還提供了管理模型版本的工具。這些工具分別封裝在下面四個(gè)主要組件中:
- MLflow跟蹤(Tracking)
- MLflow模型(Models)
- MLflow項(xiàng)目(Projects)
- MLflow注冊(cè)表(Registry)
MLflow跟蹤
MLflow跟蹤是一種基于API的工具,用于記錄指標(biāo)、參數(shù)、模型版本、代碼版本和文件。MLflow跟蹤與一個(gè)UI集成到一起,用于可視化和管理工件、模型、文件等。
其中,每個(gè)MLflow跟蹤會(huì)話都是在運(yùn)行(run)的概念下組織和管理的。運(yùn)行是指代碼的執(zhí)行;其中,工件日志部分是被顯式執(zhí)行的。
MLflow跟蹤允許您通過(guò)MLflow提供的Python、R、Java等語(yǔ)言以及REST形式的API等方式來(lái)生成運(yùn)行。默認(rèn)情況下,運(yùn)行是存儲(chǔ)在執(zhí)行代碼會(huì)話的目錄中。然而,MLflow還允許在本地或遠(yuǎn)程服務(wù)器上存儲(chǔ)工件。
MLflow模型
MLflow模型允許將機(jī)器學(xué)習(xí)模型打包成標(biāo)準(zhǔn)格式,以便通過(guò)REST API、Microsoft Azure ML、Amazon SageMaker或Apache Spark等不同服務(wù)直接使用。MLflow模型協(xié)定的優(yōu)點(diǎn)之一是包裝是多語(yǔ)言或多風(fēng)味(flavor)支持的。
[譯者注]MLflow中經(jīng)常遇到“flavor”一詞,其主要是指對(duì)于多種語(yǔ)言、多種類(lèi)型組件及庫(kù)的廣泛支持,通過(guò)下面展示的配置文件容易看出這一點(diǎn)。在此,本文統(tǒng)一直接翻譯為“風(fēng)味”。
在打包方面,MLflow生成一個(gè)包含兩個(gè)文件的目錄,一個(gè)是模型,另一個(gè)是指定模型打包和加載細(xì)節(jié)的文件。例如,下面的代碼片段顯示了一個(gè)MLmodel文件的內(nèi)容,其中指定了風(fēng)味加載器(flavor loader)以及定義環(huán)境的“conda.yaml”文件。
artifact_path: model
flavors:
python_function:
env: conda.yaml
loader_module: MLflow.sklearn
model_path: model.pkl
python_version: 3.8.2
sklearn:
pickled_model: model.pkl
serialization_format: cloudpickle
sklearn_version: 0.24.2
run_id: 39c46969dc7b4154b8408a8f5d0a97e9
utc_time_created: '2021-05-29 23:24:21.753565'
MLflow項(xiàng)目
MLflow項(xiàng)目提供了打包、共享和重用機(jī)器學(xué)習(xí)項(xiàng)目的標(biāo)準(zhǔn)格式。每個(gè)項(xiàng)目可以是遠(yuǎn)程存儲(chǔ)庫(kù)或本地目錄。與MLflow模型不同,MLflow項(xiàng)目旨在實(shí)現(xiàn)機(jī)器學(xué)習(xí)項(xiàng)目的可移植性和分布性。
MLflow項(xiàng)目由名為“MLProject”的一個(gè)YAML聲明文件來(lái)定義,其中公開(kāi)了相應(yīng)項(xiàng)目的一系列規(guī)范內(nèi)容。
模型實(shí)現(xiàn)的關(guān)鍵特征在MLProject文件中指定,這些特征包括:
- 模型接收的輸入?yún)?shù)
- 參數(shù)的數(shù)據(jù)類(lèi)型
- 用于執(zhí)行所述模型的命令,以及
- 項(xiàng)目運(yùn)行的環(huán)境
下面的代碼片段顯示了一個(gè)MLProject文件的示例,其中要實(shí)現(xiàn)的模型是一棵決策樹(shù)形式,其唯一的參數(shù)對(duì)應(yīng)樹(shù)的深度,默認(rèn)值為2。
name: example-decision-tree
conda_env: conda.yaml
entry_points:
main:
parameters:
tree_depth: {type: int, default: 2}
command: "python main.py {tree_depth}"
同樣,MLflow提供了一個(gè)CLI(command-lineinterface,命令行界面)來(lái)運(yùn)行位于本地服務(wù)器或遠(yuǎn)程存儲(chǔ)庫(kù)上的項(xiàng)目。以下代碼片段顯示了如何從本地服務(wù)器或遠(yuǎn)程存儲(chǔ)庫(kù)運(yùn)行項(xiàng)目的示例:
$ mlflow run model/example-decision-tree -P tree_depth=3
$ mlflow run git@github.com:FernandoLpz/MLflow-example.git -P tree_depth=3
在這兩個(gè)示例中,環(huán)境是基于MLProject文件規(guī)范生成的。觸發(fā)模型的命令將在命令行上傳遞的參數(shù)下執(zhí)行。由于模型允許輸入?yún)?shù),因此這些參數(shù)可以通過(guò)`-P'標(biāo)志指定。在這兩個(gè)示例中,模型參數(shù)都是指決策樹(shù)的最大深度。
默認(rèn)情況下,如示例中所示的運(yùn)行將把工件存儲(chǔ)在一個(gè)名字為“.mlruns”的目錄。
如何在MLflow服務(wù)器中存儲(chǔ)工件?
實(shí)現(xiàn)MLflow時(shí)最常見(jiàn)的用例之一是使用MLflow服務(wù)器記錄指標(biāo)和工件。MLflow服務(wù)器負(fù)責(zé)管理MLflow客戶(hù)端生成的工件和文件。這些工件可以存儲(chǔ)在從文件目錄到遠(yuǎn)程數(shù)據(jù)庫(kù)等不同存儲(chǔ)形式的方案中。例如,要在本地運(yùn)行MLflow服務(wù)器,我們可以鍵入如下命令:
$ mlflow server
上述命令將通過(guò)IP地址http://127.0.0.1:5000/啟動(dòng)MLflow服務(wù)。為了存儲(chǔ)工件和指標(biāo),在客戶(hù)端會(huì)話中定義服務(wù)器的跟蹤URI。
在下面的代碼片段中,我們將看到MLflow服務(wù)器中工件存儲(chǔ)的基本實(shí)現(xiàn):
import MLflow
remote_server_uri = "http://127.0.0.1:5000"
MLflow.set_tracking_uri(remote_server_uri)
with MLflow.start_run():
MLflow.log_param("test-param", 1)
MLflow.log_metric("test-metric", 2)
其中,命令“MLflow.set_tracking_uri()”負(fù)責(zé)設(shè)置服務(wù)器的位置。
如何在MLflow服務(wù)器中執(zhí)行身份驗(yàn)證?
在沒(méi)有身份驗(yàn)證的情況下暴露服務(wù)器可能會(huì)有風(fēng)險(xiǎn)。因此,添加身份驗(yàn)證非常必要,當(dāng)然也非常方便。身份驗(yàn)證將取決于您將在其中部署服務(wù)器的生態(tài)系統(tǒng):
- 在本地服務(wù)器上,添加基于用戶(hù)和密碼的基本身份驗(yàn)證就足夠了
- 在遠(yuǎn)程服務(wù)器上,必須與相應(yīng)的代理一起調(diào)整憑據(jù)數(shù)據(jù)
為了說(shuō)明這些,讓我們看一個(gè)使用基本身份驗(yàn)證(用戶(hù)名和密碼)部署的MLflow服務(wù)器的示例。此外,我們還將看到如何通過(guò)配置客戶(hù)端方式來(lái)使用此服務(wù)器。
示例:MLflow服務(wù)器身份驗(yàn)證
在本例中,我們通過(guò)Nginx反向代理將基本用戶(hù)和密碼身份驗(yàn)證應(yīng)用于MLflow服務(wù)器。
讓我們從Nginx的安裝開(kāi)始,我們可以通過(guò)以下方式完成:
# For darwin based OS
$ brew install nginx
# For debian based OS
$ apt-get install nginx
# For redhat based OS
$ yum install nginx
對(duì)于Windows操作系統(tǒng),您必須使用本機(jī)Win32 API。您可以按照鏈接(https://nginx.org/en/docs/windows.html)處的詳細(xì)說(shuō)明進(jìn)行這些操作,在此省略有關(guān)介紹。
安裝結(jié)束后,我們將繼續(xù)使用“htpasswd”命令生成具有相應(yīng)密碼的用戶(hù),如下所示:
sudo htpasswd -c /usr/local/etc/nginx/.htpasswdMLflow-user
上述命令為nginx服務(wù)的“.htpasswd”文件中指定的名字為“mlflow-user”的用戶(hù)生成憑據(jù)。稍后,要在創(chuàng)建的用戶(hù)憑據(jù)下定義代理,請(qǐng)使用配置文件“/usr/local/etc/nginx/nginx.conf”進(jìn)行定義,默認(rèn)情況下具有以下內(nèi)容:
server {
listen 8080;
server_name localhost;
# charset koi8-r;
# access_log logs/host.access.log main;
location / {
root html;
index index.html index.htm;
}
它必須看起來(lái)像這樣:
server {
# listen 8080;
# server_name localhost;
# charset koi8-r;
# access_log logs/host.access.log main;
location / {
proxy_pass http://localhost:5000;
auth_basic "Restricted Content";
auth_basic_user_file /usr/local/etc/nginx/.htpasswd;
}
在這里,我們通過(guò)端口5000為本地主機(jī)定義身份驗(yàn)證代理。這是默認(rèn)情況下部署MLflow服務(wù)器的IP地址和端口號(hào)。請(qǐng)注意,在使用云端類(lèi)型的提供程序時(shí),您必須配置實(shí)現(xiàn)所需的憑據(jù)和代理。接下來(lái),開(kāi)始初始化MLflow服務(wù)器,如以下代碼段所示:
$ MLflow server --host localhost
嘗試在瀏覽器中訪問(wèn)http://localhost時(shí),需要通過(guò)創(chuàng)建的用戶(hù)名和密碼請(qǐng)求身份驗(yàn)證。
圖1:登錄界面
輸入憑據(jù)后,您將被導(dǎo)航到MLflow服務(wù)器用戶(hù)界面中,如圖2所示。
圖2:MLflow服務(wù)器UI
要從客戶(hù)端將數(shù)據(jù)存儲(chǔ)在MLflow服務(wù)器中,您必須:
- 定義包含訪問(wèn)服務(wù)器的憑據(jù)的環(huán)境變量
- 設(shè)置存儲(chǔ)工件的URI
對(duì)于憑證,我們將導(dǎo)出以下環(huán)境變量:
$ export MLflow_TRACKING_USERNAME=MLflow-user
$ export MLflow_TRACKING_PASSWORD=MLflow-password
一旦定義了環(huán)境變量,就只需要為工件存儲(chǔ)定義服務(wù)器URI。
import MLflow
# Define MLflow Server URI
remote_server_uri = "http://localhost"
MLflow.set_tracking_uri(remote_server_uri)
with MLflow.start_run():
MLflow.log_param("test-param", 2332)
MLflow.log_metric("test-metric", 1144)
當(dāng)執(zhí)行上面的代碼片段時(shí),我們可以看到測(cè)試指標(biāo)和參數(shù)反映在服務(wù)器上。
圖3:從服務(wù)器上具有身份驗(yàn)證的客戶(hù)端服務(wù)存儲(chǔ)的指標(biāo)和參數(shù)
如何注冊(cè)MLflow模型?
開(kāi)發(fā)機(jī)器學(xué)習(xí)模型時(shí)的一個(gè)日常需求是維護(hù)模型版本中的順序。為此,MLflow提供了MLflow注冊(cè)表。
MLflow注冊(cè)表是一個(gè)擴(kuò)展,有助于:
- 管理每個(gè)MLModel的版本,以及
- 記錄每個(gè)模型在三個(gè)不同階段的發(fā)展進(jìn)程:歸檔(archive)、模擬環(huán)境(staging)和生產(chǎn)(production)。它非常類(lèi)似于Git中的版本系統(tǒng)。
注冊(cè)模型有四種選擇:
- 通過(guò)UI
- 作為“MLflow.<flavor>.log_model()”的參數(shù)方式
- 使用“MLflow.register_model()”方法或
- 使用“create_registered_model()”客戶(hù)端API。
在以下示例中,使用“MLflow.<flavor>.log_model()”方法注冊(cè)模型:
with MLflow.start_run():
model = DecisionTreeModel(max_depth=max_depth)
model.load_data()
model.train()
model.evaluate()
MLflow.log_param("tree_depth", max_depth)
MLflow.log_metric("precision", model.precision)
MLflow.log_metric("recall", model.recall)
MLflow.log_metric("accuracy", model.accuracy)
# Register the model
MLflow.sklearn.log_model(model.tree, "MyModel-dt", registered_model_name="Decision Tree")
如果是新模型,MLFlow將其初始化為版本1。如果模型已進(jìn)行版本控制,則將其初始化成版本2(或后續(xù)版本)。
默認(rèn)情況下,注冊(cè)模型時(shí),分配的狀態(tài)為“無(wú)”。要將狀態(tài)分配給已注冊(cè)模型,我們可以通過(guò)以下方式執(zhí)行:
client = MLflowClient()
client.transition_model_version_stage(
name="Decision Tree",
version=2,
stage="Staging"
)
在上面的代碼片段中,決策樹(shù)模型的版本2被分配給模擬環(huán)境(staging)。在服務(wù)器UI中,我們可以看到如圖4所示的狀態(tài):
圖4:注冊(cè)模型
為了實(shí)現(xiàn)模型服務(wù),我們可以使用MLflowCLI。為此,我們只需要服務(wù)器URI、模型名稱(chēng)和模型狀態(tài)這些信息即可,如下所示:
$ export MLflow_TRACKING_URI=http://localhost
$ mlflow models serve -m "models:/MyModel-dt/Production"
模型服務(wù)和POST請(qǐng)求
$ curl http://localhost/invocations -H 'Content-Type: application/json' -d '{"inputs": [[0.39797844703998664, 0.6739875109527594, 0.9455601866618499, 0.8668404460733665, 0.1589125298570211]}'
[1]%
在上面的代碼片段中,向模型提供服務(wù)的地址發(fā)出POST請(qǐng)求。在請(qǐng)求中傳遞了一個(gè)包含五個(gè)元素的數(shù)組,這是模型期望作為推理的輸入數(shù)據(jù)。在這種情況下,預(yù)測(cè)結(jié)果是1。
需要指出的是,MLFlow允許定義數(shù)據(jù)結(jié)構(gòu),以便通過(guò)實(shí)現(xiàn)簽名在“MLmodel”文件中進(jìn)行推斷。同樣,通過(guò)請(qǐng)求傳遞的數(shù)據(jù)可以是不同類(lèi)型的,可以在鏈接(https://www.mlflow.org/docs/latest/_modules/mlflow/models/signature.html)處查閱。
前面示例的完整實(shí)現(xiàn)可以在下面的鏈接處找到:
https://github.com/FernandoLpz/MLFlow-example
MLflow插件
由于MLflow的框架不可知性,導(dǎo)致了MLflow插件的出現(xiàn)。該插件的主要功能是以自適應(yīng)方式將MLflow的功能擴(kuò)展到不同的框架。
MLflow插件允許為特定平臺(tái)定制和調(diào)整工件的部署和存儲(chǔ)。
例如,下面這些是用于平臺(tái)特定部署的插件:
- MLflow-redisai:它允許從MLflow中創(chuàng)建和管理的模型創(chuàng)建部署到RedisAI(https://oss.redislabs.com/redisai/)
- MLflow-torchserve:使PyTorch模型能夠直接部署到torchserve(https://github.com/pytorch/serve)
- MLflow-algorithmia:允許將使用MLflow創(chuàng)建和管理的模型部署到Algorithmia(https://algorithmia.com/)基礎(chǔ)設(shè)施
- MLflow-ray-serve:支持將MLflow模型部署到Ray(https://docs.ray.io/en/master/serve/)基礎(chǔ)設(shè)施上
另一方面,為了管理MLflow項(xiàng)目,我們還提供了MLflow-yarn,這是一個(gè)在Hadoop/Yarn支持下管理MLProject的插件。對(duì)于MLflow跟蹤的定制,我們有MLflow-elasticsearchstore,它允許在Elasticsearch環(huán)境下管理MLflow追蹤擴(kuò)展。
同樣,也提供了特定的插件以支持部署到AWS和Azure等平臺(tái),它們是:
- MLflow.sagemaker和
- MLflow.azureml
必須提到的是,MLflow提供了根據(jù)需要?jiǎng)?chuàng)建和定制插件的能力。
MLflow與Kubeflow的比較
由于對(duì)開(kāi)發(fā)和維護(hù)機(jī)器學(xué)習(xí)模型生命周期的工具的需求不斷增加,出現(xiàn)了不同的管理方案,例如MLflow和KubeFlow等。
正如我們?cè)诒疚闹幸呀?jīng)看到的,MLflow是一種工具,它允許在開(kāi)發(fā)機(jī)器學(xué)習(xí)模型的生命周期中進(jìn)行協(xié)作,主要關(guān)注跟蹤工件(MLflow跟蹤)、協(xié)作、維護(hù)和項(xiàng)目版本控制。
另一方面,還有一個(gè)類(lèi)似的工具是Kubeflow,它與MLflow一樣,是一種開(kāi)發(fā)具有特定差異的機(jī)器學(xué)習(xí)模型的工具。
Kubeflow是一個(gè)在Kubernetes集群上工作的平臺(tái);也就是說(shuō),Kubeflow利用了Kubernetes的集裝箱化特性。此外,Kubeflow還提供了Kubeflow管道線等工具,旨在通過(guò)SDK擴(kuò)展生成和自動(dòng)化管道(DAGs)。
此外,Kubeflow還提供??Katib??,這是一種大規(guī)模優(yōu)化超參數(shù)的工具,并提供Jupyter筆記本的管理和協(xié)作服務(wù)。
具體而言,MLflow是一個(gè)專(zhuān)注于機(jī)器學(xué)習(xí)項(xiàng)目開(kāi)發(fā)的管理和協(xié)作工具。另一方面,Kubeflow是一個(gè)專(zhuān)注于通過(guò)Kubernetes集群和使用容器開(kāi)發(fā)、訓(xùn)練和部署模型的平臺(tái)。
這兩個(gè)平臺(tái)都具有各自顯著的優(yōu)勢(shì),都是開(kāi)發(fā)、維護(hù)和部署機(jī)器學(xué)習(xí)模型的可選擇方案。然而,在開(kāi)發(fā)團(tuán)隊(duì)中使用、實(shí)現(xiàn)和集成這些技術(shù)時(shí),必須考慮相應(yīng)的技術(shù)壁壘。
由于Kubeflow需要連接到Kubernetes集群才能達(dá)到實(shí)現(xiàn)和集成目的,因此建議由一名專(zhuān)家來(lái)管理該技術(shù)。同樣,開(kāi)發(fā)和配置管道自動(dòng)化也是一項(xiàng)挑戰(zhàn),需要學(xué)習(xí)曲線,在特定情況下可能對(duì)公司不利。
總之,MLflow和Kubeflow都是專(zhuān)注于機(jī)器學(xué)習(xí)模型生命周期特定階段的平臺(tái)。MLflow是一種面向協(xié)作的工具,而Kubeflow更傾向于利用Kubernetes集群來(lái)生成機(jī)器學(xué)習(xí)任務(wù)。然而,Kubeflow需要MLOps部分的經(jīng)驗(yàn)。您需要了解Kubernetes中的服務(wù)部署,這可能是嘗試接近Kubeflow時(shí)需要考慮的問(wèn)題。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專(zhuān)家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。早期專(zhuān)注各種微軟技術(shù)(編著成ASP.NET AJX、Cocos 2d-X相關(guān)三本技術(shù)圖書(shū)),近十多年投身于開(kāi)源世界(熟悉流行全棧Web開(kāi)發(fā)技術(shù)),了解基于OneNet/AliOS+Arduino/ESP32/樹(shù)莓派等物聯(lián)網(wǎng)開(kāi)發(fā)技術(shù)與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開(kāi)發(fā)技術(shù)。
原文標(biāo)題:??How toPackage and Distribute Machine Learning Models with MLFlow???,作者:Fernando López?