?譯者 | 崔皓
審校 | 孫淑娟
開篇
一般而言,企業(yè)不會主動構(gòu)建自有的云計算基礎(chǔ)設(shè)施是有原因的。過去十年,IT 基礎(chǔ)架構(gòu)團隊試圖構(gòu)建自己的私有云,因為他們認為與公共云相比,私有云會以性價比更高的方式支撐他們的業(yè)務。但事與愿違,最終花費在私有云上的的時間和成本都超過了預期,建成私有云以后反而需要更多的資源來對其進行維護,并且在安全和擴展方面都比公共云略遜一籌。這導致那些自建私有云的企業(yè)最終沒有更多的資源投資于核心業(yè)務,而是將大量的時間和人員投入到無法擴展業(yè)務需求的基礎(chǔ)設(shè)施上。
現(xiàn)在,許多企業(yè)通過各種開源工具(如 Apache Spark)生成解決方案,但對于 MLOps 的大多數(shù)行為都需要進行重復地手動操作。
這會導致模型部署需要數(shù)周甚至數(shù)月的時間、低效的運行時間(通過計算和所需時間運行的推理來衡量),同時還缺乏對模型測試和監(jiān)控的觀察。并且,所用方法過于定制化,無法為企業(yè)的不同部門的多個用例提供可擴展、可復用的業(yè)務流程。
誤診問題的案例
此外,通過與業(yè)務線負責人、首席數(shù)據(jù)分析官的對話得出這樣的結(jié)論,雖然組織雇用了很多的數(shù)據(jù)科學家,但并沒有看到任何回報。隨著研究的深入,他們會不斷提出各種問題,通過這些問題去識別人工智能面臨的困難和障礙。他們很快意識到關(guān)鍵問題在“最后一英里”——部署模型并應用于實時數(shù)據(jù),有效地執(zhí)行它們,這樣一來才能使收益大于成本,從而更好地衡量其性能。
為了解決業(yè)務問題和制定業(yè)務決策,數(shù)據(jù)科學家將數(shù)據(jù)轉(zhuǎn)化為模型。這一過程需要兩類技能的支持,其一是,構(gòu)建出色模型所需的專業(yè)知識和技能;其二是,使用代碼在現(xiàn)實世界中推動模型,同時監(jiān)控和更新模型的技能。然而這兩類技能卻完全不同。
正因為這種差異就有了ML 工程師的用武之地。ML 工程師負責將工具和框架進行集成,以確保數(shù)據(jù)、管道和基礎(chǔ)設(shè)施協(xié)同工作,在此前提下大規(guī)模生產(chǎn) ML 模型。
那么,現(xiàn)在怎么辦?雇用更多的機器學習工程師?
即使擁有最好的 ML 工程師,企業(yè)在擴展 AI 時仍面臨兩個主要問題:
- 無法快速雇用 ML 工程師:對 ML 工程師的需求變得非常強烈,ML 工程師的職位空缺增長速度比 IT 服務增長的速度快了 30 倍。有時需要等待數(shù)月甚至數(shù)年來填補崗位空缺,由此MLOps 團隊需要找到一種高效的方式支持更多的 ML 模型和用例,而無需通過增加 ML 工程師的人數(shù)來滿足對ML應用的需求。但這一措施又會帶來了第二個瓶頸……
- 無論在何處以及如何構(gòu)建模型,都缺乏部署模型的可重復、可擴展的最佳實踐:現(xiàn)代企業(yè)數(shù)據(jù)生態(tài)系統(tǒng)的現(xiàn)狀是,不同的業(yè)務部門根據(jù)數(shù)據(jù)和技術(shù)的要求會使用不同的數(shù)據(jù)平臺(例如,產(chǎn)品團隊可能需要支持流數(shù)據(jù),而財務需要為非技術(shù)用戶提供簡單的查詢界面)。此外,數(shù)據(jù)科學還需要將應用分散到各個業(yè)務部門而不是集中應用。換句話說,不同的數(shù)據(jù)科學團隊中針對他們關(guān)注的用例(領(lǐng)域)都有一套特有的模型訓練框架,這意味著一刀切的訓練框架針對整個企業(yè)(包含多個部門/領(lǐng)域)而言是無法成立的。
如何從人工智能中獲得最大價值
為了提高自動化能力;為了提供大規(guī)模的用戶個性化體驗;為了兌現(xiàn)更準確、更精細、可預測的用戶承諾,企業(yè)已經(jīng)向人工智能投入了數(shù)十億美元。但到目前為止,人工智能的承諾和結(jié)果之間存在巨大差距,只有大約 10%的人工智能投資產(chǎn)生了可觀的投資回報率。
最后,為了解決 MLOps 問題,首席數(shù)據(jù)分析官需要圍繞業(yè)務核心的數(shù)據(jù)科學構(gòu)建自己的能力,同時也要投資其他的與 MLOps自動化相關(guān)的技術(shù)。這是常見的“構(gòu)建與購買”困境,不僅從運營的角度(成本收益)去考量,更多地需要考慮人工智能投資在整個企業(yè)中滲透的速度和效率,以及是否通過更好的方式產(chǎn)生新的收入產(chǎn)品和客戶群,或通過提高自動化程度和減少浪費來削減成本。
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗,10年分布式架構(gòu)經(jīng)驗。曾任惠普技術(shù)專家。樂于分享,撰寫了很多熱門技術(shù)文章,閱讀量超過60萬?!斗植际郊軜?gòu)原理與實踐》作者。
原文標題:??MLOps | Is the Enterprise Repeating the Same DIY Mis??takes??