譯者 | 晶顏
審校 | 重樓
在我們的行業(yè)中,很少有組合能像人工智能(AI)和機(jī)器學(xué)習(xí)(ML)與云原生環(huán)境的結(jié)合那樣令人興奮并改變游戲規(guī)則。這是一個(gè)為創(chuàng)新、可擴(kuò)展性、甚至成本效率而生的“聯(lián)盟”。接下來(lái),就讓我們走進(jìn)這個(gè)數(shù)據(jù)科學(xué)與云相遇的動(dòng)態(tài)世界吧!
在我們探索AI/ML和云原生技術(shù)之間的協(xié)同作用之前,先來(lái)了解一些基礎(chǔ)概念。
- 人工智能(AI):一個(gè)寬泛的概念,指的是模仿人類(lèi)智能的機(jī)器。
- 機(jī)器學(xué)習(xí)(ML):“教”機(jī)器執(zhí)行特定任務(wù)并通過(guò)模式識(shí)別產(chǎn)生準(zhǔn)確輸出的過(guò)程。
- 云原生:一種利用現(xiàn)代云基礎(chǔ)設(shè)施來(lái)構(gòu)建可擴(kuò)展、有彈性和靈活的應(yīng)用程序的設(shè)計(jì)范式——在Kubernetes編排的Docker容器中構(gòu)建微服務(wù),并通過(guò)CI/CD管道持續(xù)部署。
AI/ML和云原生的融合
在云原生環(huán)境中實(shí)現(xiàn)AI和ML有哪些好處呢?
可擴(kuò)展性
你是否曾經(jīng)嘗試過(guò)手動(dòng)擴(kuò)展ML模型,因?yàn)樗艿綗o(wú)數(shù)請(qǐng)求的轟炸?這個(gè)過(guò)程顯然并不輕松。但有了云原生平臺(tái),擴(kuò)展就像周日下午在公園散步一樣容易。例如,Kubernetes可以根據(jù)實(shí)時(shí)指標(biāo)自動(dòng)擴(kuò)展運(yùn)行AI模型的pod,這意味著你的AI模型即使在受到脅迫的情況下也能表現(xiàn)良好。
敏捷性
在云原生世界中,微服務(wù)架構(gòu)意味著你的AI/ML組件可以獨(dú)立開(kāi)發(fā)、更新和部署。這種模塊化促進(jìn)了敏捷性,使你能夠快速地進(jìn)行創(chuàng)新和迭代,而不必?fù)?dān)心破壞整個(gè)系統(tǒng)。這就像你可以在開(kāi)車(chē)的時(shí)候換掉汽車(chē)引擎的部件來(lái)實(shí)現(xiàn)安全更新一樣。
成本效率
無(wú)服務(wù)器計(jì)算平臺(tái)(如AWS Lambda、Google Cloud Functions和Azure Functions)允許你僅在需要時(shí)運(yùn)行AI/ML工作負(fù)載,無(wú)需再為閑置的計(jì)算資源付費(fèi)。這相當(dāng)于在你離開(kāi)房間時(shí)關(guān)掉燈,簡(jiǎn)單、智能又經(jīng)濟(jì)。它對(duì)于間歇性或不可預(yù)測(cè)的工作負(fù)載也特別有利。
協(xié)作
云原生環(huán)境使數(shù)據(jù)科學(xué)家、開(kāi)發(fā)人員和運(yùn)營(yíng)團(tuán)隊(duì)之間的協(xié)作變得輕而易舉。有了集中的存儲(chǔ)庫(kù)、版本控制和CI/CD管道,每個(gè)人都可以在相同的ML生命周期中和諧地工作。
云原生環(huán)境中AI/ML的熱門(mén)應(yīng)用
雖然大多數(shù)公眾是通過(guò)與生成式AI聊天機(jī)器人的互動(dòng)認(rèn)識(shí)了AI/ML技術(shù),但很少有人意識(shí)到AI/ML已經(jīng)在多大程度上增強(qiáng)了他們的在線體驗(yàn)。以下是云原生環(huán)境中AI/ML的一些熱門(mén)用例:
AI驅(qū)動(dòng)的DevOps(AIOps)
通過(guò)使用AI/ML強(qiáng)化DevOps流程,你可以自動(dòng)進(jìn)行事件檢測(cè)、根本原因分析和預(yù)測(cè)性維護(hù)。此外,將AI/ML與可觀察性工具和CI/CD管道集成可以提高運(yùn)營(yíng)效率并減少服務(wù)停機(jī)時(shí)間。
Kubernetes + AI/ML
Kubernetes是長(zhǎng)期以來(lái)容器編排的實(shí)際平臺(tái),現(xiàn)在也是編排AI/ML工作負(fù)載的首選。Kubeflow等項(xiàng)目簡(jiǎn)化了Kubernetes上機(jī)器學(xué)習(xí)管道的部署和管理,這意味著你可以獲得對(duì)模型訓(xùn)練、調(diào)優(yōu)和服務(wù)的端到端支持。
邊緣計(jì)算
邊緣計(jì)算處理AI/ML工作負(fù)載更接近數(shù)據(jù)生成的位置,這大大減少了延遲。通過(guò)在邊緣位置部署輕量級(jí)人工智能模型,企業(yè)可以對(duì)物聯(lián)網(wǎng)傳感器、攝像頭和移動(dòng)設(shè)備(甚至是智能冰箱)等設(shè)備進(jìn)行實(shí)時(shí)推斷。
聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)不需要組織為了協(xié)作訓(xùn)練人工智能模型而共享原始數(shù)據(jù)。對(duì)于醫(yī)療保健和金融等具有嚴(yán)格隱私和合規(guī)法規(guī)的行業(yè)來(lái)說(shuō),這是一個(gè)很好的解決方案。
MLOps
MLOps將DevOps實(shí)踐集成到機(jī)器學(xué)習(xí)生命周期中。MLflow、TFX (TensorFlow Extended)和Seldon Core等工具使人工智能模型的持續(xù)集成和部署成為現(xiàn)實(shí)。MLOps是比DevOps更智能的存在。
AI/ML集成帶來(lái)的挑戰(zhàn)
集成讓事情變得有趣,但這一切也伴隨著挑戰(zhàn)。
復(fù)雜性
將AI/ML工作流程與云原生基礎(chǔ)設(shè)施集成并不適合謹(jǐn)小慎微的人。管理依賴關(guān)系、確保數(shù)據(jù)一致性和編排分布式訓(xùn)練過(guò)程都充滿復(fù)雜性,需要強(qiáng)大的技能支持和知識(shí)儲(chǔ)備。
延遲和數(shù)據(jù)傳輸
對(duì)于實(shí)時(shí)AI/ML應(yīng)用程序,延遲可能是一個(gè)關(guān)鍵問(wèn)題。在存儲(chǔ)節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)之間移動(dòng)大量數(shù)據(jù)會(huì)帶來(lái)延遲。邊緣計(jì)算解決方案可以通過(guò)更靠近數(shù)據(jù)源處理數(shù)據(jù)來(lái)緩解這一問(wèn)題。
成本管理
云的現(xiàn)收現(xiàn)付模式很棒,直到不受控制的資源分配開(kāi)始蠶食你的預(yù)算。實(shí)施資源配額、自動(dòng)擴(kuò)展策略和成本監(jiān)控工具是你的財(cái)務(wù)安全網(wǎng)。
AI/ML實(shí)踐指南
1. 模塊化!使用微服務(wù)的原則來(lái)設(shè)計(jì)你的AI/ML應(yīng)用。解耦數(shù)據(jù)預(yù)處理、模型訓(xùn)練和推理組件,以實(shí)現(xiàn)獨(dú)立擴(kuò)展和更新。
2. 利用托管服務(wù):云提供商提供AI/ML服務(wù),以簡(jiǎn)化基礎(chǔ)設(shè)施管理并加速開(kāi)發(fā)。
3. 觀察模型:將AI/ML工作負(fù)載與可觀察性工具集成—訪問(wèn)有關(guān)資源使用、模型性能和系統(tǒng)健康狀況的指標(biāo)可以幫助你主動(dòng)檢測(cè)和解決問(wèn)題。
4. 保護(hù)數(shù)據(jù)和模型:使用加密、訪問(wèn)控制和安全存儲(chǔ)解決方案來(lái)保護(hù)敏感數(shù)據(jù)和人工智能模型。
結(jié)語(yǔ)
AI/ML技術(shù)與云原生環(huán)境中的集成提供了可擴(kuò)展性、敏捷性和成本效率,同時(shí)增強(qiáng)了團(tuán)隊(duì)之間的協(xié)作。然而,駕馭這一格局也面臨著一系列挑戰(zhàn),涉及管理復(fù)雜性、確保數(shù)據(jù)隱私以及成本控制等問(wèn)題。
此外,一些熱門(mén)趨勢(shì)同樣值得關(guān)注,比如AIOps為DevOps帶來(lái)智慧;聯(lián)合學(xué)習(xí)讓組織在不共享數(shù)據(jù)的情況下共享智能。利用這些技術(shù)的關(guān)鍵在于最佳實(shí)踐:考慮模塊化設(shè)計(jì)、強(qiáng)大的監(jiān)控以及通過(guò)可觀察性工具獲得洞察力。
AI/ML在云原生環(huán)境中的未來(lái)并不僅僅是緊跟最新的技術(shù)潮流。它是關(guān)于構(gòu)建更加智能、有彈性和適應(yīng)性的系統(tǒng),讓科幻電影中的設(shè)想成為現(xiàn)實(shí)?,F(xiàn)在,請(qǐng)保持你的算法敏銳,你的云同步,一起見(jiàn)證接下來(lái)會(huì)發(fā)生什么吧!
原文標(biāo)題:Artificial Intelligence and Machine Learning in Cloud-Native Environments,作者:Reese Lee