編譯 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
K8s和大模型真的搭嗎? 本文拋出了一個(gè)問(wèn)題,但答案仍有待驗(yàn)證。
1.K8s迎來(lái)了新的受眾群體
假設(shè)一位機(jī)器學(xué)習(xí)研究人員閱讀了一篇研究論文,并想在PyTorch環(huán)境中使用基于Python的GPU進(jìn)行測(cè)試。她要求她的工程團(tuán)隊(duì)訪問(wèn)一個(gè)帶有兩個(gè)GPU的Jupyter筆記本和她的所有庫(kù)。
工程團(tuán)隊(duì)告訴她:這需要三天時(shí)間。他們必須獲取GPU的來(lái)源,創(chuàng)建一個(gè)堆棧,然后授予對(duì)JupyterHub的訪問(wèn)權(quán)限。
“這正是DevOps 10年前所經(jīng)歷的,”獨(dú)立分析師Janakiram 3月在KubeCon+CloudNativeCon Europe的一次對(duì)話中表示。
“因此,現(xiàn)在的整個(gè)想法是,我們?nèi)绾渭涌爝@一進(jìn)程,并使企業(yè)IT能夠?qū)⒒A(chǔ)施帶到ML研究人員、工程師和開發(fā)人員可以隨時(shí)使用的程度,以便他們能夠快速將自己的想法轉(zhuǎn)化為代碼?”
新的人物角色反映了大型語(yǔ)言模型(LLM)對(duì)云原生社區(qū)的影響,并提出了關(guān)于身份和Kubernetes角色的問(wèn)題。數(shù)據(jù)科學(xué)家甚至需要Kubernetes來(lái)將他們的模型投入生產(chǎn)嗎?
獨(dú)立分析師Sanjeev Mohan認(rèn)為NVIDIA推出的推理微服務(wù)Nim就是為Kubernetes精心策劃的Docker容器。
挑戰(zhàn)性就在于:Kubernetes將轉(zhuǎn)變?yōu)樯疃纫詳?shù)據(jù)為中心,這是數(shù)據(jù)的狀態(tài)性及頻繁變化的特點(diǎn)所造成的。數(shù)據(jù)在Kubernetes社區(qū)中從未發(fā)揮過(guò)如此重要的作用。Kubernetes社區(qū)從未需要以這樣的方式適應(yīng)生成人工智能、模型開發(fā)、集成、部署和管理帶來(lái)的新需求。
如果沒(méi)有在Kubernetes上部署數(shù)據(jù)模型的標(biāo)準(zhǔn)方法,未來(lái)的工作將需要社區(qū)通過(guò)新的硬件集成和項(xiàng)目來(lái)適應(yīng)新的“數(shù)據(jù)角色”。
2.AI如何讓K8s變得更強(qiáng)大?
Kubernetes服務(wù)LLMs,那LLM能為K8s做哪些?
但實(shí)際上,Kubernetes在人工智能中的作用是什么?數(shù)據(jù)角色問(wèn)題把這件事帶到了最前沿。Kubernetes是一個(gè)控制平面——是的,這是有道理的。自2014年以來(lái),它一直是DevOps的應(yīng)用程序架構(gòu)。
因此,Mohan提出的一個(gè)問(wèn)題變得更加相關(guān):究竟K8s是服務(wù)AI,還是AI服務(wù)于K8s?
在KubeCon,我們看到了很多Kubernetes如何作為人工智能的控制平面。NVIDIA在主題演講中,他們討論了分配部分GPU的動(dòng)態(tài)資源分配。這樣可以節(jié)省成本。這就是人工智能的Kubernetes。所有這些發(fā)展都進(jìn)行得很順利,Mohan說(shuō),我們將看到越來(lái)越多的Kubernet成為通用人工智能的控制平面。
但令一方面,LLM怎樣才能讓K8s更加強(qiáng)大呢?Mohan提出了一個(gè)非常有想象力的問(wèn)題。
他說(shuō):“我還沒(méi)有看到太多這方面的情況,也許到之后的某一屆KubeCon上,我們將開始看到更高的集成度。”
OpenAI無(wú)疑是Kubernetes的盟友,該公司正在使用Kubernete來(lái)啟動(dòng)和擴(kuò)大實(shí)驗(yàn)規(guī)模。
圖片
作為當(dāng)紅的人工智能研究實(shí)驗(yàn)室,OpenAI需要深度學(xué)習(xí)的基礎(chǔ)設(shè)施,使實(shí)驗(yàn)?zāi)軌蛟谠浦谢蜃约旱臄?shù)據(jù)中心中運(yùn)行,并易于擴(kuò)展。便攜性、速度和成本是主要驅(qū)動(dòng)因素。
Oracle在KubeCon的高級(jí)副總裁Sudha Raghavan問(wèn)道,如果沒(méi)有數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師思考如何配置它,以最有效地使用任何硬件GPU,Kubernetes將如何成為所有人工智能工作負(fù)載的默認(rèn)選項(xiàng)?
Raghavan也在KubeCon的一個(gè)小組討論會(huì)上談到了這樣一種設(shè)想,設(shè)想中,人們基于每個(gè)工作負(fù)載的工作變得更容易了,工程師可以配置開箱即用的模板,并理解這些是尚未出現(xiàn)的人工智能工作負(fù)載模式,并且有預(yù)定義的模板。
因此,任何想做實(shí)驗(yàn)的數(shù)據(jù)科學(xué)家都不必自己學(xué)習(xí),而是可以了解云原生計(jì)算基金會(huì)在其生態(tài)系統(tǒng)中為人工智能和ML社區(qū)提供的內(nèi)容。
英特爾開放生態(tài)系統(tǒng)副總裁兼總經(jīng)理Arun Gupta在一個(gè)小組討論會(huì)上表示,云原生社區(qū)的責(zé)任是彌合這一差距?!氨仨毟蛻艄睬?,客戶就是數(shù)據(jù)科學(xué)家。他說(shuō),一篇新的云原生人工智能論文解決了這些挑戰(zhàn)。
云原生AI
微軟首席產(chǎn)品經(jīng)理拉克倫?埃文森(Lachlan Evenson)與古普塔(Gupta)在同一小組中表示,Kubernetes社區(qū)中的一個(gè)新角色還包括人工智能工程師,他們位于數(shù)據(jù)科學(xué)家和基礎(chǔ)設(shè)施工程師或平臺(tái)工程師之間。
Evenson在小組討論中指出,人工智能工程師不僅需要了解人工智能世界的所有術(shù)語(yǔ),還需要了解如何大規(guī)模使用這些分布式系統(tǒng)并構(gòu)建這些新平臺(tái)。
3.K8s承諾:可擴(kuò)展、安全
Kubernetes的創(chuàng)始人將Kubernete設(shè)計(jì)成了無(wú)狀態(tài)的,后來(lái)又構(gòu)建了有狀態(tài)的技術(shù)來(lái)與其分布式平臺(tái)集成。
Evenson說(shuō):“這不僅限于這個(gè)社區(qū),也直接造就了我們通過(guò)K8s社區(qū)在該平臺(tái)上構(gòu)建的可擴(kuò)展性?!?/p>
“我們需要提供開源替代品和開源平臺(tái),這樣那些希望開始投資并了解人工智能如何影響其業(yè)務(wù)的公司,就可以采用模型,而不必?fù)?dān)心數(shù)據(jù)治理或安全問(wèn)題,并開始在本地環(huán)境中對(duì)其進(jìn)行修改和熟悉?!?/p>
參考鏈接:https://thenewstack.io/kubernetes-and-ai-are-they-a-fit/






