K8s和大模型真的搭嗎?
編譯|言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
K8s和大模型真的搭嗎? 本文拋出了一個問題,但答案仍有待驗(yàn)證。
1.K8s迎來了新的受眾群體
假設(shè)一位機(jī)器學(xué)習(xí)研究人員閱讀了一篇研究論文,并想在PyTorch環(huán)境中使用基于Python的GPU進(jìn)行測試。她要求她的工程團(tuán)隊(duì)訪問一個帶有兩個GPU的Jupyter筆記本和她的所有庫。
工程團(tuán)隊(duì)告訴她:這需要三天時間。他們必須獲取GPU的來源,創(chuàng)建一個堆棧,然后授予對JupyterHub的訪問權(quán)限。
“這正是DevOps 10年前所經(jīng)歷的,”獨(dú)立分析師Janakiram 3月在KubeCon+CloudNativeCon Europe的一次對話中表示。
“因此,現(xiàn)在的整個想法是,我們?nèi)绾渭涌爝@一進(jìn)程,并使企業(yè)IT能夠?qū)⒒A(chǔ)施帶到ML研究人員、工程師和開發(fā)人員可以隨時使用的程度,以便他們能夠快速將自己的想法轉(zhuǎn)化為代碼?”
新的人物角色反映了大型語言模型(LLM)對云原生社區(qū)的影響,并提出了關(guān)于身份和Kubernetes角色的問題。數(shù)據(jù)科學(xué)家甚至需要Kubernetes來將他們的模型投入生產(chǎn)嗎?
獨(dú)立分析師Sanjeev Mohan認(rèn)為NVIDIA推出的推理微服務(wù)Nim就是為Kubernetes精心策劃的Docker容器。
挑戰(zhàn)性就在于:Kubernetes將轉(zhuǎn)變?yōu)樯疃纫詳?shù)據(jù)為中心,這是數(shù)據(jù)的狀態(tài)性及頻繁變化的特點(diǎn)所造成的。數(shù)據(jù)在Kubernetes社區(qū)中從未發(fā)揮過如此重要的作用。Kubernetes社區(qū)從未需要以這樣的方式適應(yīng)生成人工智能、模型開發(fā)、集成、部署和管理帶來的新需求。
如果沒有在Kubernetes上部署數(shù)據(jù)模型的標(biāo)準(zhǔn)方法,未來的工作將需要社區(qū)通過新的硬件集成和項(xiàng)目來適應(yīng)新的“數(shù)據(jù)角色”。
2.AI如何讓K8s變得更強(qiáng)大?
Kubernetes服務(wù)LLMs,那LLM能為K8s做哪些?
但實(shí)際上,Kubernetes在人工智能中的作用是什么?數(shù)據(jù)角色問題把這件事帶到了最前沿。Kubernetes是一個控制平面——是的,這是有道理的。自2014年以來,它一直是DevOps的應(yīng)用程序架構(gòu)。
因此,Mohan提出的一個問題變得更加相關(guān):究竟K8s是服務(wù)AI,還是AI服務(wù)于K8s?
在KubeCon,我們看到了很多Kubernetes如何作為人工智能的控制平面。NVIDIA在主題演講中,他們討論了分配部分GPU的動態(tài)資源分配。這樣可以節(jié)省成本。這就是人工智能的Kubernetes。所有這些發(fā)展都進(jìn)行得很順利,Mohan說,我們將看到越來越多的Kubernet成為通用人工智能的控制平面。
但令一方面,LLM怎樣才能讓K8s更加強(qiáng)大呢?Mohan提出了一個非常有想象力的問題。
他說:“我還沒有看到太多這方面的情況,也許到之后的某一屆KubeCon上,我們將開始看到更高的集成度?!?/p>
OpenAI無疑是Kubernetes的盟友,該公司正在使用Kubernete來啟動和擴(kuò)大實(shí)驗(yàn)規(guī)模。
圖片
作為當(dāng)紅的人工智能研究實(shí)驗(yàn)室,OpenAI需要深度學(xué)習(xí)的基礎(chǔ)設(shè)施,使實(shí)驗(yàn)?zāi)軌蛟谠浦谢蜃约旱臄?shù)據(jù)中心中運(yùn)行,并易于擴(kuò)展。便攜性、速度和成本是主要驅(qū)動因素。
Oracle在KubeCon的高級副總裁Sudha Raghavan問道,如果沒有數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師思考如何配置它,以最有效地使用任何硬件GPU,Kubernetes將如何成為所有人工智能工作負(fù)載的默認(rèn)選項(xiàng)?
Raghavan也在KubeCon的一個小組討論會上談到了這樣一種設(shè)想,設(shè)想中,人們基于每個工作負(fù)載的工作變得更容易了,工程師可以配置開箱即用的模板,并理解這些是尚未出現(xiàn)的人工智能工作負(fù)載模式,并且有預(yù)定義的模板。
因此,任何想做實(shí)驗(yàn)的數(shù)據(jù)科學(xué)家都不必自己學(xué)習(xí),而是可以了解云原生計(jì)算基金會在其生態(tài)系統(tǒng)中為人工智能和ML社區(qū)提供的內(nèi)容。
英特爾開放生態(tài)系統(tǒng)副總裁兼總經(jīng)理Arun Gupta在一個小組討論會上表示,云原生社區(qū)的責(zé)任是彌合這一差距?!氨仨毟蛻艄睬?,客戶就是數(shù)據(jù)科學(xué)家。他說,一篇新的云原生人工智能論文解決了這些挑戰(zhàn)。
云原生AI
微軟首席產(chǎn)品經(jīng)理拉克倫?埃文森(Lachlan Evenson)與古普塔(Gupta)在同一小組中表示,Kubernetes社區(qū)中的一個新角色還包括人工智能工程師,他們位于數(shù)據(jù)科學(xué)家和基礎(chǔ)設(shè)施工程師或平臺工程師之間。
Evenson在小組討論中指出,人工智能工程師不僅需要了解人工智能世界的所有術(shù)語,還需要了解如何大規(guī)模使用這些分布式系統(tǒng)并構(gòu)建這些新平臺。
3.K8s承諾:可擴(kuò)展、安全
Kubernetes的創(chuàng)始人將Kubernete設(shè)計(jì)成了無狀態(tài)的,后來又構(gòu)建了有狀態(tài)的技術(shù)來與其分布式平臺集成。
Evenson說:“這不僅限于這個社區(qū),也直接造就了我們通過K8s社區(qū)在該平臺上構(gòu)建的可擴(kuò)展性?!?/p>
“我們需要提供開源替代品和開源平臺,這樣那些希望開始投資并了解人工智能如何影響其業(yè)務(wù)的公司,就可以采用模型,而不必?fù)?dān)心數(shù)據(jù)治理或安全問題,并開始在本地環(huán)境中對其進(jìn)行修改和熟悉?!?/p>
參考鏈接:??https://thenewstack.io/kubernetes-and-ai-are-they-a-fit/??
本文轉(zhuǎn)載自 ??51CTO技術(shù)棧??,作者:言征
