Kubernetes +大模型:CAST AI解決成本難題
Cast AI 利用其在 Kubernetes 自動化方面的專業(yè)知識,使 DevOps 和 AIOps 團隊能夠找到性能和成本最佳的 AI 模型。
譯自Kubernetes + LLMs: Cast AI Solves the Cost Puzzle,作者 Jeffrey Burt。
幾年前,Cast AI推出了一個自動化平臺,用于管理Kubernetes的運營和成本。鑒于 Kubernetes 和 AI 之間的共生關(guān)系,這家成立五年的初創(chuàng)公司也幫助組織及其開發(fā)人員管理 AI 運營成本也就不足為奇了。
這家位于佛羅里達州邁阿密的公司并非 AI 新手;其 Kubernetes 平臺由機器學(xué)習(xí)算法驅(qū)動。生成式 AI 的快速興起為 Cast AI 開辟了另一條途徑。該供應(yīng)商在四月推出了其 AI 優(yōu)化器服務(wù),該服務(wù)通過與任何與 OpenAI 兼容的 API 端點集成并識別 LLM(商業(yè)和開源)來自動降低部署大型語言模型 (LLM)的成本,從而為最低的推理成本提供最佳性能。
Cast AI 還擁有其 Playground 交互式測試工具,允許開發(fā)人員比較 LLM 的性能和成本,然后自定義配置,而無需調(diào)整代碼。
在最近的KubeCon + CloudNative 北美大會上,Cast AI 推出了 AI Enabler,這是 Playground 的產(chǎn)品化版本,它利用供應(yīng)商的 Kubernetes 基礎(chǔ)設(shè)施優(yōu)化能力將來自組織和 DevOps 人員的查詢智能地路由到針對他們正在運行的任務(wù)的最佳、最具成本效益的 LLM(再次強調(diào),商業(yè)或開源)。
圖片
Cast AI 的聯(lián)合創(chuàng)始人兼首席產(chǎn)品官告訴 The New Stack,使用該工具的初始名稱,“Playground 使團隊能夠揭開 LLM 性能和成本的神秘面紗。它不再是猜測。用戶可以直接對模型進行基準測試,了解它們的權(quán)衡,并為其特定工作負載做出數(shù)據(jù)驅(qū)動的決策,所有這些都無需編寫一行代碼?!?/p>
成本高昂的 LLMs
Cast AI 的各種工具——包括 AI Optimizer 和現(xiàn)在的 AI Enabler(之前的 Playground)——旨在幫助開發(fā)人員掌握生成式 AI 領(lǐng)域,該領(lǐng)域的 LLM 數(shù)量及其運行成本正在迅速增長。在一篇博文中,該公司產(chǎn)品營銷總監(jiān)指出,OpenAI 的 LLM 模型的定價頁面有 10 頁長,至少有 20 種不同的模型,用于不同的用例和定價模型。
鑒于此,開發(fā)人員和AIOps團隊由于時間緊迫而難以確定哪個模型最適合他們的特定需求,這通常是一項手動工作。然后是運行 LLM 的成本,這需要昂貴的組件,如 Nvidia GPU,并消耗大量能源。根據(jù)國際能源署的說法,ChatGPT 查詢消耗的電力是谷歌搜索的 10 倍。
成本可能會增加。一家成立兩年的 AI 咨詢公司 的創(chuàng)始人在一篇博文中寫道,圍繞 LLM 的成本增長速度有多快。指出,雖然自兩年前 ChatGPT 發(fā)布以來,LLM 一直是生成式 AI 的基礎(chǔ),但成本一直是組織實現(xiàn)其潛力的障礙。
“將 LLM 集成到您的應(yīng)用程序中的費用范圍從按需使用情況的幾美分到在云環(huán)境中托管單個 LLM 實例的每月 20,000 美元以上不等,” 寫道?!按送?,還與微調(diào)、訓(xùn)練、向量搜索和擴展相關(guān)的巨額成本?!?/p>
控制成本
Cast AI 的 表示,控制這些成本可以使 DevOps 團隊充分利用 LLM 的功能。他寫道:“一些團隊可能沒有意識到,使用默認的LLM或依賴單一提供商可能并非所有用例的最佳選擇。”“結(jié)果,他們經(jīng)常使用比必要更資源密集且昂貴的模型。他們沒有探索其他選項或根據(jù)特定需求定制模型,錯過了更高效、更經(jīng)濟的解決方案。這可能導(dǎo)致不必要的支出和資源利用效率低下?!?/p>
DevOps和MLOps團隊負責(zé)構(gòu)建和維護生成式AI工作負載的基礎(chǔ)設(shè)施,但他們無法透明地了解計算資源、API調(diào)用或數(shù)據(jù)使用的成本,而轉(zhuǎn)向云也無濟于事,因為需要考慮數(shù)百個具有不同配置、性能和定價的計算實例。Radhakrishnan表示,自動化是關(guān)鍵。
儀表板和Playground
AI Enabler包含一個用于監(jiān)控成本的儀表板,并創(chuàng)建一個報告,比較使用默認LLM與利用其他模型的支出。該儀表板匯總來自一系列LLM提供商的數(shù)據(jù),以更清晰地了解每個LLM的成本。該工具還可以自動選擇最佳LLM,無需額外配置。
圖片
他寫道:“LLM代理智能地選擇最優(yōu)的LLM模型來處理用戶查詢,確保組織以最低的成本獲得最佳性能。”“這種方法通過選擇和執(zhí)行具有較低推理成本的優(yōu)化LLM來實現(xiàn)最大限度的節(jié)省?!?/p>
這與該供應(yīng)商的AI Enabler非常契合,AI Enabler比較LLM并創(chuàng)建基準,開發(fā)人員可以使用這些基準來開發(fā)最適合其需求的配置,并做出更好的決策,以優(yōu)化最適合性能和成本的LLM。
圖片
使用AI Enabler,DevOps團隊可以通過創(chuàng)建比較LLM、提供商和響應(yīng)的場景來探索其選項,測試路由行為并可視化路由決策,以及配置和調(diào)整路由參數(shù)。
Gil說:“借助Cast AI Playground,我們將控制權(quán)交還給企業(yè)?!薄巴ㄟ^允許團隊并排比較LLM的性能和成本,我們正在幫助他們釋放AI的全部潛力,同時確保每一美元都花得其所?!?/p>
在Kubernetes中遷移工作負載
在展會上,Cast AI還推出了其商業(yè)支持的容器實時遷移功能,該功能能夠自動且不間斷地遷移有狀態(tài)和不可中斷的工作負載——例如MySQL、PostgreSQL或MongoDB等NoSQL數(shù)據(jù)庫以及AI應(yīng)用程序——在Kubernetes中。該工具將使組織能夠確保持續(xù)運行時間,創(chuàng)建更高效的操作并降低基礎(chǔ)設(shè)施成本。
Radhakrishnan寫道:“有狀態(tài)的工作負載不能簡單地停止和重新啟動,而不會冒數(shù)據(jù)丟失或中斷的風(fēng)險?!薄斑@就是為什么Kubernetes最初簡化所有工作負載基礎(chǔ)設(shè)施的承諾未能滿足復(fù)雜、數(shù)據(jù)驅(qū)動型應(yīng)用程序的需求?!?/p>
Cast AI正在將其新功能與其他自動化工具集成,包括Bin-Packing和Eviction、集群和節(jié)點重新平衡、Spot回退、Spot中斷ML預(yù)測和Spot實例價格漂移重新平衡。
他寫道:“運行資源密集型有狀態(tài)應(yīng)用程序的組織無法承受停機時間?!薄坝捎跊]有廣泛采用的商業(yè)解決方案可以將這些敏感的工作負載遷移到具有成本效益的資源,因此它們最終會在利用率不足且昂貴的節(jié)點上運行?!?/p>
借助容器實時遷移,組織可以自動將這些工作負載遷移到更少的優(yōu)化節(jié)點中。這確保了資源的最大利用率以及最適合其需求的實例的選擇,所有這些都降低了成本。