掌握多云:AI工作負(fù)載的簡(jiǎn)單成本優(yōu)化技巧
現(xiàn)實(shí)案例展示了企業(yè)如何在多云 AI 中實(shí)現(xiàn)成本效益。
譯自Master Multicloud With These Simple Cost Tips for AI Workloads,作者 Advit Patel。
現(xiàn)代人工智能的進(jìn)步依賴于數(shù)據(jù)處理、模型訓(xùn)練和實(shí)時(shí)推理。通過(guò)將任務(wù)分散到不同的云提供商,多云配置可實(shí)現(xiàn)更大的靈活性、更好的性能以及減少對(duì)單一供應(yīng)商的依賴。
然而,隨著管理計(jì)算能力、存儲(chǔ)和云間數(shù)據(jù)傳輸變得更加復(fù)雜,這種技術(shù)經(jīng)常會(huì)增加成本。到 2024 年底,主要由人工智能驅(qū)動(dòng)的全球云服務(wù)支出預(yù)計(jì)將達(dá)到 6788 億美元,Gartner 預(yù)測(cè)。因此,成本控制成為運(yùn)營(yíng)和戰(zhàn)略需求。
通過(guò)確定主要的成本驅(qū)動(dòng)因素并實(shí)施定制的優(yōu)化技術(shù),企業(yè)可以最大限度地提高其多云投資,同時(shí)保持支持 AI 創(chuàng)新所需的可擴(kuò)展性和效率。本指南探討了在多云生態(tài)系統(tǒng)中實(shí)現(xiàn) AI 工作負(fù)載成本效益的成熟成本優(yōu)化策略。
在多個(gè)云服務(wù)提供商之間分配人工智能工作負(fù)載被稱為 AI 的多云架構(gòu)。這種方法利用每個(gè)提供商的優(yōu)勢(shì),例如區(qū)域數(shù)據(jù)中心或特定的 AI 工具,來(lái)提高性能、靈活性和可靠性。
此外,它還降低了服務(wù)中斷和供應(yīng)商鎖定的風(fēng)險(xiǎn),保證了不間斷的運(yùn)營(yíng)并遵守各種法律規(guī)定。
由于多項(xiàng)實(shí)質(zhì)性優(yōu)勢(shì),多云架構(gòu)在 AI 應(yīng)用的實(shí)施中正變得越來(lái)越普遍。
1. 適應(yīng)性和防止供應(yīng)商鎖定
組織可以使用各種云提供商來(lái)選擇最適合特定 AI 工作負(fù)載的服務(wù),從而確保成本效益和峰值性能。這種方法可以隨著業(yè)務(wù)需求的變化平穩(wěn)地切換提供商,避免依賴單一供應(yīng)商。
2. 改進(jìn)的可靠性和故障轉(zhuǎn)移能力
提高系統(tǒng)彈性涉及在多個(gè)云平臺(tái)之間分配 AI 工作負(fù)載。在出現(xiàn)技術(shù)難題或中斷時(shí),可以同時(shí)將工作負(fù)載轉(zhuǎn)移到另一個(gè)提供商,從而確保不間斷的運(yùn)營(yíng)并減少服務(wù)中斷。
3. 頂級(jí)服務(wù)的可用性
不同的云提供商擅長(zhǎng)不同的領(lǐng)域。通過(guò)利用每個(gè)提供商的獨(dú)特優(yōu)勢(shì),例如先進(jìn)的機(jī)器學(xué)習(xí)工具、專(zhuān)用硬件加速器或區(qū)域特定服務(wù),企業(yè)可以通過(guò)多云策略最大限度地提高 AI 應(yīng)用的性能。
4. 遵守?cái)?shù)據(jù)主權(quán)
選擇在特定地點(diǎn)設(shè)有數(shù)據(jù)中心并跨多個(gè)云運(yùn)行的提供商,可以幫助企業(yè)遵守各種監(jiān)管標(biāo)準(zhǔn),同時(shí)仍然遵守本地?cái)?shù)據(jù)主權(quán)標(biāo)準(zhǔn)。
采用多云方法有助于公司提高其 AI 能力,增強(qiáng)系統(tǒng)彈性,并保持適應(yīng)快速變化的技術(shù)場(chǎng)景所需的靈活性。
AI 工作負(fù)載中的關(guān)鍵成本驅(qū)動(dòng)因素
圖片
了解影響成本的主要因素對(duì)于 AI 工作負(fù)載中的成本管理至關(guān)重要。每個(gè)成本因素對(duì)于確定總體成本都至關(guān)重要,尤其是在多云配置中。以下是主要貢獻(xiàn)因素:
- 計(jì)算資源
AI 任務(wù)需要高性能 GPU、TPU 或 CPU,特別是對(duì)于模型訓(xùn)練和推理。這些處理需求可能非常昂貴,特別是對(duì)于大規(guī)模訓(xùn)練會(huì)話或?qū)崟r(shí)應(yīng)用。如果沒(méi)有得到充分管理,預(yù)留和按需實(shí)例會(huì)迅速累積成本。
- 數(shù)據(jù)存儲(chǔ)
AI 系統(tǒng)使用龐大的數(shù)據(jù)集進(jìn)行部署和訓(xùn)練。類(lèi)型(例如,SSD 與 HDD)、訪問(wèn)頻率和層級(jí)(例如,標(biāo)準(zhǔn)與存檔)都會(huì)影響存儲(chǔ)成本。過(guò)度配置或無(wú)效的數(shù)據(jù)管理可能會(huì)加劇存儲(chǔ)費(fèi)用。
- 數(shù)據(jù)傳輸
在多云配置中,云或區(qū)域之間的數(shù)據(jù)傳輸會(huì)增加額外成本。云公司會(huì)對(duì)平臺(tái)外的數(shù)據(jù)遷移收取出口費(fèi)用,有時(shí)會(huì)導(dǎo)致意外的成本飆升。頻繁地在平臺(tái)之間移動(dòng)數(shù)據(jù)會(huì)增加這些費(fèi)用。
- 網(wǎng)絡(luò)
服務(wù)間通信、負(fù)載均衡和帶寬使用是網(wǎng)絡(luò)費(fèi)用的主要原因。使用流數(shù)據(jù)管道或分布式系統(tǒng)的人工智能工作負(fù)載可能會(huì)導(dǎo)致高昂的網(wǎng)絡(luò)成本。
- 運(yùn)營(yíng)和維護(hù)成本
持續(xù)監(jiān)控、微調(diào)和再訓(xùn)練對(duì)于維護(hù)AI模型是必要的,這些過(guò)程需要人力和資源成本。運(yùn)營(yíng)的額外費(fèi)用包括專(zhuān)有AI技術(shù)的許可和底層基礎(chǔ)設(shè)施的升級(jí)。
通過(guò)了解這些成本因素,公司可以制定有針對(duì)性的優(yōu)化計(jì)劃,以減少浪費(fèi)性支出并提高多云AI環(huán)境中的生產(chǎn)力。
多云AI工作負(fù)載的成本優(yōu)化策略
使用云原生技術(shù)和實(shí)施有效程序?qū)τ诮档投嘣艫I安裝中的費(fèi)用至關(guān)重要。以下是降低成本而不犧牲性能的關(guān)鍵策略:
- 解釋您的云賬單
成本優(yōu)化始于了解云計(jì)費(fèi)。云賬單通常包含復(fù)雜而詳細(xì)的成本。使用計(jì)費(fèi)儀表板或第三方解決方案來(lái)評(píng)估支出,查找出口費(fèi)用等隱藏成本,并發(fā)現(xiàn)計(jì)算或存儲(chǔ)成本峰值。
- 構(gòu)建一個(gè)組合的多云視角
對(duì)多云利用率的集成視角有助于改進(jìn)成本控制。CloudHealth 或 Spot.io 通過(guò)將云服務(wù)組合到單個(gè)儀表板中,簡(jiǎn)化了監(jiān)控并對(duì)比了提供商定價(jià)和資源利用率。
- 減少閑置資源的浪費(fèi)
閑置的計(jì)算和存儲(chǔ)資源在不提供價(jià)值的情況下會(huì)耗盡預(yù)算。利用 Google Cloud 的 Recommender 或 AWS Trusted Advisor 等資源來(lái)查找和消除不必要的實(shí)例、卷或服務(wù)。
- 獲得并保持合適的規(guī)模
您可以通過(guò)修改實(shí)例類(lèi)型、大小和區(qū)域以符合使用模式來(lái)確保資源滿足工作負(fù)載需求。定期審核和自動(dòng)擴(kuò)展技術(shù)有助于保持理想的成本性能比。
- 隨著時(shí)間的推移積累節(jié)省
承諾儲(chǔ)蓄或預(yù)留計(jì)劃,以獲得可預(yù)測(cè)工作負(fù)載的降低費(fèi)率。例如,Google 承諾使用折扣和 Amazon EC2 預(yù)留實(shí)例可以大幅降低長(zhǎng)期計(jì)算費(fèi)用。
- 在風(fēng)險(xiǎn)和成本削減之間取得平衡
在削減費(fèi)用時(shí),不要犧牲可靠性或性能。在提供商之間策略性地分配工作負(fù)載以節(jié)省成本,而不會(huì)面臨中斷或服務(wù)惡化的風(fēng)險(xiǎn)。
- 建立問(wèn)責(zé)制和一致性
促進(jìn) DevOps、IT 和財(cái)務(wù)部門(mén)之間的跨職能合作。使用成本分配工具將成本分配給特定組或項(xiàng)目,以鼓勵(lì)對(duì)堅(jiān)持預(yù)算的問(wèn)責(zé)制。
- 基于數(shù)據(jù)做出決策
使用分析和人工智能跟蹤消費(fèi)模式、預(yù)測(cè)未來(lái)成本并發(fā)現(xiàn)低效率。數(shù)據(jù)驅(qū)動(dòng)的洞察力有助于改進(jìn)資源分配和擴(kuò)展決策。
- 無(wú)服務(wù)器計(jì)算
由于無(wú)服務(wù)器系統(tǒng)根據(jù)需要?jiǎng)討B(tài)分配資源,因此它們消除了對(duì)專(zhuān)用基礎(chǔ)設(shè)施的需求。AWS Lambda 或 Google Cloud Functions 等無(wú)服務(wù)器系統(tǒng)可以使推理服務(wù)等 AI 應(yīng)用程序受益匪淺。這種按需付費(fèi)策略可根據(jù)工作負(fù)載需求無(wú)縫擴(kuò)展,并降低與閑置時(shí)間相關(guān)的成本。
通過(guò)實(shí)施這些策略,公司可以優(yōu)化利用多云系統(tǒng)進(jìn)行 AI 工作負(fù)載,同時(shí)平衡性能和成本。通過(guò)監(jiān)控和改進(jìn)這些策略,組織可以隨著時(shí)間的推移節(jié)省資金。
特定于 AI 的成本管理工具和實(shí)踐
在多云系統(tǒng)中有效管理特定于 AI 的云費(fèi)用需要結(jié)合強(qiáng)大的技術(shù)和最佳實(shí)踐。以下是監(jiān)控、預(yù)測(cè)和控制這些成本的主要策略和工具:
- 使用云提供商成本管理工具
AWS Cost Explorer:提供對(duì) AWS 消耗和費(fèi)用的深入洞察,使客戶能夠評(píng)估支出趨勢(shì)并發(fā)現(xiàn)改進(jìn)領(lǐng)域。
Google Cloud 的成本管理工具:提供詳細(xì)的計(jì)費(fèi)報(bào)告、預(yù)算提醒和成本優(yōu)化技巧,以幫助您更有效地管理支出。
Azure 成本管理和計(jì)費(fèi):用戶可以跟蹤云費(fèi)用、創(chuàng)建預(yù)算并接收警告以避免超額支付。
- 實(shí)施第三方成本優(yōu)化平臺(tái)
VMware CloudHealth:提供多云成本管理和可操作數(shù)據(jù),用于優(yōu)化和洞察跨多個(gè)平臺(tái)的支出。
Spot.io:自動(dòng)并智能地分配資源,以降低成本,同時(shí)支持眾多云提供商。
- 實(shí)施成本管理最佳實(shí)踐
資源標(biāo)記:使用一致的標(biāo)記方法,按項(xiàng)目、部門(mén)或環(huán)境對(duì)資源進(jìn)行分類(lèi),以便進(jìn)行詳細(xì)的成本跟蹤和問(wèn)責(zé)。
定期審計(jì):定期評(píng)估云資源,以發(fā)現(xiàn)和刪除未充分利用或閑置的資產(chǎn),從而降低浪費(fèi)成本。
預(yù)算和警報(bào):創(chuàng)建預(yù)算并設(shè)置警報(bào)以監(jiān)控支出水平,從而能夠主動(dòng)控制成本超支。
利用預(yù)留實(shí)例和節(jié)省計(jì)劃:承諾使用云提供商的預(yù)留實(shí)例或節(jié)省計(jì)劃,以從預(yù)期工作負(fù)載的折扣費(fèi)率中獲益。
結(jié)合這些工具和方法,公司將能夠了解其與 AI 相關(guān)的云支出,做出明智的決策,并在多個(gè)云設(shè)置中應(yīng)用成功的成本削減措施。
可視化 AI 工作負(fù)載中的關(guān)鍵成本驅(qū)動(dòng)因素
計(jì)算資源、數(shù)據(jù)存儲(chǔ)、傳輸、網(wǎng)絡(luò)、許可和人力資源都是重要的成本驅(qū)動(dòng)因素。每個(gè)因素都有重大影響,其中計(jì)算資源通常占最大份額,因?yàn)?AI 模型訓(xùn)練和推理需要高處理能力。
數(shù)據(jù)存儲(chǔ)和傳輸費(fèi)用會(huì)迅速累積,特別是對(duì)于經(jīng)常訪問(wèn)或跨云提供商移動(dòng)的大型數(shù)據(jù)集。
網(wǎng)絡(luò)成本也可能上升,尤其是在多云環(huán)境中,服務(wù)之間的通信會(huì)產(chǎn)生額外費(fèi)用。AI 技術(shù)的許可費(fèi)用以及開(kāi)發(fā)和維護(hù)所需的人力資源增加了總體成本。
圖片
- 計(jì)算資源: 40%
- 數(shù)據(jù)存儲(chǔ): 20%
- 數(shù)據(jù)傳輸: 15%
- 網(wǎng)絡(luò): 10%
- 許可和軟件: 10%
- 人力資源: 5%
自動(dòng)擴(kuò)縮優(yōu)化策略工作流:
圖片
多云成本優(yōu)化中的常見(jiàn)錯(cuò)誤及如何避免
在多云設(shè)置中優(yōu)化支出存在不同的問(wèn)題。組織經(jīng)常會(huì)遇到可能導(dǎo)致不必要支出的典型問(wèn)題。了解這些錯(cuò)誤并制定避免這些錯(cuò)誤的措施對(duì)于有效的成本管理至關(guān)重要。
- 過(guò)度配置資源
錯(cuò)誤:投資于超出滿足最大所需輸出所需的容量,導(dǎo)致浪費(fèi)和額外的實(shí)施成本。
解決方案:對(duì)資源實(shí)施自動(dòng)擴(kuò)縮,以便它們根據(jù)需求動(dòng)態(tài)調(diào)節(jié)。定期分析使用趨勢(shì)并調(diào)整資源以滿足實(shí)際需求。
- 忽略閑置資源
錯(cuò)誤:未能識(shí)別和終止不需要或閑置的資源,這會(huì)導(dǎo)致持續(xù)收費(fèi)而沒(méi)有提供價(jià)值。
解決方案:執(zhí)行定期審計(jì)以識(shí)別和消除閑置實(shí)例、存儲(chǔ)和服務(wù)。使用云提供商技術(shù)自動(dòng)識(shí)別未充分利用的資源。
- 缺乏統(tǒng)一的成本可見(jiàn)性
錯(cuò)誤:使用單一支出視角管理不同的云平臺(tái),使跟蹤和控制成本更易于管理。
解決方案:使用具有用于跟蹤和評(píng)估所有平臺(tái)支出的統(tǒng)一儀表板的多云成本管理技術(shù)。這種方法促進(jìn)了透明度和明智的決策。
- 忽略數(shù)據(jù)傳輸成本
錯(cuò)誤:忽略跨云提供商傳輸數(shù)據(jù)所涉及的成本,這些成本會(huì)迅速增加。
解決方案:創(chuàng)建具有最少云間數(shù)據(jù)交換的架構(gòu)。如有必要,請(qǐng)?jiān)诜歉叻鍟r(shí)段安排傳輸以利用較低的費(fèi)用。
- 低估許可和支持費(fèi)用
錯(cuò)誤:未能考慮軟件許可和支持服務(wù)的費(fèi)用,導(dǎo)致預(yù)算超支。
解決方案:徹底審查所有許可協(xié)議和支持合同。為了節(jié)省資金,請(qǐng)考慮使用開(kāi)源軟件或協(xié)商商業(yè)協(xié)議。
- 培訓(xùn)和治理不足
錯(cuò)誤:缺乏足夠的培訓(xùn)和治理法規(guī)可能會(huì)導(dǎo)致云使用效率低下和支出增加。
解決方案:投資于培訓(xùn)計(jì)劃,以教育團(tuán)隊(duì)最佳云使用實(shí)踐。制定治理結(jié)構(gòu)以執(zhí)行成本優(yōu)化策略,同時(shí)提供監(jiān)督。
解決和糾正這些常見(jiàn)問(wèn)題可以使公司應(yīng)對(duì)其多云管理挑戰(zhàn),從而在云環(huán)境中實(shí)現(xiàn)更好的優(yōu)化和成本控制。
多云 AI 工作負(fù)載成本優(yōu)化的案例研究
在多云系統(tǒng)中實(shí)施針對(duì) AI 工作負(fù)載的成本優(yōu)化解決方案,已使一些企業(yè)在提高性能的同時(shí)節(jié)省了資金。以下是一些展示這些成功的真實(shí)案例研究:
案例研究 1:Arabesque AI:利用搶占式實(shí)例進(jìn)行經(jīng)濟(jì)高效的 AI 模型訓(xùn)練
Arabesque AI,一家金融資產(chǎn)管理機(jī)構(gòu),應(yīng)用人工智能來(lái)創(chuàng)建適應(yīng)性強(qiáng)的投資策略。該機(jī)構(gòu)在努力擴(kuò)展 AI 模型訓(xùn)練的計(jì)算資源的同時(shí)還要保持在預(yù)算之內(nèi)。Arabesque AI 使用 Google Kubernetes Engine (GKE) 中的 Google Cloud 搶占式節(jié)點(diǎn)池動(dòng)態(tài)擴(kuò)展資源,從而使服務(wù)器費(fèi)用減少了 75%,數(shù)據(jù)處理能力提高了十倍。
案例研究 2:Finder:通過(guò)云提供商轉(zhuǎn)換實(shí)現(xiàn)成本節(jié)約
Finder,一家澳大利亞比價(jià)網(wǎng)站,通過(guò)從 Amazon Web Services (AWS) 切換到 Google Cloud Platform (GCP),大幅降低了其云計(jì)算支出。盡管轉(zhuǎn)移成本很高,F(xiàn)inder 預(yù)計(jì)成本降低 12%,但實(shí)際實(shí)現(xiàn)了超過(guò) 50% 的下降。與 Google 和 Search 的合作促成了這一轉(zhuǎn)變,這表明了審查和切換云提供商以提高成本效率的潛在好處。
AI 和多云成本優(yōu)化的未來(lái)趨勢(shì)
隨著越來(lái)越多的企業(yè)為 AI 工作負(fù)載實(shí)施多云解決方案,許多新趨勢(shì)正在影響成本優(yōu)化的格局:
- AI 驅(qū)動(dòng)的成本優(yōu)化工具
將人工智能融入成本管理,改變了企業(yè)監(jiān)控和控制支出的方式。先進(jìn)的 AI 算法檢查消費(fèi)趨勢(shì),預(yù)測(cè)未來(lái)支出,并提供可操作的優(yōu)化建議。例如,像Sedai這樣的平臺(tái)使用 AI/ML 來(lái)提供持續(xù)優(yōu)化,幫助應(yīng)用程序團(tuán)隊(duì)最大限度地提高性能和規(guī)?;某杀拘?。
- 可持續(xù)且節(jié)能的 AI 基礎(chǔ)設(shè)施
隨著人們對(duì)環(huán)境問(wèn)題的認(rèn)識(shí)不斷提高,人們正在大力創(chuàng)建可持續(xù)的 AI 基礎(chǔ)設(shè)施。公司正在投資節(jié)能數(shù)據(jù)中心并實(shí)施更低碳足跡的政策。諸如AMD 和 Fujitsu 之間的合作,旨在生產(chǎn)將高性能與能源效率相結(jié)合的計(jì)算機(jī)系統(tǒng),從而促進(jìn)可持續(xù)的 AI 研究。
- 用于復(fù)雜多云環(huán)境的成本管理工具不斷發(fā)展
多云架構(gòu)的復(fù)雜性需要復(fù)雜的成本管理策略。新興工具為多個(gè)云平臺(tái)提供一致的儀表板、實(shí)時(shí)監(jiān)控和自動(dòng)化優(yōu)化。例如,VMware 的 CloudHealth 提供完整的云成本管理,提供對(duì)跨多個(gè)云平臺(tái)的支出的可見(jiàn)性以及可操作的優(yōu)化見(jiàn)解。
結(jié)論
在多云系統(tǒng)中,高效地管理 AI 工作負(fù)載需要徹底了解成本驅(qū)動(dòng)因素和應(yīng)用程序優(yōu)化技術(shù)。使用 AI 驅(qū)動(dòng)技術(shù)、采用可持續(xù)基礎(chǔ)設(shè)施實(shí)踐并與不斷變化的成本控制解決方案保持同步的組織將能夠?qū)⑦\(yùn)營(yíng)效率與財(cái)務(wù)紀(jì)律相結(jié)合。在日益復(fù)雜的環(huán)境中,主動(dòng)的成本優(yōu)化可確保可擴(kuò)展性和可持續(xù)性,并提高 AI 系統(tǒng)的性能。