譯者 | 李睿
審校 | 孫淑娟 梁策
每到歲末年初,企業(yè)或組織都會(huì)為未來(lái)一年的發(fā)展制定計(jì)劃,例如擴(kuò)展業(yè)務(wù)規(guī)?;蚪档驮瞥杀?。
降低云成本已經(jīng)連續(xù)五年被列為企業(yè)業(yè)務(wù)運(yùn)營(yíng)的首要舉措。根據(jù)調(diào)研機(jī)構(gòu)發(fā)布的2021年云狀況調(diào)查報(bào)告,60%以上的企業(yè)計(jì)劃優(yōu)化其云成本。
那么到底出了什么問題,為什么有那么多工程團(tuán)隊(duì)在云成本優(yōu)化方面陷入困境?
以下將介紹一些最常見的導(dǎo)致云計(jì)算資源、時(shí)間和資金浪費(fèi)的問題,并找出行之有效的解決方案。
為什么云成本優(yōu)化如此具有挑戰(zhàn)性?
公共云為按使用付費(fèi)模式,這為工程團(tuán)隊(duì)帶來(lái)了更多的自由,但這種自由也有代價(jià)。它可能會(huì)像Pinterest等公司的云計(jì)算賬單所證明的那樣數(shù)額驚人。
研究表示,大多數(shù)企業(yè)都在努力應(yīng)對(duì)不斷增長(zhǎng)的云成本。通常來(lái)看,公共云支出平均超出了預(yù)算24%。
云支出超出預(yù)算的原因有很多。這些問題通常歸結(jié)為低成本可見性、復(fù)雜的云定價(jià)以及估計(jì)未來(lái)需求的問題。所有這些問題都可能會(huì)讓企業(yè)的預(yù)算和支出“蒙上陰云”。
采用云計(jì)算服務(wù)不能完全幫助企業(yè)降低成本,而高昂的云成本賬單可能會(huì)令人生畏。
企業(yè)在2022年需要解決的6大云成本優(yōu)化問題
1.仍受預(yù)留和省錢方案(Saving Plans)的誘惑
在考慮節(jié)省云計(jì)算服務(wù)成本時(shí),企業(yè)首先想到的是為使用的云計(jì)算服務(wù)支付更少的費(fèi)用。企業(yè)之所以選擇預(yù)留或省錢方案,是因?yàn)榕c按需定價(jià)模式相比,它們能夠獲得很大的折扣。而為貌似可預(yù)測(cè)的云支出預(yù)留聽起來(lái)也挺有道理。
但如果仔細(xì)觀察就會(huì)發(fā)現(xiàn),企業(yè)并沒有解決問題,只是在成本上獲得了些折扣而已。
(1)那么問題出在哪里?
不知人們是否記得,Pinterest曾提前投入1.7億美元在亞馬遜AWS云計(jì)算服務(wù)上,但隨后又不得不再拿2000萬(wàn)美元購(gòu)買額外資源。
該公司的故事有助于說(shuō)明一個(gè)事實(shí),想知道從現(xiàn)在起一到三年內(nèi)需要多少容量非常困難。
企業(yè)如果長(zhǎng)期選擇單個(gè)供應(yīng)商服務(wù),其業(yè)務(wù)也可能會(huì)失去靈活性,并不得不為一直變化的需求付出高昂代價(jià)。
(2)那省錢方案怎么辦呢?
最好的解決方案是完全不選用這種方式。不去提前購(gòu)買資源,而是考慮怎樣解決云計(jì)算支出,例如:
- 調(diào)整規(guī)模
- 自動(dòng)縮放
- 打包
- 資源調(diào)度
2.陷入過(guò)度配置的陷阱
當(dāng)企業(yè)團(tuán)隊(duì)選擇的資源多于運(yùn)行工作負(fù)載實(shí)際所需的資源時(shí),就會(huì)發(fā)生過(guò)度配置。這背后通常是防患于未然的心理引發(fā),因?yàn)闆]人希望應(yīng)用程序運(yùn)行受到干擾。
在某些業(yè)務(wù)設(shè)置中,企業(yè)的團(tuán)隊(duì)習(xí)慣獲取比工作負(fù)載所需更多的資源,“以防萬(wàn)一”。盡管這種方式在提高性能方面對(duì)工程師來(lái)說(shuō)具有意義,但會(huì)造成云計(jì)算浪費(fèi)和成本提高。
(1)過(guò)度配置有什么問題?
簡(jiǎn)單來(lái)說(shuō),就會(huì)導(dǎo)致云計(jì)算浪費(fèi)以及不必要甚至可能失控的開支。
從長(zhǎng)遠(yuǎn)來(lái)看,團(tuán)隊(duì)養(yǎng)成過(guò)度配置的習(xí)慣不是好事。如果只是為了安全考慮而習(xí)慣選擇大于工作負(fù)載所需的實(shí)例,那么隨著企業(yè)和應(yīng)用程序規(guī)模擴(kuò)張,這種方式將疲于應(yīng)對(duì),企業(yè)將面臨一項(xiàng)耗資巨大的賬單。
把這筆錢花在更重要的事情上不是更好嗎?比如,投入到應(yīng)對(duì)氣候危機(jī)上去,過(guò)度配置恰恰在為氣候危機(jī)加劇推波助瀾。
(2)如何處理過(guò)度配置?
通常的做法是投資定制監(jiān)控和成本管理解決方案。他們對(duì)配置規(guī)模的調(diào)整建議可以幫助企業(yè)減少對(duì)過(guò)度配置資源的依賴,但仍需人工執(zhí)行。
另一個(gè)解決方案是采用自動(dòng)化解決方案。自動(dòng)規(guī)模調(diào)整可以選擇最合適的實(shí)例類型和大小,在滿足應(yīng)用程序要求的同時(shí)降低成本。
每當(dāng)集群需要額外的節(jié)點(diǎn)時(shí),人工智能驅(qū)動(dòng)的實(shí)例選擇算法就會(huì)選擇能夠?qū)崿F(xiàn)最高性能的資源。更好的一方面是,團(tuán)隊(duì)無(wú)需自已動(dòng)手,因?yàn)檫@一切都是自動(dòng)進(jìn)行的。
由于過(guò)度配置與許多企業(yè)的文化盤根錯(cuò)節(jié),因此必須建立成本優(yōu)化例程以平衡性能、可靠性和成本。在實(shí)現(xiàn)更廣泛的企業(yè)變革的道路上,自動(dòng)化可能是向前邁出的重要一步。
3.被孤立的云計(jì)算資源困擾
為項(xiàng)目啟動(dòng)一個(gè)實(shí)例,然后忘記關(guān)閉它很容易發(fā)生。因此,許多團(tuán)隊(duì)都在努力處理沒有所有權(quán)但仍會(huì)繼續(xù)產(chǎn)生成本的孤立實(shí)例。
還記得Adobe公司每天被收取8萬(wàn)美元Azure云平臺(tái)計(jì)劃外費(fèi)用的失誤嗎?這是企業(yè)肯定要避免的問題。
在大型企業(yè)中,因?yàn)樵S多計(jì)劃同時(shí)進(jìn)行,沒有集中的資源可見性,這一問題尤其嚴(yán)重。
在IT部門之外和IT部門不知情的情況下管理的計(jì)劃(影子IT)可能占到企業(yè)所有IT支出的40%。此外,研究表明,影子云的使用量可能是已知云服務(wù)使用量的10倍。
(1)孤立的云計(jì)算資源有什么問題?
孤立的云計(jì)算資源代表著資金流失,具有復(fù)雜的可持續(xù)性影響。
簡(jiǎn)而言之,數(shù)據(jù)中心采用大量硬件,并消耗了大量電力,使得整個(gè)信息與通信技術(shù)行業(yè)的碳足跡增加顯著。他們需要的能源每四年翻一番,而AWS或Azure等云計(jì)算供應(yīng)商每個(gè)新開放的區(qū)域都會(huì)導(dǎo)致這個(gè)問題。
這就是為什么減少云計(jì)算浪費(fèi)是減少不必要支出和相關(guān)碳足跡的關(guān)鍵。
(2)如何應(yīng)對(duì)這一挑戰(zhàn)?
確保只運(yùn)行真正需要的資源可能極具挑戰(zhàn)性,尤其是在大型企業(yè)中。但是,企業(yè)如何識(shí)別和淘汰未使用的實(shí)例?這就是自動(dòng)化再次發(fā)揮作用的地方。
自動(dòng)化的云優(yōu)化解決方案可以不斷掃描其使用情況,找出效率低的情況,并盡可能減少使用資源。這些方案還可以關(guān)閉未使用的實(shí)例和進(jìn)程,以降低企業(yè)的云成本。
4.低效管理需求的下降和激增
構(gòu)建電子商務(wù)基礎(chǔ)設(shè)施的工程師非常了解變化之速度。例如,一位具有影響力的人物在一夜之間就可能帶來(lái)數(shù)百萬(wàn)的銷售額,一個(gè)網(wǎng)站也可以因流量激增而癱瘓。
隨著時(shí)間的推移,大多數(shù)其他應(yīng)用程序的使用情況也會(huì)發(fā)生變化,但在費(fèi)用和性能之間取得平衡仍然是一個(gè)持續(xù)的難題。
(1)這有什么問題?
如果企業(yè)將標(biāo)簽頁(yè)保持打開狀態(tài),流量激增可能會(huì)產(chǎn)生大量且無(wú)法預(yù)料的云計(jì)算賬單,或者如果對(duì)其資源進(jìn)行嚴(yán)格限制,則會(huì)導(dǎo)致應(yīng)用程序崩潰。
當(dāng)需求低時(shí),企業(yè)將面臨支付成本過(guò)高的風(fēng)險(xiǎn)。當(dāng)需求很高時(shí),企業(yè)為客戶提供的服務(wù)質(zhì)量可能很差。
企業(yè)可以采用云成本管理解決方案監(jiān)控其使用情況,如果超過(guò)設(shè)定的水平或有任何異常情況,將會(huì)實(shí)時(shí)提醒。此類工具可以為企業(yè)提供有用的建議,幫助企業(yè)根據(jù)當(dāng)前需求調(diào)整云資源。
但是,人工擴(kuò)展云容量既困難又耗時(shí)。
除了跟蹤系統(tǒng)中發(fā)生的一切,企業(yè)通常還需要注意:
- 流暢地處理流量高峰和下降——并在其使用的所有服務(wù)中為每個(gè)虛擬機(jī)向上和向下擴(kuò)展資源;
- 確保應(yīng)用于一個(gè)工作負(fù)載的更改不會(huì)對(duì)其他工作負(fù)載造成任何問題;
- 自行配置和管理資源組,以確保它們包含適合其工作負(fù)載的資源。
(2)如何解決這個(gè)問題?
這是云計(jì)算自動(dòng)化可以發(fā)揮作用的另一個(gè)領(lǐng)域,幫助企業(yè)節(jié)省大量時(shí)間和費(fèi)用。自動(dòng)擴(kuò)展可以自動(dòng)處理上面列出的所有任務(wù),并控制云成本。如果企業(yè)使用容器編排器Kubernetes,可以從三個(gè)內(nèi)置機(jī)制中受益。
- Horizontal Pod Auto-Scaler(HPA)添加或刪除pod副本,以匹配應(yīng)用程序不斷變化的使用情況。它監(jiān)視企業(yè)的應(yīng)用程序以了解其副本的數(shù)量是否應(yīng)該更改,并計(jì)算刪除或添加它們是否會(huì)使當(dāng)前值更接近目標(biāo)。
- Vertical Pod Auto-Scaler(VPA)增加和減少CPU和內(nèi)存資源請(qǐng)求,以更好地使企業(yè)分配的集群資源與實(shí)際使用情況保持一致。
- Cluster Auto-Scaler在支持的平臺(tái)上更改集群中的節(jié)點(diǎn)數(shù)。如果它識(shí)別出一個(gè)節(jié)點(diǎn)的pod可以重新調(diào)度到集群中其他節(jié)點(diǎn),那么它就會(huì)把這些pod逐出并移除備用節(jié)點(diǎn)。
在許多解決方案中,企業(yè)只需要定義水平自動(dòng)縮放和垂直自動(dòng)縮放策略,自主優(yōu)化工具將為其處理其余部分。
5.沒有利用搶占式(Spot)實(shí)例的機(jī)會(huì)
云計(jì)算服務(wù)提供商以更低的價(jià)格出售其未使用的容量,尤其是將成本與他們的常規(guī)按需報(bào)價(jià)進(jìn)行比較的時(shí)候。
在AWS云平臺(tái)中,搶占式實(shí)例最高可享受90%的折扣。
(1)搶占式實(shí)例有什么難處?
由于企業(yè)競(jìng)標(biāo)備用計(jì)算資源,因此永遠(yuǎn)不知道這些容量能保持多久可用。有些搶占式實(shí)例具有預(yù)置的持續(xù)時(shí)間;例如,AWS提供了一種類型,可為企業(yè)提供長(zhǎng)達(dá)6小時(shí)的不間斷時(shí)間保證。
但除此之外,供應(yīng)商可以回收企業(yè)正在使用的搶占式實(shí)例,在30秒到2分鐘內(nèi)給你通知。
但人類無(wú)法在這么短時(shí)間內(nèi)做出反應(yīng)。創(chuàng)建一個(gè)新的虛擬機(jī)也需要比這時(shí)間更長(zhǎng),所以將面臨潛在的停機(jī)風(fēng)險(xiǎn)。
這就是為什么如果你決定使用搶占式實(shí)例,你必須要接受中斷一定會(huì)發(fā)生的事實(shí)。對(duì)于關(guān)鍵或無(wú)法容忍這一情況的工作負(fù)載,它們顯然不是正確的選擇。
(2)如何應(yīng)對(duì)這一挑戰(zhàn)?
盡管存在風(fēng)險(xiǎn),但搶占式實(shí)例對(duì)那些無(wú)狀態(tài)且可以橫向擴(kuò)展的服務(wù)(即具有多個(gè)副本)非常適合。幸運(yùn)的是,現(xiàn)代架構(gòu)中的大多數(shù)服務(wù)都是無(wú)狀態(tài)的,因?yàn)镵ubernetes就是為這種類型的設(shè)置而設(shè)計(jì)的。
使用搶占式實(shí)例的過(guò)程如下所示:
①需要確定工作負(fù)載以及它處理中斷的能力。
②檢查供應(yīng)商提供的實(shí)例,并選擇最適合需求的實(shí)例。一個(gè)經(jīng)驗(yàn)是選擇不太受歡迎的實(shí)例,并檢查它們的中斷頻率。
③此時(shí)戰(zhàn)略性地設(shè)置最高出價(jià),以避免價(jià)格上漲時(shí)可能出現(xiàn)的中斷。
④企業(yè)可能還需要考慮分組管理?yè)屨际綄?shí)例,并請(qǐng)求多種類型以增加獲得它們的機(jī)會(huì)。
企業(yè)可以人工完成這些步驟,但要使這一切正常進(jìn)行,需要為大量配置、設(shè)置和維護(hù)任務(wù)做好準(zhǔn)備。
自動(dòng)化此時(shí)再次派上用場(chǎng),除了上述過(guò)程之外,當(dāng)企業(yè)需要的搶占式實(shí)例暫時(shí)不可用時(shí),自動(dòng)化解決方案可以立即提供幫助。
6.采用自動(dòng)云優(yōu)化延遲
本文提到了自動(dòng)化云優(yōu)化,這是有原因的。
如果企業(yè)已經(jīng)采用云原生技術(shù),正在運(yùn)行Kubernetes,甚至可能使用現(xiàn)代DevOps方法——自動(dòng)化這部分基礎(chǔ)設(shè)施絕對(duì)是一個(gè)好主意。
德勤公司將云計(jì)算自動(dòng)化列為2021年及以后的首要趨勢(shì)之一,尤其是在大型企業(yè)環(huán)境中,它為IT團(tuán)隊(duì)帶來(lái)了切實(shí)的成果。
首先,它減少了企業(yè)在配置虛擬機(jī)、創(chuàng)建集群、選擇正確資源等方面所需的人工工作。這一變化節(jié)省了時(shí)間,讓企業(yè)的工程師可以專注于更重要的任務(wù)、進(jìn)行創(chuàng)新并充分利用其云計(jì)算基礎(chǔ)設(shè)施。
更重要的是,自動(dòng)化工具允許更頻繁的更新,這是持續(xù)部署理念的關(guān)鍵。它還降低了人為錯(cuò)誤的可能性,降低了運(yùn)營(yíng)基礎(chǔ)設(shè)施的成本,提高了系統(tǒng)的安全性和彈性,并增強(qiáng)了備份流程。
最后,自動(dòng)化使企業(yè)能夠了解其正在使用的資源,否則這些資源將難以控制。
簡(jiǎn)而言之,云計(jì)算自動(dòng)化已經(jīng)成為科技行業(yè)的新常態(tài)。
(1)延遲云計(jì)算自動(dòng)化有什么問題?
既然云計(jì)算自動(dòng)化有那么多毋庸置疑的好處,且其勢(shì)不可擋,那么為什么企業(yè)不這么做呢?
自動(dòng)化可能帶來(lái)許多挑戰(zhàn),比如對(duì)新解決方案的抵觸,對(duì)實(shí)施成本過(guò)高的擔(dān)憂,再到需要更新現(xiàn)有流程的問題。
與大多數(shù)數(shù)字化轉(zhuǎn)型項(xiàng)目一樣,成功的關(guān)鍵在于人,企業(yè)需要在人員的層面上鼓勵(lì)變革。而當(dāng)涉及工作時(shí),麥肯錫公司的研究證明,員工普遍擔(dān)心被技術(shù)取代。
然而,自動(dòng)化帶來(lái)的優(yōu)勢(shì)遠(yuǎn)大于風(fēng)險(xiǎn)。例如,這一點(diǎn)在2021年DevOps狀況調(diào)查報(bào)告中表現(xiàn)得很明顯,有97%的受訪企業(yè)認(rèn)為自動(dòng)化提高了他們的工作質(zhì)量。
在2022年延遲云計(jì)算自動(dòng)化等于錯(cuò)過(guò)了以下好處:
- 為企業(yè)的應(yīng)用選擇最有效的實(shí)例類型和大小;
- 自動(dòng)擴(kuò)展云資源以應(yīng)對(duì)需求高峰和下降;
- 消除未使用資源以降低成本;
- 通過(guò)管理潛在中斷來(lái)優(yōu)化搶占式實(shí)例;
- 減少其他領(lǐng)域的不必要開支,例如存儲(chǔ)、備份、安全、配置更改等——所有這些都是實(shí)時(shí)的,而且成本只是企業(yè)人工實(shí)施的一小部分。
(2)如何解決這個(gè)挑戰(zhàn)?
克服人對(duì)變革和全新解決方案的抵觸問題由來(lái)已久。自動(dòng)化云優(yōu)化能讓團(tuán)隊(duì)從重復(fù)性任務(wù)的負(fù)擔(dān)中解脫,但僅告知團(tuán)隊(duì)這一點(diǎn)可能還不夠。所以也希望有更多的企業(yè)能在2022年采用自動(dòng)化云優(yōu)化,并享受到它帶來(lái)的好處。
原文標(biāo)題:6 Top Cloud Cost Optimization Issues To Avoid in 2022 and How To Deal With Them,作者:Laurent Gil