聚云科技 CTO 丁冠宇:加速FinOps實(shí)踐,實(shí)現(xiàn)企業(yè)云成本治理與優(yōu)化
原創(chuàng)近些年,隨著云計(jì)算的快速發(fā)展,越來越多的關(guān)鍵業(yè)務(wù)遷移到云端。然而,諸多企業(yè)在審計(jì)成本時(shí)發(fā)現(xiàn),云成本并不像宣傳云計(jì)算優(yōu)勢那樣節(jié)省,反而費(fèi)用支出比以前更大。
根據(jù) Gartner 全球公有云支出的預(yù)測報(bào)告顯示,2022 年全球公有云支出已達(dá) 5000 億美金,預(yù)計(jì)在 2023 年會達(dá)到 6000 億美金,并且還會持續(xù)增長。但是,另一份報(bào)告指出,2023 年會有 28% 的云成本是浪費(fèi)的。
過去十年,企業(yè)對于云計(jì)算的頭號挑戰(zhàn)都是安全性,但隨著企業(yè)上云的不斷深入,云支出的不斷增加,云成本管理成為企業(yè)上云最大的挑戰(zhàn)。那么,企業(yè)如何開展云成本優(yōu)化?這就需要引入 FinOps(云成本優(yōu)化)的概念。
降本增效利器,F(xiàn)inOps 讓云成本價(jià)值最大化
FinOps 是 “Finance” 和 “DevOps” 的合成詞,是一種云成本管理和優(yōu)化的解決方案,并為組織、企業(yè)、團(tuán)隊(duì)提供了系統(tǒng)化的方法論,其中每個(gè)人都應(yīng)該對自己的云資源成本負(fù)責(zé)。
根據(jù)FinOps基金會對 FinOps 的定義:FinOps 是將 DevOps、財(cái)務(wù)和業(yè)務(wù)整合在一起的變革,其目標(biāo)在于優(yōu)化一個(gè)組織在云計(jì)算上的支出的財(cái)務(wù)規(guī)范和技術(shù)解決方案,即根據(jù)支出的歷史記錄和來自預(yù)期負(fù)載的信息,F(xiàn)inOps 可以在需要時(shí)預(yù)分配資源或估算成本。
那么,企業(yè)如何通過 FinOps 來進(jìn)行云成本管理和優(yōu)化呢?在近日舉行的 2023 亞馬遜云科技中國峰會上,聚云科技 CTO 丁冠宇在白金講堂進(jìn)行了主題為《云服務(wù)智能化與 FinOps:實(shí)現(xiàn)可持續(xù)發(fā)展》的演講,與現(xiàn)場用戶探討云服務(wù)智能化和 FinOps 在實(shí)現(xiàn)企業(yè)可持續(xù)發(fā)展方面的關(guān)鍵作用,以及 FinOps 在實(shí)現(xiàn)云成本優(yōu)化方面的重要性。
丁冠宇指出,在理想狀況下,隨著企業(yè)使用云計(jì)算的資源量逐漸增多,規(guī)模也在擴(kuò)大,企業(yè)上云的單位經(jīng)濟(jì)成本是下降的。但是實(shí)際情況卻是,企業(yè)上云的單位經(jīng)濟(jì)成本反而不斷上升。這是一個(gè)非常不健康的發(fā)展?fàn)顟B(tài)。
隨著企業(yè)大規(guī)模工作負(fù)載遷移上云,采用多云架構(gòu),加之企業(yè)缺乏成本可見性和控制策略,具有低效的文化和組織變革,種種原因疊加后,有可能就會導(dǎo)致企業(yè)云成本的失控。
此外,云資源的浪費(fèi)不但增加了企業(yè)成本,還可能對可持續(xù)性發(fā)展帶來不小影響??沙掷m(xù)業(yè)務(wù)被視為推動業(yè)務(wù)發(fā)展、提高效率和增加收入的關(guān)鍵機(jī)會。企業(yè)如何面對成本管理和環(huán)境問題雙重考量呢?答案是 FinOps+GreenOps。FinOps 主要關(guān)注云成本的管理和優(yōu)化,GreenOps 主要關(guān)注關(guān)于環(huán)境以及可持續(xù)性發(fā)展的問題,如果企業(yè)能夠?qū)?FinOps 和GreenOps 相結(jié)合,并作為企業(yè)的戰(zhàn)略性發(fā)展目標(biāo),相信企業(yè)就會達(dá)到經(jīng)濟(jì)效益和環(huán)境效益雙贏的效果。
破局:基于FinOps 理念的多云成本管理與平臺 SavingsNow
在云成本管理與優(yōu)化的發(fā)展趨勢下,聚云科技也在積極擁抱變化和挑戰(zhàn)?;?FinOps 理念,聚云科技自研了云成本管理與優(yōu)化平臺 SavingsNow,幫助企業(yè)解決在云計(jì)算環(huán)境中面臨的財(cái)務(wù)管理痛點(diǎn)。丁冠宇認(rèn)為,不計(jì)后果的云支出時(shí)代已經(jīng)結(jié)束。為了達(dá)到可持續(xù)發(fā)展目標(biāo),公有云用戶需要做一件事,就是 Savings Now。
據(jù)了解,SavingsNow 提供全方位的云成本管理和優(yōu)化服務(wù),支持客戶實(shí)現(xiàn)成本分級化管理、成本分?jǐn)偤唾Y源占用率等多種功能,幫助企業(yè)降低成本支出,提高資源利用率和優(yōu)化決策。
聚云科技 SavingsNow 云成本優(yōu)化的核心能力集中在三個(gè)領(lǐng)域,成本的可視化、成本優(yōu)化和成本運(yùn)營。丁冠宇表示,為了能夠讓系統(tǒng)更加具備擴(kuò)展性以及滿足數(shù)據(jù)合規(guī)等問題,聚云科技將整個(gè)系統(tǒng)部署在亞馬遜云科技的架構(gòu)之上,共分為三層,包括用戶層、應(yīng)用層和數(shù)據(jù)層。目前,SavingsNow 平臺已經(jīng)支持了數(shù)十億美金數(shù)據(jù)的管控。
2023 年,聚云科技觀察到,從業(yè)者對 FinOps 能力的優(yōu)先級排名發(fā)生了變化。成本分配、建立 FinOps 文化、資源利用率與合理調(diào)整配置進(jìn)入前 3 名,成本分配仍然是優(yōu)先級最高的能力,表明它是 FinOps 科學(xué)實(shí)踐的基礎(chǔ)。丁冠宇介紹了五種場景下的成本管理問題和解決方法。
場景一:成本衡量分?jǐn)偱c問責(zé)
FinOps 的一個(gè)基本原則是:“每個(gè)人都應(yīng)對自己的云使用負(fù)責(zé)”。因此,企業(yè)需要構(gòu)建成本衡量分?jǐn)偤蛦栘?zé)機(jī)制,讓所有的成本都得到它的歸屬,讓所有人可以了解真正的使用云成本。然而,成本分?jǐn)偛皇且货矶偷?。雖然企業(yè)可以通過云賬號和成本標(biāo)簽識別專用云資源,但未分配的共享成本如果不能適當(dāng)?shù)剡M(jìn)行分?jǐn)?,工程師和產(chǎn)品經(jīng)理就無法全面了解他們的產(chǎn)品的實(shí)際成本是多少。面對百萬、千萬條賬單明細(xì)記錄,成本分?jǐn)偣ぷ鬟€是比較復(fù)雜的,再加上一些個(gè)性化的成本分?jǐn)偡绞?,?jīng)常給運(yùn)營同學(xué)帶來不小的麻煩。
SavingsNow 可以通過定義分?jǐn)倢ο螅x擇分?jǐn)偩S度以及分?jǐn)偡绞剑瑥亩⒊杀痉謹(jǐn)偰P?,以滿足不同業(yè)務(wù)部門、項(xiàng)目對成本分?jǐn)偟男枨蟆?/span>
場景二:引入預(yù)測,感知未來
丁冠宇指出,組織如果過度依賴于傳統(tǒng)的本地基礎(chǔ)設(shè)施,會面臨著成本(運(yùn)營+運(yùn)維)高昂、資源限制和維護(hù)復(fù)雜性等挑戰(zhàn)。但是若將其核心業(yè)務(wù)系統(tǒng)從 IDC 遷移到公有云之上,公司也希望通過成本預(yù)測,制定詳細(xì)的預(yù)算規(guī)劃,并設(shè)定成本控制的目標(biāo),確保在預(yù)算范圍內(nèi)完成云遷移。丁冠宇建議,將整個(gè)成本預(yù)算拆分成兩步,第一步是業(yè)務(wù)上云前的資源成本估算,第二步是成本預(yù)測。結(jié)合預(yù)測和估算能力才可以幫助企業(yè)做更高精準(zhǔn)的成本預(yù)算。
因?yàn)樵骗h(huán)境本身是動態(tài)的,云定價(jià)模型也是動態(tài)的,業(yè)務(wù)自身也在根據(jù)需求驅(qū)動而不斷變化,比如業(yè)務(wù)方進(jìn)行市場推廣活動、節(jié)假日的大促等,在所有動態(tài)的因素中,企業(yè)很難做出準(zhǔn)確的預(yù)測。SavingsNow 當(dāng)前成本預(yù)測方法是基于歷史數(shù)據(jù)預(yù)測的方案,這種方案適合穩(wěn)態(tài)的業(yè)務(wù),后續(xù)會支持結(jié)合事件驅(qū)動的方式,達(dá)到相對全面且準(zhǔn)確的效果。
場景三:高度可見的云成本
在日常工作中,我們各個(gè)業(yè)務(wù)團(tuán)隊(duì)和產(chǎn)品負(fù)責(zé)人需要定期向上級組織領(lǐng)導(dǎo)定期匯報(bào)業(yè)務(wù)的成本情況,比如對于高管來說,需要創(chuàng)建高度可見的 FinOps 儀表盤;對于業(yè)務(wù)人員,要創(chuàng)建各個(gè)業(yè)務(wù)部門的成本 KPI 儀表盤;對于運(yùn)維人員,需要一個(gè)靈活的成本分析引擎,幫助運(yùn)維同學(xué)快速定位到觸發(fā)成本異常的根因。那么,有效的儀表板對于傳達(dá)和掌握團(tuán)隊(duì)的云成本狀態(tài)是至關(guān)重要的。
如果將成本分析需求進(jìn)一步分解,就是所謂的成本洞察,而洞察就需要數(shù)據(jù)是準(zhǔn)確且準(zhǔn)實(shí)時(shí)的。眾所周知,云賬單最大的弱點(diǎn)就是滯后性,這就給成本分析和做成本決策增加了難度。此外,支持多項(xiàng)云成本指標(biāo)、靈活查詢分組、支持標(biāo)簽過濾、數(shù)據(jù)權(quán)限隔離、報(bào)告的訂閱和分享,也是成本洞察的必備能力。
SavingsNow 成本可視化主打的就是簡單易用。根據(jù)角色不同預(yù)設(shè)了多種維度的儀表盤,可以進(jìn)行全面的成本數(shù)據(jù)展示,而且通過聚云科技的最佳實(shí)踐,平臺預(yù)設(shè)了 80 多項(xiàng)預(yù)設(shè)的云成本分析報(bào)告,可以讓沒有任何賬單經(jīng)驗(yàn)的同學(xué)快速上手,開箱即用;同時(shí)引入成本 BI 引擎,滿足賬單相關(guān)的個(gè)性化分析;并且支持多云環(huán)境匯總分析,比如將亞馬遜云科技的賬單和 GCP 的賬單并進(jìn)行匯總分析。此外,SavingsNow 提供豐富的報(bào)告操作功能,包括訂閱、發(fā)送、導(dǎo)出、克隆、權(quán)限、多幣種、暗色主題、圖表的自由擺放、周報(bào)格式、大屏等多種功能。
場景四:成本異常監(jiān)控
盡管公有云提供了很多安全防護(hù)手段,但也不妨?xí)龅揭恍┌踩┒?,被惡意開啟和大量占用計(jì)算資源并導(dǎo)致費(fèi)用增加;也有因?yàn)槌绦蚺渲貌划?dāng)而導(dǎo)致的費(fèi)用增加;架構(gòu)或產(chǎn)品的特性更新也可能會導(dǎo)致一定的成本增加;因此,企業(yè)需要通過配置告警規(guī)則,結(jié)合平臺提供的智能發(fā)現(xiàn)能力,盡早發(fā)現(xiàn)成本異常,并向運(yùn)維或產(chǎn)品負(fù)責(zé)人通知異常情況,盡早避免不必要的成本浪費(fèi)。
SavingsNow 成本監(jiān)控告警模型,在時(shí)間粒度上支持到每天/每周/每月,監(jiān)測范圍覆蓋到云賬號、云服務(wù)、云項(xiàng)目、資源 ID 和資源 Tag 等。告警指標(biāo)可以按照時(shí)間粒度的環(huán)比,從而進(jìn)行成本異常的監(jiān)控;如果出現(xiàn)異常,還可以結(jié)合成本分析報(bào)告,定位根因。
場景五:左手穩(wěn)定性、右手降成本
隨著業(yè)務(wù)不斷迭代的過程中,各業(yè)務(wù)部門逐漸產(chǎn)生不同類型的云資源費(fèi)用,包括計(jì)算類、數(shù)據(jù)庫、云存儲、數(shù)據(jù)傳輸?shù)?。然而,盡管出現(xiàn)了多種云資源類型,計(jì)算費(fèi)用通常占據(jù)了企業(yè)在云平臺上的主要開支,約占總費(fèi)用的 50%左右。因此,對計(jì)算資源進(jìn)行成本優(yōu)化成為云成本優(yōu)化的主要需求。
在資源的用量優(yōu)化方面,可實(shí)施優(yōu)化的渠道也有很多種,例如資源配置、數(shù)據(jù)傳輸、彈性、競價(jià)實(shí)例等,雖然這些方式大家都耳熟能詳,但是能做到的卻不多。一般對成本優(yōu)化程度高、有核心人員監(jiān)督的組織,相對完成的比較好。
丁冠宇表示,很多企業(yè)都會覺得,成本優(yōu)化是件挺簡單的事情。但在他看來成本優(yōu)化是最難做的,影響成本優(yōu)化的兩個(gè)杠桿分別是資源的用量和費(fèi)率,只有用量和費(fèi)率同時(shí)降低,同時(shí)進(jìn)行優(yōu)化,才能達(dá)到最終費(fèi)用的降低。成本優(yōu)化另一個(gè)難做的點(diǎn)是,很難讓開發(fā)者或運(yùn)維同學(xué)增強(qiáng)成本優(yōu)化的意識。
是否有既不影響業(yè)務(wù)穩(wěn)定性,又能夠大量節(jié)約成本的策略?公有云廠商提出了一種基于“承諾”的云定價(jià)模型。它改進(jìn)了穩(wěn)定狀態(tài)工作負(fù)載的單位經(jīng)濟(jì)效益,在不改變已部署資源情況下,能夠覆蓋計(jì)算、數(shù)據(jù)庫、分析、媒體服務(wù)等多種資源類型的成本,“承諾”之后優(yōu)勢比較明顯,但是決策很難做。
為此,聚云科技研發(fā)的彈性的折扣策略,可以實(shí)現(xiàn)對客戶“免承諾”的折扣技術(shù)方案。聚云科技建設(shè)的成本優(yōu)化體系分為三層結(jié)構(gòu)。底層提供一種“免承諾”的折扣費(fèi)率,為企業(yè)實(shí)現(xiàn)了一種實(shí)施復(fù)雜度最低,TCO 影響最高的一級優(yōu)化策略;第二層,提供資源用量的優(yōu)化建議,比如正確的資源配置、閑置資源的掃描等等;最上層也是相對最具挑戰(zhàn)性的,彈性伸縮和 Spot 競價(jià)實(shí)例調(diào)度策略,適合業(yè)務(wù)容錯(cuò)性強(qiáng)、靈活度高,無狀態(tài)的工作負(fù)載使用。丁冠宇指出,如果這三種策略結(jié)合,可以為客戶節(jié)約成本 60% 以上。
SavingsNow 賦能 JOYME 進(jìn)行成本優(yōu)化
北京樂我無限科技有限公司(以下簡稱 JOYME)是主打海外市場的移動直播服務(wù)商,在全球推出名為 Live.me 的全球直播和社交平臺,目前已成為美國最受歡迎的社交應(yīng)用程序之一,并已在 200 多個(gè)國家和地區(qū)推出。LiveMe 于 2016 年 4 月上線,目前已在全球積累了超過 1 億用戶和超過 300 萬的主播。除了主打的 C 端用戶的直播產(chǎn)品,JOYME 業(yè)務(wù)也涉及游戲、工具產(chǎn)品等。
2016 年,JOYME 當(dāng)時(shí)業(yè)務(wù)單一,主要是 C 端直播產(chǎn)品,采用的全是裸機(jī)式的服務(wù),使用了大量的 EC2 以及其他的托管服務(wù)。隨著業(yè)務(wù)要求快速迭代,2017 年 JOYME 開始走向容器化,將業(yè)務(wù)服務(wù)遷移至 ECS 集群;2019 年,JOYME 拓展業(yè)務(wù)線,并將 ECS 集群遷移至 EKS 集群,同時(shí)引入 Spot 實(shí)例。2022 年,JOYME 在業(yè)務(wù)架構(gòu)層面開始使用 Serverless 幫助實(shí)現(xiàn)降本增效,聚云科技幫助 JOYME 進(jìn)行了一系列的成本優(yōu)化措施。
在幫助 JOYME 成本優(yōu)化的時(shí)候,聚云科技搭建了三層優(yōu)化模型,包括資源統(tǒng)一管理、成本數(shù)據(jù)可視化以及專項(xiàng)服務(wù)治理。通過持續(xù)優(yōu)化業(yè)務(wù)系統(tǒng)架構(gòu),控制和優(yōu)化成本,從而實(shí)現(xiàn)云上高效運(yùn)維和敏捷開發(fā)。此外,聚云科技為 JOYME 提供專業(yè)的 MSP 運(yùn)維管理服務(wù),幫助 JOYME 完成在基礎(chǔ)設(shè)施、安全合規(guī)、系統(tǒng)架構(gòu)及運(yùn)維管理上的全面提升。經(jīng)過兩年多的努力,JOYM E每年節(jié)約成本 1700 萬美金,月度節(jié)省了 30% 左右。
建議:踐行 FinOps,是一項(xiàng)全民運(yùn)動
為了能夠在 FinOps 踐行落地過程中取得比較好的成績,企業(yè)一定要建立 FinOps 文化,并優(yōu)化運(yùn)營流程,循序漸進(jìn)地控制單位經(jīng)濟(jì)成本。
那么,企業(yè)該如何落實(shí)呢?首先要跨組織選人,建立運(yùn)營團(tuán)隊(duì)或云卓越中心團(tuán)隊(duì),要創(chuàng)建和維持跨組織的合作伙伴關(guān)系,制定符合公司發(fā)展戰(zhàn)略的目標(biāo),然后是要定期溝通。丁冠宇指出,隨著企業(yè)不斷地定目標(biāo)、溝通、執(zhí)行和分享,公司內(nèi)部就會在潛移默化中逐漸形成有意識的成本優(yōu)化的文化。
除此之外,企業(yè)要把成本優(yōu)化作為一個(gè)計(jì)劃來實(shí)施,不斷迭代,穩(wěn)中前進(jìn)。在推進(jìn)過程中,工具的選取也是很重要的,亞馬遜云科技提供了一系列的成本管理框架與工具,可以幫助企業(yè)完成成本度量、評估、優(yōu)化、規(guī)劃和預(yù)測等各種優(yōu)化工具。
丁冠宇表示,“成本優(yōu)化的路其實(shí)并不好落地,我們要不斷地進(jìn)行自我激勵(lì),一旦堅(jiān)持下來了,對于企業(yè)和個(gè)人都是有很大收獲的?!?/span>