飛行中換引擎:長城汽車 toC 業(yè)務(wù)中臺(tái)同城雙活架構(gòu)升級(jí)
為了實(shí)現(xiàn)符合車規(guī)級(jí)高可用的公有云運(yùn)行方案,我們?cè)诠性品?wù)普及多可用區(qū)和 Serverless 極致彈性的基礎(chǔ)上,利用同城三云雙活方案,來捅破公有云高可用的理論極限!非常感謝火山引擎團(tuán)隊(duì)能夠用突出的產(chǎn)品力和專業(yè)的服務(wù)精神全力支持與配合整個(gè)方案的推進(jìn)工作!
——長城汽車C端平臺(tái)技術(shù)總監(jiān) 陳天予
背景介紹
據(jù) IDC 調(diào)研數(shù)據(jù)顯示,在汽車云基礎(chǔ)設(shè)施市場(chǎng)中,公有云占比高達(dá) 59%。云作為汽車行業(yè)的創(chuàng)新性基礎(chǔ)設(shè)施,汽車上云已經(jīng)成為事實(shí)趨勢(shì)。然而,單一云服務(wù)對(duì)國內(nèi)主流汽車企業(yè)帶來了高度依賴與綁定的風(fēng)險(xiǎn)。為了提高汽車企業(yè)的業(yè)務(wù)可靠性,多云已經(jīng)成為汽車企業(yè)的一大上云趨勢(shì)。
長城汽車是一家全球化智能科技公司,一直以來積極擁抱數(shù)智化變革,通過云計(jì)算等先進(jìn)技術(shù),不斷優(yōu)化提高用戶體驗(yàn)。作為車企品牌與用戶之間的高度信息與機(jī)會(huì)互動(dòng)的生態(tài)載體,車企移動(dòng)端 APP 與小程序業(yè)務(wù)的穩(wěn)定性與質(zhì)量直接關(guān)乎存量車主用戶留存與潛客試駕轉(zhuǎn)化。當(dāng)前,長城汽車的移動(dòng)端 APP 與小程序業(yè)務(wù)分布在不同的云環(huán)境,這對(duì)故障時(shí)的業(yè)務(wù)快速遷移、業(yè)務(wù)持續(xù)高可用帶來了較大挑戰(zhàn)。
為應(yīng)對(duì)該挑戰(zhàn),長城汽車選擇與火山引擎進(jìn)行營銷側(cè)移動(dòng)業(yè)務(wù)的雙云雙活探索與論證,依托火山引擎云原生產(chǎn)品方案,構(gòu)建多云雙活應(yīng)用架構(gòu),實(shí)現(xiàn)了不同云環(huán)境中應(yīng)用的自動(dòng)部署、擴(kuò)展和管理。同時(shí),通過建立完善的全生命周期多云觀測(cè)體系,在應(yīng)對(duì)業(yè)務(wù)故障時(shí)實(shí)現(xiàn)流量的無縫切換,減少故障感知,滿足長城汽車對(duì)多云部署下敏捷性、彈性、高可用性的多方面需求:
- 統(tǒng)一多云應(yīng)用管理,滿足業(yè)務(wù)連續(xù)性的需求:通過將業(yè)務(wù)和控制解耦(分別部署在火山引擎與其他云上),減少故障爆炸半徑,基于多云容器管理能力實(shí)現(xiàn)應(yīng)用的自動(dòng)部署和擴(kuò)展,將應(yīng)用發(fā)布統(tǒng)一收口與管理,屏蔽各朵云之間的差異與細(xì)節(jié),確保服務(wù)的高可用性和快速恢復(fù);
- 構(gòu)建多云流量治理體系,降低故障影響范圍:解決跨云流量調(diào)度的多云服務(wù)尋址、就近路由訪問、自動(dòng)故障轉(zhuǎn)移、多云流量觀測(cè)等核心問題,保障流量?jī)?yōu)先在本 region 內(nèi)閉環(huán),避免額外的跨云帶寬和業(yè)務(wù)性能損耗,通過精準(zhǔn)流量調(diào)控策略實(shí)現(xiàn)自動(dòng) failover 收縮故障影響范圍;
- 建立多云觀測(cè)體系,避免數(shù)據(jù)孤島:面向運(yùn)維人員,提供各朵云之間觀測(cè)數(shù)據(jù)的統(tǒng)一可視化界面,實(shí)現(xiàn)多云觀測(cè)體系、指標(biāo)、監(jiān)控工具的統(tǒng)一化,規(guī)避數(shù)據(jù)孤島問題。
同城多云雙活架構(gòu)設(shè)計(jì)方案
容災(zāi)架構(gòu)從最早期的單活形態(tài)(同城主備)發(fā)展到同城多活形態(tài),再演化到異地多活,隨著容災(zāi)能力的提升,伴隨的是更復(fù)雜的技術(shù)架構(gòu)、更高的業(yè)務(wù)改造成本和更高昂的資源成本。
相比自建基礎(chǔ)設(shè)施,公有云廠商往往能提供 SLA 更有保障的服務(wù),因此對(duì)于云上用戶來說,容災(zāi)能力的建設(shè)目標(biāo)非常明確:即能夠應(yīng)對(duì)和處理單云單地域的故障,從而保障業(yè)務(wù)的連續(xù)性。同城不同云廠商機(jī)房間的網(wǎng)絡(luò)延時(shí)較短,數(shù)據(jù)庫、緩存和消息等在數(shù)據(jù)容災(zāi)方面容易實(shí)現(xiàn)得多,所以同城多云多活架構(gòu)是企業(yè)提升業(yè)務(wù)韌性最有效、最經(jīng)濟(jì)、最務(wù)實(shí)的手段之一。
下面是長城汽車營銷云同城多云雙活架構(gòu)的整體方案:
- 業(yè)務(wù)分別部署在火山引擎與其他公有云上,控制流能力部署在第三朵云上,將業(yè)務(wù)與控制解耦部署,盡可能減少故障爆炸半徑;
- 容器化應(yīng)用視角屏蔽掉各朵云之間的差異與細(xì)節(jié),借助多云容器管理能力構(gòu)建多云統(tǒng)一應(yīng)用發(fā)布能力,將應(yīng)用發(fā)布統(tǒng)一收口與管理;
- 雙云雙活分業(yè)務(wù)逐步開展上線,微服務(wù)之間除了南北向調(diào)用依賴外,也會(huì)存在東西向調(diào)用依賴,故需構(gòu)建多云流量治理體系,實(shí)現(xiàn)雙云雙活業(yè)務(wù)的正常運(yùn)行;
- 運(yùn)維視角統(tǒng)一各朵云之間觀測(cè)數(shù)據(jù)的可視化入口,結(jié)束多云雜散的觀測(cè)體系、指標(biāo)及入口,建立以應(yīng)用為中心的多云觀測(cè)體系;
- 在同城多活架構(gòu)下,因網(wǎng)絡(luò)條件較好,為避免數(shù)據(jù)不一致等問題,數(shù)據(jù)層采用單寫多讀、多云數(shù)據(jù)單向同步、故障時(shí)主備切換的方案。
多云發(fā)布:構(gòu)建以應(yīng)用為核心的開發(fā)能力
企業(yè)在執(zhí)行多云戰(zhàn)略的過程中,最核心的是要圍繞自身的業(yè)務(wù)應(yīng)用。在多云環(huán)境中,屏蔽多云帶來的環(huán)境差異、讓開發(fā)人員可以聚焦業(yè)務(wù)本身將有助于業(yè)務(wù)敏捷。
火山引擎多云容器應(yīng)用發(fā)布為客戶提供了一種靈活、高效的跨云平臺(tái)部署和管理容器化應(yīng)用的能力。它解決了傳統(tǒng)單一云服務(wù)可能遇到的資源瓶頸、地域限制和單點(diǎn)故障風(fēng)險(xiǎn)問題,通過在不同云環(huán)境中實(shí)現(xiàn)應(yīng)用的自動(dòng)部署、擴(kuò)展和管理,充分保障服務(wù)的高可用性和快速恢復(fù),實(shí)現(xiàn)業(yè)務(wù)連續(xù)性。這種發(fā)布策略滿足了企業(yè)對(duì)敏捷性、彈性、高可用性的多方面訴求,為企業(yè)在快速變化的市場(chǎng)中保持競(jìng)爭(zhēng)力帶來了重要價(jià)值。
在上圖的多云發(fā)布的方案中,本著控制與業(yè)務(wù)解耦的整體原則,客戶使用 A 廠商的 CI/CD 產(chǎn)品提供代碼托管、流水線、應(yīng)用交付等控制流,并用火山引擎云原生集群聯(lián)邦方案承接多云納管、跨云調(diào)度、故障遷移等核心業(yè)務(wù)流。實(shí)現(xiàn)了由 A 廠商將編排應(yīng)用下發(fā)到火山引擎云原生集群聯(lián)邦方案,再將應(yīng)用涉及的 Kubernetes 工作負(fù)載及配置資源分發(fā)到火山引擎容器服務(wù) VKE 和 B 廠商容器集群的多云業(yè)務(wù)集群中。該方案提供的關(guān)鍵能力與優(yōu)勢(shì)包括:
- 跨云應(yīng)用分發(fā):通過火山引擎云原生集群聯(lián)邦方案注冊(cè)納管 VKE 等多云集群,并將多集群構(gòu)建為集群聯(lián)邦,形成統(tǒng)一調(diào)度資源池,集群聯(lián)邦會(huì)作為 CD 流水線統(tǒng)一多云分發(fā)入口;
- 原生資源兼容:集群聯(lián)邦資源完全兼容 Kubernetes 的標(biāo)準(zhǔn) API、Helm Chart 以及自定義 CRD,而且可以使用聯(lián)邦集群 KubeConfig 通過 kubectl 終端進(jìn)行管理及流水線集成,這種一致性云原生使用體驗(yàn)降低了業(yè)務(wù)多云化改造成本;
- 開箱即用的策略:云原生集群聯(lián)邦方案內(nèi)置了開箱即用的調(diào)度策略,可按照復(fù)制、動(dòng)態(tài)/靜態(tài)權(quán)重進(jìn)行多集群應(yīng)用分發(fā),支持應(yīng)用關(guān)聯(lián)資源自動(dòng)跟隨分發(fā)、沖突資源接管等策略??蛻繇?xiàng)目中工作負(fù)載采用了工作負(fù)載靜態(tài)權(quán)重調(diào)度模式,即按固定比例將負(fù)載實(shí)例拆分到 VKE 和其他云的容器集群中運(yùn)行;
- 多云差異適配:應(yīng)用資源分發(fā)到不同云環(huán)境中通常需要進(jìn)行差異化的配置,如倉庫地址等,云原生集群聯(lián)邦方案可針對(duì)分發(fā)到指定集群的應(yīng)用資源進(jìn)行自動(dòng)覆寫操作,并封裝鏡像倉庫地址、啟動(dòng)命令、標(biāo)簽、注解等差異化策略,大大提升了多云差異配置效率;
- 跨云彈性伸縮:在多集群管控面統(tǒng)一制定彈性伸縮策略(包括指標(biāo)、閾值、彈性范圍等),應(yīng)用副本會(huì)在 VKE 和其他云的容器集群中跨多云集群進(jìn)行 HPA 擴(kuò)縮容,指標(biāo)閾值判斷會(huì)考慮所有集群中的副本,擴(kuò)縮容的副本也會(huì)遵循兩個(gè)集群的副本權(quán)重定義;
- 應(yīng)用容災(zāi)遷移:應(yīng)用實(shí)例分發(fā)到多云集群環(huán)境后如果發(fā)生故障(例:因節(jié)點(diǎn)故障導(dǎo)致無法調(diào)度等),云原生集群聯(lián)邦方案會(huì)將故障實(shí)例自動(dòng)重調(diào)度到其他健康集群中,結(jié)合服務(wù)網(wǎng)格跨集群容災(zāi)能力,最大限度提升業(yè)務(wù)的高可用性。
上述方案中的多集群調(diào)度引擎 KubeAdmiral 目前已經(jīng)開源,也已經(jīng)過字節(jié)跳動(dòng)內(nèi)部超大規(guī)模(數(shù)十萬節(jié)點(diǎn)、千萬級(jí)核資源)集群管理實(shí)踐打磨,火山引擎云原生集群聯(lián)邦方案基于該引擎進(jìn)行產(chǎn)品化能力增強(qiáng),為用戶提供性能高、穩(wěn)定性強(qiáng)的多集群資源分發(fā)管理體驗(yàn)。
多云流量治理:多地多中心統(tǒng)一調(diào)配和管理
雙云多活部署架構(gòu)可以很好解決單云/單 region 資源瓶頸及單個(gè)云廠商故障快速容災(zāi)切換問題,但在實(shí)際業(yè)務(wù)架構(gòu)改造或多云遷移過程中,無法做到多云全量業(yè)務(wù)的對(duì)等部署,需要解決單云/單 region 部署服務(wù)的互聯(lián)互通和跨云服務(wù)訪問,保障多云場(chǎng)景下業(yè)務(wù)流程閉環(huán)。同時(shí),當(dāng)本 region 內(nèi)的單個(gè)服務(wù)實(shí)例異常時(shí),服務(wù)消費(fèi)方需要及時(shí)感知并屏蔽服務(wù)提供方異常實(shí)例將流量自動(dòng)調(diào)度至對(duì)端相同服務(wù)的可用實(shí)例,避免因長時(shí)間等待造成服務(wù)雪崩。
結(jié)合上述實(shí)際業(yè)務(wù)場(chǎng)景,火山引擎云原生團(tuán)隊(duì)提供云原生集群聯(lián)邦方案、微服務(wù)引擎 MSE、API 網(wǎng)關(guān)產(chǎn)品組合方案,助力用戶快速落地多云雙活應(yīng)用架構(gòu),解決跨云流量調(diào)度的多云服務(wù)尋址、就近路由訪問、自動(dòng)故障轉(zhuǎn)移、多云流量觀測(cè)等核心問題,保障流量?jī)?yōu)先在本 region 內(nèi)閉環(huán)避免額外的跨云帶寬和業(yè)務(wù)性能損耗,通過精準(zhǔn)流量調(diào)控策略實(shí)現(xiàn)自動(dòng) failover 收縮故障影響范圍。該方案的核心優(yōu)勢(shì)和關(guān)鍵能力包括以下內(nèi)容:
多云注冊(cè)打通:在業(yè)務(wù)多云部署后,為了確保應(yīng)用在多云部署后能夠互聯(lián)互通,首先需要能夠打通多云間的服務(wù)發(fā)現(xiàn)。同時(shí)為了保證注冊(cè)中心組件可靠性和數(shù)據(jù)一致性,一般會(huì)推薦在單云本地部署注冊(cè)中心。因此就需要具備多個(gè)注冊(cè)中心進(jìn)行雙向同步,保證每個(gè)注冊(cè)中心都具備全量服務(wù)發(fā)現(xiàn)數(shù)據(jù)?;鹕揭嫖⒎?wù)引擎 MSE 提供兼容主流注冊(cè)中心(Nacos、Eureka 等)的同步引擎,構(gòu)建注冊(cè)數(shù)據(jù)雙向同步鏈路,可實(shí)現(xiàn)多云場(chǎng)景下統(tǒng)一服務(wù)發(fā)現(xiàn)。如果采用 Kubernetes svc 服務(wù)尋址方式,為了在跨集群場(chǎng)景中不改變?cè)械姆?wù)發(fā)現(xiàn)的方式,MSE 會(huì)將不同集群的 svc 進(jìn)行合并——在不同集群下,只要是在相同 namespace 下的同名 svc,都會(huì)被認(rèn)為是相同的服務(wù),能夠被對(duì)端集群消費(fèi)方服務(wù)正常服務(wù)發(fā)現(xiàn)。
跨云流量調(diào)度:在業(yè)務(wù)多云部署的過程中,由于數(shù)據(jù)一致性、資源負(fù)載成本、業(yè)務(wù)改造等原因,部分有狀態(tài)業(yè)務(wù)、第三方開發(fā)業(yè)務(wù)等只能單云集中化部署,對(duì)于單云部署的應(yīng)用,在應(yīng)用層還需要提供跨云服務(wù)調(diào)用能力,保證在當(dāng)前云上沒有部署下游服務(wù)時(shí),能夠自動(dòng)訪問到對(duì)端云上部署的服務(wù)。同時(shí),如果本云中已經(jīng)部署了下游服務(wù),則需要優(yōu)先調(diào)用本云。MSE 具備跨云流量調(diào)度能力,當(dāng)服務(wù)實(shí)例啟動(dòng)時(shí),會(huì)將實(shí)例的歸屬地域自動(dòng)寫入注冊(cè)中心元數(shù)據(jù)信息,消費(fèi)方在路由調(diào)用時(shí)根據(jù)服務(wù)尋址列表的地域歸屬實(shí)現(xiàn)親和路由,保證流量?jī)?yōu)先在本云閉環(huán),同時(shí) MSE 支持無侵入 java agent 和 sidecar 接入方式,用戶僅需在 deployment 引入 MSE 注解即可完成實(shí)例接入,無需代碼改造,極大降低業(yè)務(wù)遷移改造成本。
自動(dòng)故障轉(zhuǎn)移:在業(yè)務(wù)多云部署后,由于業(yè)務(wù)發(fā)布、底層依賴故障等諸多原因,可能會(huì)造成單云上部署的某個(gè)服務(wù)不可用。在出現(xiàn)服務(wù)級(jí)別故障時(shí),我們需要能夠根據(jù)健康檢測(cè)和熔斷策略自動(dòng)發(fā)現(xiàn)故障,將請(qǐng)求調(diào)用到健康實(shí)例,并在故障恢復(fù)后自動(dòng)回切。MSE 支持消費(fèi)方在服務(wù)調(diào)用時(shí)會(huì)根據(jù)請(qǐng)求狀態(tài)碼識(shí)別下游實(shí)例健康狀態(tài),達(dá)到指定閾值后主動(dòng)剔除異常實(shí)例,當(dāng)本云內(nèi)的相同服務(wù)實(shí)例均檢測(cè)異常時(shí),將自動(dòng) failover 至對(duì)端相同服務(wù)可用實(shí)例保障業(yè)務(wù)邏輯閉環(huán);同時(shí),本云的訪問實(shí)例達(dá)到隔離時(shí)間后,將自動(dòng)注入少量流量判斷其恢復(fù)狀態(tài),若達(dá)到健康閾值則恢復(fù)原有的就近路由調(diào)用,避免跨云調(diào)度額外帶寬損耗。
多云觀測(cè):一站式跨云資源觀測(cè)
相比單個(gè)云上部署的應(yīng)用、在多云環(huán)境構(gòu)建應(yīng)用的可觀測(cè)性會(huì)變得更復(fù)雜,主要會(huì)面臨以下挑戰(zhàn):
- 基礎(chǔ)環(huán)境差異:不同云環(huán)境針對(duì)相同監(jiān)控對(duì)象(例如主機(jī)、容器、應(yīng)用等)提供的性能指標(biāo)可能不同,即便有相同指標(biāo),它們?cè)诓煌h(huán)境中也可能具備不同的名稱和標(biāo)簽,難以關(guān)聯(lián)使用;
- 觀測(cè)工具不統(tǒng)一:由于技術(shù)選擇和歷史負(fù)擔(dān)等因素,不同環(huán)境中可能采用不同的監(jiān)控工具。例如企業(yè)可能在私有云中使用商業(yè)化的觀測(cè)產(chǎn)品,而在公有云中選擇云廠商提供的觀測(cè)產(chǎn)品或基于開源組件自建 ,導(dǎo)致多種組件共存,數(shù)據(jù)無法互訪;
- 觀測(cè)數(shù)據(jù)孤島:因技術(shù)選擇不一致,監(jiān)控信息通常分散存儲(chǔ),獲取指標(biāo)需要對(duì)接多個(gè)數(shù)據(jù)源;觀測(cè)數(shù)據(jù)分散在不同的地理位置,無法有效聚合和統(tǒng)一展示。
以上挑戰(zhàn)都導(dǎo)致最終觀測(cè)數(shù)據(jù)難以統(tǒng)一查詢、聚合和可視化,導(dǎo)致無法對(duì)多云的觀測(cè)數(shù)據(jù)進(jìn)行統(tǒng)一查詢和使用,無法構(gòu)建一個(gè)全局視角的監(jiān)控大盤,管理員也無法一目了然地了解所有集群的狀態(tài)和性能。
對(duì)于云上業(yè)務(wù)來說,觀測(cè)領(lǐng)域核心關(guān)注的主要是指標(biāo)、trace 與日志三類觀測(cè)數(shù)據(jù)。指標(biāo)數(shù)據(jù)可以借助火山引擎托管 Prometheus VMP 實(shí)現(xiàn)多云指標(biāo)的統(tǒng)一采集和監(jiān)控告警,trace 與日志數(shù)據(jù)可以借助火山引擎日志服務(wù) TLS 實(shí)現(xiàn)多云環(huán)境下的統(tǒng)一分析和查詢,幫助企業(yè)輕松管理跨云資源。
指標(biāo)數(shù)據(jù)多云觀測(cè)
在業(yè)務(wù)多云部署后,企業(yè)用戶往往需要統(tǒng)一多云集群監(jiān)控運(yùn)維方式,使用多云一致的數(shù)據(jù)采集能力抹平環(huán)境差異、降低采集組件改造和維護(hù)成本,同時(shí)也需要統(tǒng)一的數(shù)據(jù)查詢?nèi)肟?,最終形成統(tǒng)一的監(jiān)控視圖。這種設(shè)計(jì)有助于運(yùn)維人員從全局視角對(duì)分布在不同環(huán)境的集群和應(yīng)用進(jìn)行統(tǒng)一監(jiān)控運(yùn)維,一目了然地了解業(yè)務(wù)在不同云上的用量和健康情況。
火山引擎托管 Prometheus VMP 通過與平臺(tái)的無縫集成,實(shí)現(xiàn)了監(jiān)控?cái)?shù)據(jù)采集、元數(shù)據(jù)、存儲(chǔ)、視圖和告警五個(gè)方面的統(tǒng)一指標(biāo)監(jiān)控能力:
- 統(tǒng)一監(jiān)控采集:VMP 可以在不同的云環(huán)境中部署統(tǒng)一的數(shù)據(jù)采集組件 VMP Agent,后者能夠統(tǒng)一采集節(jié)點(diǎn)、容器、GPU 等監(jiān)控指標(biāo),也支持在通過 ServiceMonitor 配置服務(wù)發(fā)現(xiàn),采集業(yè)務(wù)自定義指標(biāo);
- 統(tǒng)一元數(shù)據(jù):通過統(tǒng)一的采集組件抹平不同環(huán)境元數(shù)據(jù)差異,同時(shí)增加多云場(chǎng)景下用戶關(guān)心元數(shù)據(jù),例如會(huì)給不同云廠商的指標(biāo)增加廠商 label;
- 統(tǒng)一數(shù)據(jù)存儲(chǔ):通過在各個(gè)云上部署 VMP Agent,可以將多云集群觀測(cè)數(shù)據(jù)統(tǒng)一收集到同一個(gè) VMP 工作區(qū)中——將數(shù)據(jù)統(tǒng)一存儲(chǔ)到相同的數(shù)據(jù)源有助于輕松實(shí)現(xiàn)多集群數(shù)據(jù)的統(tǒng)一查詢,不需要使用額外的代理組件(如 vmproxy 進(jìn)行聚合查詢);
- 統(tǒng)一監(jiān)控視圖:基于 Grafana 提供統(tǒng)一的多云多集群監(jiān)控視圖,支持多種資源維度的可視化,包括集群組、集群、節(jié)點(diǎn)、命名空間、工作負(fù)載和容器等,并支持下鉆與關(guān)聯(lián)分析;
- 統(tǒng)一告警:基于統(tǒng)一觀測(cè)數(shù)據(jù)和 VMP 預(yù)制的告警模板,可以在 VMP 中為多個(gè)集群配置相同的告警規(guī)則,如節(jié)點(diǎn)水位過高或工作負(fù)載重啟,大大降低了告警策略的配置維護(hù)工作量。
trace&log 數(shù)據(jù)多云觀測(cè)
- 多云采集:
TLS 日志服務(wù)支持多云統(tǒng)一采集和管理日志,并且提供日志分析的 iFrame 外嵌能力,將查詢分析集成到用戶自己的運(yùn)維系統(tǒng),簡(jiǎn)化業(yè)務(wù)使用方使用成本,提高使用效率
支持 Kubernetes deamonset 方式和 sidecar 方式收集容器日志
支持基于 Otel 標(biāo)準(zhǔn)的 trace 收集能力
- 實(shí)時(shí)分析:海量車機(jī)系統(tǒng)運(yùn)行日志信息的實(shí)時(shí)寫入,并通過模糊檢索&SQL 函數(shù)幫助業(yè)務(wù)、運(yùn)營、開發(fā)、運(yùn)維人員快速分析定位問題、滿足各業(yè)務(wù)使用方日志實(shí)時(shí)分析能力;
- 函數(shù)加工:提供超過 200+函數(shù),包括:SQL 統(tǒng)計(jì)函數(shù)、聚合函數(shù)、字符串函數(shù)、IP 函數(shù)、編解碼函數(shù)、時(shí)間函數(shù),實(shí)現(xiàn)各種復(fù)雜場(chǎng)景下的統(tǒng)計(jì)分析需求;
- 觀測(cè)治理:提供豐富的報(bào)表組件與儀表盤,以及多種高級(jí)儀表盤:IP 地址熱力圖、統(tǒng)計(jì)圖、計(jì)量圖、矩陣圖、時(shí)間軸等,為運(yùn)營監(jiān)控提供豐富的可視化運(yùn)營看板,為運(yùn)維提供端到端的可觀測(cè)能力;
- 監(jiān)控告警:通過靈活的 SQL 查詢分析能力結(jié)合多渠道告警能力(郵件/電話/短信/釘釘/飛書/企微/自定義渠道等),實(shí)現(xiàn)業(yè)務(wù)維度的服務(wù)狀態(tài)實(shí)時(shí)監(jiān)控。
多云網(wǎng)絡(luò):根據(jù)需求動(dòng)態(tài)調(diào)配資源
相比單云部署,多云在網(wǎng)絡(luò)架構(gòu)上更加復(fù)雜,通過火山引擎專線連接、云企業(yè)網(wǎng)、中轉(zhuǎn)路由器、私網(wǎng)連接等網(wǎng)絡(luò)產(chǎn)品,企業(yè)在實(shí)施過程中可以構(gòu)建一張靈活、高可用的混合云網(wǎng)絡(luò):
- 通過 專線連接 方式連接多云之間的業(yè)務(wù)網(wǎng)絡(luò),通過專線 & Ipsec VPN 連接方式連接辦公與云上網(wǎng)絡(luò)。為了解決專線各種故障場(chǎng)景下(如端口異常/光模塊故障、網(wǎng)絡(luò)設(shè)備故障、接入點(diǎn)機(jī)房故障等)的可靠性問題,我們推薦客戶采用雙接入點(diǎn)四線負(fù)載冗余專線的形式連接:兩條物理專線分別接入不同機(jī)房的專線接入點(diǎn),配合云企業(yè)網(wǎng)&中轉(zhuǎn)路由器產(chǎn)品構(gòu)建多線負(fù)載冗余,正常情況下多條物理專線同時(shí)轉(zhuǎn)發(fā)流量,當(dāng)一條線路故障不通時(shí),另一條線路會(huì)承擔(dān)全部流量的轉(zhuǎn)發(fā),以確保業(yè)務(wù)正常。同時(shí)通過劃分專線網(wǎng)關(guān)和虛擬接口,并設(shè)置合理的 QoS,關(guān)鍵業(yè)務(wù)流量質(zhì)量得以被充分保障;
- 根據(jù)長城汽車業(yè)務(wù)的隔離與管理需求,不同業(yè)務(wù)之間建設(shè)在多個(gè)賬號(hào)多個(gè) VPC 下,建設(shè)多云后需要實(shí)現(xiàn)多云之間多 VPC 網(wǎng)絡(luò)環(huán)境私網(wǎng)互通與隔離。通過使用云企業(yè)網(wǎng)(CEN)和中轉(zhuǎn)路由器(TR)跨地域連接能力,關(guān)聯(lián)專線連接、VPN 連接、VPC 網(wǎng)絡(luò)實(shí)例,我們可以實(shí)現(xiàn)多云網(wǎng)絡(luò)私網(wǎng)互通。同時(shí),通過中轉(zhuǎn)路由器劃分多個(gè)路由表、配置靜態(tài)路由策略,我們可以實(shí)現(xiàn)自定義組網(wǎng)架構(gòu),滿足業(yè)務(wù)網(wǎng)絡(luò)隔離需求。此外,不同 VPC 對(duì)服務(wù)資源的私網(wǎng)訪問也可以借助私網(wǎng)連接產(chǎn)品建立私密的網(wǎng)絡(luò)連接來實(shí)現(xiàn)。
未來展望
未來,火山引擎云原生團(tuán)隊(duì)將繼續(xù)推動(dòng)并深化與長城汽車的合作,在多云容災(zāi)等領(lǐng)域進(jìn)行更深入的合作,更好地保障業(yè)務(wù)連續(xù)性。我們也希望能幫助更多企業(yè)積極利用不同云廠商的特點(diǎn)和優(yōu)勢(shì),通過統(tǒng)一多云管理、統(tǒng)一流量調(diào)度、統(tǒng)一多云觀測(cè),保障系統(tǒng)的高可用和性能優(yōu)化。