自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

vivo 云原生容器探索和落地實(shí)踐

云計(jì)算 云原生
本文會(huì)詳細(xì)介紹vivo在容器集群高可用建設(shè)中的具體實(shí)踐,包括在容器集群高可用建設(shè)、容器集群自動(dòng)化運(yùn)維、容器平臺(tái)架構(gòu)升級(jí)、容器平臺(tái)能力增強(qiáng)、容器生態(tài)打通等層面的打磨和建設(shè)。

2018年起,vivo以容器作為基礎(chǔ)底座,打造了一站式云原生機(jī)器學(xué)習(xí)平臺(tái)。向上支撐了算法中臺(tái),為算法工程師提供數(shù)據(jù)管理、模型訓(xùn)練、模型管理、模型部署等能力,為廣告、推薦和搜索等業(yè)務(wù)賦能,成功為算法實(shí)現(xiàn)了降本、提效,讓云原生和容器價(jià)值初露鋒芒?;跈C(jī)器學(xué)習(xí)平臺(tái)的試點(diǎn)成果,經(jīng)過(guò)算法場(chǎng)景的試點(diǎn)實(shí)踐和價(jià)值分析,對(duì)內(nèi)部戰(zhàn)略做了升級(jí)。確定基于云原生理念去構(gòu)建行業(yè)一流的容器生態(tài),實(shí)現(xiàn)規(guī)?;慕当咎嵝繕?biāo)。

本文會(huì)詳細(xì)介紹vivo在容器集群高可用建設(shè)中的具體實(shí)踐,包括在容器集群高可用建設(shè)、容器集群自動(dòng)化運(yùn)維、容器平臺(tái)架構(gòu)升級(jí)、容器平臺(tái)能力增強(qiáng)、容器生態(tài)打通等層面的打磨和建設(shè)。目前,vivo容器產(chǎn)品能力矩陣逐漸趨于完善,并將圍繞全面容器化、擁抱云原生和在離線混部三個(gè)方向繼續(xù)發(fā)力。

云原生和容器,是當(dāng)下比較火熱的話題,其中 Kubernetes更是成為容器編排領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。

國(guó)內(nèi)外各企業(yè)在內(nèi)部落地云原生和容器的過(guò)程中,基于自己的業(yè)務(wù)場(chǎng)景和發(fā)展階段,會(huì)遇到各種問(wèn)題和挑戰(zhàn),本文是vivo在云原生容器領(lǐng)域的探索和落地實(shí)踐,希望能對(duì)讀者有一些借鑒和幫助。

一、容器技術(shù)和云原生理念

首先是容器技術(shù)和云原生理念的介紹。

1.1 容器技術(shù)簡(jiǎn)介

容器技術(shù)不是一個(gè)新技術(shù),從1979年unix系統(tǒng)的chroot誕生到現(xiàn)在,歷經(jīng)40多年的發(fā)展,共經(jīng)過(guò)了四個(gè)階段,分別是:技術(shù)萌芽期、技術(shù)迸發(fā)期、商用探索期和商用拓展期。

每個(gè)階段,解決了不同的技術(shù)問(wèn)題,分別是:環(huán)境隔離、軟件分發(fā)和編排、商用服務(wù)形態(tài)、規(guī)?;蛨?chǎng)景拓展。

相比于虛擬機(jī),容器技術(shù)少了一層虛擬操作系統(tǒng)的損耗,因此它比虛擬機(jī)具有更好的性能表現(xiàn)。另外容器在系統(tǒng)資源、啟動(dòng)時(shí)間、集群規(guī)模、高可用策略等方面,也有非常明顯的優(yōu)勢(shì)。

2020年CNCF中國(guó)云原生調(diào)查報(bào)告顯示,接受調(diào)查的中國(guó)企業(yè),有68%已經(jīng)在生產(chǎn)環(huán)境使用容器技術(shù)。

從行業(yè)發(fā)展看,不管是云廠商還是各大科技公司,都在基于容器技術(shù)構(gòu)建自己的新一代基礎(chǔ)架構(gòu),推動(dòng)企業(yè)數(shù)字創(chuàng)新。容器技術(shù)已經(jīng)得到廣泛的認(rèn)可和普及。

1.2 云原生理念介紹

圖片

容器技術(shù)催生了云原生思潮,云原生生態(tài)推動(dòng)了容器技術(shù)的發(fā)展。那么云原生的準(zhǔn)確定義和含義是什么呢?

云原生其實(shí)沒(méi)有標(biāo)準(zhǔn)定義,如果非要給他一個(gè)定義,行業(yè)有兩種觀點(diǎn):

  • 一個(gè)定義來(lái)自Pivotal 這家公司,它是云原生應(yīng)用的提出者,是云原生的先驅(qū)者、探路者。Pivotal最新的官網(wǎng)對(duì)云原生的介紹有四個(gè)要點(diǎn),分別是:DevOps、持續(xù)交付、微服務(wù)和容器
  • 另外一個(gè)定義來(lái)自CNCF,CNCF建立于2015年,它是一個(gè)開(kāi)源組織,其存在的目的,是支持開(kāi)源社區(qū)開(kāi)發(fā)關(guān)鍵的云原生組件,包括 Kubernetes、Prometheus監(jiān)控等。

它把云原生分為3種核心技術(shù)2個(gè)核心理念

  • 3種核心技術(shù):分別是容器、微服務(wù)、服務(wù)網(wǎng)格。
  • 2個(gè)核心理念:分別指不可變基礎(chǔ)設(shè)施和聲明式API。

但是,不管是那一種定義,容器都是其基礎(chǔ),是云原生落地的核心技術(shù)手段。

1.3 云原生價(jià)值分析

圖片

任何技術(shù)和理念,都必須有實(shí)際的業(yè)務(wù)價(jià)值。從效率、成本、質(zhì)量三個(gè)維度,來(lái)分析云原生和容器的技術(shù)價(jià)值,可總結(jié)如下:

  • 效率:可實(shí)現(xiàn)持續(xù)交付部署快、鏡像封裝可移植、彈性計(jì)算秒擴(kuò)容。
  • 成本:可實(shí)現(xiàn)按需分配不浪費(fèi)、統(tǒng)一調(diào)度高填充、混合部署少碎片。
  • 質(zhì)量:可實(shí)現(xiàn)運(yùn)行狀態(tài)可觀測(cè)、故障發(fā)生可自愈、集群管理可運(yùn)維。

二、vivo 容器技術(shù)探索與實(shí)踐

新技術(shù)的引入帶來(lái)新的價(jià)值,也必然會(huì)引入新的問(wèn)題,接下來(lái)介紹vivo在容器技術(shù)上的探索和實(shí)踐。

2.1 試點(diǎn)探索

圖片

在vivo的算法場(chǎng)景中,機(jī)器學(xué)習(xí)平臺(tái)負(fù)責(zé)算法模型迭代,是互聯(lián)網(wǎng)算法業(yè)務(wù)中核心的一環(huán),早期的平臺(tái)基于傳統(tǒng)的架構(gòu),在效率、成本、性能和體驗(yàn)上均有一定的不足,無(wú)法滿足算法業(yè)務(wù)快速增長(zhǎng)的訴求。基于此,我們首先在算法場(chǎng)景進(jìn)行容器的試點(diǎn)探索。從2018年開(kāi)始,我們以容器作為基礎(chǔ)底座,打造了vivo的一站式云原生機(jī)器學(xué)習(xí)平臺(tái),向上支撐了公司的算法中臺(tái),為算法工程師提供數(shù)據(jù)管理、模型訓(xùn)練、模型管理、模型部署等能力,為廣告、推薦和搜索等業(yè)務(wù)賦能。

vivo的云原生機(jī)器學(xué)習(xí)平臺(tái)具備如下5大優(yōu)勢(shì):

  • 場(chǎng)景全:業(yè)務(wù)端到端,覆蓋推薦、廣告、搜索多場(chǎng)景。
  • 體驗(yàn)好:排隊(duì)時(shí)間短,用戶體驗(yàn)優(yōu),任務(wù)P99排隊(duì)時(shí)長(zhǎng)小于45分鐘。
  • 成本低:調(diào)度能力好,資源利用率高,CPU利用率均值大于45%。
  • 效率高:網(wǎng)絡(luò)規(guī)模大,訓(xùn)練跑得快,訓(xùn)練速度8.3億樣本每小時(shí)。
  • 結(jié)果優(yōu):算法迭代穩(wěn)定,訓(xùn)練成功率高,訓(xùn)練成功率大于95%。

vivo云原生機(jī)器學(xué)習(xí)平臺(tái),成功為算法實(shí)現(xiàn)了降本、提效,讓云原生和容器價(jià)值初露鋒芒。

2.2 價(jià)值挖掘

圖片

基于前面機(jī)器學(xué)習(xí)平臺(tái)的試點(diǎn)成果,我們深入分析和挖掘容器和云原生的價(jià)值,結(jié)合vivo的情況,我們發(fā)現(xiàn)容器和云原生是企業(yè)大規(guī)模降本和提效的最佳方案。

1)在降本方面

當(dāng)前我們內(nèi)部服務(wù)器資源的利用率較低,以CPU利用率為例,當(dāng)前vivo服務(wù)器整體利用率均值在25%左右,相比行業(yè)一流水平的40%~50%,還有不少的提升空間。

容器在資源隔離、統(tǒng)一調(diào)度和在離線混部等方面的優(yōu)勢(shì),均是提升資源ROI的有效技術(shù)手段。

2)在提效方面

當(dāng)前我們?cè)?strong>中間件版本升級(jí)、機(jī)器遷移、測(cè)試環(huán)境管理、突發(fā)流量應(yīng)對(duì)和全球化部署的環(huán)境一致性等方面均有業(yè)務(wù)痛點(diǎn)。

容器的快速交付、彈性自運(yùn)維、微服務(wù)、服務(wù)網(wǎng)格等云原生技術(shù)和架構(gòu),則是提效的有力措施。

2.3 戰(zhàn)略升級(jí)

圖片

經(jīng)過(guò)算法場(chǎng)景的試點(diǎn)實(shí)踐和價(jià)值分析,我們對(duì)內(nèi)部戰(zhàn)略做了升級(jí), 確定基于云原生理念去構(gòu)建行業(yè)一流的容器生態(tài),實(shí)現(xiàn)規(guī)?;慕当咎嵝繕?biāo)。

為了更好匹配戰(zhàn)略落地,擁抱云原生,我們還對(duì)內(nèi)部技術(shù)架構(gòu)重新規(guī)劃和升級(jí),新增引入統(tǒng)一流量接入平臺(tái)、容器運(yùn)維管理平臺(tái)、統(tǒng)一名字服務(wù)、容器監(jiān)控等平臺(tái)和能力,支撐容器生態(tài)在公司內(nèi)部的全面建設(shè)和推廣。

2.4 面臨挑戰(zhàn)

2.4.1 集群挑戰(zhàn)


圖片

要提供大規(guī)模的生產(chǎn)可用的容器服務(wù),容器集群的可用性首先會(huì)面臨諸多挑戰(zhàn)。下面介紹vivo容器化,在生產(chǎn)集群建設(shè)過(guò)程中遇到的4個(gè)比較大的挑戰(zhàn)。

  • 集群規(guī)??焖僭鲩L(zhǎng):vivo集群服務(wù)器規(guī)模上萬(wàn)個(gè)宿主機(jī)節(jié)點(diǎn),管理的集群數(shù)十個(gè),單集群規(guī)模2千+,實(shí)例數(shù)10萬(wàn)+,對(duì)集群性能和機(jī)器管理挑戰(zhàn)極大。
  • 集群運(yùn)維、運(yùn)營(yíng)和標(biāo)準(zhǔn)化:由于早期集群管理不規(guī)范,黑屏化操作和人為誤操作等問(wèn)題層出不窮,集群運(yùn)維人員每天因?yàn)楦鞣N救火忙得焦頭爛額。
  • 集群容器監(jiān)控架構(gòu)和可觀測(cè)性:隨著集群規(guī)模快速增長(zhǎng),容器的監(jiān)控組件面臨極大壓力,對(duì)容器監(jiān)控的采集、存儲(chǔ)和展示,提出更高的要求。
  • 線上K8s版本升級(jí)迭代:面對(duì)Kubernetes版本的快速迭代,需要實(shí)現(xiàn)給飛行的飛機(jī)換引擎。

針對(duì)挑戰(zhàn),我們的應(yīng)對(duì)方案分別是:高可用、可觀測(cè)、標(biāo)準(zhǔn)化和自動(dòng)化。其中容器監(jiān)控和k8s版本無(wú)損升級(jí)的挑戰(zhàn),vivo公眾號(hào)有詳細(xì)技術(shù)方案的介紹,本文側(cè)重介紹集群高可用和運(yùn)維自動(dòng)化兩部分。

2.4.2 平臺(tái)挑戰(zhàn)

圖片

除了集群穩(wěn)定性的挑戰(zhàn),平臺(tái)也將面臨各種挑戰(zhàn),由于容器平臺(tái)和周邊生態(tài)能力不完善,對(duì)業(yè)務(wù)存在較高的適配和遷移成本。總結(jié)起來(lái)我們遇到的挑戰(zhàn)主要有4點(diǎn):

  • 容器IP的變化:k8s早期把業(yè)務(wù)都設(shè)計(jì)成無(wú)狀態(tài)的,其原生實(shí)現(xiàn)是每次發(fā)布容器的IP都會(huì)變化,這對(duì)部分依賴固定IP的傳統(tǒng)業(yè)務(wù)不太友好,業(yè)務(wù)改造成本較高。
  • 周邊生態(tài)的適配和兼容:包括發(fā)布系統(tǒng)、中間件微服務(wù)平臺(tái)、內(nèi)部開(kāi)發(fā)框架和流量接入層等
  • 用戶使用習(xí)慣:vivo有比較成熟的發(fā)布平臺(tái),用戶習(xí)慣按機(jī)房發(fā)布,習(xí)慣資源分配和發(fā)布分開(kāi)操作。
  • 價(jià)值輸出:運(yùn)維研發(fā)效率的提升不好量化,容器成本優(yōu)勢(shì)短期不好衡量。

上面這些挑戰(zhàn),推動(dòng)我們要進(jìn)行容器周邊生態(tài)打通,同時(shí)通過(guò)增強(qiáng)容器平臺(tái)產(chǎn)品能力,來(lái)適配各種業(yè)務(wù)場(chǎng)景,降低用戶的遷移成本。

2.5 最佳實(shí)踐

2.5.1 容器集群高可用建設(shè)

接下來(lái),介紹vivo在容器集群高可用建設(shè)中的最佳實(shí)踐,我們是從故障預(yù)防、故障發(fā)現(xiàn)和故障恢復(fù),3個(gè)維度來(lái)構(gòu)建容器集群可用性保障體系的。

圖片

1、在故障預(yù)防上,我們分別從流程工具、容災(zāi)能力和基礎(chǔ)架構(gòu)3個(gè)方面來(lái)進(jìn)行建設(shè):

  • 流程工具:主要包含故障預(yù)案和故障演練,以及通過(guò)建設(shè)運(yùn)維管理平臺(tái),來(lái)實(shí)現(xiàn)運(yùn)維標(biāo)準(zhǔn)化、白屏化和自動(dòng)化。
  • 容災(zāi)能力:主要是構(gòu)建業(yè)務(wù)跨故障域容災(zāi)能力,保障集群故障時(shí),服務(wù)和業(yè)務(wù)流量能跨集群調(diào)度和快速一鍵遷移等。
  • 基礎(chǔ)架構(gòu):主要是通過(guò)屏蔽用戶對(duì)底層集群的感知,一個(gè)機(jī)房多套集群,一個(gè)業(yè)務(wù)同時(shí)部署在多個(gè)集群上,避免單集群故障對(duì)業(yè)務(wù)造成影響。

2、在故障發(fā)現(xiàn)上,我們主要是通過(guò),自建的監(jiān)控大盤(pán)、日常集群巡檢、核心組件監(jiān)控、集群外撥測(cè)等措施,對(duì)故障及時(shí)發(fā)現(xiàn)和處理,降低對(duì)業(yè)務(wù)影響。

3、在故障恢復(fù)上,主要是基于前面的故障預(yù)案,快速恢復(fù),及時(shí)止損,并做好故障的復(fù)盤(pán),不斷改進(jìn)我們的故障預(yù)防和發(fā)現(xiàn)機(jī)制,沉淀寶貴經(jīng)驗(yàn)。

另外,集群的可觀測(cè)性是可用性保障的一個(gè)重要依據(jù),我們通過(guò)建設(shè)自己的SLO面板,對(duì)集群狀態(tài)實(shí)時(shí)地進(jìn)行監(jiān)控,只有對(duì)運(yùn)營(yíng)狀況了如指掌,才能做到穩(wěn)如泰山,沉著應(yīng)對(duì)一切變化。

2.5.2 容器集群自動(dòng)化運(yùn)維

除了容器集群自身穩(wěn)定性建設(shè),在運(yùn)維自動(dòng)化方面,我們建設(shè)了容器多集群管理平臺(tái),實(shí)現(xiàn)集群配置標(biāo)準(zhǔn)化,核心運(yùn)維場(chǎng)景白屏化,來(lái)提升運(yùn)維效率。

圖片

我們的容器集群管理平臺(tái),是以云原生的方式來(lái)管理云原生,簡(jiǎn)單來(lái)說(shuō),就是基于k8s的operator機(jī)制,實(shí)現(xiàn)k8s on k8s。

當(dāng)前,我們的平臺(tái)已經(jīng)能夠?qū)崿F(xiàn)多集群的統(tǒng)一納管,集群部署也是自動(dòng)化、標(biāo)準(zhǔn)化的,還實(shí)現(xiàn)了底層IAAS層打通,集群節(jié)點(diǎn)能全流程化、可視化的一鍵擴(kuò)縮容,而集群巡檢功能,可以幫助我們及時(shí)發(fā)現(xiàn)集群的問(wèn)題和隱患。

通過(guò)平臺(tái)進(jìn)行日常運(yùn)維和操作,不僅能提升效率,也具備審計(jì)能力,有操作和變更日志可追溯,便于問(wèn)題定位。

2.5.3 容器平臺(tái)架構(gòu)升級(jí)

為適應(yīng)業(yè)務(wù)容器化在內(nèi)部的快速普及和推廣,我們升級(jí)了vivo的容器平臺(tái)架構(gòu)。

圖片

新的架構(gòu)分為4層,容器+k8s則作為基礎(chǔ)的統(tǒng)一底座,向下對(duì)接公司IAAS層的基礎(chǔ)設(shè)施,向上提供容器產(chǎn)品和平臺(tái)能力,并通過(guò)開(kāi)放API供上層調(diào)用和定制自己的上層邏輯。

API之上是容器支持的各種服務(wù)類(lèi)型,包括在線服務(wù)、中間件服務(wù)、大數(shù)據(jù)計(jì)算、算法訓(xùn)練、實(shí)時(shí)計(jì)算等,最上面是為vivo互聯(lián)網(wǎng)各個(gè)業(yè)務(wù)進(jìn)行賦能。

基于這套容器平臺(tái)架構(gòu),業(yè)務(wù)能實(shí)現(xiàn)資源隔離部署、快速交付和按需使用,同時(shí)也具備更好的彈性伸縮能力。對(duì)平臺(tái),我們可以統(tǒng)一資源的調(diào)度,實(shí)現(xiàn)資源的分時(shí)復(fù)用、在離線混部等,來(lái)提升資源的利用率。

2.5.4 容器平臺(tái)能力增強(qiáng)

vivo內(nèi)部容器化場(chǎng)景比較多樣化,為了讓業(yè)務(wù)能夠安心、低成本的接入和使用容器的能力,在推廣過(guò)程中,我們基于開(kāi)源+自研做了容器的適配和原生能力的增強(qiáng)。

圖片

下面對(duì)6個(gè)產(chǎn)品能力增強(qiáng)進(jìn)行簡(jiǎn)單的分享:

  • 云原生工作負(fù)載增強(qiáng):基于開(kāi)源的openkruise,對(duì)原生deployment、statefulset等workload進(jìn)行了增強(qiáng),實(shí)現(xiàn)諸如原地升級(jí)、發(fā)布暫停、流式和配置優(yōu)先級(jí)等擴(kuò)展能力。
  • 服務(wù)無(wú)損發(fā)布增強(qiáng):基于內(nèi)部框架和平臺(tái)自主研發(fā),實(shí)現(xiàn)HTTP、RPC等協(xié)議框架的流量無(wú)損發(fā)布。
  • 容器鏡像安全:基于開(kāi)源的Harbor定制開(kāi)發(fā),實(shí)現(xiàn)容器鏡像安全掃描和卡控能力。
  • 容器鏡像加速:基于開(kāi)源dragonfly2定制擴(kuò)展,讓大規(guī)模集群鏡像的分發(fā)性能提升80%以上。
  • IP固定能力增強(qiáng):基于有狀態(tài)服務(wù)和CNI進(jìn)行自研,支撐黑白名單、有狀態(tài)服務(wù)場(chǎng)景訴求,降低業(yè)務(wù)接入改造成本。
  • 多集群管理能力增強(qiáng):基于開(kāi)源Karmada進(jìn)行功能優(yōu)化和擴(kuò)展,提升業(yè)務(wù)容災(zāi)能力,支撐單集群橫向擴(kuò)展能力。

當(dāng)然,在充分享受開(kāi)源紅利的同時(shí),我們也持續(xù)地參與開(kāi)源協(xié)同,回饋社區(qū)。在使用和自研的過(guò)程中,我們也把自己生產(chǎn)實(shí)踐過(guò)程中發(fā)現(xiàn)的問(wèn)題和積累的經(jīng)驗(yàn)提交到社區(qū),例如Dragonfly2、Karmada等。

2.5.5 容器CICD一體化

除了平臺(tái)能力的增強(qiáng),容器平臺(tái)作為一個(gè)PaaS平臺(tái),需要和周邊的生態(tài)打通,才能讓業(yè)務(wù)更好的遷移和使用,其中最重要的就是發(fā)布系統(tǒng)的打通,也就是CICD平臺(tái)。

幾乎每個(gè)科技公司都會(huì)有自己的CICD,它是一個(gè)DevOps自動(dòng)化的工具,可進(jìn)行業(yè)務(wù)構(gòu)建和編排部署的流水線。

圖片

vivo的CICD平臺(tái)底層架構(gòu)是基于JenKins+Spinnaker實(shí)現(xiàn)的,整個(gè)容器構(gòu)建和部署流程如下:

  • 首先,用戶在CICD平臺(tái)上創(chuàng)建好發(fā)布過(guò)程的流水線配置并保存。
  • 其次,CI環(huán)節(jié)可實(shí)現(xiàn)和內(nèi)部GitLab對(duì)接,拉取代碼,基于jenkins進(jìn)行代碼編譯和鏡像構(gòu)建,構(gòu)建好的鏡像經(jīng)過(guò)安全掃描后,推送到開(kāi)發(fā)環(huán)境的鏡像倉(cāng)庫(kù)。
  • 最后,在CD環(huán)節(jié),CICD平臺(tái)會(huì)調(diào)用容器平臺(tái)提供的API,進(jìn)行開(kāi)發(fā)、測(cè)試、預(yù)發(fā)和生產(chǎn)環(huán)境的部署操作。

2.5.6 統(tǒng)一流量接入

接下來(lái),介紹容器生態(tài)里,最重要的業(yè)務(wù)流量接入層的打通。

圖片

早期,vivo內(nèi)部是基于Nginx,來(lái)實(shí)現(xiàn)的南北流量和東西流量的轉(zhuǎn)發(fā)。在虛擬機(jī)和物理機(jī)場(chǎng)景能比較好的支撐,隨著容器在內(nèi)部全面的推廣,傳統(tǒng)的Nginx架構(gòu)已不能適配。

主要體現(xiàn)在,容器場(chǎng)景業(yè)務(wù)實(shí)例數(shù)量,相比原來(lái)虛擬機(jī)和物理機(jī)成倍數(shù)增長(zhǎng),容器發(fā)布過(guò)程IP的頻發(fā)變化和狀態(tài)同步,都會(huì)對(duì)Nginx集群造成非常大的壓力,在業(yè)務(wù)請(qǐng)求量非常大的情況下,接入層的配置文件刷新和加載,會(huì)造成業(yè)務(wù)的抖動(dòng),這是我們不能接受的。

基于這個(gè)背景,我們基于APISIX構(gòu)建了云原生流量接入層,來(lái)適應(yīng)全面容器化的需求。經(jīng)過(guò)一年多的建設(shè),當(dāng)前我們的統(tǒng)一流量接入平臺(tái)已經(jīng)能夠很好的支撐容器化的接入,同時(shí)具備更好的擴(kuò)展能力。

2.6 實(shí)踐成果

2.6.1 產(chǎn)品能力矩陣完善

圖片

經(jīng)過(guò)多年的打磨和建設(shè),vivo容器產(chǎn)品能力矩陣趨于完善,整個(gè)產(chǎn)品能力矩陣,分為4層:

  • 基礎(chǔ)服務(wù)層:包含3類(lèi)服務(wù),鏡像管理、集群運(yùn)維和集群監(jiān)控。
  • 能力層:包含6個(gè)核心能力,分別是集群調(diào)度、CAAS-API、容器配置、容器業(yè)務(wù)監(jiān)控告警、容器日志和平臺(tái)擴(kuò)展能力。
  • 平臺(tái)層:包含2大平臺(tái)能力,分別是CI和CD。
  • 業(yè)務(wù)層:當(dāng)前覆蓋了vivo互聯(lián)網(wǎng)所有業(yè)務(wù)場(chǎng)景。

2.6.2 業(yè)務(wù)接入成果凸顯

接下來(lái),會(huì)具體介紹下vivo容器推廣情況。

圖片

目前容器在vivo內(nèi)部主要覆蓋4大場(chǎng)景,分別是:互聯(lián)網(wǎng)在線業(yè)務(wù)、算法在線、大數(shù)據(jù)計(jì)算AI算法訓(xùn)練等。接下來(lái),會(huì)從接入規(guī)模和價(jià)值來(lái)簡(jiǎn)單介紹。

  • 互聯(lián)網(wǎng)在線服務(wù):內(nèi)部各個(gè)業(yè)務(wù)線均有大量服務(wù)運(yùn)行在容器上,例如vivo商城、賬號(hào)、瀏覽器、快應(yīng)用、天氣等,已經(jīng)接入服務(wù)600+。
  • 算法在線服務(wù):當(dāng)前接入500+服務(wù),3000+服務(wù)器,涉及推廣搜的各個(gè)業(yè)務(wù)線。
  • 大數(shù)據(jù)計(jì)算服務(wù):包含離線計(jì)算如Spark,實(shí)時(shí)計(jì)算如Flink、Olap等場(chǎng)景,當(dāng)前接入集群20+。
  • AI算法訓(xùn)練:主要是提供GPU、CPU異構(gòu)計(jì)算,業(yè)務(wù)場(chǎng)景如Tensorflow、mpi等場(chǎng)景,算力十幾萬(wàn)核,以及若干GPU卡。

業(yè)務(wù)容器化后,給業(yè)務(wù)在降本提效上帶來(lái)的效果非常明顯,包括但不限于擴(kuò)縮容效率、彈性伸縮能力、業(yè)務(wù)自愈能力、資源成本等方面。

2.7 實(shí)踐總結(jié)

圖片

基于我們的探索和實(shí)踐,可總結(jié)為技術(shù)價(jià)值、推廣策略、平臺(tái)建設(shè)和云原生突破4個(gè)維度的思考。

  • 找價(jià)值:關(guān)注新技術(shù),但不執(zhí)著于技術(shù)本身,必須結(jié)合業(yè)務(wù)痛點(diǎn)和價(jià)值。
  • 定策略:自下而上小范圍試點(diǎn)探索,產(chǎn)生實(shí)際的業(yè)務(wù)價(jià)值,影響自上而下的戰(zhàn)略調(diào)整。
  • 建平臺(tái):當(dāng)已經(jīng)有比較完善的平臺(tái)和能力時(shí),要找到容器的切入點(diǎn),進(jìn)行融合共建,切忌推到重來(lái);對(duì)于需要從0到1建設(shè)的新能力,需要果斷的孵化創(chuàng)新。
  • 求突破:在業(yè)務(wù)容器化過(guò)程中,為了快速容器化,我們做了許多的兼容和適配。為了更好的降本提效,未來(lái),我們希望引導(dǎo)用戶,實(shí)現(xiàn)從使用云原生,到用好云原生的突破。

總的來(lái)說(shuō),技術(shù)服務(wù)于業(yè)務(wù),企業(yè)應(yīng)基于自身現(xiàn)狀,尋找合適的解決方案,并為業(yè)務(wù)創(chuàng)造價(jià)值。

三、vivo對(duì)云原生的未來(lái)展望

3.1 vivo基礎(chǔ)架構(gòu)發(fā)展

圖片

從過(guò)去看未來(lái)發(fā)展,回顧過(guò)去10年歷程,vivo基礎(chǔ)架構(gòu)的發(fā)展經(jīng)歷了3個(gè)階段:

  • 階段一:傳統(tǒng)研發(fā)運(yùn)維階段,從2011到2018年,從早期的do分離研發(fā)模式,到基于openstack+kvm的虛擬化方案落地。
  • 階段二:應(yīng)用架構(gòu)互聯(lián)網(wǎng)化階段,從2018到2020年,容器化開(kāi)始在vivo內(nèi)部興起。
  • 階段三:云原生基礎(chǔ)架構(gòu)演進(jìn)階段,從2021年到現(xiàn)在,云原生和容器將會(huì)在vivo內(nèi)部有更多場(chǎng)景的應(yīng)用和推廣,如在離線混部等。

3.2 vivo云原生未來(lái)展望

圖片

回歸事物本源思考,做正確的事,并把事情做正確。不盲從,有定力,基于價(jià)值,客觀看待新技術(shù)發(fā)展,大膽假設(shè)、小心驗(yàn)證、實(shí)踐出真知。

vivo云原生的未來(lái),將會(huì)朝著3個(gè)方向發(fā)展,分別是全面容器化、擁抱云原生和在離線混部。

  • 我們的愿景是:一次開(kāi)發(fā)到處運(yùn)行,通過(guò)自動(dòng)運(yùn)維實(shí)現(xiàn)極致效率和成本最優(yōu)!
  • 對(duì)開(kāi)發(fā)人員:我們希望大家成為那只遨游海上的藍(lán)色鯨魚(yú),馱著我們的業(yè)務(wù)應(yīng)用,一次構(gòu)建到處分發(fā),靈活調(diào)度和運(yùn)維。
  • 對(duì)管理者:我們希望追求效率的同時(shí),能夠?qū)崿F(xiàn)成本最優(yōu)。
責(zé)任編輯:龐桂玉 來(lái)源: vivo互聯(lián)網(wǎng)技術(shù)
相關(guān)推薦

2023-12-27 18:46:05

云原生容器技術(shù)

2020-06-03 07:59:12

2022-12-09 18:58:10

2020-03-04 09:56:56

網(wǎng)絡(luò)安全云原生容器

2024-05-30 14:18:04

2018-09-20 21:09:06

云原生CNBPS靈雀云

2022-06-01 09:04:58

Kafka運(yùn)維副本遷移

2023-12-20 21:36:52

容器平臺(tái)服務(wù)器

2024-02-29 09:17:43

數(shù)據(jù)中心

2023-01-05 07:54:49

vivo故障定位

2023-04-11 07:37:52

IaaSPaaSSaaS

2022-06-02 16:04:38

博云容器云

2022-06-07 10:56:20

PBCEventMesh

2021-01-15 18:03:51

云原生DevOpsALPD

2022-09-14 23:14:10

vivoPulsar大數(shù)據(jù)

2022-06-16 13:21:10

vivo容器集群云原生

2022-04-28 09:36:47

Redis內(nèi)存結(jié)構(gòu)內(nèi)存管理

2022-12-22 08:51:40

vivo代碼

2020-12-16 20:07:18

容器技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)