如何設(shè)計一個全面和穩(wěn)定的 Kubernetes 集群架構(gòu)
1.前言
我司的集群時刻處于崩潰的邊緣,通過近三個月的掌握,發(fā)現(xiàn)我司的集群不穩(wěn)定的原因有以下幾點:
- 發(fā)版流程不穩(wěn)定
- 缺少監(jiān)控平臺(最重要的原因)
- 缺少日志系統(tǒng)
- 極度缺少有關(guān)操作文檔
- 請求路線不明朗
總的來看,問題的主要原因是缺少可預(yù)知的監(jiān)控平臺,總是等問題出現(xiàn)了才知道。次要的原因是服務(wù)器作用不明朗和發(fā)版流程的不穩(wěn)定。
2.解決方案
發(fā)版流程不穩(wěn)定
重構(gòu)發(fā)版流程。業(yè)務(wù)全面Kubernetes化,構(gòu)建以Kubernetes為核心的CI/CD流程。
發(fā)版流程
有關(guān)發(fā)版流程如下:
淺析:研發(fā)人員提交代碼到developer分支(時刻確保developer分支處于最新的代碼),developer分支合并到需要發(fā)版環(huán)境對應(yīng)的分支,觸發(fā)企業(yè)微信告警,觸發(fā)部署在Kubernetes集群的gitlab-runner Pod,新啟runner Pod 執(zhí)行CI/CD操作。在這個過程中需要有三個步驟:測試用例、打包鏡像、更新Pod。第一次部署服務(wù)在Kubernetes集群環(huán)境的時候可能需要:創(chuàng)建Namespace、創(chuàng)建imagePullSecret、創(chuàng)建PV(StorageClass)、創(chuàng)建deployment(Pod controller)、創(chuàng)建SVC、創(chuàng)建Ingress等。其中鏡像打包推送阿里云倉庫和從阿里云倉庫下載鏡像使用VPC訪問,不走公網(wǎng),無網(wǎng)速限制。流程完畢,runner Pod銷毀,GitLab返回結(jié)果。
需要強調(diào)的一點是,在這里的資源資源清單不包含ConfigMap或者Secret,牽扯到安全性的問題,不應(yīng)該出現(xiàn)在代碼倉庫中,我司是使用Rancher充當(dāng)Kubernetes多集群管理平臺,上述安全問題在Rancher的Dashboard中由運維來做的。
服務(wù)部署邏輯圖
有關(guān)服務(wù)部署邏輯圖如下:
根據(jù)發(fā)版流程的淺析,再根據(jù)邏輯圖可以明確發(fā)版流程。在這里看到我司使用的是Kong代替Nginx,做認(rèn)證、鑒權(quán)、代理。而SLB的IP綁定在Kong上。0,1,2屬于test job;3屬于build job;4,5,6,7屬于change pod 階段。并非所有的服務(wù)都需要做存儲,需要根據(jù)實際情況來定,所以需要在kubernetes.sh里寫判斷。在這里我試圖使用一套CI應(yīng)用與所有的環(huán)境,所以需要在kubernetes.sh中用到的判斷較多,且.gitlab-ci.yml顯得過多。建議是使用一個CI模版,應(yīng)用于所有的環(huán)境,畢竟怎么省事怎么來。還要考慮自己的分支模式,具體參考:https://www.cnblogs.com/zisefeizhu/p/13621797.html
缺少監(jiān)控預(yù)警平臺
構(gòu)建可信賴且符合我司集群環(huán)境的聯(lián)邦監(jiān)控平臺,實現(xiàn)對幾個集群環(huán)境的同時監(jiān)控和預(yù)故障告警,提前介入。
監(jiān)控預(yù)警邏輯圖
有關(guān)監(jiān)控預(yù)警邏輯圖如下:
淺析:總的來說,我這里使用到的監(jiān)控方案是Prometheus + Shell腳本或Go腳本+ Sentry。使用到的告警方式是企業(yè)微信或者企業(yè)郵箱。上圖三種顏色的線代表三種監(jiān)控方式需要注意。腳本主要是用來做備份告警、證書告警、抓賊等。Prometheus這里采用的是根據(jù)Prometheus-opertor修改的Prometheus資源清單,數(shù)據(jù)存儲在NAS上。Sentry嚴(yán)格的來講屬于日志收集類的平臺,在這里我將其歸為監(jiān)控類,是因為我看中了其收集應(yīng)用底層代碼的崩潰信息的能力,屬于業(yè)務(wù)邏輯監(jiān)控,旨在對業(yè)務(wù)系統(tǒng)運行過程中產(chǎn)生的錯誤日志進行收集歸納和監(jiān)控告警。
注意這里使用的是聯(lián)邦監(jiān)控平臺,而部署普通的監(jiān)控平臺。
聯(lián)邦監(jiān)控預(yù)警平臺邏輯圖
多集群聯(lián)邦監(jiān)控預(yù)警平臺邏輯圖如下:
因為我司有幾個Kubernetes集群,如果在每個集群上都部署一套監(jiān)控預(yù)警平臺的話,管理起來太過不便,所以這里我采取的策略是使用將各監(jiān)控預(yù)警平臺實行一個聯(lián)邦的策略,使用統(tǒng)一的可視化界面管理。這里我將實現(xiàn)三個級別餓監(jiān)控:操作系統(tǒng)級、應(yīng)用程序級、業(yè)務(wù)級。對于流量的監(jiān)控可以直接針對Kong進行監(jiān)控,模版7424。
缺少日志系統(tǒng)
隨著業(yè)務(wù)全面Kubernetes化進程的推進,對于日志系統(tǒng)的需求將更加渴望,Kubernetes的特性是服務(wù)的故障日志難以獲取。建立可觀測的能過濾的日志系統(tǒng)可以降低對故障的分析難度。
有關(guān)日志系統(tǒng)邏輯圖如下:
淺析:在業(yè)務(wù)全面上Kubernetes化后,方便了管理維護,但對于日志的管理難度就適當(dāng)上升了。我們知道Pod的重啟是有多因素且不可控的,而每次Pod重啟都會重新記錄日志,即新Pod之前的日志是不可見的。當(dāng)然了有多種方法可以實現(xiàn)日志長存:遠(yuǎn)端存儲日志、本機掛載日志等。出于對可視化、可分析等的考慮,選擇使用Elasticsearch構(gòu)建日志收集系統(tǒng)。
極度缺少有關(guān)操作文檔
建立以語雀--> 運維相關(guān)資料為中心的文檔中心,將有關(guān)操作、問題、腳本等詳細(xì)記錄在案,以備隨時查看。
淺析因安全性原因,不便于過多同事查閱。運維的工作比較特殊,安全化、文檔化是必須要保障的。我認(rèn)為不論是運維還是運維開發(fā),書寫文檔都是必須要掌握的,為己也好,為他也罷。文檔可以簡寫,但必須要含苞核心的步驟。我還是認(rèn)為運維的每一步操作都應(yīng)該記錄下來。
請求路線不明朗
根據(jù)集群重構(gòu)的新思路,重新梳理集群級流量請求路線,構(gòu)建具備:認(rèn)證、鑒權(quán)、代理、連接、保護、控制、觀察等一體的流量管理,有效控制故障爆炸范圍。
請求路線邏輯圖如下:
淺析:客戶經(jīng)過Kong網(wǎng)關(guān)鑒權(quán)后進入特定名稱空間(通過名稱空間區(qū)分項目),因為服務(wù)已經(jīng)拆分為微服務(wù),服務(wù)間通信經(jīng)過Istio認(rèn)證、授權(quán),需要和數(shù)據(jù)庫交互的去找數(shù)據(jù)庫,需要寫或者讀存儲的去找PV,需要轉(zhuǎn)換服務(wù)的去找轉(zhuǎn)換服務(wù)......然后返回響應(yīng)。
3.總結(jié)
綜上所述,構(gòu)建以:以Kubernetes為核心的CI/CD發(fā)版流程、以Prometheus為核心的聯(lián)邦監(jiān)控預(yù)警平臺、以Elasticsearch為核心的日志收集系統(tǒng)、以語雀為核心的文檔管理中心、以Kong及Istio為核心的南北東西流量一體化服務(wù),可以在高平發(fā),高可靠性上做到很好保障。
附總體架構(gòu)邏輯圖:
注:請根據(jù)箭頭和顏色來分析。
淺析:上圖看著似乎過于混亂,靜下心來,根據(jù)上面的拆分模塊一層層分析還是可以看清晰的。這里我用不同顏色的連線代表不同模塊的系統(tǒng),根據(jù)箭頭走還是蠻清晰的。
根據(jù)我司目前的業(yè)務(wù)流量,上述功能模塊,理論上可以實現(xiàn)集群的維穩(wěn)。私認(rèn)為此套方案可以確保業(yè)務(wù)在Kubernetes集群上穩(wěn)定的運行一段時間,再有問題就屬于代碼層面的問題了。這里沒有使用到中間件,倒是使用到了緩存Redis不過沒畫出來。我規(guī)劃在上圖搞定后再在日志系統(tǒng)哪里和轉(zhuǎn)換服務(wù)哪里增加個中間件Kafka或者RQ看情況吧。