Argo Rollouts 基于 Analysis 的漸進式發(fā)布
前面我們介紹了使用手動的方式來控制 Argo Rollouts 進行應用交付,此外我們還可以利用 Argo Rollouts 提供的分析(Analysis)來執(zhí)行自動交付。Argo Rollouts 提供了幾種執(zhí)行分析(Analysis)的方法來推動漸進式交付,首先需要了解幾個 CRD 資源:
- Rollout:Rollout 是 Deployment 資源的直接替代品,它提供額外的 blueGreen 和 canary 更新策略,這些策略可以在更新期間創(chuàng)建 AnalysisRuns 和 Experiments,可以推進更新,或中止更新。
- AnalysisTemplate:AnalysisTemplate 是一個模板,它定義了如何執(zhí)行金絲雀分析,例如它應該執(zhí)行的指標、頻率以及被視為成功或失敗的值,AnalysisTemplate 可以用輸入值進行參數(shù)化。
- ClusterAnalysisTemplate:ClusterAnalysisTemplate 和 AnalysisTemplate 類似,但它是全局范圍內(nèi)的,它可以被整個集群的任何 Rollout 使用。
- AnalysisRun:AnalysisRun 是 AnalysisTemplate 的實例化。AnalysisRun 就像 Job 一樣,它們最終會完成,完成的運行被認為是成功的、失敗的或不確定的,運行的結果分別影響 Rollout 的更新是否繼續(xù)、中止或暫停。
后臺分析
金絲雀正在執(zhí)行其部署步驟時,分析可以在后臺運行。
以下示例是每 10 分鐘逐漸將 Canary 權重增加 20%,直到達到 100%。在后臺,基于名為 success-rate 的 AnalysisTemplate 啟動 AnalysisRun,success-rate 模板查詢 Prometheus 服務器,以 5 分鐘間隔/樣本測量 HTTP 成功率,它沒有結束時間,一直持續(xù)到停止或失敗。如果測量到的指標小于 95%,并且有三個這樣的測量值,則分析被視為失敗。失敗的分析會導致 Rollout 中止,將 Canary 權重設置回零,并且 Rollout 將被視為降級。否則,如果 rollout 完成其所有 Canary 步驟,則認為 rollout 是成功的,并且控制器將停止運行分析。
如下所示的 Rollout 資源對象:
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- ...
- strategy:
- canary:
- analysis:
- templates:
- - templateName: success-rate
- startingStep: 2 # 延遲開始分析,到第3步開始
- args:
- - name: service-name
- value: guestbook-svc.default.svc.cluster.local
- steps:
- - setWeight: 20
- - pause: {duration: 10m}
- - setWeight: 40
- - pause: {duration: 10m}
- - setWeight: 60
- - pause: {duration: 10m}
- - setWeight: 80
- - pause: {duration: 10m}
上面我們引用了一個 success-rate 的模板:
- apiVersion: argoproj.io/v1alpha1
- kind: AnalysisTemplate
- metadata:
- name: success-rate
- spec:
- args:
- - name: service-name
- metrics:
- - name: success-rate
- interval: 5m
- # NOTE: prometheus queries return results in the form of a vector.
- # So it is common to access the index 0 of the returned array to obtain the value
- successCondition: result[0] >= 0.95
- failureLimit: 3
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: |
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}",response_code!~"5.*"}[5m]
- )) /
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}"}[5m]
- ))
內(nèi)聯(lián)分析
分析也可以作為內(nèi)嵌“分析”步驟來執(zhí)行,當分析以 "內(nèi)聯(lián) "方式進行時,在到達該步驟時啟動 AnalysisRun,并在運行完成之前阻止其推進。分析運行的成功或失敗決定了部署是繼續(xù)進行下一步,還是完全中止部署。
如下所示的示例中我們將 Canary 權重設置為 20%,暫停 5 分鐘,然后運行分析。如果分析成功,則繼續(xù)發(fā)布,否則中止。
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- ...
- strategy:
- canary:
- steps:
- - setWeight: 20
- - pause: {duration: 5m}
- - analysis:
- templates:
- - templateName: success-rate
- args:
- - name: service-name
- value: guestbook-svc.default.svc.cluster.local
上面的對象中我們將 analysis 作為一個步驟內(nèi)聯(lián)到了 Rollout 步驟中,當20%流量暫停5分鐘后,開始執(zhí)行 success-rate 這個分析模板。
這里 AnalysisTemplate 與上面的后臺分析例子相同,但由于沒有指定間隔時間,分析將執(zhí)行一次測量就完成了。
- apiVersion: argoproj.io/v1alpha1
- kind: AnalysisTemplate
- metadata:
- name: success-rate
- spec:
- args:
- - name: service-name
- - name: prometheus-port
- value: 9090
- metrics:
- - name: success-rate
- successCondition: result[0] >= 0.95
- provider:
- prometheus:
- address: "http://prometheus.example.com:{{args.prometheus-port}}"
- query: |
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}",response_code!~"5.*"}[5m]
- )) /
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}"}[5m]
- ))
此外我們可以通過指定 count 和 interval 字段,可以在一個較長的時間段內(nèi)進行多次測量。
- metrics:
- - name: success-rate
- successCondition: result[0] >= 0.95
- interval: 60s
- count: 5
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: ...
多個模板的分析
Rollout 在構建 AnalysisRun 時可以引用多個 AnalysisTemplate。這樣我們就可以從多個 AnalysisTemplate 中來組成分析,如果引用了多個模板,那么控制器將把這些模板合并在一起,控制器會結合所有模板的指標和 args 字段。如下所示:
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- ...
- strategy:
- canary:
- analysis:
- templates:
- - templateName: success-rate
- - templateName: error-rate
- args:
- - name: service-name
- value: guestbook-svc.default.svc.cluster.local
- ---
- apiVersion: argoproj.io/v1alpha1
- kind: AnalysisTemplate
- metadata:
- name: success-rate
- spec:
- args:
- - name: service-name
- metrics:
- - name: success-rate
- interval: 5m
- successCondition: result[0] >= 0.95
- failureLimit: 3
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: |
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}",response_code!~"5.*"}[5m]
- )) /
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}"}[5m]
- ))
- ---
- apiVersion: argoproj.io/v1alpha1
- kind: AnalysisTemplate
- metadata:
- name: error-rate
- spec:
- args:
- - name: service-name
- metrics:
- - name: error-rate
- interval: 5m
- successCondition: result[0] <= 0.95
- failureLimit: 3
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: |
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}",response_code=~"5.*"}[5m]
- )) /
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}"}[5m]
- ))
當執(zhí)行的分析的時候,控制器會將上面的 success-rate 和 error-rate 兩個模板合并到一個 AnalysisRun 對象中去。
需要注意的是如果出現(xiàn)以下情況,控制器在合并模板時將出錯:
- 模板中的多個指標具有相同的名稱
- 兩個同名的參數(shù)都有值
分析模板參數(shù)
AnalysisTemplates 可以聲明一組參數(shù),這些參數(shù)可以由 Rollouts 傳遞。然后,這些參數(shù)可以像在 metrics 配置中一樣使用,并在 AnalysisRun 創(chuàng)建時被實例化,參數(shù)占位符被定義為 {{ args.
- apiVersion: argoproj.io/v1alpha1
- kind: AnalysisTemplate
- metadata:
- name: args-example
- spec:
- args:
- # required
- - name: service-name
- - name: stable-hash
- - name: latest-hash
- # optional
- - name: api-url
- value: http://example/measure
- # from secret
- - name: api-token
- valueFrom:
- secretKeyRef:
- name: token-secret
- key: apiToken
- metrics:
- - name: webmetric
- successCondition: result == 'true'
- provider:
- web:
- # placeholders are resolved when an AnalysisRun is created
- url: "{{ args.api-url }}?service={{ args.service-name }}"
- headers:
- - key: Authorization
- value: "Bearer {{ args.api-token }}"
- jsonPath: "{$.results.ok}"
在創(chuàng)建 AnalysisRun 時,Rollout 中定義的參數(shù)與 AnalysisTemplate 的參數(shù)會合并,如下所示:
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- ...
- strategy:
- canary:
- analysis:
- templates:
- - templateName: args-example
- args:
- # required value
- - name: service-name
- value: guestbook-svc.default.svc.cluster.local
- # override default value
- - name: api-url
- value: http://other-api
- # pod template hash from the stable ReplicaSet
- - name: stable-hash
- valueFrom:
- podTemplateHashValue: Stable
- # pod template hash from the latest ReplicaSet
- - name: latest-hash
- valueFrom:
- podTemplateHashValue: Latest
此外分析參數(shù)也支持 valueFrom,用于讀取 meta 數(shù)據(jù)并將其作為參數(shù)傳遞給 AnalysisTemplate,如下例子是引用元數(shù)據(jù)中的 env 和 region 標簽,并將它們傳遞給 AnalysisTemplate。
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- labels:
- appType: demo-app
- buildType: nginx-app
- ...
- env: dev
- region: us-west-2
- spec:
- ...
- strategy:
- canary:
- analysis:
- templates:
- - templateName: args-example
- args:
- ...
- - name: env
- valueFrom:
- fieldRef:
- fieldPath: metadata.labels['env']
- # region where this app is deployed
- - name: region
- valueFrom:
- fieldRef:
- fieldPath: metadata.labels['region']
藍綠預發(fā)布分析
使用 BlueGreen 策略的 Rollout 可以在使用預發(fā)布將流量切換到新版本之前啟動一個 AnalysisRun。分析運行的成功或失敗決定 Rollout 是否切換流量,或完全中止 Rollout,如下所示:
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- ...
- strategy:
- blueGreen:
- activeService: active-svc
- previewService: preview-svc
- prePromotionAnalysis:
- templates:
- - templateName: smoke-tests
- args:
- - name: service-name
- value: preview-svc.default.svc.cluster.local
上面我們的示例中一旦新的 ReplicaSet 完全可用,Rollout 會創(chuàng)建一個預發(fā)布的 AnalysisRun,Rollout 不會將流量切換到新版本,而是會等到分析運行成功完成。
注意:如果指定了 autoPromotionSeconds 字段,并且 Rollout 已經(jīng)等待了 auto promotion seconds 的時間,Rollout 會標記 AnalysisRun 成功,并自動將流量切換到新版本。如果 AnalysisRun 在此之前完成,Rollout 將不會創(chuàng)建另一個 AnalysisRun,并等待 autoPromotionSeconds 的剩余時間。
藍綠發(fā)布后分析
使用 BlueGreen 策略的 Rollout 還可以在流量切換到新版本后使用發(fā)布后分析。如果發(fā)布后分析失敗或出錯,Rollout 則進入中止狀態(tài),并將流量切換回之前的穩(wěn)定 Replicaset,當后分析成功時,Rollout 被認為是完全發(fā)布狀態(tài),新的 ReplicaSet 將被標記為穩(wěn)定,然后舊的 ReplicaSet 將根據(jù) scaleDownDelaySeconds(默認為30秒)進行縮減。
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- ...
- strategy:
- blueGreen:
- activeService: active-svc
- previewService: preview-svc
- scaleDownDelaySeconds: 600 # 10 minutes
- postPromotionAnalysis:
- templates:
- - templateName: smoke-tests
- args:
- - name: service-name
- value: preview-svc.default.svc.cluster.local
失敗條件
failureCondition 可以用來配置分析運行失敗,下面的例子是每隔5分鐘持續(xù)輪詢 Prometheus 服務器來獲得錯誤總數(shù),如果遇到10個或更多的錯誤,則認為分析運行失敗。
- metrics:
- - name: total-errors
- interval: 5m
- failureCondition: result[0] >= 10
- failureLimit: 3
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: |
- sum(irate(
- istio_requests_total{reporter="source",destination_service=~"{{args.service-name}}",response_code~"5.*"}[5m]
- ))
無結果的運行
分析運行j結果也可以被認為是不確定的,這表明運行既不成功,也不失敗。無結果的運行會導致發(fā)布在當前步驟上暫停。這時需要人工干預,以恢復運行,或中止運行。當一個指標沒有定義成功或失敗的條件時,分析運行可能成為無結果的一個例子。
- metrics:
- - name: my-query
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: ...
此外當同時指定了成功和失敗的條件,但測量值沒有滿足任何一個條件時,也可能發(fā)生不確定的分析運行。
- metrics:
- - name: success-rate
- successCondition: result[0] >= 0.90
- failureCondition: result[0] < 0.50
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: ...
不確定的分析運行的一個場景是使 Argo Rollouts 能夠自動執(zhí)行分析運行,并收集測量結果,但仍然允許我們來判斷決定測量值是否可以接受,并決定繼續(xù)或中止。
延遲分析運行
如果分析運行不需要立即開始(即給指標提供者時間來收集金絲雀版本的指標),分析運行可以延遲特定的指標分析。每個指標可以被配置為有不同的延遲,除了特定指標的延遲之外,具有后臺分析的發(fā)布可以延遲創(chuàng)建分析運行,直到達到某個步驟為止
如下所示延遲一個指定的分析指標:
- metrics:
- - name: success-rate
- # Do not start this analysis until 5 minutes after the analysis run starts
- initialDelay: 5m
- successCondition: result[0] >= 0.90
- provider:
- prometheus:
- address: http://prometheus.example.com:9090
- query: ...
延遲開始后臺分析運行,直到步驟3(設定重量40%)。
- apiVersion: argoproj.io/v1alpha1
- kind: Rollout
- metadata:
- name: guestbook
- spec:
- strategy:
- canary:
- analysis:
- templates:
- - templateName: success-rate
- startingStep: 2
- steps:
- - setWeight: 20
- - pause: {duration: 10m}
- - setWeight: 40
- - pause: {duration: 10m}
引用 Secret
AnalysisTemplate 和 AnalysisRun 可以在 .spec.args 中引用 Secret 對象,這允許用戶安全地將認證信息傳遞給指標提供方,如登錄憑證或 API 令牌。
需要注意一個 AnalysisRun 只能引用它所運行的同一命名空間的 Secret。
如下所示的例子中,一個 AnalysisTemplate 引用了一個 API 令牌,并把它傳遞給一個Web 指標提供者。
- apiVersion: argoproj.io/v1alpha1
- kind: AnalysisTemplate
- spec:
- args:
- - name: api-token
- valueFrom:
- secretKeyRef:
- name: token-secret
- key: apiToken
- metrics:
- - name: webmetric
- provider:
- web:
- headers:
- - key: Authorization
- value: "Bearer {{ args.api-token }}"
【編輯推薦】