自動(dòng)化測(cè)試在 Kubernetes Operator 開發(fā)中的應(yīng)用
背景
最近在給 opentelemetry-operator提交一個(gè)標(biāo)簽選擇器的功能時(shí),因?yàn)楫?dāng)時(shí)修改的函數(shù)是私有的,無法添加單測(cè)函數(shù),所以社區(qū)建議我補(bǔ)充一個(gè) e2e test.
因?yàn)樵诋?dāng)前的版本下,只要給 deployment 打上了 instrumentation.opentelemetry.io/inject-java: "true" 這類注解就會(huì)給該 deployment 注入 agent。但沒辦法指定不同的 agent 版本(或者不同的環(huán)境變量),所以希望可以新增一個(gè)選擇器,同時(shí)可以針對(duì)不同的 deployment 維護(hù)不同版本的 Instrumentation(是用于控制需要注入 deployment 的資源);這樣就可以靈活控制了。
圖片
在這之前我其實(shí)也很少做 kubernetes 的 operator 開發(fā),對(duì)如何做 kubernetes 的 e2e 測(cè)試也比較陌生,好在社區(qū)提供了詳細(xì)的貢獻(xiàn)文檔。
圖片
安裝
簡(jiǎn)單來說需要兩個(gè)關(guān)鍵組件:
- kind: kubernetes in docker,是可以在本地利用 docker 啟動(dòng)一個(gè) kubernetes 集群的工具,通常用于在本地進(jìn)行開發(fā)、測(cè)試關(guān)于 kubernetes 相關(guān)的功能。
安裝 kind 的前提是本地已經(jīng)安裝好了 docker。
- chainsaw: 一個(gè) e2e 測(cè)試框架,提供了聲明式的方式定義測(cè)試用例,也有著豐富斷言功能。
他們的安裝都很簡(jiǎn)單,只要本地安裝好了 golang,直接使用 go install 即可:
go install sigs.k8s.io/kind@v0.22.0
go install github.com/kyverno/chainsaw@latest
kind 使用
在開始前還是先預(yù)習(xí)下 kind 的基本使用。
安裝好 kind 之后,使用 create cluster 命令可以在本地創(chuàng)建一個(gè) kubernetes 集群。
kind create cluster -h
Creates a local Kubernetes cluster using Docker container 'nodes'
Usage:
kind create cluster [flags]
圖片
之后只需要等待集群安裝成功即可,它會(huì)在我們的 cat ~/.kube/config 文件中追加剛才新建集群的連接信息。
k config get-contexts
k config use-context xxx
這樣就可以使用這兩個(gè)命令來查看和切換不同的集群了,雖說是一個(gè)本地模擬的 kubernetes 集群,但他的核心功能和一個(gè)標(biāo)準(zhǔn)的集群沒有什么區(qū)別。
kind delete clusters --all
使用完成之后可以使用這個(gè)命令將所有集群都刪除掉。
準(zhǔn)備集群數(shù)據(jù)
在 opentelemetry-operator 中有給我們準(zhǔn)備好一個(gè) make 命令: make prepare-e2e ;使用它會(huì)幫我們將 operator 的測(cè)試環(huán)境初始化好。
大概分為以下幾步:
- 安裝 chainsaw
- 修改 controller 的鏡像為我們本地構(gòu)建的鏡像名稱
- 本地 docker 鏡像打包
- 安裝 cert-manager
- 安裝 Operator 需要的 CRD
- 部署 Operator deployment
- 等待 Operator 啟動(dòng)成功
不過這里的安裝過程可能會(huì)遇到問題(本質(zhì)上都是我們的網(wǎng)絡(luò)問題):
圖片
圖片
這種情況可以想辦法(科學(xué)上網(wǎng))手動(dòng)先把鏡像拉取到本地,然后 kubernetes 就會(huì)從本地倉(cāng)庫(kù)獲取到這個(gè)鏡像。
e2e test
通常我們需要將同一類的測(cè)試功能放到一個(gè)文件夾里,比如這樣:
圖片
默認(rèn)情況下 Chainsaw 會(huì)查找目錄下名為 chainsaw-test.yaml 作為引導(dǎo)文件。
apiVersion: chainsaw.kyverno.io/v1alpha1
kind: Test
metadata:
creationTimestamp: null
name: instrumentation-java
spec:
steps:
- name: step-00
try:
- command:
entrypoint: kubectl
args:
- annotate
- namespace
- ${NAMESPACE}
- openshift.io/sa.scc.uid-range=1000/1000
- --overwrite
- command:
entrypoint: kubectl
args:
- annotate
- namespace
- ${NAMESPACE}
- openshift.io/sa.scc.supplemental-groups=3000/3000
- --overwrite
- apply:
file: 00-install-collector.yaml
- apply:
file: 00-install-instrumentation-select.yaml
- name: step-01
try:
- apply:
file: 01-install-app-select.yaml
- assert:
file: 01-assert*.yaml
catch:
- podLogs:
selector: app=my-java-select
tests/e2e-instrumentation/instrumentation-select
├── 00-install-collector.yaml
├── 00-install-instrumentation-select.yaml
├── 01-assert-select.yaml
├── 01-assert-without-select.yaml
├── 01-install-app-select.yaml
└── chainsaw-test.yaml
以我這里的這份文件為例,在其中定義了幾個(gè)步驟:
- 初始化環(huán)境信息,包含創(chuàng)建 namespace
- 安裝我們測(cè)試所需要的資源
00-install-collector.yaml:這里主要是安裝一個(gè) OpenTelemetry 的 collector
00-install-instrumentation-select.yaml:安裝 Instrumentation 注入資源
01-install-app-select.yaml:應(yīng)用一個(gè)我們需要測(cè)試的 deployment 資源
01-assert*.yaml:最后對(duì)最終生成的 yaml 資源與 assert*.yaml 的進(jìn)行斷言匹配,只有匹配成功后才能測(cè)試成功。
這里的測(cè)試目的主要是完成一個(gè)完整的 Java 應(yīng)用的 deployment 注入 OpenTelemetry 的 agent 過程還有一些與 OpenTelemetry 相關(guān)的環(huán)境變量。
以 00-install-instrumentation-select.yaml 文件為例:
apiVersion: opentelemetry.io/v1alpha1
kind: Instrumentation
metadata:
name: java-select
spec:
selector:
matchLabels:
app: my-java-select
env:
- name: OTEL_TRACES_EXPORTER
value: otlp
- name: OTEL_EXPORTER_OTLP_ENDPOINT
value: http://localhost:4317
exporter:
endpoint: http://localhost:4317
propagators:
- jaeger
- b3
sampler:
type: parentbased_traceidratio
argument: "0.25"
java:
env:
- name: OTEL_JAVAAGENT_DEBUG
value: "true"
它的預(yù)期效果是選擇 app: my-java-select 的 deployment 將這些環(huán)境變量都注入進(jìn)去,同時(shí)默認(rèn)也會(huì)在 deployment 的容器中掛載一個(gè) javaagent.jar:
ls /otel-auto-instrumentation-java/
javaagent.jar
而我們的 01-assert-select.yaml:
apiVersion: v1
kind: Pod
metadata:
annotations:
instrumentation.opentelemetry.io/inject-java: "true"
sidecar.opentelemetry.io/inject: "true"
labels:
app: my-java-select
spec:
containers:
- env:
- name: OTEL_JAVAAGENT_DEBUG
value: "true"
- name: JAVA_TOOL_OPTIONS
value: ' -javaagent:/otel-auto-instrumentation-java/javaagent.jar'
- name: OTEL_TRACES_EXPORTER
value: otlp
- name: OTEL_EXPORTER_OTLP_ENDPOINT
value: http://localhost:4317
- name: OTEL_TRACES_SAMPLER
value: parentbased_traceidratio
- name: OTEL_SERVICE_NAME
value: my-java-select
- name: OTEL_PROPAGATORS
value: jaeger,b3
- name: OTEL_RESOURCE_ATTRIBUTES
name: myapp
- args:
- --cnotallow=env:OTEL_CONFIG
name: otc-container
initContainers:
- name: opentelemetry-auto-instrumentation-java
status:
containerStatuses:
- name: myapp
ready: true
started: true
initContainerStatuses:
- name: opentelemetry-auto-instrumentation-java
ready: true
phase: Running
最終就是把實(shí)際的 deployment 的 yaml 內(nèi)容和這份文件進(jìn)行對(duì)比。
所以這個(gè) e2e 測(cè)試就有點(diǎn)類似于集成測(cè)試,不會(huì)測(cè)試具體的功能函數(shù),只需要最終結(jié)果能匹配就可以。
當(dāng)然這個(gè)和單元測(cè)試也是相輔相成的,缺一不可,不能完全只依賴 e2e 測(cè)試,也有可能是概率原因?qū)е伦罱K生成的資源相同;單元測(cè)試可以保證函數(shù)功能與預(yù)期相同。
都準(zhǔn)備好之后便可以進(jìn)行測(cè)試了,測(cè)試的時(shí)候也很簡(jiǎn)單,只需要執(zhí)行以下命令即可:
chainsaw test --test-dir ./tests/e2e-multi-instrumentation
這樣它就會(huì)遍歷該目錄下的 chainsaw-test.yaml文件進(jìn)行測(cè)試,執(zhí)行我們上面定義的那些步驟,最終輸出測(cè)試結(jié)果:
同時(shí) Chainsaw 也提供了 Github action,可以方便的讓我們和 github CI 進(jìn)行集成。
jobs:
example:
runs-on: ubuntu-latest
permissions: {}
name: Install Chainsaw
steps:
- name: Install Chainsaw
uses: kyverno/action-install-chainsaw@v0.1.0
with:
release: v0.0.9
- name: Check install
run: chainsaw version
這樣我們就可以在 github 中查看我們的測(cè)試結(jié)果了:
總結(jié)
最后不得不感嘆作為 CNCF 下面的項(xiàng)目 OpenTelemetry 的開發(fā)者體驗(yàn)真好,只要我們跟著貢獻(xiàn)者文檔一步步操作都能順利通過 CI 測(cè)試,同時(shí)還能避免一些 Code Review 過程中的低級(jí)錯(cuò)誤。
比如我第一次提 PR 的時(shí)候沒有添加 changlog 文件,后面在貢獻(xiàn)者手冊(cè)里發(fā)現(xiàn)只需要執(zhí)行 make chlog-new 就會(huì)基于當(dāng)前分支信息幫我們生成一個(gè) changelog 文件模板,然后只需要往里面填寫內(nèi)容即可。
這些工具鏈讓不同開發(fā)者提交的代碼和流程都符合規(guī)范,同時(shí)也降低了貢獻(xiàn)難度。
以上所有的相關(guān)源碼都可以在 https://github.com/open-telemetry/opentelemetry-operator 中進(jìn)行查看。
參考鏈接: