探索服務(wù)網(wǎng)格與 OpenTelemetry 的協(xié)同之分布式跟蹤
這篇文章發(fā)出后有讀者評(píng)論 javaagent 的“無侵入”一說,這里有必要解釋下?!盁o侵入”主要指的是不需要修改應(yīng)用程序的業(yè)務(wù)邏輯代碼就能實(shí)現(xiàn)的功能,對(duì)應(yīng)用程序透明無感知,讓開發(fā)者專注于業(yè)務(wù)開發(fā);同時(shí)由于無需修改應(yīng)用程序代碼,更易于集成;同時(shí)還維護(hù)簡(jiǎn)單,在多種語言、框架間保證功能的一致性。
而 Java Agent 在 JVM 啟動(dòng)時(shí)加載,它在運(yùn)行時(shí)修改字節(jié)碼來注入跟蹤代碼,而不是在應(yīng)用程序的源代碼層面上進(jìn)行修改。
背景
分布式跟蹤
分布式跟蹤是監(jiān)控和診斷微服務(wù)請(qǐng)求流程的關(guān)鍵技術(shù),也是可觀測(cè)性的關(guān)鍵組成部分,提供了對(duì)微服務(wù)架構(gòu)中復(fù)雜交互和性能問題的深入洞察。它通過提供服務(wù)間請(qǐng)求鏈路的清晰視圖來管理復(fù)雜性,并幫助識(shí)別性能瓶頸、優(yōu)化資源分配、快速定位和解決故障,提高系統(tǒng)的整體可靠性。
服務(wù)網(wǎng)格的無侵入式分布式跟蹤
又是無侵入性!服務(wù)網(wǎng)格中的代理自動(dòng)處理所有入站和出站的網(wǎng)絡(luò)通信,自動(dòng)捕獲、記錄和分析服務(wù)間的請(qǐng)求和響應(yīng)的詳細(xì)細(xì)心,如請(qǐng)求時(shí)間、持續(xù)時(shí)間、狀態(tài)代碼和其他元數(shù)據(jù)。這種 實(shí)現(xiàn)方式[1] 對(duì)應(yīng)用程序本身透明,并且較 Java Agent 在運(yùn)行時(shí)修改字節(jié)碼更加徹底。
這里有個(gè)前提是應(yīng)用程序能夠在請(qǐng)求中傳遞上下文信息,這樣 sidecar 代理生成和發(fā)送的跟蹤信息最終可以串聯(lián)在一起,不會(huì)發(fā)生斷鏈。
圖片
網(wǎng)格的無侵入式分布式跟蹤雖然為我們展示了請(qǐng)求的鏈路,但是如上圖所示每個(gè)跨度(span)都是 sidecar 代理的信息。
緊跟上篇文章之后,我們今天將探索 服務(wù)網(wǎng)格 FSM[2] 與 OpenTelemetry 的集成,實(shí)現(xiàn)應(yīng)用、網(wǎng)格的全鏈路分布式跟蹤。
演示
架構(gòu)
圖片
環(huán)境配置
Jaeger、cert-manager 和 Otel operator 的安裝,請(qǐng)參考 上一篇文章。
配置 Instrumentation
接下來就是配置探針的安裝和配置了,詳細(xì)的配置說明,可以參考 Instrumentation API 文檔[3]。
根據(jù) FSM 分布式跟蹤文檔[4] 的介紹,F(xiàn)SM 支持 Zipkin 的協(xié)議,因此在 propagators 中我們使用 b3multi,使用 B3 的多標(biāo)頭格式,在請(qǐng)求頭中傳遞如下的信息:
- x-b3-traceid
- x-b3-spanid
- x-b3-parentspanid
- x-b3-sampled
- x-b3-flags
這次使用 sample 命名空間。
kubectl create namespace sample
kubectl apply -n sample -f - <<EOF
apiVersion: opentelemetry.io/v1alpha1
kind: Instrumentation
metadata:
name: instrumentation-sample
spec:
propagators:
- b3multi
sampler:
type: parentbased_traceidratio
argument: "1"
env:
- name: OTEL_EXPORTER_OTLP_ENDPOINT
value: otel-collector.default:4318
EOF
配置 OpenTelemetry Collector
Otel 收集器的詳細(xì)配置可以參考 官方文檔[5]。
- 接收器(receiver),我們配置 otlp 來接收來自應(yīng)用程序的跟蹤信息,使用 zipkin 來接收來自 sidecar 的上報(bào),使用端點(diǎn) 0.0.0.0:9411。
- 輸出器(exporter),配置 Jager 的 otlp 端點(diǎn) jaeger.default:4317。
- 管道服務(wù)(pipeline service),使用 otlp 和 zipkin 作為輸入源,將 jaeger 作為輸出目的地。
kubectl apply -f - <<EOF
apiVersion: opentelemetry.io/v1alpha1
kind: OpenTelemetryCollector
metadata:
name: otel
spec:
config: |
receivers:
otlp:
protocols:
grpc:
http:
zipkin:
endpoint: "0.0.0.0:9411"
exporters:
otlp/jaeger:
endpoint: "jaeger.default:4317"
tls:
insecure: true
service:
pipelines:
traces:
receivers: [otlp, zipkin]
exporters: [otlp/jaeger]
EOF
安裝服務(wù)網(wǎng)格 FSM
我們通過 CLI 來安裝 FSM,現(xiàn)下載 FSM 使用當(dāng)前最新的正式版 1.1.4。
system=$(uname -s | tr '[:upper:]' '[:lower:]')
arch=$(uname -m | sed -E 's/x86_/amd/' | sed -E 's/aarch/arm/')
release=v1.1.4
curl -L https://github.com/flomesh-io/fsm/releases/download/$release/fsm-$release-$system-$arch.tar.gz | tar -vxzf -
./$system-$arch/fsm version
在安裝時(shí),啟用分布式跟蹤并將地址指向 Otel Collector 的 zipkin 接收器,zipkin 接收器端點(diǎn)為 /api/v2/spans。
fsm install \
--set=fsm.tracing.enable=true \
--set=fsm.tracing.address=otel-collector.default \
--set=fsm.tracing.port=9411 \
--set=fsm.tracing.endpoint=/api/v2/spans
部署示例應(yīng)用
將命名空間 sample 加入到服務(wù)網(wǎng)格中,部署應(yīng)用。
fsm namespace add sample
kubectl apply -n sample -f https://raw.githubusercontent.com/addozhang/http-sample/main/manifests/service-v1.yaml
確認(rèn)應(yīng)用 pod 注入 sidecar 并正常運(yùn)行。
kubectl get po -n sample
NAME READY STATUS RESTARTS AGE
service-c-66bf9dcc7b-pdj8p 2/2 Running 0 38s
service-b-586cfc5ccd-k9qrs 2/2 Running 0 37s
service-a-7cf7bc5bcc-tgjzz 2/2 Running 0 37s
測(cè)試
pod_name="$(kubectl get pod -n sample -l app=service-a -o jsnotallow='{.items[0].metadata.name}')"
kubectl port-forward -n sample $pod_name 8080:8080 &
curl localhost:8080
發(fā)送請(qǐng)求后,打開 Jaeger UI。
jaeger_pod="$(kubectl get pod -l app=jaeger -o jsnotallow='{.items[0].metadata.name}')"
kubectl port-forward $jaeger_pod 16686:16686 &
在 Jaeger UI 中,可以看到鏈路的內(nèi)容更加的豐富:包含了應(yīng)用程序和 sidecar 代理的跨度數(shù)據(jù)。
圖片
參考資料
[1] 實(shí)現(xiàn)方式: https://fsm-docs.flomesh.io/guides/observability/tracing/
[2] 服務(wù)網(wǎng)格 FSM: http://fsm-docs.flomesh.io
[3] Instrumentation API 文檔: https://github.com/open-telemetry/opentelemetry-operator/blob/main/docs/api.md#instrumentation
[4] FSM 分布式跟蹤文檔: https://fsm-docs.flomesh.io/guides/observability/tracing/
[5] 官方文檔: https://opentelemetry.io/docs/collector/configuration/