自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

開(kāi)發(fā) 前端
在診斷Kubernetes集群?jiǎn)栴}的時(shí)候,我們經(jīng)常注意到集群中某一節(jié)點(diǎn)在閃爍*,而這通常是隨機(jī)的且以奇怪的方式發(fā)生。這就是為什么我們一直需要一種工具,它可以測(cè)試一個(gè)節(jié)點(diǎn)與另一個(gè)節(jié)點(diǎn)之間的可達(dá)性,并以Prometheus度量形式呈現(xiàn)結(jié)果。

在診斷Kubernetes集群?jiǎn)栴}的時(shí)候,我們經(jīng)常注意到集群中某一節(jié)點(diǎn)在閃爍*,而這通常是隨機(jī)的且以奇怪的方式發(fā)生。這就是為什么我們一直需要一種工具,它可以測(cè)試一個(gè)節(jié)點(diǎn)與另一個(gè)節(jié)點(diǎn)之間的可達(dá)性,并以Prometheus度量形式呈現(xiàn)結(jié)果。有了這個(gè)工具,我們還希望在Grafana中創(chuàng)建圖表并快速定位發(fā)生故障的節(jié)點(diǎn)(并在必要時(shí)將該節(jié)點(diǎn)上所有Pod進(jìn)行重新調(diào)度并進(jìn)行必要的維護(hù))。

“閃爍”這里我是指某個(gè)節(jié)點(diǎn)隨機(jī)變?yōu)?ldquo;NotReady”但之后又恢復(fù)正常的某種行為。例如部分流量可能無(wú)法到達(dá)相鄰節(jié)點(diǎn)上的Pod。

為什么會(huì)發(fā)生這種情況?常見(jiàn)原因之一是數(shù)據(jù)中心交換機(jī)中的連接問(wèn)題。例如,我們?cè)?jīng)在Hetzner中設(shè)置一個(gè)vswitch,其中一個(gè)節(jié)點(diǎn)已無(wú)法通過(guò)該vswitch端口使用,并且恰好在本地網(wǎng)絡(luò)上完全不可訪問(wèn)。

我們的最后一個(gè)要求是可直接在Kubernetes中運(yùn)行此服務(wù),因此我們將能夠通過(guò)Helm圖表部署所有內(nèi)容。(例如在使用Ansible的情況下,我們必須為各種環(huán)境中的每個(gè)角色定義角色:AWS、GCE、裸機(jī)等)。由于我們尚未找到針對(duì)此環(huán)境的現(xiàn)成解決方案,因此我們決定自己來(lái)實(shí)現(xiàn)。

腳本和配置

我們解決方案的主要組件是一個(gè)腳本,該腳本監(jiān)視每個(gè)節(jié)點(diǎn)的.status.addresses值。如果某個(gè)節(jié)點(diǎn)的該值已更改(例如添加了新節(jié)點(diǎn)),則我們的腳本使用Helm value方式將節(jié)點(diǎn)列表以ConfigMap的形式傳遞給Helm圖表:

 

  1. apiVersion: v1 
  2. kind: ConfigMap 
  3. metadata: 
  4. name: ping-exporter-config 
  5. namespace: d8-system 
  6. data: 
  7. nodes.json: > 
  8. {{ .Values.pingExporter.targets | toJson }}  
  9.  
  10.  
  11. .Values.pingExporter.targets類似以下: 
  12.  
  13. "cluster_targets":[{"ipAddress":"192.168.191.11","name":"kube-a-3"},{"ipAddress":"192.168.191.12","name":"kube-a-2"},{"ipAddress":"192.168.191.22","name":"kube-a-1"},{"ipAddress":"192.168.191.23","name":"kube-db-1"},{"ipAddress":"192.168.191.9","name":"kube-db-2"},{"ipAddress":"51.75.130.47","name":"kube-a-4"}],"external_targets":[{"host":"8.8.8.8","name":"google-dns"},{"host":"youtube.com"}]}  

下面是Python腳本:

 

  1. #!/usr/bin/env python3 
  2.  
  3. import subprocess 
  4. import prometheus_client 
  5. import re 
  6. import statistics 
  7. import os 
  8. import json 
  9. import glob 
  10. import better_exchook 
  11. import datetime 
  12.  
  13. better_exchook.install() 
  14.  
  15. FPING_CMDLINE = "/usr/sbin/fping -p 1000 -C 30 -B 1 -q -r 1".split(" "
  16. FPING_REGEX = re.compile(r"^(\S*)\s*: (.*)$", re.MULTILINE) 
  17. CONFIG_PATH = "/config/targets.json" 
  18.  
  19. registry = prometheus_client.CollectorRegistry() 
  20.  
  21. prometheus_exceptions_counter = \ 
  22. prometheus_client.Counter('kube_node_ping_exceptions''Total number of exceptions', [], registry=registry) 
  23.  
  24. prom_metrics_cluster = {"sent": prometheus_client.Counter('kube_node_ping_packets_sent_total'
  25.                                               'ICMP packets sent'
  26.                                               ['destination_node''destination_node_ip_address'], 
  27.                                               registry=registry), 
  28.             "received": prometheus_client.Counter('kube_node_ping_packets_received_total'
  29.                                                   'ICMP packets received'
  30.                                                  ['destination_node''destination_node_ip_address'], 
  31.                                                  registry=registry), 
  32.             "rtt": prometheus_client.Counter('kube_node_ping_rtt_milliseconds_total'
  33.                                              'round-trip time'
  34.                                             ['destination_node''destination_node_ip_address'], 
  35.                                             registry=registry), 
  36.             "min": prometheus_client.Gauge('kube_node_ping_rtt_min''minimum round-trip time'
  37.                                            ['destination_node''destination_node_ip_address'], 
  38.                                            registry=registry), 
  39.             "max": prometheus_client.Gauge('kube_node_ping_rtt_max''maximum round-trip time'
  40.                                            ['destination_node''destination_node_ip_address'], 
  41.                                            registry=registry), 
  42.             "mdev": prometheus_client.Gauge('kube_node_ping_rtt_mdev'
  43.                                             'mean deviation of round-trip times'
  44.                                             ['destination_node''destination_node_ip_address'], 
  45.                                             registry=registry)} 
  46.  
  47.  
  48. prom_metrics_external = {"sent": prometheus_client.Counter('external_ping_packets_sent_total'
  49.                                               'ICMP packets sent'
  50.                                               ['destination_name''destination_host'], 
  51.                                               registry=registry), 
  52.             "received": prometheus_client.Counter('external_ping_packets_received_total'
  53.                                                   'ICMP packets received'
  54.                                                  ['destination_name''destination_host'], 
  55.                                                  registry=registry), 
  56.             "rtt": prometheus_client.Counter('external_ping_rtt_milliseconds_total'
  57.                                              'round-trip time'
  58.                                             ['destination_name''destination_host'], 
  59.                                             registry=registry), 
  60.             "min": prometheus_client.Gauge('external_ping_rtt_min''minimum round-trip time'
  61.                                            ['destination_name''destination_host'], 
  62.                                            registry=registry), 
  63.             "max": prometheus_client.Gauge('external_ping_rtt_max''maximum round-trip time'
  64.                                            ['destination_name''destination_host'], 
  65.                                            registry=registry), 
  66.             "mdev": prometheus_client.Gauge('external_ping_rtt_mdev'
  67.                                             'mean deviation of round-trip times'
  68.                                             ['destination_name''destination_host'], 
  69.                                             registry=registry)} 
  70.  
  71. def validate_envs(): 
  72. envs = {"MY_NODE_NAME": os.getenv("MY_NODE_NAME"), "PROMETHEUS_TEXTFILE_DIR": os.getenv("PROMETHEUS_TEXTFILE_DIR"), 
  73.         "PROMETHEUS_TEXTFILE_PREFIX": os.getenv("PROMETHEUS_TEXTFILE_PREFIX")} 
  74.  
  75. for k, v in envs.items(): 
  76.     if not v: 
  77.         raise ValueError("{} environment variable is empty".format(k)) 
  78.  
  79. return envs 
  80.  
  81.  
  82. @prometheus_exceptions_counter.count_exceptions() 
  83. def compute_results(results): 
  84. computed = {} 
  85.  
  86. matches = FPING_REGEX.finditer(results) 
  87. for match in matches: 
  88.     host = match.group(1) 
  89.     ping_results = match.group(2) 
  90.     if "duplicate" in ping_results: 
  91.         continue 
  92.     splitted = ping_results.split(" "
  93.     if len(splitted) != 30: 
  94.         raise ValueError("ping returned wrong number of results: \"{}\"".format(splitted)) 
  95.  
  96.     positive_results = [float(x) for x in splitted if x != "-"
  97.     if len(positive_results) > 0: 
  98.         computed[host] = {"sent": 30, "received": len(positive_results), 
  99.                         "rtt"sum(positive_results), 
  100.                         "max"max(positive_results), "min"min(positive_results), 
  101.                         "mdev"statistics.pstdev(positive_results)} 
  102.     else
  103.         computed[host] = {"sent": 30, "received": len(positive_results), "rtt": 0, 
  104.                         "max": 0, "min": 0, "mdev": 0} 
  105. if not len(computed): 
  106.     raise ValueError("regex match\"{}\" found nothing in fping output \"{}\"".format(FPING_REGEX, results)) 
  107. return computed 
  108.  
  109.  
  110. @prometheus_exceptions_counter.count_exceptions() 
  111. def call_fping(ips): 
  112. cmdline = FPING_CMDLINE + ips 
  113. process = subprocess.run(cmdline, stdout=subprocess.PIPE, 
  114.                          stderr=subprocess.STDOUT, universal_newlines=True
  115. if process.returncode == 3: 
  116.     raise ValueError("invalid arguments: {}".format(cmdline)) 
  117. if process.returncode == 4: 
  118.     raise OSError("fping reported syscall error: {}".format(process.stderr)) 
  119.  
  120. return process.stdout 
  121.  
  122.  
  123. envs = validate_envs() 
  124.  
  125. files = glob.glob(envs["PROMETHEUS_TEXTFILE_DIR"] + "*"
  126. for f in files: 
  127. os.remove(f) 
  128.  
  129. labeled_prom_metrics = {"cluster_targets": [], "external_targets": []} 
  130.  
  131. while True
  132. with open(CONFIG_PATH, "r"as f: 
  133.     config = json.loads(f.read()) 
  134.     config["external_targets"] = [] if config["external_targets"is None else config["external_targets"
  135.     for target in config["external_targets"]: 
  136.         target["name"] = target["host"] if "name" not in target.keys() else target["name"
  137.  
  138. if labeled_prom_metrics["cluster_targets"]: 
  139.     for metric in labeled_prom_metrics["cluster_targets"]: 
  140.         if (metric["node_name"], metric["ip"]) not in [(node["name"], node["ipAddress"]) for node in config['cluster_targets']]: 
  141.             for k, v in prom_metrics_cluster.items(): 
  142.                 v.remove(metric["node_name"], metric["ip"]) 
  143.  
  144. if labeled_prom_metrics["external_targets"]: 
  145.     for metric in labeled_prom_metrics["external_targets"]: 
  146.         if (metric["target_name"], metric["host"]) not in [(target["name"], target["host"]) for target in config['external_targets']]: 
  147.             for k, v in prom_metrics_external.items(): 
  148.                 v.remove(metric["target_name"], metric["host"]) 
  149.  
  150.  
  151. labeled_prom_metrics = {"cluster_targets": [], "external_targets": []} 
  152.  
  153. for node in config["cluster_targets"]: 
  154.     metrics = {"node_name": node["name"], "ip": node["ipAddress"], "prom_metrics": {}} 
  155.  
  156.     for k, v in prom_metrics_cluster.items(): 
  157.         metrics["prom_metrics"][k] = v.labels(node["name"], node["ipAddress"]) 
  158.  
  159.     labeled_prom_metrics["cluster_targets"].append(metrics) 
  160.  
  161. for target in config["external_targets"]: 
  162.     metrics = {"target_name": target["name"], "host": target["host"], "prom_metrics": {}} 
  163.  
  164.     for k, v in prom_metrics_external.items(): 
  165.         metrics["prom_metrics"][k] = v.labels(target["name"], target["host"]) 
  166.  
  167.     labeled_prom_metrics["external_targets"].append(metrics) 
  168.  
  169. out = call_fping([prom_metric["ip"]   for prom_metric in labeled_prom_metrics["cluster_targets"]] + \ 
  170.                  [prom_metric["host"for prom_metric in labeled_prom_metrics["external_targets"]]) 
  171. computed = compute_results(out
  172.  
  173. for dimension in labeled_prom_metrics["cluster_targets"]: 
  174.     result = computed[dimension["ip"]] 
  175.     dimension["prom_metrics"]["sent"].inc(computed[dimension["ip"]]["sent"]) 
  176.     dimension["prom_metrics"]["received"].inc(computed[dimension["ip"]]["received"]) 
  177.     dimension["prom_metrics"]["rtt"].inc(computed[dimension["ip"]]["rtt"]) 
  178.     dimension["prom_metrics"]["min"].set(computed[dimension["ip"]]["min"]) 
  179.     dimension["prom_metrics"]["max"].set(computed[dimension["ip"]]["max"]) 
  180.     dimension["prom_metrics"]["mdev"].set(computed[dimension["ip"]]["mdev"]) 
  181.  
  182. for dimension in labeled_prom_metrics["external_targets"]: 
  183.     result = computed[dimension["host"]] 
  184.     dimension["prom_metrics"]["sent"].inc(computed[dimension["host"]]["sent"]) 
  185.     dimension["prom_metrics"]["received"].inc(computed[dimension["host"]]["received"]) 
  186.     dimension["prom_metrics"]["rtt"].inc(computed[dimension["host"]]["rtt"]) 
  187.     dimension["prom_metrics"]["min"].set(computed[dimension["host"]]["min"]) 
  188.     dimension["prom_metrics"]["max"].set(computed[dimension["host"]]["max"]) 
  189.     dimension["prom_metrics"]["mdev"].set(computed[dimension["host"]]["mdev"]) 
  190.  
  191. prometheus_client.write_to_textfile( 
  192.    
    envs["PROMETHEUS_TEXTFILE_DIR"] + envs["PROMETHEUS_TEXTFILE_PREFIX"] + envs["MY_NODE_NAME"] + ".prom", registry)  
    

該腳本在每個(gè)Kubernetes節(jié)點(diǎn)上運(yùn)行,并且每秒兩次發(fā)送ICMP數(shù)據(jù)包到Kubernetes集群的所有實(shí)例。收集的結(jié)果會(huì)存儲(chǔ)在文本文件中。

該腳本會(huì)包含在Docker鏡像中:

 

  1. FROM python:3.6-alpine3.8 
  2. COPY rootfs / 
  3. WORKDIR /app 
  4. RUN pip3 install --upgrade pip && pip3 install -r requirements.txt && apk add --no-cache fping 
  5. ENTRYPOINT ["python3""/app/ping-exporter.py"

另外,我們還創(chuàng)建了一個(gè)ServiceAccount和一個(gè)具有唯一權(quán)限的對(duì)應(yīng)角色用于獲取節(jié)點(diǎn)列表(這樣我們就可以知道它們的IP地址):

 

  1. apiVersion: v1 
  2. kind: ServiceAccount 
  3. metadata: 
  4. name: ping-exporter 
  5. namespace: d8-system 
  6. --- 
  7. kind: ClusterRole 
  8. apiVersion: rbac.authorization.k8s.io/v1 
  9. metadata: 
  10. name: d8-system:ping-exporter 
  11. rules: 
  12. - apiGroups: [""
  13. resources: ["nodes"
  14. verbs: ["list"
  15. --- 
  16. kind: ClusterRoleBinding 
  17. apiVersion: rbac.authorization.k8s.io/v1 
  18. metadata: 
  19. name: d8-system:kube-ping-exporter 
  20. subjects: 
  21. - kind: ServiceAccount 
  22. name: ping-exporter 
  23. namespace: d8-system 
  24. roleRef: 
  25. apiGroup: rbac.authorization.k8s.io 
  26. kind: ClusterRole 
  27. name: d8-system:ping-exporter 

最后,我們需要DaemonSet來(lái)運(yùn)行在集群中的所有實(shí)例:

 

  1. apiVersion: apps/v1 
  2. kind: DaemonSet 
  3. metadata: 
  4. name: ping-exporter 
  5. namespace: d8-system 
  6. spec: 
  7. updateStrategy: 
  8. type: RollingUpdate 
  9. selector: 
  10. matchLabels: 
  11.   name: ping-exporter 
  12. template: 
  13. metadata: 
  14.   labels: 
  15.     name: ping-exporter 
  16. spec: 
  17.   terminationGracePeriodSeconds: 0 
  18.   tolerations: 
  19.   - operator: "Exists" 
  20.   hostNetwork: true 
  21.   serviceAccountName: ping-exporter 
  22.   priorityClassName: cluster-low 
  23.   containers: 
  24.   - image: private-registry.flant.com/ping-exporter/ping-exporter:v1 
  25.     name: ping-exporter 
  26.     env: 
  27.       - name: MY_NODE_NAME 
  28.         valueFrom: 
  29.           fieldRef: 
  30.             fieldPath: spec.nodeName 
  31.       - name: PROMETHEUS_TEXTFILE_DIR 
  32.         value: /node-exporter-textfile/ 
  33.       - name: PROMETHEUS_TEXTFILE_PREFIX 
  34.         value: ping-exporter_ 
  35.     volumeMounts: 
  36.       - name: textfile 
  37.         mountPath: /node-exporter-textfile 
  38.       - name: config 
  39.         mountPath: /config 
  40.   volumes: 
  41.     - name: textfile 
  42.       hostPath: 
  43.         path: /var/run/node-exporter-textfile 
  44.     - name: config 
  45.       configMap: 
  46.         name: ping-exporter-config 
  47.   imagePullSecrets: 
  48.   - name: private-registry 

該解決方案的最后操作細(xì)節(jié)是:

  • Python腳本執(zhí)行時(shí),其結(jié)果(即存儲(chǔ)在主機(jī)上/var/run/node-exporter-textfile目錄中的文本文件)將傳遞到DaemonSet類型的node-exporter。
  • node-exporter使用--collector.textfile.directory /host/textfile參數(shù)啟動(dòng),這里的/host/textfile是hostPath目錄/var/run/node-exporter-textfile。(你可以點(diǎn)擊這里了解關(guān)于node-exporter中文本文件收集器的更多信息。)
  • 最后node-exporter讀取這些文件,然后Prometheus從node-exporter實(shí)例上收集所有數(shù)據(jù)。

那么結(jié)果如何?

現(xiàn)在該來(lái)享受期待已久的結(jié)果了。指標(biāo)創(chuàng)建之后,我們可以使用它們,當(dāng)然也可以對(duì)其進(jìn)行可視化。以下可以看到它們是怎樣的。

首先,有一個(gè)通用選擇器可讓我們?cè)谄渲羞x擇節(jié)點(diǎn)以檢查其“源”和“目標(biāo)”連接。你可以獲得一個(gè)匯總表,用于在Grafana儀表板中指定的時(shí)間段內(nèi)ping選定節(jié)點(diǎn)的結(jié)果:

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

以下是包含有關(guān)選定節(jié)點(diǎn)的組合統(tǒng)計(jì)信息的圖形:

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

另外,我們有一個(gè)記錄列表,其中每個(gè)記錄都鏈接到在“源”節(jié)點(diǎn)中選擇的每個(gè)特定節(jié)點(diǎn)的圖:

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

 

如果將記錄展開(kāi),你將看到從當(dāng)前節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)中已選擇的所有其他節(jié)點(diǎn)的詳細(xì)ping統(tǒng)計(jì)信息:

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

 

下面是相關(guān)的圖形:

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

 

節(jié)點(diǎn)之間的ping出現(xiàn)問(wèn)題的圖看起來(lái)如何?

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

 

如果你在現(xiàn)實(shí)生活中觀察到類似情況,那就該進(jìn)行故障排查了!

最后,這是我們對(duì)外部主機(jī)執(zhí)行ping操作的可視化效果:

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

 

我們可以檢查所有節(jié)點(diǎn)的總體視圖,也可以僅檢查任何特定節(jié)點(diǎn)的圖形:

 

Kubernetes節(jié)點(diǎn)之間的ping監(jiān)控

當(dāng)你觀察到僅影響某些特定節(jié)點(diǎn)的連接問(wèn)題時(shí),這可能會(huì)有所幫助。

責(zé)任編輯:未麗燕 來(lái)源: Dockone.in
相關(guān)推薦

2012-05-07 08:47:25

Erlang

2022-04-15 15:56:30

云原生容器

2019-10-09 09:53:10

Kubernetes服務(wù)器Linux

2023-09-26 06:54:01

2022-11-24 09:55:12

Kubernetes監(jiān)控

2020-07-06 07:52:10

Kubernetes網(wǎng)絡(luò)通信

2015-08-10 14:41:39

Kubernetes監(jiān)控開(kāi)源容器管理

2021-03-11 14:33:28

Kubernetes開(kāi)源容器

2021-07-15 10:25:15

集群節(jié)點(diǎn)檢查

2020-12-01 08:21:05

微服務(wù)監(jiān)控Kubernetes

2022-03-06 09:51:04

PrometheusKubernete監(jiān)控

2022-06-28 13:25:19

K8sPrometheusGrafana

2024-03-15 10:05:13

Kubernetes容器云原生

2018-07-23 09:02:18

容器KubernetesAmazon

2023-05-11 07:08:07

Kubernetes監(jiān)控

2019-06-21 15:29:26

Kubernetes網(wǎng)絡(luò)標(biāo)準(zhǔn)容器

2022-09-05 08:39:04

kubernetesk8s

2018-05-27 21:48:44

Kubernetes監(jiān)控DevOps

2022-02-25 11:51:11

KubeScrape開(kāi)源監(jiān)控工具

2020-11-12 10:40:37

Kubernetes日志運(yùn)維
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)