自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微服務(wù)之服務(wù)掛的太干脆,Nacos還沒(méi)反應(yīng)過(guò)來(lái),怎么辦?

開(kāi)發(fā) 架構(gòu)
我們知道通過(guò)Nacos等注冊(cè)中心可以實(shí)現(xiàn)微服務(wù)的治理。但引入了Nacos之后,真的就像理想中那樣所有服務(wù)都由Nacos來(lái)完美的管理了嗎?Too young,too simple!

[[408757]]

本文轉(zhuǎn)載自微信公眾號(hào)「程序新視界」,作者二師兄。轉(zhuǎn)載本文請(qǐng)聯(lián)系程序新視界公眾號(hào)。

前言

我們知道通過(guò)Nacos等注冊(cè)中心可以實(shí)現(xiàn)微服務(wù)的治理。但引入了Nacos之后,真的就像理想中那樣所有服務(wù)都由Nacos來(lái)完美的管理了嗎?Too young,too simple!

今天這篇文章就跟大家聊聊,當(dāng)服務(wù)異常宕機(jī),Nacos還未反應(yīng)過(guò)來(lái)時(shí),可能會(huì)發(fā)生的狀況以及現(xiàn)有的解決方案。

Nacos的健康檢查

故事還要從Nacos對(duì)服務(wù)實(shí)例的健康檢查說(shuō)起。

Nacos目前支持臨時(shí)實(shí)例使用心跳上報(bào)方式維持活性。Nacos客戶(hù)端會(huì)維護(hù)一個(gè)定時(shí)任務(wù),每隔5秒發(fā)送一次心跳請(qǐng)求,以確保自己處于活躍狀態(tài)。

Nacos服務(wù)端在15秒內(nèi)如果沒(méi)收到客戶(hù)端的心跳請(qǐng)求,會(huì)將該實(shí)例設(shè)置為不健康,在30秒內(nèi)沒(méi)收到心跳,會(huì)將這個(gè)臨時(shí)實(shí)例摘除。

如果服務(wù)突然掛掉

在正常業(yè)務(wù)場(chǎng)景下,如果關(guān)閉掉一個(gè)服務(wù)實(shí)例,默認(rèn)情況下會(huì)在關(guān)閉之前主動(dòng)調(diào)用注銷(xiāo)接口,將Nacos服務(wù)端注冊(cè)的實(shí)例清除掉。

如果服務(wù)實(shí)例還沒(méi)來(lái)得注銷(xiāo)已經(jīng)被干掉,比如正常kill一個(gè)應(yīng)用,應(yīng)用會(huì)處理完手頭的事情再關(guān)閉,但如果使用kill -9來(lái)強(qiáng)制殺掉,就會(huì)出現(xiàn)無(wú)法注銷(xiāo)的情況。

針對(duì)這種意外情況,服務(wù)注銷(xiāo)接口是無(wú)法被正確調(diào)用的,此時(shí)就需要健康檢查來(lái)確保該實(shí)例被刪除。

通過(guò)上面分析的Nacos健康檢查機(jī)制,我們會(huì)發(fā)現(xiàn)服務(wù)突然掛掉之后,會(huì)有15秒的間隙。在這段時(shí)間,Nacos服務(wù)端還沒(méi)感知到服務(wù)掛掉,依舊將該服務(wù)提供給客戶(hù)端使用。

此時(shí),必然會(huì)有一部分請(qǐng)求被分配到異常的實(shí)例上。針對(duì)這種情況,又該如何處理呢?如何確保服務(wù)不影響正常的業(yè)務(wù)呢?

自定義心跳周期

針對(duì)上面的問(wèn)題,我們最容易想到的是解決方案就是縮短默認(rèn)的健康檢查時(shí)間。

原本15秒才能發(fā)現(xiàn)服務(wù)異常,標(biāo)記為不健康,那么是否可以將其縮短呢?這樣錯(cuò)誤影響的范圍便可以變小,變得可控。

針對(duì)此,Nacos 1.1.0之后提供了自定義心跳周期的配置。如果你基于客戶(hù)端進(jìn)行操作,在創(chuàng)建實(shí)例時(shí),可在實(shí)例的metadata數(shù)據(jù)中進(jìn)行心跳周期、健康檢查過(guò)期時(shí)間及刪除實(shí)例時(shí)間的配置。

相關(guān)示例如下:

  1. String serviceName = randomDomainName(); 
  2.  
  3. Instance instance = new Instance(); 
  4. instance.setIp("1.1.1.1"); 
  5. instance.setPort(9999); 
  6. Map<String, String> metadata = new HashMap<String, String>(); 
  7. // 設(shè)置心跳的周期,單位為毫秒 
  8. metadata.put(PreservedMetadataKeys.HEART_BEAT_INTERVAL, "3000"); 
  9. // 設(shè)置心跳超時(shí)時(shí)間,單位為毫秒;服務(wù)端6秒收不到客戶(hù)端心跳,會(huì)將該客戶(hù)端注冊(cè)的實(shí)例設(shè)為不健康: 
  10. metadata.put(PreservedMetadataKeys.HEART_BEAT_TIMEOUT, "6000"); 
  11. // 設(shè)置實(shí)例刪除的超時(shí)時(shí)間,單位為毫秒;即服務(wù)端9秒收不到客戶(hù)端心跳,會(huì)將該客戶(hù)端注冊(cè)的實(shí)例刪除: 
  12. metadata.put(PreservedMetadataKeys.IP_DELETE_TIMEOUT, "9000"); 
  13. instance.setMetadata(metadata); 
  14.  
  15. naming.registerInstance(serviceName, instance); 

如果是基于Spring Cloud Alibaba的項(xiàng)目,可通過(guò)如下方式配置:

  1. spring: 
  2.   application: 
  3.     nameuser-service-provider 
  4.   cloud: 
  5.     nacos: 
  6.       discovery: 
  7.         server-addr: 127.0.0.1:8848 
  8.         heart-beat-interval: 1000 #心跳間隔。單位為毫秒。 
  9.         heart-beat-timeout: 3000 #心跳暫停。單位為毫秒。 
  10.         ip-delete-timeout: 6000 #Ip刪除超時(shí)。單位為毫秒。 

在某些Spring Cloud版本中,上述配置可能無(wú)法生效。也可以直接配置metadata的數(shù)據(jù)。配置方式如下:

  1. spring: 
  2.   application: 
  3.     nameuser-service-provider 
  4.   cloud: 
  5.     nacos: 
  6.       discovery: 
  7.         server-addr: 127.0.0.1:8848 
  8.         metadata: 
  9.           preserved.heart.beat.interval: 1000 #心跳間隔。時(shí)間單位:毫秒。 
  10.           preserved.heart.beat.timeout: 3000 #心跳暫停。時(shí)間單位:毫秒。即服務(wù)端6秒收不到客戶(hù)端心跳,會(huì)將該客戶(hù)端注冊(cè)的實(shí)例設(shè)為不健康; 
  11.           preserved.ip.delete.timeout: 6000 #Ip刪除超時(shí)。時(shí)間單位:秒。即服務(wù)端9秒收不到客戶(hù)端心跳,會(huì)將該客戶(hù)端注冊(cè)的實(shí)例刪除; 

其中第一種配置,感興趣的朋友可以看一下NacosServiceRegistryAutoConfiguration中相關(guān)組件的實(shí)例化。在某些版本中由于NacosRegistration和NacosDiscoveryProperties實(shí)例化的順序問(wèn)題會(huì)導(dǎo)致配置未生效。此時(shí)可考慮第二種配置形式。

上面的配置項(xiàng),最終會(huì)在NacosServiceRegistry在進(jìn)行實(shí)例注冊(cè)時(shí)通過(guò)getNacosInstanceFromRegistration方法進(jìn)行封裝:

  1. private Instance getNacosInstanceFromRegistration(Registration registration) { 
  2.         Instance instance = new Instance(); 
  3.         instance.setIp(registration.getHost()); 
  4.         instance.setPort(registration.getPort()); 
  5.         instance.setWeight(nacosDiscoveryProperties.getWeight()); 
  6.         instance.setClusterName(nacosDiscoveryProperties.getClusterName()); 
  7.         instance.setEnabled(nacosDiscoveryProperties.isInstanceEnabled()); 
  8.         // 設(shè)置Metadata 
  9.         instance.setMetadata(registration.getMetadata()); 
  10.         instance.setEphemeral(nacosDiscoveryProperties.isEphemeral()); 
  11.         return instance; 
  12.     } 

其中setMetadata方法即是。

通過(guò)Nacos提供的心跳周期配置,再結(jié)合自身的業(yè)務(wù)場(chǎng)景,我們就可以選擇最適合的心跳檢測(cè)機(jī)制,盡最大可能避免對(duì)業(yè)務(wù)的影響。

這個(gè)方案看起來(lái)心跳周期越短越好,但這樣會(huì)對(duì)Nacos服務(wù)端造成一定的壓力。如果服務(wù)器允許,還是可以盡量縮短的。

Nacos的保護(hù)閾值

在上述配置中,我們還要結(jié)合自身的項(xiàng)目情況考慮一下Nacos保護(hù)閾值的配置。

在Nacos中針對(duì)注冊(cè)的服務(wù)實(shí)例有一個(gè)保護(hù)閾值的配置項(xiàng)。該配置項(xiàng)的值為0-1之間的浮點(diǎn)數(shù)。

本質(zhì)上,保護(hù)閾值是⼀個(gè)⽐例值(當(dāng)前服務(wù)健康實(shí)例數(shù)/當(dāng)前服務(wù)總實(shí)例數(shù))。

⼀般流程下,服務(wù)消費(fèi)者要從Nacos獲取可⽤實(shí)例有健康/不健康狀態(tài)之分。Nacos在返回實(shí)例時(shí),只會(huì)返回健康實(shí)例。

但在⾼并發(fā)、⼤流量場(chǎng)景會(huì)存在⼀定的問(wèn)題。比如,服務(wù)A有100個(gè)實(shí)例,98個(gè)實(shí)例都處于不健康狀態(tài),如果Nacos只返回這兩個(gè)健康實(shí)例的話。流量洪峰的到來(lái)可能會(huì)直接打垮這兩個(gè)服務(wù),進(jìn)一步產(chǎn)生雪崩效應(yīng)。

保護(hù)閾值存在的意義在于當(dāng)服務(wù)A健康實(shí)例數(shù)/總實(shí)例數(shù) < 保護(hù)閾值時(shí),說(shuō)明健康的實(shí)例不多了,保護(hù)閾值會(huì)被觸發(fā)(狀態(tài)true)。

Nacos會(huì)把該服務(wù)所有的實(shí)例信息(健康的+不健康的)全部提供給消費(fèi)者,消費(fèi)者可能訪問(wèn)到不健康的實(shí)例,請(qǐng)求失敗,但這樣也⽐造成雪崩要好。犧牲了⼀些請(qǐng)求,保證了整個(gè)系統(tǒng)的可⽤。

 

在上面的解決方案中,我們提到了可以自定義心跳周期,其中能夠看到實(shí)例的狀態(tài)會(huì)由健康、不健康和移除。這些參數(shù)的定義也要考慮到保護(hù)閾值的觸發(fā),避免雪崩效應(yīng)的發(fā)生。

SpringCloud的請(qǐng)求重試

即便上面我們對(duì)心跳周期進(jìn)行了調(diào)整,但在某一實(shí)例發(fā)生故障時(shí),還會(huì)有短暫的時(shí)間出現(xiàn)Nacos服務(wù)沒(méi)來(lái)得及將異常實(shí)例剔除的情況。此時(shí),如果消費(fèi)端請(qǐng)求該實(shí)例,依然會(huì)出現(xiàn)請(qǐng)求失敗。

為了構(gòu)建更為健壯的應(yīng)用系統(tǒng),我們希望當(dāng)請(qǐng)求失敗的時(shí)候能夠有一定策略的重試機(jī)制,而不是直接返回失敗。這個(gè)時(shí)候就需要開(kāi)發(fā)人來(lái)實(shí)現(xiàn)重試機(jī)制。

在微服務(wù)架構(gòu)中,通常我們會(huì)基于Ribbon或Spring Cloud LoadBalancer來(lái)進(jìn)行負(fù)載均衡處理。除了像Ribbon、Feign框架自身已經(jīng)支持的請(qǐng)求重試和請(qǐng)求轉(zhuǎn)移功能。Spring Cloud也提供了標(biāo)準(zhǔn)的loadbalancer相關(guān)配置。

關(guān)于Ribbon框架的使用我們?cè)谶@里就不多說(shuō)了,重點(diǎn)來(lái)看看Spring Cloud是如何幫我們實(shí)現(xiàn)的。

異常模擬

我們先來(lái)模擬一下異常情況,將上面講到的先將上面的心跳周期調(diào)大,以方便測(cè)試。

然后啟動(dòng)兩個(gè)provider和一個(gè)consumer服務(wù),負(fù)載均衡基于Spring Cloud LoadBalancer來(lái)處理。此時(shí)通過(guò)consumer進(jìn)行請(qǐng)求,你會(huì)發(fā)現(xiàn)LoadBalancer通過(guò)輪訓(xùn)來(lái)將請(qǐng)求均勻的分配到兩個(gè)provider上(打印日志)。

此時(shí),通過(guò)kill -9命令將其中一個(gè)provider關(guān)掉。此時(shí),再通過(guò)consumer進(jìn)行請(qǐng)求,會(huì)發(fā)現(xiàn)成功一次,失敗一次,這樣交替出現(xiàn)。

解決方案

我們通過(guò)Spring Cloud提供的LoadBalancerProperties配置類(lèi)中定義的配置項(xiàng)來(lái)對(duì)重試機(jī)制進(jìn)行配置,詳細(xì)的配置項(xiàng)目可以對(duì)照該類(lèi)的屬性。

在consumer的application配置中添加retry相關(guān)配置:

  1. spring: 
  2.   application: 
  3.     nameuser-service-consumer 
  4.   cloud: 
  5.     nacos: 
  6.       discovery: 
  7.         server-addr: 127.0.0.1:8848 
  8.     loadbalancer: 
  9.       retry: 
  10.         # 開(kāi)啟重試 
  11.         enabled: true 
  12.         # 同一實(shí)例最大嘗試次數(shù) 
  13.         max-retries-on-same-service-instance: 1 
  14.         # 其他實(shí)例最大嘗試次數(shù) 
  15.         max-retries-on-next-service-instance: 2 
  16.         # 所有操作開(kāi)啟重試(慎重使用,特別是POST提交,冪等性保障) 
  17.         retry-on-all-operations: true 

上述配置中默認(rèn)retry是開(kāi)啟的。

max-retries-on-same-service-instance指的是當(dāng)前實(shí)例嘗試的次數(shù),包括第一次請(qǐng)求,這里配置為1,也就是第一次請(qǐng)求失敗就轉(zhuǎn)移到其他實(shí)例了。當(dāng)然也可以配置大于1的數(shù)值,這樣還會(huì)在當(dāng)前實(shí)例再?lài)L試一下。

max-retries-on-next-service-instance配置的轉(zhuǎn)移請(qǐng)求其他實(shí)例時(shí)最大嘗試次數(shù)。

retry-on-all-operations默認(rèn)為false,也就是說(shuō)只支持Get請(qǐng)求的重試。這里設(shè)置為true支持所有的重試。既然涉及到重試,就需要保證好業(yè)務(wù)的冪等性。

當(dāng)進(jìn)行上述配置之后,再次演示異常模擬,會(huì)發(fā)現(xiàn)即使服務(wù)掛掉,在Nacos中還存在,依舊可以正常進(jìn)行業(yè)務(wù)處理。

關(guān)于Ribbon或其他同類(lèi)組件也有類(lèi)似的解決方案,大家可以相應(yīng)調(diào)研一下。

解決方案的坑

在使用Spring Cloud LoadBalancer時(shí)其實(shí)有一個(gè)坑,你可能會(huì)遇到上述配置不生效的情況。這是為什么呢?

其實(shí)是因?yàn)橐蕾?lài)引入的問(wèn)題,Spring Cloud LoadBalancer的重試機(jī)制是基于spring-retry的,如果沒(méi)有引入對(duì)應(yīng)的依賴(lài),便會(huì)導(dǎo)致配置無(wú)法生效。而官方文檔業(yè)務(wù)未給出說(shuō)明。

  1. <dependency> 
  2.     <groupId>org.springframework.retry</groupId> 
  3.     <artifactId>spring-retry</artifactId> 
  4. </dependency> 

 

另外,上述實(shí)例是基于Spring Cloud 2020.0.0版本,其他版本可能有不同的配置。

小結(jié)

在使用微服務(wù)的時(shí)候并不是將Spring Cloud的組件集成進(jìn)去就完事了。這篇文章我們可以看到即便集成了Nacos,還會(huì)因?yàn)樾奶鴻C(jī)制來(lái)進(jìn)行一些折中處理,比如調(diào)整心跳頻次。

同時(shí),即便調(diào)整了心跳參數(shù),還需要利用其它組件來(lái)兼顧請(qǐng)求異常時(shí)的重試和防止系統(tǒng)雪崩的發(fā)生。關(guān)注一下吧,持續(xù)更新微服務(wù)系列實(shí)戰(zhàn)內(nèi)容。

 

責(zé)任編輯:武曉燕 來(lái)源: 程序新視界
相關(guān)推薦

2024-07-01 09:55:13

2021-01-11 11:14:35

微服務(wù)架構(gòu)調(diào)用

2023-07-11 08:55:26

系統(tǒng)白名單AO

2024-07-08 11:30:35

2021-07-07 07:44:20

微服務(wù)Nacos緩存

2010-03-04 09:06:35

Windows 7Apache安裝

2013-01-29 13:22:24

系統(tǒng)服務(wù)

2022-11-18 07:40:57

2011-11-24 18:38:54

服務(wù)器負(fù)載

2023-11-12 21:58:41

Java“假死”

2024-07-02 10:58:53

2021-06-29 21:36:21

微服務(wù)Nacos日志

2018-08-01 14:20:11

微服務(wù)架構(gòu)人工智能

2013-07-29 11:28:32

Android 4.3制造商反應(yīng)

2021-07-13 10:00:00

微服務(wù)SleuthElasticSear

2022-09-05 09:02:01

服務(wù)器CPU服務(wù)

2018-01-30 09:25:04

2018-05-10 12:15:09

串口服務(wù)器故障

2011-11-15 22:13:48

服務(wù)器死機(jī)故障排除

2018-05-14 10:16:34

服務(wù)器機(jī)房識(shí)別
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)