自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這樣做RabbitMQ高可用,業(yè)務(wù)流量猛增10倍也不慫

開發(fā) 架構(gòu)
在 2019 年高可用建設(shè)后至今,業(yè)務(wù)流量增加了十倍,集群未出現(xiàn)過嚴(yán)重故障。

 一、背景說明

vivo 在 2016 年引入 RabbitMQ,基于開源 RabbitMQ 進(jìn)行擴展,向業(yè)務(wù)提供消息中間件服務(wù)。

2016~2018年,所有業(yè)務(wù)均使用一個集群,隨著業(yè)務(wù)規(guī)模的增長,集群負(fù)載越來越重,集群故障頻發(fā)。

2019年,RabbitMQ 進(jìn)入高可用建設(shè)階段,完成了高可用組件 MQ 名字服務(wù)以及 RabbitMQ 集群的同城雙活建設(shè)。

同時進(jìn)行業(yè)務(wù)使用集群的物理拆分,嚴(yán)格按照集群負(fù)載情況和業(yè)務(wù)流量進(jìn)行業(yè)務(wù)使用集群的分配以及動態(tài)調(diào)整。

在 2019 年高可用建設(shè)后至今,業(yè)務(wù)流量增加了十倍,集群未出現(xiàn)過嚴(yán)重故障。

RabbitMQ 是實現(xiàn)了 AMQP 協(xié)議的開源消息代理軟件,起源于金融系統(tǒng)。

具有豐富的特性:

  •  消息可靠性保證,RabbitMQ 通過發(fā)送確認(rèn)保證消息發(fā)送可靠、通過集群化、消息持久化、鏡像隊列的方式保證消息在集群的可靠、通過消費確認(rèn)保證消息消費的可靠性;
  •  RabbitMQ 提供了多種語言的客戶端;
  •  提供了多種類型的 exchange,消息發(fā)送到集群后通過exchange路由到具體的queue中;
  •  RabbitMQ 提供了完善的管理后臺和管理 API,通過管理API可以快速與自建監(jiān)控系統(tǒng)整合。

RabbitMQ 在具體實踐中發(fā)現(xiàn)的問題:

  •  為保障業(yè)務(wù)高可用使用多套集群進(jìn)行物理隔離,多套集群無統(tǒng)一平臺進(jìn)行管理;
  •  原生RabbitMQ客戶端使用集群地址連接,使用多套集群時業(yè)務(wù)需要關(guān)心集群地址,使用混亂;
  •  原生RabbitMQ僅有簡單的用戶名/密碼驗證,不對使用的業(yè)務(wù)應(yīng)用方進(jìn)行鑒權(quán),不同業(yè)務(wù)容易混用exchange/queue信息,造成業(yè)務(wù)應(yīng)用使用異常;
  •  使用的業(yè)務(wù)應(yīng)用方較多,無平臺維護(hù)消息發(fā)送方、消費方的關(guān)聯(lián)信息,多個版本迭代后無法確定對接方;
  •  客戶端無限流,業(yè)務(wù)突發(fā)異常流量沖擊甚至擊垮集群;
  •  客戶端無異常消息重發(fā)策略,需要使用方實現(xiàn);
  •  集群出現(xiàn)內(nèi)存溢出等造成集群阻塞時無法快速自動轉(zhuǎn)移到其它可用集群;
  •  使用鏡像隊列,隊列的master節(jié)點會落在具體某個節(jié)點上,在集群隊列數(shù)較多時,容易出現(xiàn)節(jié)點負(fù)載不均衡的情況;
  •  RabbitMQ無隊列自動平衡能力,在隊列較多時容易出現(xiàn)集群節(jié)點負(fù)載不均問題。

二、整體架構(gòu)

1、MQ-Portal--支持應(yīng)用使用申請

過往業(yè)務(wù)團隊適用RabbitMQ時,應(yīng)用申請的流量以及對接的應(yīng)用等信息都在線下表格記錄,較為零散,更新不及時,無法準(zhǔn)確了解業(yè)務(wù)當(dāng)前真實的使用情況,因此通過一個接入申請的流程可視化、平臺化建立應(yīng)用使用的元數(shù)據(jù)信息。

通過MQ-Portal的申請流程(如上圖),確定了消息發(fā)送應(yīng)用、消費應(yīng)用、使用exchange/queue、發(fā)送流量等信息使用申請?zhí)峤缓髮⑦M(jìn)入vivo內(nèi)部工單流程進(jìn)行審批。

工單流程審批通過后,通過工單的接口回調(diào),分配應(yīng)用具體使用的集群,并在集群上創(chuàng)建exchange/queue已經(jīng)綁定關(guān)系。

由于采用多集群物理隔離的方式保證業(yè)務(wù)在正式環(huán)境的高可用,無法簡單通過一個exchange/queue的名稱定位到使用的集群。

每一個exchange/queue與集群之間通過唯一的一對rmq.topic.key與rmq.secret.key進(jìn)行關(guān)聯(lián),這樣SDK啟動過程中即可定位到具體使用的集群。

rmq.topic.key與rmq.secret.key將在工單的回調(diào)接口中進(jìn)行分配。

2、客戶端SDK能力概述

客戶端SDK基于spring-message和spring-rabbit進(jìn)行封裝,并在此基礎(chǔ)上提供了應(yīng)用使用鑒權(quán)、集群尋址、客戶端限流、生產(chǎn)消費重置、阻塞轉(zhuǎn)移等能力。

1)應(yīng)用使用鑒權(quán)

開源RabbitMQ僅通過用戶名密碼的方式判斷是否允許連接集群,但是應(yīng)用是否允許使用exchange/queue是未進(jìn)行校驗的。

為了避免不同業(yè)務(wù)混用exchange/queue,需要對應(yīng)用進(jìn)行使用鑒權(quán)。

應(yīng)用鑒權(quán)由SDK和MQ-NameServer協(xié)同完成。

應(yīng)用啟動時首先會上報應(yīng)用配置的rmq.topic.key信息到MQ-NameServer,由MQ-NameServer判斷使用應(yīng)用與申請應(yīng)用是否一致,并且在SDK發(fā)送消息過程中還會進(jìn)行二次校驗。 

  1. /**  
  2.   * 發(fā)送前校驗,并且獲取真正的發(fā)送factory,這樣業(yè)務(wù)可以聲明多個,  
  3.   * 但是用其中一個bean就可以發(fā)送所有的消息,并且不會導(dǎo)致任何異常  
  4.   * @param exchange 校驗參數(shù)  
  5.   * @return 發(fā)送工廠  
  6. */  
  7. public AbstractMessageProducerFactory beforeSend(String exchange) { 
  8.     if(closed || stopped){  
  9.         //上下文已經(jīng)關(guān)閉拋出異常,阻止繼續(xù)發(fā)送,減少發(fā)送臨界狀態(tài)數(shù)據(jù)  
  10.         throw new RmqRuntimeException(String.format("producer sending message to exchange %s has closed, can't send message", this.getExchange()));  
  11.     }  
  12.     if (exchange.equals(this.exchange)){  
  13.         return this;  
  14.     }  
  15.     if (!VIVO_RMQ_AUTH.isAuth(exchange)){  
  16.         throw new VivoRmqUnAuthException(String.format("發(fā)送topic校驗異常,請勿向無權(quán)限exchange %s 發(fā)送數(shù)據(jù),發(fā)送失敗", exchange));  
  17.     }  
  18.     //獲取真正的發(fā)送的bean,避免發(fā)送錯誤  
  19.     return PRODUCERS.get(exchange);  

2)集群尋址

前文說過,應(yīng)用使用RabbitMQ嚴(yán)格按照集群的負(fù)載情況和業(yè)務(wù)流量進(jìn)行集群的分配,因此具體某個應(yīng)用使用的的不同的exchange/queue可能是分配在不同的集群上的。

為了提升業(yè)務(wù)的開發(fā)效率, 需要屏蔽多集群對業(yè)務(wù)的影響,因此按照應(yīng)用配置的rmq.topic.key信息進(jìn)行集群的自動尋址。

3)客戶端限流

原生SDK客戶端不進(jìn)行發(fā)送流量限流,在部分應(yīng)用存在異常持續(xù)向MQ發(fā)送消息時,可能會沖垮MQ集群。并且一個集群為多應(yīng)用共同使用,單一應(yīng)用造成集群影響將會影響使用異常集群的所有應(yīng)用。

因此需要在SDK中提供客戶端限流的能力,必要時可以限制應(yīng)用向集群發(fā)送消息,保障集群的穩(wěn)定。

4)生產(chǎn)消費重置

①隨著業(yè)務(wù)規(guī)模增長,集群負(fù)載持續(xù)增加,此時需要進(jìn)行集群的業(yè)務(wù)拆分。為了減少在拆分過程中避免業(yè)務(wù)重啟,需要有生產(chǎn)消費重置功能。

②集群出現(xiàn)異常,可能會造成消費者掉線,此時通過生產(chǎn)消費重置可以快速拉起業(yè)務(wù)消費。

為了實現(xiàn)生產(chǎn)消費重置,需要實現(xiàn)一下流程:

  •  重置連接工廠連接參數(shù);
  •  重置連接;
  •  建立新的連接;
  •  重新啟動生產(chǎn)消費。 
  1. CachingConnectionFactory connectionFactory = new CachingConnectionFactory();  
  2. connectionFactory.setAddresses(address);  
  3. connectionFactory.resetConnection();  
  4. rabbitAdmin = new RabbitAdmin(connectionFactory);  
  5. rabbitTemplate = new RabbitTemplate(connectionFactory); 

同時MQ-SDK中有異常消息重發(fā)策略,可以避免在生產(chǎn)重置過程中導(dǎo)致的消息發(fā)送異常。

5)阻塞轉(zhuǎn)移

RabbitMQ在內(nèi)存使用超過40%,或是磁盤使用超限制時會阻塞消息發(fā)送。

由于vivo中間件團隊已經(jīng)完成了RabbitMQ同城雙活的建設(shè),因此在出現(xiàn)一個集群發(fā)送阻塞時可以通過生產(chǎn)消費重置到雙活集群完成阻塞的快速轉(zhuǎn)移。

6)多集群調(diào)度

隨著應(yīng)用的發(fā)展,單集群將無法滿足應(yīng)用的流量需求,并且集群隊列均為鏡像隊列,無法簡單的通過增加集群節(jié)點的方式實現(xiàn)業(yè)務(wù)支撐流量單集群的水平擴容。

因此需要SDK支持多集群調(diào)度能力,通過將流量分散到多個集群上滿足業(yè)務(wù)大流量需求。

3、MQ-NameServer--支持MQ-SDK實現(xiàn)故障快速切換

MQ-NameServer為無狀態(tài)服務(wù),通過集群部署即可保障自身高可用,主要用于解決以下問題:

  •  MQ-SDK啟動鑒權(quán)以及應(yīng)用使用集群定位;
  •  處理MQ-SDK的定時指標(biāo)上報(消息發(fā)送數(shù)量、消息消費數(shù)量),并且返回當(dāng)前可用集群地址,確保SDK在集群異常時按照正確地址進(jìn)行重連;
  •  控制MQ-SDK進(jìn)行生產(chǎn)消費重置。

4、MQ-Server高可用部署實踐

RabbitMQ 集群均采用同城雙活部署架構(gòu),依靠MQ-SDK和MQ-NameServer提供的集群尋址、故障快速切換等能力保障集群的可用性。

1)集群腦裂問題處理

RabbitMQ官方提供了三種集群腦裂恢復(fù)策略。

①ignore

忽略腦裂問題不處理,在出現(xiàn)腦裂時需要進(jìn)行人為干預(yù)才可恢復(fù)。由于需要人為干預(yù),可能會造成部分消息丟失,在網(wǎng)絡(luò)非??煽康那闆r可以使用。

②pause_minority

節(jié)點在與超過半數(shù)集群節(jié)點失聯(lián)時將會自動暫停,直到檢測到與集群超半數(shù)節(jié)點的通信恢復(fù)。極端情況下集群內(nèi)所有節(jié)點均暫停,造成集群不可用。

③autoheal

少數(shù)派節(jié)點將自動重啟,此策略主要用于優(yōu)先保證服務(wù)的可用性,而不是數(shù)據(jù)的可靠性,因為重啟節(jié)點上的消息會丟失。

由于RabbitMQ集群均為同城雙活部署,即使單集群異常業(yè)務(wù)流量也可自動遷移到雙活機房集群,因此選擇使用了pause_minority策略避免腦裂問題。

2018年多次因網(wǎng)絡(luò)抖動造成集群腦裂,在修改集群腦裂恢復(fù)策略后,已未再出現(xiàn)腦裂問題。

2)集群高可用方案

RabbitMQ采用集群化部署,并且因為集群腦裂恢復(fù)策略采用pause_minority模式,每個集群要求至少3個節(jié)點。

推薦使用5或7節(jié)點部署高可用集群,并且控制集群隊列數(shù)量。

集群隊列均為鏡像隊列,確保消息存在備份,避免節(jié)點異常導(dǎo)致消息丟失。

exchange、queue、消息均設(shè)置為持久化,避免節(jié)點異常重啟消息丟失。

隊列均設(shè)置為lazy queues,減少節(jié)點內(nèi)存使用的波動。

3)同城雙活建設(shè)

雙機房部署等價集群,并且通過Federation插件將雙集群組成聯(lián)盟集群。

本機房應(yīng)用機器優(yōu)先連接本機房MQ集群,避免因?qū)>€抖動造成應(yīng)用使用異常。

通過MQ-NameServer心跳獲取最新的可用集群信息,異常時重連到雙活集群中,實現(xiàn)應(yīng)用功能的快速恢復(fù)。

三、未來挑戰(zhàn)與展望

目前對RabbitMQ的使用增強主要在MQ-SDK和MQ-NameServer側(cè),SDK實現(xiàn)較為復(fù)雜,后期希望可以構(gòu)建消息中間件的代理層,可以簡化SDK并且對業(yè)務(wù)流量做更加細(xì)致化的管理。 

 

責(zé)任編輯:龐桂玉 來源: DBAplus社群
相關(guān)推薦

2019-01-29 10:16:38

Redis高可用集群

2016-04-25 10:47:49

源碼閱讀學(xué)習(xí)

2015-10-29 18:26:18

2019-12-04 09:05:15

千萬級流量高并發(fā)

2010-06-10 10:24:38

運維業(yè)摩卡北塔

2021-09-07 10:38:37

RabbitMQ 高可用消費

2013-10-17 09:30:53

DynamicsCRMERP

2020-10-28 11:20:18

RabbitMQHAProxy運維

2020-08-30 14:29:01

Pandas數(shù)據(jù)分析函數(shù)

2023-02-27 08:37:52

2009-02-20 09:48:27

移動網(wǎng)絡(luò)無線網(wǎng)絡(luò)手機

2018-10-23 09:22:06

2022-08-07 21:59:57

高可用架構(gòu)

2019-03-28 08:09:13

基于意圖隔離零信任

2022-10-08 09:33:00

平臺中間件

2024-04-26 00:28:14

異地多活架構(gòu)

2023-05-16 07:32:33

業(yè)務(wù)指數(shù)級故障

2024-02-21 23:03:56

代碼系統(tǒng)

2009-09-16 10:30:16

創(chuàng)建高可用虛擬機
點贊
收藏

51CTO技術(shù)棧公眾號