快放開那些搗亂的猴子!
粗看標(biāo)題你可能感覺莫名其妙,什么「搗亂的猴子」,還要放開。不急,且聽我說說為什么不光要放開這些搗亂的猴子,還要?dú)g迎他們。
0.背景信息
在構(gòu)建高可用性軟件架構(gòu)領(lǐng)域,有個(gè)詞叫「混沌工程」,對(duì)應(yīng)的英文是Chaos Engineering,通過 Chaos 的測(cè)試,可以發(fā)現(xiàn)系統(tǒng)的潛在風(fēng)險(xiǎn),特別對(duì)于分布式系統(tǒng),找出脆弱的地方進(jìn)行增強(qiáng),提升可用性,避免系統(tǒng)間級(jí)聯(lián)影響。
混沌工程是在分布式系統(tǒng)上進(jìn)行實(shí)驗(yàn)的學(xué)科, 目的是建立對(duì)系統(tǒng)抵御生產(chǎn)環(huán)境中失控條件的能力以及信心。
大規(guī)模分布式軟件系統(tǒng)的發(fā)展正在改變軟件工程。作為一個(gè)行業(yè),我們很快采用了提高開發(fā)靈活性和部署速度的實(shí)踐。緊隨著這些優(yōu)點(diǎn)的一個(gè)迫切問題是:我們對(duì)投入生產(chǎn)的復(fù)雜系統(tǒng)有多少信心?
即使分布式系統(tǒng)中的所有單個(gè)服務(wù)都正常運(yùn)行, 這些服務(wù)之間的交互也會(huì)導(dǎo)致不可預(yù)知的結(jié)果。 這些不可預(yù)知的結(jié)果, 由影響生產(chǎn)環(huán)境的罕見且破壞性的事件復(fù)合而成,令這些分布式系統(tǒng)存在內(nèi)在的混沌。
https://principlesofchaos.org/zh/
后來Netflix 開源了其關(guān)于混沌工程的實(shí)現(xiàn) ChaosMonkey,以猴子的形象來代表在系統(tǒng)里出其不意的破壞者。
比如
- 機(jī)器或者一個(gè)機(jī)房掛了
- 一部分網(wǎng)絡(luò)延遲嚴(yán)重
- CPU、內(nèi)存占用嚴(yán)重
- 隨機(jī)讓某些服務(wù)異?;蛘唔憫?yīng)延遲
再看Chaos 原則里提到的這些:
- 當(dāng)服務(wù)不可用時(shí)的不正確回滾設(shè)置;
- 不當(dāng)?shù)某瑫r(shí)設(shè)置導(dǎo)致的重試風(fēng)暴;
- 由于下游依賴的流量過載導(dǎo)致的服務(wù)中斷;
- 單點(diǎn)故障時(shí)的級(jí)聯(lián)失敗等。
我們自己在代碼層面,在部署層面僅能關(guān)注應(yīng)用的功能正常,但上述這些意想不到的出錯(cuò),是我們?cè)诖a層面不太容易控制,也不易去測(cè)試的。
而ChaosMonkey 就是用來做這個(gè)的。所以,對(duì)于這些搗亂的猴子,我們是應(yīng)該歡迎的,是不是像犀牛鳥之于犀牛?
關(guān)于ChaosMonkey,各個(gè)語言,各個(gè)公司也都有一些實(shí)現(xiàn),其中Netflix的最出名。是go語言實(shí)現(xiàn)的。
在 Java Spring Boot 技術(shù)棧中,我發(fā)現(xiàn)一個(gè)容易理解和上手的實(shí)現(xiàn)。
https://github.com/codecentric/chaos-monkey-spring-boot
我們一起來看下如何上手以及它是怎樣實(shí)現(xiàn)的。
1. 上手
添加maven 依賴
- <dependency>
- <groupId>de.codecentric</groupId>
- <artifactId>chaos-monkey-spring-boot</artifactId>
- <version>2.3.0-SNAPSHOT</version>
- </dependency>
application.yml 中增加關(guān)于chaosmonkey的配置:
- chaos:
- monkey:
- enabled: true
- assaults:
- level: 1
- latencyRangeStart: 1000
- latencyRangeEnd: 10000
- exceptionsActive: true
- killApplicationActive: true
- watcher:
- repository: true
- controller: true
- # restController: true
- # service: true
應(yīng)用啟動(dòng)時(shí),記得激活chaosmonkey的配置:
- java -jar your-app.jar --spring.profiles.active=chaos-monkey
再去請(qǐng)求你應(yīng)用的controller,是不是發(fā)現(xiàn)異常產(chǎn)生了?這就是猴子在努力的搗亂中...
關(guān)于上面這些配置,再簡(jiǎn)單解釋下:
你會(huì)發(fā)現(xiàn)chaos - monkey 配置下,除了 enabled,還有兩項(xiàng)比較大的配置項(xiàng),一個(gè)是Assault,一個(gè)是Watcher。
其中Assault代表是搞什么破壞,比如破壞類型有超時(shí)、內(nèi)存占用、殺死進(jìn)程、拋出異常等等
- Latency Assault
- Exception Assault
- AppKiller Assault
- Memory Assault
而Watcher 表示都要在哪些地方搞破壞。一個(gè)是What,一個(gè)是Where。
Watcher支持多種類型,比如Spring 常用的組件:
- @Controller
- @RestController
- @Service
- @Repository
- @Component
那你說都 What 和 Where 了,怎么沒有When?還真有Level就是。
chaos.monkey.enabled 用來打開和關(guān)閉ChaosMonkey。對(duì)應(yīng)的配置中,除了設(shè)置Assault之外,不同的Assault也可以設(shè)置攻擊的頻率,配置項(xiàng)是chaos.monkey.assaults.level比如1代表每次請(qǐng)求都攻擊,10代表每十次請(qǐng)求攻擊一次。
chaos.monkey.assaults.latencyRangeStart 和chaos.monkey.assaults.latencyRangeEnd 這兩個(gè)配置項(xiàng)用來配置LatencyAssault這個(gè)攻擊的延遲時(shí)間值范圍。
如下圖所示,實(shí)際部署之后,每個(gè)ChaosMonkey會(huì)藏身于各個(gè)服務(wù)中,出其不意進(jìn)行攻擊。
這下子配置和使用就明白了。我們?cè)賮砜纯磳?shí)現(xiàn)。
2.實(shí)現(xiàn)原理
aaa實(shí)際我們想一下,前面配置Watcher,后面決定進(jìn)行攻擊,那必須得是Watcher把它攔下來再攻擊,所以在Spring 里攔截常用的,就是它:AOP。
原理如圖所示:
以Controller 的攔截為例
- /** @author Benjamin Wilms */
- @Aspect
- @AllArgsConstructor
- @Slf4j
- public class SpringControllerAspect extends ChaosMonkeyBaseAspect {
- private final ChaosMonkeyRequestScope chaosMonkeyRequestScope;
- private MetricEventPublisher metricEventPublisher;
- private WatcherProperties watcherProperties;
- @Pointcut("within(@org.springframework.stereotype.Controller *)")
- public void classAnnotatedWithControllerPointcut() {}
- @Around(
- "classAnnotatedWithControllerPointcut() && allPublicMethodPointcut() && !classInChaosMonkeyPackage()")
- public Object intercept(ProceedingJoinPoint pjp) throws Throwable {
- if (watcherProperties.isController()) {
- log.debug("Watching public method on controller class: {}", pjp.getSignature());
- if (metricEventPublisher != null) {
- metricEventPublisher.publishMetricEvent(
- calculatePointcut(pjp.toShortString()), MetricType.CONTROLLER);
- }
- MethodSignature signature = (MethodSignature) pjp.getSignature();
- chaosMonkeyRequestScope.callChaosMonkey(createSignature(signature));
- }
- return pjp.proceed();
- }
- public void callChaosMonkey(String simpleName) {
- if (isEnabled() && isTrouble()) {
- if (metricEventPublisher != null) {
- metricEventPublisher.publishMetricEvent(MetricType.APPLICATION_REQ_COUNT, "type", "total");
- }
- // Custom watched services can be defined at runtime, if there are any, only
- // these will be attacked!
- if (chaosMonkeySettings.getAssaultProperties().isWatchedCustomServicesActive()) {
- if (chaosMonkeySettings
- .getAssaultProperties()
- .getWatchedCustomServices()
- .contains(simpleName)) {
- // only all listed custom methods will be attacked
- chooseAndRunAttack();
- }
- } else {
- // default attack if no custom watched service is defined
- chooseAndRunAttack();
- }
- }
- }
這里是 Controller AOP的代碼,基本沒門檻。先判斷 Controller 的開關(guān)是否打開,然后再看是否需要事件通知,緊接著,就是重頭戲,召喚 Chaos Monkey 來搞破壞了。
注意這里,從激活的幾種攻擊方式里,選擇一種去調(diào)用。
- private void chooseAndRunAttack() {
- List<ChaosMonkeyAssault> activeAssaults =
- assaults.stream().filter(ChaosMonkeyAssault::isActive).collect(Collectors.toList());
- if (isEmpty(activeAssaults)) {
- return;
- }
- getRandomFrom(activeAssaults).attack(); // 注意這里,從激活的幾種攻擊方式里,選擇一種去調(diào)用。
- if (metricEventPublisher != null) {
- metricEventPublisher.publishMetricEvent(
- MetricType.APPLICATION_REQ_COUNT, "type", "assaulted");
- }
- }
延遲攻擊
比如LatencyAssault,就是要執(zhí)行延遲攻擊,此時(shí),會(huì)生成一個(gè)隨機(jī)的延遲時(shí)間
- public void attack() {
- Logger.debug("Chaos Monkey - timeout");
- atomicTimeoutGauge.set(determineLatency());
- // metrics
- if (metricEventPublisher != null) {
- metricEventPublisher.publishMetricEvent(MetricType.LATENCY_ASSAULT);
- metricEventPublisher.publishMetricEvent(MetricType.LATENCY_ASSAULT, atomicTimeoutGauge);
- }
- assaultExecutor.execute(atomicTimeoutGauge.get());
- }
然后把這個(gè)值傳在線程池中進(jìn)行這個(gè)時(shí)間的
sleep。 assaultExecutor.execute(atomicTimeoutGauge.get());
- public class LatencyAssaultExecutor implements ChaosMonkeyLatencyAssaultExecutor {
- public void execute(long durationInMillis) {
- try {
- Thread.sleep(durationInMillis);
- } catch (InterruptedException e) {
- }
- }
- }
Exception攻擊
再來看Exception 攻擊,攻擊的時(shí)候,則是構(gòu)造一個(gè)Exception 直接拋出
- @Override
- public void attack() {
- Logger.info("Chaos Monkey - exception");
- AssaultException assaultException = this.settings.getAssaultProperties().getException();
- assaultException.throwExceptionInstance();
- }
- @SneakyThrows
- public void throwExceptionInstance() {
- Exception instance;
- try {
- Class<? extends Exception> exceptionClass = getExceptionClass();
- if (arguments == null) {
- Constructor<? extends Exception> constructor = exceptionClass.getConstructor();
- instance = constructor.newInstance();
- } else {
- Constructor<? extends Exception> constructor =
- exceptionClass.getConstructor(this.getExceptionArgumentTypes().toArray(new Class[0]));
- instance =
- constructor.newInstance(this.getExceptionArgumentValues().toArray(new Object[0]));
- }
- } catch (ReflectiveOperationException e) {
- Logger.warn(
- "Cannot instantiate the class for provided type: {}. Fallback: Throw RuntimeException",
- type);
- instance = new RuntimeException("Chaos Monkey - RuntimeException");
- }
- throw instance; // 哈哈,直接拋出
- }
KillApp 就直接執(zhí)行應(yīng)用的退出操作,System.exit.
本文轉(zhuǎn)載自微信公眾號(hào)「 Tomcat那些事兒」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系 Tomcat那些事兒公眾號(hào)。