Tech 导读
本文从整体介绍了混沌演练的实践流程,读者可以通过本文了解到混沌实践的典型演练场景、重要考核指标以及风险控制方案等。
导读
1.1 什么是混沌工程
混沌工程是通过主动制造故障场景并根据系统在各种压力下的行为表现确定优化策略的一种系统稳定性保障手段,简单说就是通过主动注入故障的方式、提前发现问题,然后解决问题规避风险。
1.2 为什么要进行混沌演练
随着互联网业务发展,微服务架构、分布式架构和虚拟化容器技术的广泛普及,软件架构的复杂度在不断提升,服务之间的依赖所带来的不确定性也成指数级增长,在这样的服务调用网中,任何一环出现的正常或者异常的变化,都有可能对其他服务造成类似蝴蝶效应一般的影响。目前营销体系的服务量级不断增加,整体链路增长以及数据流转复杂,对整个系统的可用性、稳定性挑战也越来越大,所以引入混沌演练,主动找出系统中的脆弱环节,然后针对性地进行加固、防范,从而避免故障发生时所带来的严重后果,进一步提升业务系统的高可用,提高业务系统应急保障能力。
1.3 混沌演练的价值
应用混沌演练可以对系统抵抗扰动并保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障系统更好地抵御生产环境中的失控条件,提升整体稳定性。
混沌演练实践
2.1 演练流程介绍
目前借助京东云RPA自动化服务平台进行混沌攻防演练,测试人员为红方(攻击方),研发人员为蓝方(防守方),红方随机挑选一个时间段,针对服务系统注入故障(比如:CPU使用率达到100%、网络延迟、JSF接口响应延迟等),蓝方负责故障感知以及应急处理,通过这样的方式,达到针对系统高可用的应急演练。
图2 混沌演练平台介绍
2.2 初次演练实践
图3 混沌演练具体计划
2.2.2 执行阶段
图4 混沌演练任务信息和监控信息
2.2.3 恢复阶段
图5 演练应用告警通知
2.2.4 复盘阶段
图6 增加的告警通知
混沌演练总结
3.1 典型演练场景
借助于平台进行混沌演练,可以降低演练的学习成本,提高演练的效率,目前平台对于常用的演练场景已经支持,大家可以在平台进入工具市场选择相应的演练场景。
图7 重点演练场景
3.2 重要考核指标
混沌演练结束后,需要根据演练执行过程和结果,记录演练流程和对应监控指标变化情况,总结存在的问题以及优化方案发出演练报告,对于演练中的关注指标主要是从故障“发现-定位-恢复”的时效性指标,下面具体介绍了在实践演练中需要重点关注的指标,如是否有告警监控、系统容错能力情况,以及响应机制,其中最后灰色部分高可用指标属于探索部分,会随着系统当前的实际情况和业务不同有变化,作为探索性指标。
图8 演练重点关注指标
3.3 关注风险控制
混沌演练会对业务和系统产生破坏性,为了限制发现应用程序漏洞的成本,避免不必要的损坏和超出合理测试允许的实际损失对混沌演练做好风险控制是非常必要的。做好风险控制,将演练控制在一个较小的范围内,避免由于演练失控带来的更大问题。目前在进行混沌演练实践主要通过以下两个方面进行风险控制:
总结
会员徽章系统 – 整体介绍及方案设计
求分享
求点赞
求在看
本篇文章来源于微信公众号:京东技术
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。