bilibili《安全生产之故障应急与业务1-5-10实践》

如何获得讲师PPT:

扫码关注公众号,后台回复Q116即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

Q&A环节答疑:

1、故障摸排这里有使用故障注入或模拟技术?具体是怎么设计的、还有怎么验证故障定位有效性?

故障定位的有效性主要通过模拟弱依赖的故障注入来检验。我们使用了一系列与故障相关的能力,包括故障注入技术,来模拟当弱依赖组件失效时,强依赖组件以及整个系统的表现会如何。这种测试方法采用了工厂演练相关的能力,旨在帮助我们准确判断终端上的表现,从而提升故障定位的有效性。

2、告警通知和升级流程是如何设计的?还有,告警升级和故障定位流程是怎么关联的?

我们的ERC主要面向故障处理。当系统出现低阈值或客户投诉时,会触发故障响应机制。虽然告警本身并不直接纳入故障范畴,但若业务、研发或SIE团队发现某告警未被ERC(即故障响应中心)有效处理,可一键升级为故障。此时,会立即联动相关应用或业务的研发负责人、SRE以及测试人员,并自动创建群组。随后,我们将启动故障处理流程,迅速应对,评估影响范围,并采取有效措施以尽快止损。

3、怎么识别和分类不同的故障模式? 

ERC针对不同的故障模式对接了不同的数据源。例如,客服通道会有专门的标识,并附带客服要求填写的关键信息,如区域和故障点的聚集性情况。而SLO相关的数据源则主要关注整体的可能性指标。因此,我们根据不同的故障源来区分和选择相应的故障模式。

4、slo平台主要的功能是什么?

我们负责整个SLO体系的规则管理,包括其地域值的设定和阻断能力力的构建。此外,SLO大盘的维护也是我们工作的重点,它涵盖了全网的稳定性以及数据链路稳定性的大盘,这些都在SLO平台的相
关功能中得到了支持。至于SRA指标的定义能力,我们主要基于自动机制,只要接入了标准框架的指标,其整个SLO的告警和口侧都能自动生成。这样,我们确保了SLO体系的全面性和高效性。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
上一篇 2024年4月22日 下午5:26
下一篇 2024年4月22日 下午5:43

相关推荐

发表评论

登录后才能评论