bilibili《安全生产之故障应急与业务1-5-10实践》

如何获得讲师PPT:

扫码关注公众号,后台回复Q116即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

Q&A环节答疑:

1、故障摸排这里有使用故障注入或模拟技术?具体是怎么设计的、还有怎么验证故障定位有效性?

故障定位的有效性主要通过模拟弱依赖的故障注入来检验。我们使用了一系列与故障相关的能力,包括故障注入技术,来模拟当弱依赖组件失效时,强依赖组件以及整个系统的表现会如何。这种测试方法采用了工厂演练相关的能力,旨在帮助我们准确判断终端上的表现,从而提升故障定位的有效性。

2、告警通知和升级流程是如何设计的?还有,告警升级和故障定位流程是怎么关联的?

我们的ERC主要面向故障处理。当系统出现低阈值或客户投诉时,会触发故障响应机制。虽然告警本身并不直接纳入故障范畴,但若业务、研发或SIE团队发现某告警未被ERC(即故障响应中心)有效处理,可一键升级为故障。此时,会立即联动相关应用或业务的研发负责人、SRE以及测试人员,并自动创建群组。随后,我们将启动故障处理流程,迅速应对,评估影响范围,并采取有效措施以尽快止损。

3、怎么识别和分类不同的故障模式? 

ERC针对不同的故障模式对接了不同的数据源。例如,客服通道会有专门的标识,并附带客服要求填写的关键信息,如区域和故障点的聚集性情况。而SLO相关的数据源则主要关注整体的可能性指标。因此,我们根据不同的故障源来区分和选择相应的故障模式。

4、slo平台主要的功能是什么?

我们负责整个SLO体系的规则管理,包括其地域值的设定和阻断能力力的构建。此外,SLO大盘的维护也是我们工作的重点,它涵盖了全网的稳定性以及数据链路稳定性的大盘,这些都在SLO平台的相
关功能中得到了支持。至于SRA指标的定义能力,我们主要基于自动机制,只要接入了标准框架的指标,其整个SLO的告警和口侧都能自动生成。这样,我们确保了SLO体系的全面性和高效性。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
上一篇 2024年4月22日 下午5:26
下一篇 2024年4月22日 下午5:43

相关推荐

发表评论

邮箱地址不会被公开。

评论列表(1条)

  • casino en ligne France
    casino en ligne France 2025年5月26日 下午3:39

    Hello there, just became aware of your blog through Google,
    and found that it’s really informative. I’m going to watch out for brussels.
    I’ll be grateful if you continue this in future. Numerous
    people will be benefited from your writing. Cheers!