SRE实战— 稳定性保障与架构优化的关键策略

如何获得讲师PPT:

扫码关注公众号,后台回复0926即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

 

Q&A环节答疑:

1、老师好,想问一下这个经验库是怎么积累出来的?有没有什么经验可以分享一下。

经验库是这样的,它的积累一方面确实需要有一些规划,另一方面也需要有更多的一些实践。比如说刚刚就是截了一些性能容量方面的经验库,我们在这一块差不多目前有 100 多个类似的经验库,我们自己做下来,感觉在性能容量上面我们目前覆盖差不多有 70% 左右。
这个经验库其实我们也是花了挺长时间,一开始我们先去规划了一些种类目。然后第二个就是在不断去解决性能容量问题的过程中,不断地去细化积累出来。这个基本是就是经验库的积累,基本上就是靠规划加就加实践,还是这种方式。

2、系统确实有性能问题,怎么能确保这样实施真的能出效果?比如问题是否真的能定位、经验库是
否能覆盖等等。

其实这是一个覆盖率的问题。经验库,其实大家的感受上面,就即使是性能的问题,总感觉这个问题好像是无穷无尽的,是出不完的。但我们自己实践下来,那目前我为什么说有 70% 多?因为不是说我自己说出来,而是统计出来的数据。是我们在跟客户合作过程当中,也有客户在用我们这些产品,那在遇到有性能问题的时候,有多少是我们监控能直接给出答案的?那这部分就占 70% 左右。
那还有一些确实是还不够的,那些我们人工排查完了之后,我们也会有另外一套这种工程,去把人工的经验,通过产品化的方式积累到我们系统里面来的。这个问题我自己的理解其实就是基因库覆盖的问题,那覆盖的问题,确实得去积累,需要有一段时间。但这个积累出来,我觉得在不同的公司里面,它基本上也都是可以去复用的。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
上一篇 2023年8月16日 下午4:40
下一篇 2023年10月16日 下午6:31

相关推荐

发表评论

邮箱地址不会被公开。