中国联通数字化监控平台可观测实践

如何获得讲师PPT:

扫码关注公众号,后台回复1019即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

 

Q&A环节答疑:

生产运营工作台右下角的报表是用了metabase?

其实没有用这种特殊的工具,是把相关的信息收集下来,然后自己去做统计分析,比如说:用户登录。肯定是有记录的,那登录的一个趋势是什么样子?用户的一个使用应用的数据是什么样?然后使用这些菜单的情况是什么样?因为我们本身就这个埋点的情况,我们就可以把这些数据全都收集下来,那通过这些收集下来,做这些统计分析就可以,其实也不是所谓的报表,就是一个统计分析 ,也就没有用metabase

看到老师分享“亚健康检查”有提到监控指标。请问监控指标怎么去梳理?除了基础指标,还有哪些关键监控指标?怎么才能做到监控覆盖全?

对于亚健康检查,存在一些黄金核心指标。但并不是所有全量指标都需要关注,我们建议注重精要和重要的指标。如何确定这些黄金指标?首先,我们会请正向的专家团队进行梳理。他们来自不同领域,在应用、组建和基础设施方面拥有专业知识,能够判断哪些指标更为核心。此外,我们也会关注反向的问题和事件,以判断之前未关注的指标是否需要补充。通过正向的梳理和反向的补充,我们能够确定整个亚健康检查的黄金核心指标。

老师好,如果构建这么一套厉害的监控系统,需要什么样的能力技术、人员、流程、规范的准备,技术栈有什么建议吗?

监控系统和数字化监控平台通常非常庞大,涵盖了监控、自动化运维、配置管理和测试等多个领域。然而,这样全面的系统并非一蹴而就,我们是逐年建设的。例如,我们从2017年开始建设这个系统,并经过多年的不断打磨和完善,最终构建成了一个整体系统。在建设过程中,技术人员需要具备学习的能力,关键是要知道学习哪些技术能力。我们首先要基于历史问题和故障进行反思,了解哪些方面还不足以及需要做哪些改进。例如,在做到监控之后,我们发现快速诊断问题的重要性,因此我们引入了快速诊断技术。此外,我们也关注故障管理和预防、事前应急和全链路压测等方面的补充。确定学习哪些技术和如何实施需要进行整体规划,并与同行业分享经验,例如参加社区活动和直播。除了技术人员,流程规范也是重要的,涉及到保障体系的建立、人员配备和运营机制等方面。通过建立完善的体系,可以有效提升系统的保障和提升能力。平台工具、场景、数据和流程是系统工具的重要组成部分,也是整体体系的关键。如果有机会,我们可以线下交流中国联通在安全保障体系方面的经验。此外,我之前也在其他地方分享过不同阶段的核心工作,包括稳定性架构、验证测试和保障阶段的工作。

老师好,故障知识库可以展开讲下吗?感觉最近经常听到

故障知识库是我们对历史故障进行沉淀和总结的重要工具。通过它,我们可以了解故障发生的具体时间、系统问题所在、问题的根本原因、影响范围以及处理故障的标准动作。此外,我们还可以从中吸取经验教训,进行整改,并跟踪整体情况以便及时处置。
沉淀故障知识库的好处在于,我们可以反思如何在系统层面上保障我们的监控平台或保障性平台。有了这些知识,我们可以针对性地改进和优化系统建设,以提升保障系统的稳定性。
通过统计和分析故障知识库中的数据,我们可以判断哪些故障需要进一步整改,哪些可以进行优化,以及如何建设系统。此外,我们还可以利用LM大模型等工具,推荐处理方法,查找历史相似故障案例以便快速应急。
总之,故障知识库不仅提供了历史的经验教训,还可以帮助我们确定未来的改进方向和工具支撑的重点。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(1)
上一篇 2023年10月16日 下午6:31
下一篇 2023年10月30日 下午6:10

相关推荐

发表评论

登录后才能评论