作者介绍
温馨提醒:本文约6500字,预计花费12分钟阅读。
后台回复 “交流” 进入读者交流群;回复“Q102”获取课件;
背景
一、酷家乐根因分析系统各阶段存在哪些问题?
1.1 初级阶段(2021年之前)
1.1.1 存在的问题
1.2 进阶阶段(2021年-2022年)
1.2.1 阶段成果
1.2.2 存在的问题
-
没有专业工具,定位难的问题依然没解决。依然较依赖调查人员的个人能力和经验; -
定位效率还是不理想。很多人工操作,人工分析,依赖人的经验进行定位; -
提升警报覆盖率后,业务抱怨警报太多。做了大量的警报降噪、警报聚合等降警报的工作; -
底层故障会引发大规模警报风暴,定位很难。大量服务、组件都报警时,快速定位到根因服务和根因,是一件不容易的事。
1.3 专业阶段(2022年-2023年)
1.3.1 链路分析-警报拓扑图
1.3.2 专项分析-鲲鹏诊断系统
1.3.3 警报分析 – 架构层级分析
1.3.4 警报分析 – 聚类分析
1.3.5 业务分析与故障定位
1.3.6 阶段成果
-
建立了全面而完整的根因分析和定位的系列工具,对于各类常见故障,基本都能通过点击系统对应功能进行定位,典型故障的定位时间已大幅缩短至5分钟内。 -
使用门槛也大幅降低,根因分析系统自动按照分析规则做了完整分析,即使是不熟悉监控系统或业务的人员,也能做到只需要点击即可查看故障定位。这不仅降低了应急成本,也大大减轻了应急时的焦虑感。
1.3.7 存在的问题
1.4 专家阶段(2023年之后)
1.4.1 人工定位自动化实现思路
1.4.2 魔方语言自动化根因定位实现思路
二、“魔方语言”如何帮助实现1分钟定位?
2.1 实现原则
2.2 系统架构概述
2.3 自动化整体流程
2.4 在线调试工具介绍
2.5 语法和命令说明
2.6 代码示例
2.6.1 上游流量突增故障分析示例
2.6.2 用户流量突增故障分析示例
2.6.3 宿主机故障分析规则示例
2.7 如何评估
2.8 实际运行效果
-
大部分典型故障定位时长缩短90%以上 。进入1分钟定位阶段,分析路径精确的,一般能在发现故障后30s内定位完;较复杂的也能在1分钟内定位完。
-
V2版本定位服务准确率67% 。目前正在配置的V3版本预计超80%。
三、总结与展望
3.1 魔方语言的应用场景
3.2 未来规划:大模型+魔方语言
!!重要通知!!
添加助理小姐姐,凭截图免费领取以上所有资料
并免费加入「TakinTalks读者交流群」
声明:本文由公众号「TakinTalks稳定性社区」联合社区专家共同原创撰写,如需转载,请后台回复“转载”获得授权。
更多故障治理内容
本篇文章来源于微信公众号:TakinTalks稳定性社区
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。