作者介绍
TakinTalks稳定性社区专家团成员,转转存储服务负责人,负责消息中间件(MQ)、键值(KV)存储、Redis、监控系统、KMS凭据管理系统、短信服务等。
温馨提醒:本文约7000字,预计花费10分钟阅读。
后台回复 “交流” 进入读者交流群;回复“1214”获取课件;
背景
一、自研一体化监控遇到了哪些问题?
1.1 调研选型
1.1.1 Prometheus架构模型
-
生态完善,丰富的Exporter -
一次上报,任意聚合 -
社区非常活跃 -
高可扩展性 -
一整套解决方案
1.1.2 存储选型-M3DB
1.2 Prometheus架构模型
1)架构复杂
2)推动与成本问题
3)告警与降噪
二、转转是如何逐一解决这些问题的?
2.1 架构设计(解决架构复杂问题)
2.1.1 SDK设计
2.1.2 性能测试
2.2 权限与看板规划(解决开箱即用的问题)
2.2.1 登录认证与权限隔离
2.2.2 看板规划
2.2.3 指标迁移
2.2.4 看板自动化
1)内置看板
2)业务指标
3)自动创建看板-Counter/Gauge/Histogram
2.3 告警系统设计(解决降噪问题)
2.3.1 原生告警系统痛点
2.3.2 告警系统设计
2.3.3 告警系统展示
1)业务指标告警
2)内置指标告警
3)自定义PromQL
2.3.4 告警降噪设计
1)分组去重
2)分级降噪
3)告警抑制
4)通知合并
-
error日志量报警,合并多个相同IP的报警通知
-
error日志量报警与SQL异常报警,合并相同IP和告警值通知,快速判断问题原因是SQL执行错误。
-
消费失败、消费流控、消费堆积等多种MQ告警合并
5)扩展
2.3.5 降噪效果
三、一体化监控落地效果如何?
3.1 整体落地效果
3.2 占用资源
四、总结和展望
Q&A:
!!重要通知!!
添加助理小姐姐,凭截图免费领取以上所有资料
并免费加入「TakinTalks读者交流群」
声明:本文由公众号「TakinTalks稳定性社区」联合社区专家共同原创撰写,如需转载,请后台回复“转载”获得授权。
更多故障治理内容
本篇文章来源于微信公众号:TakinTalks稳定性社区
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。