
作者介绍

TakinTalks稳定性社区专家团成员,转转存储服务负责人,负责消息中间件(MQ)、键值(KV)存储、Redis、监控系统、KMS凭据管理系统、短信服务等。
温馨提醒:本文约7000字,预计花费10分钟阅读。
后台回复 “交流” 进入读者交流群;回复“1214”获取课件;
背景

一、自研一体化监控遇到了哪些问题?
1.1 调研选型

1.1.1 Prometheus架构模型

-
生态完善,丰富的Exporter -
一次上报,任意聚合 -
社区非常活跃 -
高可扩展性 -
一整套解决方案
1.1.2 存储选型-M3DB

1.2 Prometheus架构模型

1)架构复杂
2)推动与成本问题
3)告警与降噪
二、转转是如何逐一解决这些问题的?
2.1 架构设计(解决架构复杂问题)

2.1.1 SDK设计

2.1.2 性能测试

2.2 权限与看板规划(解决开箱即用的问题)
2.2.1 登录认证与权限隔离

2.2.2 看板规划

2.2.3 指标迁移

2.2.4 看板自动化
1)内置看板


2)业务指标

3)自动创建看板-Counter/Gauge/Histogram



2.3 告警系统设计(解决降噪问题)
2.3.1 原生告警系统痛点

2.3.2 告警系统设计

2.3.3 告警系统展示

1)业务指标告警

2)内置指标告警


3)自定义PromQL


2.3.4 告警降噪设计

1)分组去重

2)分级降噪

3)告警抑制

4)通知合并

-
error日志量报警,合并多个相同IP的报警通知

-
error日志量报警与SQL异常报警,合并相同IP和告警值通知,快速判断问题原因是SQL执行错误。

-
消费失败、消费流控、消费堆积等多种MQ告警合并

5)扩展




2.3.5 降噪效果

三、一体化监控落地效果如何?
3.1 整体落地效果
3.2 占用资源

四、总结和展望

Q&A:
!!重要通知!!




添加助理小姐姐,凭截图免费领取以上所有资料
并免费加入「TakinTalks读者交流群」

声明:本文由公众号「TakinTalks稳定性社区」联合社区专家共同原创撰写,如需转载,请后台回复“转载”获得授权。
更多故障治理内容

本篇文章来源于微信公众号:TakinTalks稳定性社区
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。