故障专题
-
哈啰出行高质量故障复盘法:“3+5+3”(附模板)
# 一分钟精华速览 # 故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之中。 作为…
-
美图是如何搭建压测监控一体化平台的?
美图架构平台团队的主要工作,是给业务提供技术支撑,保障业务的稳定性;在减少故障方面,架构团队和 SRE 团队有比较紧密的配合和较多的实践。此前美图 SRE 团队也在 TakinTa…
-
去哪儿的常态化容量是怎么做的?|TakinTalks稳定性社区
大多数时候,我们聊的都是“双十一”等大型活动下的容量保障,但除了个别典型峰值场景外,系统日常也会有各类容量保障的需求,去哪儿网作为国内最大的旅行平台之一,在各类场景中摸索出了一套常…
-
如何避免这10类常见故障?B站数据库架构设计做了这5步……
今年 3 月 GitHub 在一周内出现了多次服务不可用的情况,每起事件持续时长在 2-5 小时,据有媒体统计,GitHub 在一周中多次中断影响的开发者数量高达 7300 万。事…
-
系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!
# 一分钟精华速览 # 系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是…
-
监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤
是不是经常会遇到,有人在群里@你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言?业务方说…
-
一文了解MySQL 常用备份工具流程解析
文章摘要 作为 DBA 都清楚,数据库备份是至关重要的,可以说是拯救数据库最后的灵丹妙药。所以生产系统的数据一定要有备份,当然备份工具和策略的选择也十分重要,直接影响到…
-
故障复盘后的告警如何加出效果?浙江移动等老司机总结了6条注意事项(内附活动预告)
#一分钟精华速览#某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往往需要增加数百上千个监控项,这样加下去,真的能提升业务异常的…
-
由谷歌宕机引发的思考——稳定性之面向失败设计【可靠性之容错】
谷歌事故回顾:https://news.shulie.io/?p=5103 鲁棒性(robustness)其意思是健壮和强壮,就是系统的健壮性。它是指一个程序中对可能导致程序崩溃的…
-
2020年谷歌宕机事件回顾(官方事故报告)
以下为谷歌官方的事故报告: 问题摘要 2020 年 12 月 14 日星期一,需要谷歌 OAuth 访问且面向客户的谷歌服务出现死机,并持续了 47 分钟。GCP 工作负载使用的云…