故障专题
-
美图是如何搭建压测监控一体化平台的?
美图架构平台团队的主要工作,是给业务提供技术支撑,保障业务的稳定性;在减少故障方面,架构团队和 SRE 团队有比较紧密的配合和较多的实践。此前美图 SRE 团队也在 TakinTa…
-
去哪儿的常态化容量是怎么做的?|TakinTalks稳定性社区
大多数时候,我们聊的都是“双十一”等大型活动下的容量保障,但除了个别典型峰值场景外,系统日常也会有各类容量保障的需求,去哪儿网作为国内最大的旅行平台之一,在各类场景中摸索出了一套常…
-
系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!
# 一分钟精华速览 # 系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是…
-
监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤
是不是经常会遇到,有人在群里@你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言?业务方说…
-
一文了解MySQL 常用备份工具流程解析
文章摘要 作为 DBA 都清楚,数据库备份是至关重要的,可以说是拯救数据库最后的灵丹妙药。所以生产系统的数据一定要有备份,当然备份工具和策略的选择也十分重要,直接影响到…
-
故障复盘后的告警如何加出效果?浙江移动等老司机总结了6条注意事项(内附活动预告)
#一分钟精华速览#某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往往需要增加数百上千个监控项,这样加下去,真的能提升业务异常的…
-
由谷歌宕机引发的思考——稳定性之面向失败设计【可靠性之容错】
谷歌事故回顾:https://news.shulie.io/?p=5103 鲁棒性(robustness)其意思是健壮和强壮,就是系统的健壮性。它是指一个程序中对可能导致程序崩溃的…
-
2020年谷歌宕机事件回顾(官方事故报告)
以下为谷歌官方的事故报告: 问题摘要 2020 年 12 月 14 日星期一,需要谷歌 OAuth 访问且面向客户的谷歌服务出现死机,并持续了 47 分钟。GCP 工作负载使用的云…
-
腾讯云“抢救”微盟!开 766 次在线会议、调拨 100 多台服务器、闹钟只敢定 2 小时
766次在线会议、临时调拨100多台服务器,“调兵”四地工程师,这是腾讯云“救援”微盟的付出。 3月1日,“微盟删库”事件收尾,并制定1.5亿元赔付计划。这,不啻于一场血的教训。此…
-
微盟删库跑路事件回顾
2020年微盟删库事件是目前为止国内删库最严重的事故之一,当天直接造成公司市值损失近10亿,影响超过300万商户。下面我们按照时间线,来看看整个事件发生的始末。 ① 事情从2月23…