故障专题

故障专题

美图是如何搭建压测监控一体化平台的？

美图架构平台团队的主要工作，是给业务提供技术支撑，保障业务的稳定性；在减少故障方面，架构团队和 SRE 团队有比较紧密的配合和较多的实践。此前美图 SRE 团队也在 TakinTa…

2022年11月11日
Qunar技术沙龙

去哪儿的常态化容量是怎么做的？｜TakinTalks稳定性社区

大多数时候，我们聊的都是“双十一”等大型活动下的容量保障，但除了个别典型峰值场景外，系统日常也会有各类容量保障的需求，去哪儿网作为国内最大的旅行平台之一，在各类场景中摸索出了一套常…

2022年11月11日
故障专题

系统故障工程师居然可以不背锅？看看几家大厂是怎么做到的！

# 一分钟精华速览 # 系统故障无法避免，事故发生的原因多种多样，故障定责不是为了指责而是为了后续的优化改进，可很多企业在定责时难免遇到团队、个人之间推卸责任的情况，定责定的到底是…

2022年8月25日
哔哩哔哩技术

监控告警怎么搭建比较合理？B站SRE实践总结了4大关键步骤

是不是经常会遇到，有人在群里@你，告诉你你的系统出故障了，你在犹豫是不是真的出故障的同时还得慌乱地去查找？老板问你系统现在到底健康与否，能不能快速给个判断，你却不敢断言？业务方说…

2022年8月23日
故障专题

一文了解MySQL 常用备份工具流程解析

文章摘要作为 DBA 都清楚，数据库备份是至关重要的，可以说是拯救数据库最后的灵丹妙药。所以生产系统的数据一定要有备份，当然备份工具和策略的选择也十分重要，直接影响到…

2022年8月22日
故障专题

故障复盘后的告警如何加出效果？浙江移动等老司机总结了6条注意事项(内附活动预告)

#一分钟精华速览#某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警，往往需要增加数百上千个监控项，这样加下去，真的能提升业务异常的…

2022年8月16日
故障专题

由谷歌宕机引发的思考——稳定性之面向失败设计【可靠性之容错】

谷歌事故回顾：https://news.shulie.io/?p=5103 鲁棒性（robustness）其意思是健壮和强壮，就是系统的健壮性。它是指一个程序中对可能导致程序崩溃的…

2022年8月5日
故障专题

2020年谷歌宕机事件回顾（官方事故报告）

以下为谷歌官方的事故报告：问题摘要 2020 年 12 月 14 日星期一，需要谷歌 OAuth 访问且面向客户的谷歌服务出现死机，并持续了 47 分钟。GCP 工作负载使用的云…

2022年8月4日
微盟技术

腾讯云“抢救”微盟！开 766 次在线会议、调拨 100 多台服务器、闹钟只敢定 2 小时

766次在线会议、临时调拨100多台服务器，“调兵”四地工程师，这是腾讯云“救援”微盟的付出。 3月1日，“微盟删库”事件收尾，并制定1.5亿元赔付计划。这，不啻于一场血的教训。此…

2022年8月2日
微盟技术

微盟删库跑路事件回顾

2020年微盟删库事件是目前为止国内删库最严重的事故之一，当天直接造成公司市值损失近10亿，影响超过300万商户。下面我们按照时间线，来看看整个事件发生的始末。 ① 事情从2月23…

2022年8月2日

1 / 2
1
2
下一页