-
由谷歌宕机引发的思考——稳定性之面向失败设计【可靠性之容错】
谷歌事故回顾:https://news.shulie.io/?p=5103 鲁棒性(robustness)其意思是健壮和强壮,就是系统的健壮性。它是指一个程序中对可能导致程序崩溃的…
-
2020年谷歌宕机事件回顾(官方事故报告)
以下为谷歌官方的事故报告: 问题摘要 2020 年 12 月 14 日星期一,需要谷歌 OAuth 访问且面向客户的谷歌服务出现死机,并持续了 47 分钟。GCP 工作负载使用的云…
-
腾讯云“抢救”微盟!开 766 次在线会议、调拨 100 多台服务器、闹钟只敢定 2 小时
766次在线会议、临时调拨100多台服务器,“调兵”四地工程师,这是腾讯云“救援”微盟的付出。 3月1日,“微盟删库”事件收尾,并制定1.5亿元赔付计划。这,不啻于一场血的教训。此…
-
微盟删库跑路事件回顾
2020年微盟删库事件是目前为止国内删库最严重的事故之一,当天直接造成公司市值损失近10亿,影响超过300万商户。下面我们按照时间线,来看看整个事件发生的始末。 ① 事情从2月23…
-
10年稳定性保障经验总结,故障复盘要回答哪三大关键问题?|TakinTalks大咖分享
很多人应该都有关注SpaceX,从MK1到SN12所有的飞行器都没有成功,那这个实验到底是失败了还是成功了呢?借用埃隆·马斯克话来说这是一次成功的失败,他们公司从这些失败中汲取的经…
-
B站SRE负责人亲述713故障后的多活容灾建设
直播视频回放:https://news.shulie.io/?p=5019 上周B站技术发的“713事故”复盘文章爆了,很多小伙伴都在关注我们B站的高可用建设,其实一直以来我们在这…
-
B站713崩盘、复原、处理、优化全过程实录
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打…
-
TakinTalks大咖说| 大型活动数据库应急预案怎么做?B站专家这样说……
“所有的应急预案都应该围绕着公司自身的基建来设计,否则一切都只是空谈。现实中, 大型活动持续的时间一般不会很长, 但是流量非常高,一场赛事直播可能会在2-3个小时,一次电商大促、秒…
-
大事务带来的问题及解决方案
一、问题描述 业务下单链路(大事务)整体耗时较高,影响整体接口性能 1、什么是大事务 运行时间长,长时间未提交的事务称之为大事务 2、大事务会带来那些问题 a、死锁 b、数据库连接…
-
快速部署说明
docker镜像快速使用文档: 建议虚拟机内存 : 8G 镜像大小: 2.1G 建议修改 Docker 镜像地址为阿里云,详见 官方镜像加速 – 阿里云文档 …