-
微盟删库跑路事件回顾
2020年微盟删库事件是目前为止国内删库最严重的事故之一,当天直接造成公司市值损失近10亿,影响超过300万商户。下面我们按照时间线,来看看整个事件发生的始末。 ① 事情从2月23…
-
10年稳定性保障经验总结,故障复盘要回答哪三大关键问题?|TakinTalks大咖分享
很多人应该都有关注SpaceX,从MK1到SN12所有的飞行器都没有成功,那这个实验到底是失败了还是成功了呢?借用埃隆·马斯克话来说这是一次成功的失败,他们公司从这些失败中汲取的经…
-
B站SRE负责人亲述713故障后的多活容灾建设
直播视频回放:https://news.shulie.io/?p=5019 上周B站技术发的“713事故”复盘文章爆了,很多小伙伴都在关注我们B站的高可用建设,其实一直以来我们在这…
-
B站713崩盘、复原、处理、优化全过程实录
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打…
-
TakinTalks大咖说| 大型活动数据库应急预案怎么做?B站专家这样说……
“所有的应急预案都应该围绕着公司自身的基建来设计,否则一切都只是空谈。现实中, 大型活动持续的时间一般不会很长, 但是流量非常高,一场赛事直播可能会在2-3个小时,一次电商大促、秒…
-
大事务带来的问题及解决方案
一、问题描述 业务下单链路(大事务)整体耗时较高,影响整体接口性能 1、什么是大事务 运行时间长,长时间未提交的事务称之为大事务 2、大事务会带来那些问题 a、死锁 b、数据库连接…
-
快速部署说明
docker镜像快速使用文档: 建议虚拟机内存 : 8G 镜像大小: 2.1G 建议修改 Docker 镜像地址为阿里云,详见 官方镜像加速 – 阿里云文档 …
-
测试的核心竞争力是什么?
前几天在某个测试技术交流群,有大佬抛出了一个问题:如果抛开技术不谈,如何衡量测试的Level?简单理解就是:排除技术因素,如何衡量测试工程师的能力达到什么层次?或者说用什么来评估测…
-
编程命名的学问
编程中的命名是一个大学问,好的命名能使代码具有良好的可读性,不亚于是一份文档,直接通过名字就能大概知道变量或组件对应的功能 大的命名原则 命名明确简洁易懂 避免混用多种规范 避免命…
-
开课报名|「Takin开源特训营」第一期来啦!手把手教你搞定全链路压测!
618又来了,今年的年中大考,你是不是又遇到了稳定性问题? 每年这个时候,总有企业因为大促激增的流量导致系统稳定性出现问题,数十倍的流量涌入系统,总有一些企业因为没有做好事前筹备…