-
去哪儿的常态化容量是怎么做的?|TakinTalks稳定性社区
大多数时候,我们聊的都是“双十一”等大型活动下的容量保障,但除了个别典型峰值场景外,系统日常也会有各类容量保障的需求,去哪儿网作为国内最大的旅行平台之一,在各类场景中摸索出了一套常…
-
故障复盘究竟怎么做?美图SRE结合10年经验做了三大总结(附模板)
美图崇尚的故障文化是 “拥抱故障,卓越运维”,倡导的基准是 No-Blame, 即「不指责,重改进」。今年 9 月 TakinTalks 社区曾经分享过美图的三段式故障治理方法(美…
-
kafka压测造数,数据集要怎么使用?
快速下载: 通用版本:kafka-data_set-pump.jar 密码:cuah kafka集群0.8.2.x版本:kafka-pump-0.8.2.x.jar 密码:QUz7…
-
B站全链路压测改造之全链自动化测试实践
一、 背景与意义 B站直播营收送礼业务有着高写、在跨晚和S赛等大型活动下流量陡增、数据实时性要求高等特性,传统压测对于写场景为了避免影响线上数据做了各种屏蔽和黑名单处理,有着无法逼…
-
B站在全链路压测上的实践
一、背景 全链路压测是在线上生产环境中通过模拟正常用户操作路径进行压力测试的一种方式,对比于我们通常的接口压测具有仿真度高、场景覆盖全等特点。过去的几年里,阿里、美团、字节等大厂均…
-
B站压测实践之压测平台的演进
一、背景 压测的重要性毋庸置疑,相比于监控,压测可以说是主动手段,通过高负载的预演,及时发现线上服务的瓶颈和缺陷,对线上服务质量保障起到了至关重要的作用。而在B站,核心业务都会频繁…
-
系统故障工程师居然可以不背锅?看看几家大厂是怎么做到的!
# 一分钟精华速览 # 系统故障无法避免,事故发生的原因多种多样,故障定责不是为了指责而是为了后续的优化改进,可很多企业在定责时难免遇到团队、个人之间推卸责任的情况,定责定的到底是…
-
监控告警怎么搭建比较合理?B站SRE实践总结了4大关键步骤
是不是经常会遇到,有人在群里@你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找? 老板问你系统现在到底健康与否,能不能快速给个判断,你却不敢断言?业务方说…
-
一文了解MySQL 常用备份工具流程解析
文章摘要 作为 DBA 都清楚,数据库备份是至关重要的,可以说是拯救数据库最后的灵丹妙药。所以生产系统的数据一定要有备份,当然备份工具和策略的选择也十分重要,直接影响到…
-
故障复盘后的告警如何加出效果?浙江移动等老司机总结了6条注意事项(内附活动预告)
#一分钟精华速览#某企业内部故障统计数据显示 85%的异常是靠用户上报发现而非监控发现。针对一个故障场景增加一个告警,往往需要增加数百上千个监控项,这样加下去,真的能提升业务异常的…