B站S11破亿直播在线稳定性保障秘籍——直播Q&A

Q1: 压测环境怎么保证和线上一样呢？

A：此次直播压测，我们主要是在线上进行压测，线上压测是最接近实际情况的，同时直播的很多核心场景，多是读的接口，可以方便的在线上进行压测。也有一部分写的接口，我们也是通过线上的压测账号进行线上压测，压测完毕清理数据即可。同时对一些可能会产生脏数据的写接口，我们做了一些代码改动，以避免污染线上数据。此时已经覆盖了绝大多数场景。对于极少数写接口，改动代码比较麻烦，无法进行线上压测，我们尽量保障这些接口所涉及的资源足够。

Q2:压测几次是怎么确定的？

A：是这样的，我们一共进行了三轮压测，每轮有多次。为什么要进行三轮压测,这里我可以说一下：

第一轮压测的目标是：压出系统的极限，找出瓶颈和优化点

第二轮:等系统优化和业务需求做完，扩容后，按照S11预计流量压测

第三轮:验证，回归，查漏补缺

Q3:B站的场景链路梳理都是人工完成的吗？

A：我们确实是通过人工完成的，花了比较大的精力完成了直播方向的所有场景梳理，很难说通过一个自动化或者机器怎么样的一个手段去做这个事情，即使使用工具进行梳理也还是需要进行人工check的。而且核心场景不会大变，所以一次梳理后续还是可以继续使用的。

Q4:核心链路监控现在是如何实施落地的？

A：B站对于核心链路的监控都是通过Prometheus打点、Grafana展示来实现的，也就是我们会在核心链路进行埋点动作。

Q5:埋点会影响性能测试吗？

A：埋点不会影响到系统性能的，不会有性能上的损耗的。

Q6:稳定性不同阶段重点是什么？初期是提高监控主动发现率（发现问题），中期可观测性（定位问题），后期是混沌、预案（解决问题）？

A：这位同学自己总结的很好，我这边再补充1点，前面有提到B站其实在做另外一个事情，就是从大的架构层面去做多机房的部署、多元化、多活等，可以从更大的层面去保障稳定性。比如说多机房部署，当这个机房出现问题时，我们就切到另一个机房，避免对用户造成严重影响。

Q7:贵公司多大比例的事件和故障可以做到“一五十”呢？

没有具体统计过，目前我们有一些故障其实解决效率很高，都用不了10分钟就立马解决了，但故障具有不可预知性，所以我们一直才持续朝着这个方向去努力。

Q8:针对链路和场景梳理出来了，那如果业务和系统架构有变更，调用链路变了呢？怎么防腐化？

防腐化这个问题很好，也确实是一个难点，因为业务的东西总是在不断地变化，但目前B站的核心场景变化并不多，我们主要是保障核心，花20%的精力解决80%主干的问题就可以了。腐化难以避免，但我们可以在需要迭代的时候主动考虑一下这部分的问题，尽量做到业务上的隔离，不影响原本的核心链路。

Q9:B站在进行场景梳理时是怎么进行场景分级的？具体依据是什么？

A：我们场景一共分了四个级别，P0,P1,P2,P3，主要就是根据重要性来分级的。

本文来自投稿，不代表TakinTalks稳定性技术交流平台立场，如若转载，请联系原作者。

B站S11破亿直播在线稳定性保障秘籍——直播Q&A

发表评论

评论列表（2条）

￼￼B站S11破亿直播在线稳定性保障秘籍——直播Q&A

相关推荐

如何做到人均告警减少90%？B站新一代告警平台的设计与实践

从流量打标到机器打标 – 达达全链路压测探索与实战

去哪儿是如何做到大规模故障演练的？

发表评论

评论列表（2条）

B站S11破亿直播在线稳定性保障秘籍——直播Q&A