B站容量管理之运营与可视化_TakinTalks稳定性技术交流平台

如何获得讲师PPT：

扫码关注公众号，后台回复「2252」即可获得讲师PPT哟～

还能一键订阅后续精彩活动内容～

Q&A环节：

1、针对系统，一个系统会有多个进程，当内存超限，cpu超限，怎么回放故障发生时的进程资源占用。连接数不够怎么监测呢？如何回放呢？

对于B站来讲，我们的服务都是在K8s容器里边的。而且一个容器里边本身都是单进程，所以容器的监控其实能看到，到底每一个容器它的资源占用情况是什么样子的？这样就能清楚的看出：到底是哪个服务占的资源比较多？或是说占用的内存比较多？或占的cpu比较多。

另外，如果说本身服务是运行在物理机的。其实有一个叫Atop的一个命令，它其实可以实时去抓起某个进程，在某一个时间段的资源的占用情况，它可以通过一些定时任务的方式去采集，然后通过采集日质，其实也可以回放一些监控指标，帮助快速去追溯某个点出现问题，到底是哪个进程去占用的？

2、上层服务超时下层服务无法创建连接怎么判断：是否连接数已经被占满了，怎么做回放呢？

本身连接池这块也属于业务比较核心的关注，所以首先一定要有个连接池相关，经过监控可观测的系统或者平台，同时也要有一些连接数相关的告警。连接数使用率理论上，例如说到了80%以后，其实就应该有相关的一些告警了。当我们连接数占满了的时候，其实通过可观测应该能够快速的去发现。

3、限流是单机限流还是集群限流？弹性伸缩时怎么处理这两种限流？

限流本身，有单机限流也有全局限流。集群限流，一般是配置在入口侧，会做一些集群限流的事情，例如说，核心的一些接口，例如说发弹幕，或者发评论之类的。会有一些比较大的集群限流，当你超过集群限流以后呢，相当于直接被限流掉了，但是，这个限流，当你的HPI要做一些扩容的时候，确实会导致，你的服务其实能够承载更多的量会不会被你前面的限流影响到，其实你后端还能扛更多量，但是被限流掉了呢？所以往往是说，限流最好是一个相对来讲，稍微大一点，另外，是说最好是能跟后端联动的一个现状，这是最好的一个情况。

单机限流这块，刚才也有讲过，有自适应限流。就是说可以针对本身某个实例，它的一个CPU资源使用率的压力。实现一些自适应的这种限流呢，我们是基于单实例的。

4、容量管理，如何避免梳理遗漏？

对于容量管理来讲，其实有很多块，怎么避免梳理遗漏，比如说哪块有风险，其实做了容量巡检，那容量巡检其实就保证说整个的容量巡检，一定不是基于某一个服务去巡检的，肯定是基于某一类的，例如说基于资源池或者基于一些核心业务或者核心应用去做巡检。这样其实就可以说，只要你的原数据治理的比较好，那其实就不会有太多遗漏的情况发生。其实这个东西依赖于一些原数据的治理。

本文来自投稿，不代表TakinTalks稳定性技术交流平台立场，如若转载，请联系原作者。

B站容量管理之运营与可视化

如何获得讲师PPT：

Q&A环节：

1、针对系统，一个系统会有多个进程，当内存超限，cpu超限，怎么回放故障发生时的进程资源占用。连接数不够怎么监测呢？如何回放呢？

2、上层服务超时下层服务无法创建连接怎么判断：是否连接数已经被占满了，怎么做回放呢？

3、限流是单机限流还是集群限流？弹性伸缩时怎么处理这两种限流？

4、容量管理，如何避免梳理遗漏？

相关推荐

京东商城安全生产体系实践

转转《转转高效改表平台的演进之路》

去哪儿网流量录制回放技术的应用与实践

发表评论