如何获得讲师PPT:
扫码关注公众号,后台回复「2252」即可获得讲师PPT哟~
还能一键订阅后续精彩活动内容~

Q&A环节:
1、针对系统,一个系统会有多个进程,当内存超限,cpu超限,怎么回放故障发生时的进程资源占用。连接数不够怎么监测呢?如何回放呢?
对于B站来讲,我们的服务都是在K8s容器里边的。而且一个容器里边本身都是单进程,所以容器的监控其实能看到,到底每一个容器它的资源占用情况是什么样子的?这样就能清楚的看出:到底是哪个服务占的资源比较多?或是说占用的内存比较多?或占的cpu比较多。
另外,如果说本身服务是运行在物理机的。其实有一个叫Atop的一个命令,它其实可以实时去抓起某个进程,在某一个时间段的资源的占用情况,它可以通过一些定时任务的方式去采集,然后通过采集日质,其实也可以回放一些监控指标,帮助快速去追溯某个点出现问题,到底是哪个进程去占用的?
2、上层服务超时下层服务无法创建连接怎么判断:是否连接数已经被占满了,怎么做回放呢?
本身连接池这块也属于业务比较核心的关注,所以首先一定要有个连接池相关,经过监控可观测的系统或者平台,同时也要有一些连接数相关的告警。连接数使用率理论上,例如说到了80%以后,其实就应该有相关的一些告警了。当我们连接数占满了的时候,其实通过可观测应该能够快速的去发现。
3、限流是单机限流还是集群限流?弹性伸缩时怎么处理这两种限流?
限流本身,有单机限流也有全局限流。集群限流,一般是配置在入口侧,会做一些集群限流的事情,例如说,核心的一些接口,例如说发弹幕,或者发评论之类的。会有一些比较大的集群限流,当你超过集群限流以后呢,相当于直接被限流掉了,但是,这个限流,当你的HPI要做一些扩容的时候,确实会导致,你的服务其实能够承载更多的量会不会被你前面的限流影响到,其实你后端还能扛更多量,但是被限流掉了呢?所以往往是说,限流最好是一个相对来讲,稍微大一点,另外,是说最好是能跟后端联动的一个现状,这是最好的一个情况。
单机限流这块,刚才也有讲过,有自适应限流。就是说可以针对本身某个实例,它的一个CPU资源使用率的压力。实现一些自适应的这种限流呢,我们是基于单实例的。
4、容量管理,如何避免梳理遗漏?
对于容量管理来讲,其实有很多块,怎么避免梳理遗漏,比如说哪块有风险,其实做了容量巡检,那容量巡检其实就保证说整个的容量巡检,一定不是基于某一个服务去巡检的,肯定是基于某一类的,例如说基于资源池或者基于一些核心业务或者核心应用去做巡检。这样其实就可以说,只要你的原数据治理的比较好,那其实就不会有太多遗漏的情况发生。其实这个东西依赖于一些原数据的治理。
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。