Q:针对系统,一个系统会有多个进程,当内存超限,cpu超限,怎么回放故障发生时的进程资源占用。连接数不够怎么监测呢?如何回放呢?

B站-某业务SRE负责人:

关于这个问题。对于 B 站而言,我们的服务均置于 K8s 容器之中。由于一个容器内部通常为单进程,所以通过容器的监控,能够明晰每一个容器的资源占用状况究竟如何。从而清晰地了解到:究竟是哪个服务占用的资源较多?是占用的内存多?还是占用的 CPU 多?

此外,如果服务是在物理机上运行。存在一个名为 Atop 的命令,它能够实时抓取某个进程在某一时间段的资源占用情况。可以通过定时任务的形式进行采集,而后借助采集日志,同样能够回放部分监控指标,有助于迅速追溯在某个节点出现问题时,到底是哪个进程在占用资源。

 

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
下一篇 2024年7月12日 下午2:28

发表评论

邮箱地址不会被公开。