B站-某业务SRE负责人:
关于这个问题。对于 B 站而言,我们的服务均置于 K8s 容器之中。由于一个容器内部通常为单进程,所以通过容器的监控,能够明晰每一个容器的资源占用状况究竟如何。从而清晰地了解到:究竟是哪个服务占用的资源较多?是占用的内存多?还是占用的 CPU 多?
此外,如果服务是在物理机上运行。存在一个名为 Atop 的命令,它能够实时抓取某个进程在某一时间段的资源占用情况。可以通过定时任务的形式进行采集,而后借助采集日志,同样能够回放部分监控指标,有助于迅速追溯在某个节点出现问题时,到底是哪个进程在占用资源。
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。