随着分布式系统架构的普及,系统越来越复杂,常常被切分为多个独立子系统并以集群方式部署在数十甚至成百上千的机器上。为掌握系统运行状态,确保系统健康,我们需要一些手段去监控系统,以了解系统行为,分析系统的性能,或在系统出现故障时,能发现问题、记录问题并发出告警,从而达到先于运营人员发现问题、定位问题。也可以根据监控数据发现系统瓶颈,提前感知故障,预判系统负载能力等,在众多开源的APM系统里面我们选择了自己研发,主要基于去哪儿网历史技术框架以及新型的基于JavaAgent技术的实现,在整个实施过程中面临很多问题,所以想把我们的经验拿出来和业界同仁一起分享。
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。