最新活动
-
可观测实践系列 「十」 —适配多云环境,货拉拉智能监控平台的设计与实践
货拉拉业务覆盖全球,使用的云厂商有五家。如何在多云环境下,实现“多可用区”的可观测性? 1、如何利用Prometheus生态,构建适配多云环境的一站式监控平台?2、如何通过智能告警…
-
可观测实践系列「九」— 转转一体化监控系统落地实践
监控系统俗称“第三只眼”,通常在企业内承担着重要的角色,正所谓“无监控不运维”。虽然开源社区存在众多的监控系统,但落地一套为不同角色提供不同监控视角的一体化监控系统并非是一件容易的…
-
可观测实践系列「八」— 人均告警减少90%, B站告警治理与根因分析实战
告警是稳定性问题发现的主要来源,告警的召回与准确性对于业务稳定性非常重要。 1、如何设计贴近业务需求的告警系统?2、从人均1000+到100-,bilibili如何有效提升告警治理…
-
可观测实践系列「七」—数字化赋能,构建稳定性之基:去哪儿网提升系统稳定性的数字化洞察实践
在数字化时代,通过数字化手段提升系统稳定性,是企业亟待解决的问题。质量数字化度量,赋能研发管理可观测性,是持续提升系统稳定性的关键和保障。 如何通过质量数字化度量赋能研发管理观测性…
-
可观测实践系列「六」—如何高效、低风险精简线上无用代码? 基于SA技术的系统精简实践
去哪儿早在 05 年就开始做机票相关业务,在这十几年间业务快速发展,后端系统也在不断迭代,目前公司内拥有大量五年以上的系统。随着时间的推移,维护和优化现有代码的耗时会越来越多,导致…
-
可观测实践系列「五」—故障洞察如何提效50%? 去哪儿网可观测实践分享
随着业务的发展和微服务架构的普及,比如涉及到成百上千个应用的调用,而当此类场景出现异常产生报警甚至产生故障时,差找和定位也将会是很大的难题。 如何以终为始,构建面向故障恢复的监控体…
-
可观测实践系列「四」—滴滴可观测架构演进与可观测性实践
可观测性(Observability)是近年来备受关注的话题。滴滴可观测架构的发展历程,如何适应不同时期规模的增长?作为业务稳定性保障最重要的平台,如何建设和保障可观测自身的稳定性…
-
可观测实践专题「三」—数字化监控可观测性稳定保障实践
在云原生时代下,系统稳定性必须将安全生产保障左移,在入入网控制之前介入,对入网控制、发布上线、故障预防、故障发现、故障定位,故障恢复、故障改进提供端到端工具支撑。本次分享将围绕安全…
-
可观测实践专题「二」—去哪儿旅行分布式链路追踪系统实践
随着分布式系统架构的普及,系统越来越复杂,常常被切分为多个独立子系统并以集群方式部署在数十甚至成百上千的机器上。为掌握系统运行状态,确保系统健康,我们需要一些手段去监控系统,以了解…
-
10+场系列分享,「监控可观测」的硬核避坑指南!
滴滴出行、去哪儿、B站……等行业头部企业,最新的硬核实战经验。 可借鉴、可落地、有过程、有经验、有结果; 如果你正在探索可观测体系建设,希望这些内部实践, 能变成帮助你进步的教材,…