-
“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践
# 一分钟精华速览 # “只知道系统有问题,但是找不到问题到底出在哪里”,这几乎是大家都面临过、或正在面临的问题。用户在投诉,但是我的指标都是正常的,到底是哪一环出问题了? 本文详…
-
保险业务连续性保障:从测试到生产,混沌平台建设节奏如何把控?
一分钟精华速览 中国信通院最新的调查报告显示,越来越多企业正在尝试通过混沌工程来提高系统稳定性。实验的不同阶段,大家面临着不同的问题,我们尝试从混沌工程推进的不同角度,为大家提供一…
-
如何减少创建订单、支付等线上写场景漏测?去哪儿流量录制回放实践
本文以去哪儿网为例,介绍流量录制与回放实践,探讨其在接口自动化测试和全链路压测中的应用成效。
-
如何在金融企业推进故障演练?中国人寿分阶段实践总结
本文介绍了中国人寿故障演练的项目背景、目标思路、技术方案等,分享其在预知故障和降低不确定性风险方面的实践成效。
-
系统日志规范及最佳实践
这是2023年的第35篇文章 ( 本文阅读时间:10分钟 ) 打印日志是一门艺术,日志信息是开发人员排查线上问题最主要的手段之一,但规范打日志被开发同学经常所忽视。日志就像保险,平…
-
服务百万商家的系统,发布风险如何规避?微盟全链路灰度实践
一分钟精华速览 全链路灰度发布是指在微服务体系架构中,应用的新、旧版本间平滑过渡的一种发布方式。由于微服务之间依赖关系错综复杂,一次发布可能会涉及多个服务升级,所以在发布前进行小规…
-
支撑百万商户、千亿级调用:微盟如何通过链路设计降本 40%?
一分钟精华速览 在典型的分布式系统中,用户的一个请求到达组合的前端服务后,前端服务会分发请求到内部的各个服务,每次调用都涉及跨系统的一次请求和一次响应。在有大规模、高并发请求量的系…
-
“930 大促”日活增速超 40% ,哈啰如何用预案高效应急?
一分钟精华速览 应急预案,是指在系统出现故障时,为了保障核心业务能够持续可用,而提前准备的指导手册。这个手册可以用来告诉我们:在遇到什么样的问题后,做什么样的操作能最大化地降低对业…
-
B 站容量管理:游戏赛事等大型活动资源如何快速提升 10+ 倍?
一分钟精华速览 当成千上万的服务器都处于低利用率时,就意味着巨额的浪费,良好的容量管理可以帮助消除某些“最后时刻”的临时应急式的盲目或者超量采购。除了成本合理控制方面,容量管理还要…
-
业务系统故障率居高不下:有哪些非常有效的治理大招?
# 一分钟精华速览 # 聊稳定性治理的文章很多,但面对系统的“各类疾病”,到底该从哪里着手才能立竿见影,怎么才能“药到病除”?相信在看这个问题时,大家会抱着“能不能学两招回去用”的…