构建稳定性之基:去哪儿网提升系统稳定性的质量指标度量实践

如何获得讲师PPT:

扫码关注公众号,后台回复1123即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

Q&A答疑:

如何处理和避免度量过程中的一些技术难题,例如数据倾斜、数据缺失等问题?

在度量过程中,我们无法完全预知和识别所有问题。度量的指标和一些方案会不断迭代和改善。如果数据出现倾斜或缺失,我们会根据业务反馈进行完善。以前在质量门禁指标的制定中,我们有两个指标:拦截率和跳过率。拦截率的问题是有些项目未提前识别并解决拦截情况,导致分数无法提高。经过讨论,我们决定只关注跳过率,保证质量门禁的度量。类似地,如果我们在运营过程中收到反馈,我们会讨论并达到更好的效果。

能讲一下为什么考虑做这个系统的?前期做了什么评估? 前面没听到,不好意思。

以前的数字化是针对单点的,比如质量门禁、故障情况等,虽然做了数字化度量,但无法展示公司全貌。虽然技术手段可以帮助保证系统稳定性,但实施后故障数量仍然不少,管理者关心如何持续减少故障。老板希望更好地管理技术团队,提高质量、效率等方面。去年,高层领导定下了研发技术五要素的数字化方向,包括质量、效率、用户体验、技术先进性和成本。这个项目是为了老板想看到公司整体情况,提供管理和决策依据,增加管理的可观测性。

研发效能和质量这块在运营上如何平衡?这两块应该都有数字化度量 实际运行中是否有两边指标的对比

平衡质量与效率确实是一个问题。以公司之前的例子来说,自测自发的项目由于缺少QA保障,质量可能不高。加入各种质量门禁和控制手段后,虽然会对开发效率产生一定影响,但适当控制是必要的。不能为了追求速度而忽视质量。考虑平衡,在质量门禁中添加指标并减少开发时间浪费,自动化手段可更快捷。工具层面提供支撑并尽量不增加额外成本。总体来看,对质量添加对整体效能影响不大,已考虑平衡问题。

对于一些难以直接度量的指标,我们如何通过其他指标进行间接度量?

参考一个案例,评估团队故障处理能力时,仅通过处理时长一个指标可能无法客观反映团队情况。例如,某个异常情况可能导致处理时间特别长,从而拉低平均值。对于业务线来说,这种情况可能不能接受。因此,需要联合其他指标,如超时率等,综合考虑。在度量中,除了绝对数量外,还要考虑经营层面的指标。这是其中一个案例。

补充提问:业务看到度量指标变差后的改造实践,具体怎么修复的?也很有意义

修复方法因指标不同而异。以圈复杂度为例,若识别到圈复杂度上升,可通过查看报告识别到问题文件,进行代码优化。针对故障的发现时长长或主动发现率低的问题,需要分析原因,可能是责任心不足或监控指标不够灵敏等,需要针对具体原因进行修复。

如何调整和优化指标模型,然后来适应业务的变化和团队的一些发展?

目前我们的产品质量指标处于一个较高的稳定状态,为了更好地发现问题并帮助业务和团队,我们会调整指标。我们之前举例提到的故障指标是为了更好地衡量业务,从用户和产品维度出发。我们区分了产品线和团队来更好地帮助业务。从产品的维度来看,有些差异存在于团队的认知和产品的感知或技术的感知之间。比如,虽然机票部门没有故障,但机票产品线的情况并不容乐观。因为机票的故障可能是由其他基础部门或业务域导致的。我们会考虑业务和开发团队的诉求,对度量进行调整,消除认知差异。故障指标的维度拆分也是为了消除这些差异。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
上一篇 2023年11月20日 下午6:06
下一篇 2023年12月4日 下午3:00

相关推荐

发表评论

登录后才能评论