货拉拉是怎么做技术稳定性指标度量的?

如何获得讲师PPT:

扫码关注公众号,后台回复0607即可获得讲师PPT哟~

还能一键订阅后续精彩活动内容~

走出故障迷局的三重奏:逃生、复盘和推演

Q&A环节答疑:

1、老师好,请问如何量化稳定性的工作过程?在目前在降本增效的环境下,怎么平衡稳定性和成本?

这个问题非常好,也是我目前正在面临的问题。现在大家都在讲降本增效。其实稳定性这个事情,在一开始它一定是非常偏人肉的过程。比如说业务是10000,那稳定性是前面“1”,没有它,那后面的业务都是“0”。尤其是在当前环境下,要讲的是成本的效率。效率方面还比较好讲。比如说原来去做一个监控告警的覆盖,这样的一个工作,可能是依靠一些人肉去推,现在有了更强大的一些工具能力,可以把整个工作的速度加快、质量提高。这个地方(我理解的)核心的解法是,要在每一个过程中去度量,相应的人日投入。举个简单的例子。刚刚讲到复盘领域,现在复盘领域在做的一件事情是,每次复盘核心参加/深入参加的人有哪些人?这些人有多少个?然后整个复盘持续了多久?这些数字就可以帮助我们去度量,这次复盘它的人日投入是怎样的?以此类推,其他的工作也需要这样去做一个系统性的平台化的指标的沉淀。这样的话你才能,在目前降本增效大环境下去跟老板讲,我整体今年的效果。跟去年来比更好。而且我经过统计,我的人力投入还比原来更少了。大概是这样的。

2、货拉拉在集团层面是否有稳定性指标的运营者呢?比如谁当裁判员评判业务的稳定性指标是否达成?

这个问题也蛮有意思的!首先。这个指标的运营者,现在货拉拉的运营者其实就是稳定性建设者他自己。
首先作为裁判是我们作为中立的角色去做一个度量的。比如说把故障等级定义,制定、公示出来,大家都认了,如果发生了问题,再去做一个评判。对于一个稳定负责人来讲,这个故障可能它故障规则越松越好,因为不算故障,你的结果就越好。或者说,你在故障定级的时候,做了各种各样的手段,让它看起来的影响面没有那么大,当然都是可以做到的。但这里就讲到裁判员这个角色。这个裁判员首先要明确这个裁判员,他是业务老板。你稳定性做得好不好?业务那边自然有体感。你三天两头挂,哪怕全年没有故障,那人家也是不认同的。其次,裁判员还有谁?还有技术中心的每一位技术人员。你做的稳定性做得好不好?你的指标能不能跟大家的体感匹配得上?才是最关键的。并不是说我最后通过各种各样指标制定、指标运营、各种各样的规则,把这个数字变好,这样肯定是达不成效果的,因为你就算数字变好,最后一个题干跟大家是匹配不上的。目前对货拉拉来讲,稳定性团队是一个规则的制定者和运营者,但是他不是裁判。

3、请问稳定性建设要考虑的范围有多广,比如说有些问题可能是开发导致的,那么是否需要涉及开发规范的制定,测试工作流程的制定?

先从理论上来讲,稳定性建设要考虑的范围,是整个产品、交付、加技改,各种各样代码需求全部的生命周期,包含编码质量方面。甚至有些据我所知,阿里他在做资损治理的时候,他从需求阶段就开始介入了。你产品提的需求里面,是不是涉及资损?是不是有一些漏洞?从这个层面开始接入了。理论上来讲,就是设计考虑的范围非常广,你可以考虑的范围广。开发导致的也好,测试工作流程疏漏也好,都在这个范围内。
再讲实际的,你就会发现。首先是团队的配置问题。配置有两种,一个是数量,一个是职能。如果你所处的团队配置非常庞大。比如说像蚂蚁那样,我一个技术风险团队就有上百号人,那自然可以把这个范围都覆盖到。如果你公司稳定性团队没有多大,公司的规模和一些阶段的重要性不是那么重。那你更应该关注的,更多的是后置的工作。开发的代码质量可能你无法去管控起来,包括开发的规范。比如说货拉拉当前的开发规范是由架构团队、框架团队来制定的。稳定性的团队,他只参与这件事情的运营推广,他并不参与整个规则的制定。包括像测试工作流程,它的核心的一号位,还是在QA这个团队自身里面的。但如果因为测试流程的不完善,或者有漏洞出现的问题,那稳定性团队一定会介入。在很多前置、现在能力不达不到的领域内,我们更多的是作为一个监督者、反馈者的角色。我们现在的工作范围更多的涉及到一些,比如说前置的健壮性。包括一些大促保障,大事件的保障,包括事后的一些保障。包括前置的一些监控覆盖、预案覆盖这些事情。跟稳定性关系非常大的一些事情。包括事后的一些应急、复盘、改进这些内容。

4、稳定性体系建设落地的优先级一般怎么选定?如何根据业务的发展阶段,打造更适合自己的稳定性保障体系?

这是两个问题,第一个问题。是稳定性体系相关的问题,跟指标质量关系不大。落地的优先级,首先这个事情。你没法决定,因为有很多因素。比如说你要看当前稳定性在公司的认同度或者是紧急度是怎样的?一定要先从最上面出发。老板说,今年稳定性是我们的重中之重,我们历史上,稳定性问题太多了,我们今天要彻底治理。那对于优先级资源什么的都好说的,如果说这是一个正常的状态,没有被特殊关注。我觉得稳定性建设优先级就是我们讲整个体系,它里面分为各个领域,它的优先级第一步一定是——应急响应。在整个稳定体系没有搭建起来之前,你会发现,整个系统有特别多的漏洞,一定会经常性的发现问题,这个时候最关键的往往是——怎么样快速发现问题?快速解决问题?收益是最大的。
回答第二个问题,就是在这个业务发展阶段,怎么样达到更适合自己的?就像我刚刚讲的,如果你只是起步阶段,那我建议就是把应急响应这个领域给它打牢了。一定要确保问题出现之后,要有人能够发现、响应、处理、组织,这个是非常重要的。下一阶段就是如何去让自己公司的业务系统的健壮性提升?一般来讲,现在互联网发展的非常迅速,一般来讲,一家公司的系统非常复杂庞大。这个时候建议大家先锚定那些最核心、最关键的。跟你公司的业务目标直接挂钩了。比如说货拉拉今年它最关键的业务是同城货运,那我们一定是优先保障同城货运这条系统。在这个系统链路上再做文章,怎么样去提升它的健康性,比如说监控告警覆盖、整体超时治理、依赖治理等各种各样的预案准备演练。Ok,大概就是这样的一个思路。

5、老师好,怎么确保指标体系设置的是合理的?举个例子:公司内部设置了质量指标体系,并且各项指标都在稳中向好,但是依然还是会接到一些反馈和投诉,老师您觉得这是什么原因呢?或是您有什么改进建议嘛?

首先,先从事实出发,因为你是收到了一些反馈和投诉,我不知道在你自己眼里整个结果如何?或者在你的老板眼里结果如何?如果说你的指标在稳中向好,你的老板、你自己觉得确实是这样,那我觉得就不是什么问题。那对于这些反馈投诉来讲,他可能就是一些比较小的个例、case去单独解决就可以了。就像我刚刚讲裁判的概念一样,就大家的感受是不是类似的感觉?如果大家感觉好像整个质量并没有再变好,那为什么你的数据在变好?这时候一定是数据指标体系出了问题。这个时候怎么办?那肯定是需要对整个指标体系做一个优化。这个优化的出发点就在反馈和投诉上。反馈投诉它是一个共性的问题,那么它一定不是某个人去反馈一个个问题。那这时候,我是建议你可以去多做一些调研跟收集。比如说以部门为单位。然后对某个领域里的核心人员,你对他做一次访谈。或者是做一些问卷调查也好,你一定要保证样本是比较多的。然后你看到其中哪些是共性问题?在你当前的指标体系里是被忽略了的,一定是被忽略了,不然的话,这些反馈是不会发生的。这个时候再反馈到你的指标体系建设上去看一看怎么样把它立起来?然后看一看这个数据指标,跟大家体感相符的,但你不能只是把这个原因搞清楚了,最关键的就是你要想办法,怎么样去让它变好?最直接的就是让研发,这些反馈投诉减少,让大家觉得好了。所以说行动是非常重要的。总结一下,如果它是真实的,那么你要选取一些优质的样本给到你一些反馈。分析反馈到你的指标度量体系中来,最后给到一些行动方案,然后让时间来检验。

6、除了成功率和统计周期,在稳定性度量标准时还有哪些需要考虑的维度?

这个的话,你去网上搜有很多的。比如SRE的什么度量体系建设。比如宏观一些来讲,服务的可用性什么?包括延迟、容量水位、包括cpu利用率等等,相对来说,比较成熟的关于应用系统,某个服务的指标体系。在业内来讲,已经非常成熟了,你可以直接去网上搜,然后看一看就可以了。
回过头来,这个问题本身,这个东西它的价值或者说它的优先级没有那么高,因为我们假设你对每个应用都建设起了一套的度量体系。但你会发现每个应用它自身的特性是不同的。你要给运营画像,这个过程是非常复杂的,像我刚刚讲的,你要紧绑公司的业务kpi,就是最关键的业务是什么?你一定要花最大的精力在那上面。而不是我花很多精力在很多的应用去怎么样确保大家的一个通用性,或者是整体的度量效果,这样的事情上。

7、稳定性是一个全局工作 ,怎么驱动前中后台的共建呢?

这个事情是稳定性非常关键的一个点,这个问题提的非常好。
首先,稳定性毫无疑问是全局性的工作。然后你会发现,你作为并不是某一个核心系统的,你在整个过程中的角色给人的感觉好像是可以不存在的。你的参与度没有那么高,这个地方最有效的一定就是老板、CTO。大家说要全力支持稳定性。那我相信没人会跟老板叫板。当然也是货拉拉的稳定性发展起来的原因就是,CTO认同你的价值,稳定性是当前公司的方向。这是从上的角度。
从跟整个公司前中后台的沟通合作上来讲,你一定要有一个共赢的视角。你要让前中后台所有的业务部门,能够从你这获得东西,它是一个共赢的过程。你拿到了全局稳定的指标,那么对于对应的部门来讲,他也可以有结果,他也可以有成就。所以这里面最关键的我认为,老板背板是必不可少的,其次,在工作过程中,大家是在朝着共同解决问题的方向去走。在结果上大家都是有所收获的。这样自然是越来越配合,越来越共赢。
但很多时候大家不要陷入误区,就是不要拿指标、拿kpi去压他们。这个是非常忌讳的,一定要是大家站在同一边,我们一起面对同一个问题,而不是说,我要用指标压你帮我打工,不要给人家这种感觉,这是非常忌讳的!

8、每个稳定性指标都需要制定一套对应的评估标准吗?

这还真不一定。指标的一个重要程度,一开始第一层肯定是跟kpi相关的。第二层肯定是跟某个领域kpi相关的,其他的看阶段可能一开始不需要,但是后面你如果想做更细致的,更精细的工作,那一定都需要的。

本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。

(0)
上一篇 2023年5月19日 下午4:25
下一篇 2023年7月17日 下午3:41

相关推荐

发表评论

登录后才能评论