# 一分钟精华速览 #

聊稳定性治理的文章很多，但面对系统的“各类疾病”，到底该从哪里着手才能立竿见影，怎么才能“药到病除”？相信在看这个问题时，大家会抱着“能不能学两招回去用”的心态阅读。

「TakinTalks 论道系列」第 3 期，我们采访了 4 位资深从业人员，分别从 CTO、稳定性负责人、SRE 架构师、研发工程师等不同视角，去了解大家经验里比较好用、能够落实的“独门秘籍”。

温馨提醒：本文约 4000 字，预计花费 7 分钟阅读；

后台回复 “交流” 进入读者交流群。

去哪儿网 – 朱仕智

高级技术总监

# 稳定性治理，有哪些非常有效的大招？

全链路压测、混沌工程、质量左移是主动预防风险最有效的三个手段

去哪儿网整个稳定性相关的工作都由我的团队负责落地实践，从个人角度来讲，我认为去哪儿历年来在质量保障上，尤其是大规模重大活动保障上，实践出来最有效的手段主要有以下三个。

第一个是全链路压测，它对电商型的系统来说是一个绕不开的话题，只要系统存在大规模的流量波动，我认为全链路压测是必须要做的工作。

第二个是混沌工程，在抵御失控、避免不确定上，它是非常不错的技术手段。经过混沌工程一系列的保障措施之后，在过去的近三年里，我们再没有产生过任何由于中间件可靠性导致的故障了，这对我们来说是非常大的进步。另外，现阶段很多问题的排查定位速度也有了质的飞跃，已经从几十分钟降为 3-5 分钟的水平。

第三个是质量左移，质量左移让去哪儿的重大故障减少了很多。前段时间我看了一组数据，质量左移（包括一些质量稳定性保障）做完后，故障数同比已经减少了三分之二，即已降到了去年同期约 33%的水准。

当然，稳定性治理的动作和产出之间，最终并不一定有直接的因果性，只能说具有很强的相关性。所以，想要取得什么样的成果、计划做哪方面的投入，是需要根据企业的实际情况来评估的。

无法完全预防的故障，用 AIOps 来自动化分析，提高解决速度

在去哪儿的故障已经大幅减少后，我们目前正在着手提高故障处理的速度，AIOps 的主动发现和智能归因我认为是性价比最高的。通过上述的三种“主动避免”形式，我们预防了大部分的故障，剩下 1/3 大多是变更型的问题，而这种变更型的问题较难预防，只能尽可能提高发现和解决速度。自动化智能分析是我们目前正在做的事。

从过去一个季度的落地效果看，利用智能分析提高主动发现率比较困难，对于没有人工设置告警的场景，只有 30%左右可以通过自动分析的方式主动发现，当然这也说明了我们的分析策略还需要持续优化。但是对于已经发现问题，进行排障归因的阶段，有 78%的问题是可以通过智能分析正确归因的，这主要得益于我们对大量关联数据的自动分析，涵盖了宿主机、容器、应用、中间件、事件、链路等维度。

数列科技 – 陆学慧

联合创始人兼 CTO

# 稳定性治理，有哪些非常有效的大招？

十大业务流程梳理，把有限的精力投入到最核心的“20 条链路”上去

在稳定性治理里，我觉得应该做的第一件事情就是梳理十大业务流程，其最主要的作用，就是把公司能够投出来的最核心的资源投到最核心的业务上去。大多数企业在稳定性上都不会投入太多的人力，那么有限的精力到底该投到哪里去？假设有 5000 个接口，难道都要搞吗？不可能的，只要保障核心的那 20 个接口不出问题即可。

当然，在一开始没有工具的情况下确实会耗点时间，但它仍然是投入产出比最高的办法。十年前阿里内部提出了几个大的技术战略，可用性是其中之一，在没有工具支撑的情况下，我们当时的做法就是大家都去梳理十大业务流程，把十大业务流程保住，剩下的链路不去投入太多精力，年底整体的可用性确实提升了很多。所以我觉得梳理十大业务流程应该是最有效的办法。

核心业务流程做全链路压测，是活动必备的大招，确保在老板关注的大节点上不出大问题

把十大业务流程梳理出来后，就可以去做全链路压测了。在具体做法和工具上，有很多成熟的经验可供参考，也有很多办法去落地。我认为把这两招做完后，再搞大型活动就基本不会有什么问题了，即老板关注的大节点上，有办法能够把控，做到心中有数，所以这一招我认为也是比较成熟的可以去落地的“大招”。

发布之前提交变更登记，抓好变更是落实稳定性规范的核心

我记得《Google SRE》那本书里面也提到过，60%的故障都是变更引起的。理论上说，变更这件事情抓得越细致，出问题的风险就越小，但考虑到投入的人力、精力和落地可行性，我认为抓好一点就够了，即做好线上变更登记（可参考阿里变更管控平台 ChangeFree ）。

“不登记，负全责”，简单讲，就是规定做线上变更前，必须在系统平台中登记，并写下操作步骤以及如何验证。从技术上讲，它就是一个表单，实现起来并不复杂。对于提交变更，还可以对定责做约定，即如果没有提交变更单就发布变更，出了问题就由发布人担责；如果变更前提交了登记则无需担责。我们经常在讨论稳定性规范要如何落地，其实规则不能定太多，规则太多大概率会无法落地，我认为变更登记是落实稳定性规范非常核心的一点。

核心业务流程不依赖非核心节点，分开部署，保证十大业务流程的机器和数据独立

如果以上 3 点落实后还有余力，我认为在架构上还有一点值得投入——核心业务流程上不能依赖非核心的节点。梳理完十大业务流程后，一定要判断链路上是否有我们认为的非核心节点，如果有，那么应该把那些节点踢出去，或者把他们剥离出来，哪怕单独部署一套机器，也就是分组，其实提供的服务都一样，但是某一组机器就只给核心业务，其他机器可以由非核心业务混用，这样就能做好隔离。

以上四个办法我认为是在稳定性治理中性价比非常高的几点，如果能真正落实，我认为系统稳定性基本会有 40%的提升，至少系统不会出现的大问题，也能有精力去持续优化小问题。

飞书 – 张相龙

资深研发工程师

# 稳定性治理，有哪些非常有效的大招？

新的架构和业务增加后，从技术上看，无非是前端到服务端，再到存储的调用过程，在这个过程中要做的就是如何去解决其中的稳定性问题，我认为有三点比较重要。

第一，做好监控。

第二，把所有的强弱依赖梳理出来。

第三，对所有的强弱依赖和接口，在平台上做好 trace 跟踪、链路管理、数据分析，以及每一个节点流转上的成功率、失败率、 SLA 、PCT99 等各方面的监控和预警。

你可能认为，这些动作看上去好像和业务没有关系？实际上，上线一个新的功能，它一定是接口维度的，这个接口在平台上做户口注册，接口的 QPS、SLA、PCT99 等数据都可以在框架层面自动上报做统计分析，同时也会随着接口调用绘制出 trace 路径，并跟进 trace 路径得到强弱依赖，这样就完成了对接口在技术层面的所有和质量 &性能相关指标的管理。

做好这些管理后，从问题发生，到快速发现问题并通知到相应的服务提供人，再到解决问题，就可以完美地闭环了，所以不管业务如何变化、变得多复杂，并没有太大的影响。这样稳定性的保障工作，就已经可以下沉到基建层面了。

浙江移动-蒋通通

SRE 架构师

# 稳定性治理，有哪些非常有效的大招？

浙江移动在近些年的架构演进中，一方面随着云原生行业的发展，逐步完成对核心业务系统的微服务化以及容器化改造；另一方面，面对国家对国有企业开展国产化自主可控先行先试的战略要求，也在持续进行各类国产化软硬件的替换试错，包括数据库、存储、服务器、操作系统等等。因此我们在长期的踩坑过程中也沉淀了一些稳定性保障经验。

SRE 参与到架构设计、入网控制、测试发布、应急抢修等各个环节，建立完整的“护航体系”

传统的研发运维边界往往处在上线交付的时间线上，而稳定性治理工作也都是作为事后的反向提升工作，需要付出大量的工程成本和重复人力投入。因此我们拓展了 SRE 的职责边界，将稳定性工作左移至软件生命周期的更前端，联合研发提前开展可观测性、稳定性等保障规划，建立起全局的安全生产“护航体系”。现在我们 SRE 团队除了常规的线上问题修复外，还会涉及上线之前的测试发布，甚至再往前涉及架构评审等的各个阶段 SRE 都会参加，如此可以全程参与故障的预防和控制。

在应用多活的基础上，建立覆盖业务、集群、网元的多层预案体系，提高应急团队抢修效率

架构团队现在做新的技术栈引入，或者新的架构变更等等，都有相应的架构评审或架构治理，在这种情况下，我们设了比较多规则，比如链路梳理、强弱依赖梳理、耦合点分析等等。还有更重要的是，会在多活分片的基础上看整个链路环节是否有相应的业务开关，并对每个节点做预案控制，在链路上预埋相应的预案开关，在交付到应急团队时就能根据相应的预案手段及时处理。

那么如何去评估最终的效果？核心系统架构治理后，理论上不允许再出现 G4 （浙江移动内部的故障风险等级）以上故障，即不应出现客户或者业务受审达到较强程度的故障。

构建独立的应急系统，做“多活”的备份，对核心业务做兜底保障

我们尝试构建了一个完全独立的应急系统，和所有生产平面进行解耦，不和现有生产平面处于同一个机房。比如，浙江移动的生产平面，目前是杭州+宁波两地多中心的架构，那么应急系统就在金华重新构建。同时，这个应急平面系统和生产平面系统是不一样的，在原有的多活架构中，比如杭州和宁波的机房中可能应用部署一模一样，但是在应急平面系统中，我们只保留了最低水平的服务状态。我们基于 BASE 理论对所有核心业务进行拆解，只把重点依赖的服务在应急系统中重新集成，并将前台受理流程极简化，而且这部分应急数据和生产的数据是不做实时同步要求的，允许有损。因为前台用户在业务受理的过程中，大多数只关心前台的业务动作是否正常。在真正面临所有生产平面不可用的极端情况下，应急系统会自动启用并引导用户进入该平面继续办理业务，而等到生产平面的能力恢复后，再自动将所有应急数据同步回生产系统保障业务数据最终一致性。

添加助理小姐姐，凭截图免费领取以上所有资料

并免费加入「TakinTalks 读者交流群」

声明：本文由公众号「TakinTalks 稳定性社区」联合社区专家共同原创撰写，如需转载，请后台回复“转载”获得授权。

本文来自投稿，不代表TakinTalks稳定性技术交流平台立场，如若转载，请联系原作者。

业务系统故障率居高不下：有哪些非常有效的治理大招？

# 一分钟精华速览 #

去哪儿网 – 朱仕智

高级技术总监