【活动回顾】直面风险、主动防御 SRE MEETUP_TakinTalks稳定性技术交流平台

关于活动

活动时间：2024年11月24日，12:30-17:30

活动地点：杭州 · 蚂蚁A空间

参会人员：来自B站、阿里、滴滴出行、连连支付、中国移动、海康威视、SHEIN、哈啰、丁香园、大搜车、广发银行、恒生电子、曹操出行等知名企业的众多稳定性专家亲临现场，参与了本次会议。

活动简介：

业务的每一次中断都可能造成巨大损失，确保IT系统的稳定性和可靠性至关重要。11月24日，蚂蚁技术风险联合TakinTalks稳定性社区，携手5位行业资深专家，在线下跟大家分享：大促活动保障、业务资金安全保障、监控告警主动治理、自愈平台架构、SRE-Agent 五大稳定性热点话题，展现前沿稳定性保障方案，提供多场景稳定性保障思路。为稳定性从业者带来一场全方位的技术风险防控实战分享！嘉宾PPT可在「TakinTalks稳定性社区」公众号，回复关键词「蚂蚁」获取完整版。

【活动回顾】直面风险、主动防御 SRE MEETUP — 合影留念，期待下次相见～

精彩回顾：

在活动伊始，本次SRE MEET UP的出品人立谦老师首先登台开场。他首先介绍了本次活动的初衷：通过分享稳定性实践的宝贵经验，为在座的SRE同行、负责业务稳定性的同学、平台工程架构师等提供行业实践和参考。立谦老师希望这些分享能够帮助大家在他人的经验中寻找到解决自己问题的方法。在交流和碰撞中，提升对于稳定性的思考和认知。

亮点一：从指标到量级到保障，蚂蚁大促保障落地实践

分享嘉宾：尚玉飞(玉尧)- 蚂蚁大促保障核心架构师、支付宝容量保障SRE专家

首位分享嘉宾是玉尧老师，玉尧老师曾多次参与大型促销活动，包括双十一、新春红包五福、杭州亚运会等项目，积累了丰富的大促保障经验。

在现场跟大家分享了：大促是个复杂超级工程，蚂蚁集团因其独特的行业属性面临资金安全风险、海量数据处理、高时效性防控等挑战。尤其在资金安全方面，需要预防资金故障或控制资金故障的影响范围，减少整体影响面。

蚂蚁集团采取了多种策略保障大促的稳定性和资金安全。包括：

大促分级与保障策略：蚂蚁集团根据大促的不同类别，制定相应的保障策略和SOP模板，实现不同级别的保障动作和角色参与。
全链路压测：在大促上线前完成全链路压测，确保大促的可控性，遵循“没有经过全链路压测，不要上线”的原则。
资源评估与预案限流：进行资源评估，确保资源的合理分配，同时制定预案限流措施，以应对可能的流量高峰。
资金安全保障：对于涉及资金的大促，实施资金安全保障措施，确保资金的正确发放。
客户端与第三方保障：对于涉及客户端和第三方的大促，制定相应的保障措施。

蚂蚁集团通过通过精细化的分级保障和核心技术应用，蚂蚁集团成功保障了大促的稳定性，实现了业务的高效运作。

玉尧老师将自己从业7年对大促保障的深刻理解凝练为“致广大而尽精微，极高明而道中庸”。在现场，他不仅分享了自己多年担任大促队长的宝贵经验，还提出了一些关于大促队长成长的建议。他期望大家在面对大促这一复杂而庞大的工程时，能够更有效地发挥自己的体力、脑力和心力。

亮点二：如何做好业务拆解，深入保障业务稳定性？

分享嘉宾：罗钊(釒戈)- 蚂蚁营销领域资金安全专家、支付宝垂类业务风险架构师

第二位分享嘉宾是釒戈老师，釒戈老师一直从事营销业务/活动的技术风险工作。所以本次分享也重点从业务视角出发，围绕蚂蚁集团的业务分解和营销资金安全两大主题展开，详细讨论了业务风险识别、技术风险防控以及营销领域的资金安全问题。

蚂蚁集团业务广泛，包括支付、互联网、出行、医疗等，面临活动保障、体验治理、成本管控和故障应急等多种风险。

在业务分解方面，需要识别和防控业务风险，包括商业转化、经营效率和用户体验等问题。在营销资金安全方面，需要识别和防控资损风险，包括产品设计漏洞、系统故障、人为操作错误等。这些挑战涉及到业务流程、数据流和核对流的复杂管理。

并结合「AARRR海盗模型」举例说明如何结合用户生命周期，梳理业务核心链路流程，确定对应的用户转化节点，做好流失分析和阻塞分析等方法，提炼问题并产出解决方案。在营销资金防控方面，结合营销活动实例case，跟大家分享如何通过活动配置、用户参与、积分兑换等环节进行风险控制，确保资金安全。

通过这些有效措施，蚂蚁集团能够提升业务成功率，优化用户体验，并有效控制营销资金风险，减少资损。实现了业务增长和风险控制的双重目标。

亮点三：从“救火式”走向“预防式”:根治Reopen,让稳定性治理化被动为主动

分享嘉宾：陆学慧(平威)- TakinTalks稳定性社区发起人、数列科技联合创始人&CTO

第三位分享嘉宾是平威老师，平威老师一直专注于推动行业的系统稳定性和业务连续性技术发展。在和多家企业交流稳定性建设的过程中，发现许多公司在SRE工作实践中往往是从过往故障案例中汲取经验，但公司系统故障复盘多关注解决单次故障，缺乏对系统成功运行的思考，导致类似问题不断发生，这种救火思维存在局限。

平威老师分享了自己的经验，救火思维关注防止故障发生，建设思维关注系统成功运行的经验。应跳出救火思维的框架，从“救火”走向“建设”，通过系统分析、优化来建设系统，提升系统韧性。

并结合具体的实践案例—微服务架构中的告警观测优化与处理。提出通过系统优化流程和错误预算，确定告警优先级，实现告警优化和处理。这种方法有助于从整体上提升系统的稳定性，而不仅仅是应对个别故障。并且关注关键指标MTTK的运用，来通过历史数据自动优化告警阈值，减少人为配置的依赖。

亮点四：蚂蚁自愈平台架构演进实践

分享嘉宾：计绪佳(慕凛)- 蚂蚁全局稳定性架构组自愈平台负责人、全蚂蚁最懂自愈的男人

第四位分享嘉宾是慕凛老师，慕凛老师目前是蚂蚁技术风险的一名SRE，目前负责蚂蚁自愈平台的owner。自愈平台是一个自动化系统，能够在故障或风险发生时自动恢复故障，并沉淀专家经验。

面对故障，SRE团队需从告警中提取信息，判断故障类型，并决策应急操作，这些操作需考虑潜在风险。自愈平台需整合多个团队的告警信息，进行决策和风险评估。

自愈平台实践包括四个流程：发现能力、决策步骤、执行模块和通知机制。平台对接监控平台接收告警，整合定位团队、容量团队和基础设施团队的信息，分类故障并生成预案。执行模块涵盖原子执行动作如重启和替换，以及人工确认和自动执行。平台还提供外呼电话功能，确保关键操作通知。

自愈平台从工具发展到平台化，再到业务托管化，目标是成为基础设施化的一部分。平台处理单机自愈、物理机故障和中间件问题，实现秒级恢复，覆盖全量蚂蚁系统。保护规则和专家经验沉淀减少了业务方的故障处理担忧，提高自动化效率。平台与多个团队合作共建，提供风险发现能力，并支持自定义规则和周期管理，持续优化自愈能力。关键数据包括日均万次级别的自律操作，覆盖全量蚂蚁系统，实现秒级恢复，减少业务方对故障处理的担忧。实战经验包括保护规则避免额外风险，以及与不同团队合作共建，提升自愈平台的能力和效率。

亮点五：基于LLM的蚂蚁SRE智能体落地初探

分享嘉宾：张玉(恒瑞)- 蚂蚁财保业务风险保障技术专家、蚂蚁SREAgent业务落地一号位

最后一位分享嘉宾是恒瑞老师，恒瑞老师是蚂蚁财保业务风险保障技术专家，目前负责蚂蚁SRE Agent 业务落地。蚂蚁SRE Agent项目经历了从纯命令行操作到平台化、可视化、标准化和部分自动化的演变。随着技术积累，形成了庞大的平台和经验库，但也带来了知识检索和新成员学习成本增加的问题。

面对庞大的知识库和多样化的用户需求，如何快速定位所需知识和平台，以及如何满足不同用户群体的个性化需求，成为主要挑战。

蚂蚁SRE Agent 通过开发SRE助手1.0，利用大模型对话方式沉淀工具，实现自然语言风险布防和监控生成。进一步探索中，引入EKG（经验知识图谱），从多元数据中提取复杂问题，结构化定义经验，使其可推理、可执行。通过设计图谱，将非结构化文档转化为结构化、可推理的知识，实现复杂推理和严谨推理。

EKG图谱能够从文档中自动提取经验，生成SOP，并允许人工校验和微调，提升了知识的准确性和可用性。通过智能发布概念，包括设立图谱能力、多智能体交互和可信代码，SRE智能体能够学习、推理并执行任务。实战中，SRE智能体能够从大量文档中抽取经验，生成结构化知识图谱，并通过调试和执行，提高了应急响应的效率和准确性。此外，通过API接入规范，实现了工具的快速接入和执行，优化了大模型的交互能力，使其能够自动选择并执行合适的工具，提升了问题解决的效率。