关于活动
活动时间:2023年8月19日下午
活动地点:北京
参会人员:来自快手、美团、去哪儿网、稳定性保障实验室、中国联通软研院、中国人寿、美图、自如、转转、花房、Moka、畅捷通等等企业近20位技术负责人、SRE负责人、运维负责人、架构师等
活动目标:面向各企业的技术管理者,深入探讨如何让技术指标与业务指标对齐?建立稳定性的共识,持续提升业务连续性。
活动简介:
在近两个月的社区调研,跟行业和社区专家团老师不断的交流过程中,发现大家在建设系统稳定性的过程中,大家的重点都会放在产品能力的建设上,如监控、根因定位、混沌工程等等。默认会从故障出发,以“运动式”项目的方式落地,最终以故障发生的频次、问题发现的时间、恢复的时长等指标来衡量价值。
亮点一:业务连续性趋势分享
TakinTalks社区发起人杨德华先生首先对本次活动做了开场,他首先介绍了TakinTalks社区的由来和初衷,希望大家在不断交流和碰撞中,提升自己的认知,在他人的实践中,找到解决自身问题的办法。作为长期关注业务稳定性提升的从业人员,他也介绍了他自己对于如何围绕业务稳定性提升开展工作的一些看法。
亮点二:快手电商交易安全生产实践分享
快手电商正向交易团队负责人-曹老师分享了电商业务交易环节极致高可用下的稳定性建设及相关文化建设,并就稳定性核心保障手段持续打磨精进展开细致分享。
快手电商是一种直播电商,电商业务天然对于资金安全有着很高的要求。
其交易系统就要求系统稳定性战略目标——以稳定性优先。在实际工作中不犯低级错误,通过小的错误将隐患充分的暴露,增强系统的日常免疫,提升系统整体的稳定性和健康度。
并且在日常工作中贯彻两个原则——平衡取舍、积极防御。做稳定性肯定会在体验、效率、成本、用户体验等各个方面会互相影响的,所以要根据企业自身发展阶段并结合现阶段的重点目标,各方协同推进。以演促防,通过应急演练、全链路压测等方式完善防御机制及平台建设。
在三个关键要素——人员、管理、技术上,加强全员意识培养及稳定性文化建设,自上而下的贯彻实施下来。
将核心能力——故障预防、相应、处置、优化,融入到日常工作中,建立起相应的长效机制。通过周期性的质效会议、系统健康度巡检等工作,使稳定性保障能力持续精进。
所以在五项重要工作——团队组织、全面梳理、预案准备、事中协同、事后复盘。各个关键节点重点开展专项保障工作。一些是持续在做的稳定性基本线和核心保障手段。后续要更常态化、更标准化,并且更精细化,等到后面接入APP、大模型这些东西,使得更加的智能高效。
在此持续迭代的过程中实现能力提升:电商各域资损工程效率80%以上,核对覆盖业务域实现零资损。
后续我们也将在一些方向持续优化:
1、从常态化稳定性建设向更加精细化持续深耕
2、资损防控建设向自动化风险标注方向迈进,更加智能化方向探索
3、更加标准化的基建,全链路事件信息多边对账审计,赋能业务系统更加高效的发现潜在问题。
亮点三:云厂商稳定性指标建设实践分享
稳定性指标建设在落地实践的过程中,“用户视角”是当前非常重要的迭代思路,关注客户视角的连续性,不止从产品本身来做指标体系。平威结合最新的调研为我们做了细致分享,并结合3个典型风险案例类型做了讲解。
稳定性体系建设可能在每个公司都会随着自身业务的发展处在不同的发展阶段。
当公司现阶段在稳定性的第一阶段的时候,如何向第二阶段去进化呢?
但是稳定性体系建设很庞大,适合现阶段我公司需要去核心建设的内容有哪些呢?
在当下精细化运营,如何稳定、持续化的去运营迭代我们的指标体系呢?
我们通常在设置稳定性指标的时候会按照故障时长来设置,一旦到达一定故障数量后,就会面临考核嘛,而一面临考核/复盘,大家都会试图证明不是自己的问题,从而会产生甩锅的问题。甚至有的时候,指标体系没出现问题,但是持续的收到客户的投诉。你的老板就会觉得,你一直在做指标体系建设,每天跟我说做的很好,但是为什么还是会收到客户投诉?这个时候怎么办?
核心措施:
1、把用户反馈作为唯一故障评价标准
2、稳定性相关的考核指标统一使用稳定性得分
3、建设指标统计产品化,上下一份数据,避免信息偏差
4、通过偏建设导向的定责标准,更多从产品上彻底解决不稳定因素
5、通过OKR落地分解重点建设项目和过程性指标
在此过程中更好的衡量自己处于稳定性建设的什么阶段,并且在设置具体指标的过程中,要拉业务和老板共同对齐,老板和业务方持续沟通,达成统一的考核指标。并且通过系统自动统计,有效避免信息偏差,并设立建设导向的定责标准,责任共担,共同解决问题,并且通过过程性指标和具体项目持续迭代。
亮点四:破冰介绍
亮点五:话题讨论
1、预案保鲜怎么来做?特别是一些有损预案是怎么权衡做决策的?
2、在预案设计时,怎么保证预案对正常业务的低误伤率?在资损覆盖率的保障方面,有哪些比较好的方式?
3、风险数据量化大家的建设情况如何?比如说有无统一的地方来维护这些风险项,以及如何推进闭环治理?
4、当故障涉及到多个团队时,大家的故障体系是如何处理协作和沟通的?
欢迎互动:
「TakinTalks稳定性社区」定期会在:北京、上海、杭州、深圳举办稳定性相关的闭门研讨会。
如果你也是:运维负责人、SRE负责人、架构师等稳定性相关职位,团队负责人/总监级以上;
并且想与一二线企业的技术管理者,交流稳定性建设和技术管理实践,欢迎 【戳这里】联系我们,一起来畅聊稳定性~
往期活动集锦:
关注更多活动内容,请移步「TakinTalks稳定性社区」公众号。
关于TakinTalks稳定性社区:
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。