客户介绍
国家电网有限公司是关系国民经济命脉和国家能源安全的特大型国有重点骨干企业,其经营区域覆盖国土面积的88%以上,供电服务人口超过11亿人。
建设背景
国家电网为实现交费、办电、能源服务等业务“一网通办”,打造了网上国网APP,累计注册用户达2亿+,日活跃用户已突破400万。每月10号的“缴费日”活动期间用户蜂拥而至,缴费失败、系统异常等状况给用户带来的实际体验不佳,阻碍了国家电网相关业务的数字化转型。 为保障“一网通办”项目的顺利落实,为用户实际办理业务带来便捷与良好的使用体验,国家电网引入生产全链路压测来保障业务系统的稳定性。本案例将讲述网上国网APP是如何通过压测、应急预案、故障演练最终达成活动高峰保障目的的。
解决方案
功能和架构
基于真实环境模拟实际业务场景进行性能压测,通过流量打标、影子库等技术手段,实现真实流量与压测流量隔离,避免对真实业务造成影响。在不影响真实用户数据的前提下,在应急环境、生产环境对网上国网系统八中心的核心功能( 如用户登录、查看账单、查看优惠、缴费等功能 )进行指定压力的仿真性能测试, 最终在生产环境进行仿真压测,通过生产压测实现业务高峰预演,准确评估链路性能极限,并对业务机器容量进行精准评估;快速发现并定位链路性能瓶颈,识别系统潜在稳定性风险,并对链路性能瓶颈优化给出针对性建议。
方案描述
只有“网上国网”系统稳定持续可用,才能给广大用户提供更好的用户体验,可由于业务与企业的特殊性对安全的要求更为严格,组织架构权责归属、流程繁复、多环境、多供应商的现状都成了系统稳定性建设的绊脚石。 为了保障全国亿万用户的使用体验,国网在系统稳定性保障方面引入了生产全链路压测的前沿技术,在多环境进行压测,提前发现性能问题并解决,同时针对可能出现的所有故障情况进行应急预案梳理以及故障演练,事无巨细。
(1)多环境多轮压测,确保压测不影响业务
为了保障压测不会影响到线上业务,优先在测试环境进行了十几轮压测确保压测链路、场景、流程无误,而后在才在生产环境落地进行压测。多轮压测共为系统检测出30+个问题,涉及代码层面问题、服务器资源问题,针对不同类型的问题均进行了对应优化工作,整体性能提升18%左右。
(2)应急预案梳理,提前做好响应方案
即使进行了多轮的压测优化了系统,可仍旧无法保障系统在面对实际峰值流量时万无一失,针对各个可能出现问题的方面都应该做好预案内容。限流预案、降级预案、熔断预案、隔离预案、防资损预案、容灾恢复预案,以及出现服务器宕机、CPU负载过高、磁盘空间不足等问题时的系统应急预案。
(3)故障演练,锻炼团队协调作战能力
说百遍不如做一遍,故障演练就是模拟系统故障发生,让团队成员按照梳理好的应急预案进行相关操作,看是否能正确处理事故,保障系统稳定可用。国网拥有众多的供应商,所以也有跨团队协同难的问题,提前演练沟通,当系统出现性能瓶颈时才能快速响应,提高协调效率。
(4)突破内外网限制,通过镜像部署实现生产压测
“网上国网”app出于系统安全考虑设置了内外网,结合现实情况将生产隔离的探针通过镜像的方式部署到内网的应用中,最终实现了数据流量隔离,在不影响业务的前提下成功进行生产压测,并基于压测结果完成系统稳定性保障与优化。
客户收益
应用经济效益
网上国网2021年完成上海数据中心生产环境压测,通过压测提前发现并解决了30+系统性能问题,此外业务部门可以根据压测数据判断系统是否可以承载当前业务活动峰值流量,并且进行合理的容量规划与资源调优,整体性能提升18%左右,为保障网上国网系统安全稳定运行提供了有效支撑。
产业联动效应
针对“网上国网”核心业务链路进行生产环境的压测,助力国家电网又好又快地完成业务数字化转型工作。这为其他国企、民生类业务数字化转型保障提供了参考范例,面对用户不断增长、流量高峰不断增高的挑战,生产环境压测可以帮助企业提前发现系统的性能瓶颈,并根据压测结果进行系统的优化从而保障相关业务的顺利开展。
社会效益
能源与民生息息相关,“网上国网”作为国家电网对外服务的统一入口,也是全网用户线上缴费的主要渠道,“网上国网”通过生产压测进行硬件容量精准评估,性能瓶颈分析,提前发现系统问题,避免系统因压力产生崩溃的可能性,才能有效支撑全网4.3亿用户随时随地、无间断、高效率的使用线上能源缴费的相关业务,减少线下办理的繁琐流程,做到真正的便民、利民。
本文来自投稿,不代表TakinTalks稳定性技术交流平台立场,如若转载,请联系原作者。