稳定性问答专区
-
Q:在春节期间,如何评估并应对可能出现的十倍流量增长,特别是考虑到春节项目不能简单地预留10倍资源?
腾讯云-某技术人员: 我们是通过国庆后开始的容量评估流程,运维团队和业务团队联合评估增长比例。例如,我们预计春节的流量增长比例为500%,并根据当前系统负载情况,使用容量系统计算出…
-
Q:你好,我最近在研究容器资源分配的问题。在高负载情况下,我们经常遇到资源争抢和业务延迟问题。你们是如何解决这些问题的?
滴滴-弹性云某团队: 你好,我们确实遇到过类似的问题。在滴滴弹性云,我们通过新分级保障体系来解决这些问题。我们发现早期的分级体系存在资源争抢严重、业务延迟较高等问题,主要是因为资源…
-
Q:在电商大促期间,比如“双11”,订单处理接口的流量突然从每秒 500 笔飙升到每秒 2000 笔,导致系统响应延迟,部分订单处理失败,该如何解决?
众安科技-某研发质量架构师: 首先,通过流量录制回放功能,获取“双11”期间该接口的详细流量数据。分析发现系统的服务器资源在每秒 1500 笔订单流量时就达到了瓶颈。然后,紧急增加…
-
Q:限流效果生效后,出现CPU在临界值附近抖动的问题怎么处理?
B站-某技术总监: 限流效果生效后,CPU会在临界值(800)附近抖动,如果不使用冷却时间,那么一个短时间的CPU下降就可能导致大量请求被放行,严重时会打满CPU。在冷却时间后,重…
-
Q:计划对服务A进行压测,目前单机500QPS,RT为500ms,使用2000压测线程,可能会出现什么情况?
携程-某技术专家: 在这种压测配置下,可能出现以下情况:如果RT增加到2000ms,CPU使用率稳定在一定幅度,这表明请求开始排队,CPU处理能力达到瓶颈。如果设置超时为600ms…
-
Q:在一次大型秒杀活动中,我们的数据库遭遇了大量直接请求,疑似缓存穿透问题,导致数据库CPU使用率达到了100%,有什么应对方法?
携程-某技术专家: 提供一个思路。携程采用了缓存覆盖更新策略,当商品信息变更时,系统不再删除缓存Key,而是直接更新缓存值,避免了流量穿透到数据库。此外,引入了消息聚合机制和异步更…
-
Q:春节这种重大项目,如果当晚遇到系统访问量激增,柔性方案是如何制定和执行的?
腾讯云-某技术团队: 腾讯制定了详细的柔性方案,包括朋友圈视频、消息视频、图片等重点流量柔性对象。例如,腾讯可能会设置在系统负载达到80%时,启动第一层粗暴柔性,按比例拒绝用户的上…
-
稳定性问答活动征集令!一起来寻找好答案!
🌟 稳定性问答活动 🌟 伴随不同企业出现的各种故障和稳定性问题,如何保障系统的稳定运行?预防和应对可能出现的风险。已经成为每个企业都在重点关注的问题。 封闭的探索,很难找寻到真正的…
-
Q:当 Redis 实例的内存使用率超过预设阈值时,怎么进行垂直扩容以增加单节点的容量?
得物-某技术专家: 基于业务预测和性能评估确定资源增减量,需要根据性能指标的阈值和业务增长的预期,计算所需的额外资源。例如,如果预计业务量增长 50%,而当前 CPU 利用率已接近…
-
Q:内网测试,基于硬件条件A,接口压测,并发请求数=500,压测结果TPS=410(错误率和响应时间在认可范围),系统支撑能力评估:对于硬件条件A,系统每秒支持处理请求数量是500还是410? 这个主要用于评估复制多个A,系统的支撑能力。
某SRE专家: 一般按照TPS来评估更加准确一些,但不建议这种方式去做容量规划,因为机器性能表现是抛物线,如果你评估时所在的阶段是前半段直线上升,准确度还好点,处于抛物线中间或者后…