负责平台核心交易链路(到店团购、直播秒杀、门店预约)的性能测试全生命周期管理,覆盖需求分析、场景设计、压测执行、瓶颈定位及优化闭环,保障大促期间系统在10万+ QPS、全国31省用户分布场景下的稳定性与响应时效,支撑业务高并发增长。
- 主导设计「直播秒杀场景」性能测试方案,结合峰值QPS 12万、用户地域分散的特点,采用JMeter分布式压测(50台Slave节点)+ Grafana+Prometheus监控体系,模拟10万用户同时抢券、下单的混合场景,定位到Redis缓存击穿导致库存查询延迟从20ms飙升至200ms的问题;联动后端团队优化缓存预热策略(提前30分钟预热热点商品库存)与Redis热点Key探测机制(基于Redis Monitor实时预警),将秒杀场景响应时间稳定在500ms以内,支撑618大促直播秒杀订单量同比增长150%且零宕机。
- 针对门店预约模块「跨城查询慢」的用户反馈(投诉率占比18%),运用SkyWalking追踪调用链,定位到MySQL跨索引查询(涉及city、status、create_time三张索引表)与limit offset分页慢SQL问题;推动开发团队重构联合索引(新增idx_city_shop_status_create_time)并优化分页逻辑(改为游标分页基于last_id查询),使门店列表查询耗时从800ms降至150ms,用户投诉率下降40%。
- 搭建性能基线库,整合历史压测数据(覆盖核心接口120+、场景30+),基于Python开发自动化基线对比脚本(调用JMeter API获取压测结果,对比响应时间、TPS、CPU利用率等10项指标),实现每次压测后自动生成差异报告;将性能回归测试效率提升60%,减少人工核对时间约8小时/周,基线库复用率达90%以上。
- 参与架构优化评审,针对「分布式事务导致的订单创建超时」问题(成功率99.2%),提出将Seata AT模式替换为TCC模式并优化事务粒度(将「冻结库存+扣减余额」拆分为独立事务);配合开发团队完成改造,引入Hmily框架实现TCC事务协调,使订单创建接口成功率提升至99.9%,大促期间未出现因事务问题导致的系统雪崩。