负责企业服务SaaS平台核心交易链路(订单/支付/在线协作)及大促高并发场景的性能测试全生命周期管理,覆盖需求拆解、场景建模、压测执行、瓶颈定位及容量规划,保障系统在10万+并发下的稳定性与性能SLA达标
- 主导核心订单支付链路性能测试:基于JMeter+Grafana搭建分布式压测环境(10台压测机模拟12万并发),结合Arthas追踪到MySQL热点账户事务锁竞争问题——通过优化覆盖索引(将原二级索引调整为包含订单金额、状态的覆盖索引)和拆分日结账户表(从单表1亿条拆分为按月份分表),支付成功率从99.2%提升至99.95%,TPS从3200跃升至5800,支撑双11大促零支付故障
- 针对在线文档多人协作编辑场景,创新“真实流量回放+动态参数化”方案:用Tcpcopy捕获生产环境90%真实用户操作流量,结合Locust编写脚本还原“编辑-保存-同步”操作模式,发现Redis缓存穿透问题(热点key未命中导致DB压力骤增)——推动开发引入布隆过滤器,缓存命中率从85%提升至97%,协作延迟从200ms压降至80ms内
- 搭建性能指标关联模型:基于历史流量与业务增长(年增速40%),建立“并发用户数-DB QPS- Redis命中率”线性回归模型,输出大促容量评估报告,推动基础设施团队扩容K8s集群节点30个、Redis分片2个,保障15万并发下系统资源利用率稳定在70%以下
- 构建性能测试闭环体系:定义“响应时间(P99≤200ms)+ TPS达标率(≥95%)+ 错误率(≤0.1%)”三层验收标准,整合Prometheus+Alertmanager实现性能异常自动化预警(如CPU使用率超80%触发告警),将问题发现时间从小时级缩至分钟级,季度内提前拦截5起潜在性能故障