负责电商平台核心交易链路(秒杀、订单、支付)的质量保障体系搭建,主导高可用自动化测试框架设计与落地,推动性能瓶颈定位与混沌工程实践,协同研发团队优化CI/CD流水线的测试集成能力,目标是提升系统稳定性与交付效率。
- 主导设计电商秒杀场景的高可用自动化测试框架,基于Python+Pytest+Allure构建底层架构,针对传统框架在高并发下稳定性不足的问题,引入Locust分布式执行引擎实现用例并行运行,同时封装Redis分布式锁机制解决多节点数据竞争问题。框架落地后,核心交易链路(秒杀下单、库存扣减)的用例执行效率提升60%,覆盖率达85%,支撑了大促期间10万+并发场景的回归测试。
- 负责秒杀系统的性能测试与瓶颈定位,采用JMeter模拟5000并发用户发起秒杀请求,通过Prometheus+Grafana实时监控发现Redis缓存击穿导致数据库QPS飙升的问题。随后设计布隆过滤器预加载热门商品库存信息,优化缓存过期策略(从固定30分钟调整为动态10-60分钟),同时调整数据库读写分离比例(从1:1改为3:1)。优化后,秒杀系统QPS从3000提升至8000,系统故障率下降40%,大促期间未出现超卖现象。
- 推动CI/CD pipeline深度集成测试能力,基于GitLab CI/CD+Jenkins搭建分层测试流水线:在commit阶段运行SonarQube代码质量门禁(阻断覆盖率低于20%或圈复杂度高于10的代码合并),在merge阶段执行单元测试(JUnit+Jacoco,覆盖率要求≥50%),在release阶段触发接口测试(Postman+Newman,覆盖90%核心接口)。流水线落地后,研发提测质量显著提升,提测返工率下降35%,迭代周期缩短20天。
- 设计并开发混沌工程故障注入工具(基于Go语言),模拟数据库宕机、网络延迟(100ms-5s)、K8s节点故障等异常场景,验证秒杀系统的容错能力。工具集成了Chaos Mesh实现集群故障注入,同时通过自定义脚本监控系统指标(如错误率、延迟、吞吐量)。运行工具后,定位了3个隐藏的分布式事务问题(如库存扣减与订单创建的一致性问题),推动研发优化事务补偿机制(引入TCC模式替代本地事务),系统可用性从99.5%提升至99.9%。