负责在线教育平台核心链路(直播互动、课程秒杀、IM通讯)的性能全生命周期管理,从需求分析、场景设计到瓶颈定位与优化落地,保障高并发场景下系统稳定性与用户体验,支撑千万级用户规模的业务增长
- 主导2024年双十一课程促销活动性能保障,基于神策分析的用户行为日志设计「课程浏览→加入购物车→秒杀下单」全链路压测场景,使用JMeter分布式集群(10台压测机)模拟20万并发用户;过程中通过Arthas诊断发现订单服务MySQL慢查询(执行时间超5s的SQL占比12%),定位为商品库存表联合索引缺失,协同开发添加复合索引后,订单提交接口TPS从800提升至2500,响应时间P99从1.2s降至350ms,活动期间下单成功率保持99.95%以上
- 针对直播课「弹幕发送」「师生连麦」功能的高并发瓶颈,使用SkyWalking全链路追踪发现Redis缓存穿透问题——大量无效用户ID请求直接穿透至数据库,导致缓存命中率仅65%;优化缓存策略,引入布隆过滤器过滤无效请求,同时将缓存过期时间从固定10分钟调整为基于用户活跃度的动态时长(活跃用户30分钟、沉默用户10分钟),最终缓存命中率提升至92%,连麦接口QPS从1500提升至4000,直播高峰期卡顿率下降40%
- 负责IM即时通讯系统的容量规划,使用Gatling模拟10万并发用户发送文本/语音消息,结合Prometheus+Grafana监控RocketMQ消息队列、Nacos配置中心的资源利用率;发现消费者组处理能力不足(单节点每秒处理消息数仅800条),协同运维扩容3个消费者节点并优化消费线程数(从10调整至20),系统可稳定支撑12万并发用户,消息投递延迟从800ms降至200ms,故障报警次数减少75%
- 推动性能测试左移,在团队Jenkins CI/CD pipeline中集成JMeter脚本自动化执行,使用Docker容器化压测环境(复刻生产数据库MySQL 8.0、缓存Redis 6.0配置),实现「代码提交→自动触发接口级压测→生成包含TPS、响应时间、错误率的性能报告」的闭环;将性能测试介入时间从上线前1周提前至需求评审阶段,测试周期缩短30%,上线后因性能问题导致的回滚次数从每月2次降至0次