负责公司电商大促核心业务线的全链路DevOps体系建设,主导跨地域多集群(覆盖北京、上海、广州三地)的CI/CD流水线优化、混沌工程落地及资源效能提升,支撑日活5000万+用户的业务稳定性与迭代效率。
- 针对大促期间发布频率高(日均30+次)、跨环境部署耗时长的痛点,主导重构基于Argo CD+Jenkins X的GitOps流水线,引入动态环境编排策略(通过Terraform管理测试/预发/生产环境资源),将全链路部署时间从45分钟压缩至12分钟;同步设计蓝绿发布与流量染色方案,配合Prometheus告警规则调优,将发布导致的P99延迟波动控制在50ms以内,大促期间发布成功率从92%提升至99.3%。
- 牵头落地混沌工程实践,基于Chaos Mesh构建覆盖K8s节点故障、网络延迟、数据库主从切换的故障场景库,每月执行10+次主动注入实验;针对商品详情页服务发现的历史雪崩问题,通过模拟DNS解析延迟场景,定位到服务网格Sidecar配置冗余缺陷,优化后服务恢复时间(MTTR)从45秒降至8秒,年度故障次数同比减少67%。
- 推动容器资源效能优化,基于Kubecost分析发现约35%的Pod存在资源超配问题,结合HPA弹性伸缩策略与QoS分级配置,重新定义CPU/Memory Request/Limit基准值;同步引入Vertical Pod Autoscaler(VPA)自动调整非核心服务资源,集群资源利用率从41%提升至68%,年云服务器成本节省约280万元。
- 搭建研发效能度量平台,整合GitLab CI/CD、Jira、SonarQube数据,设计「部署频率」「变更失败率」「测试覆盖率」等8个DevOps核心指标看板;通过关联代码提交与线上故障数据,定位到支付模块单元测试覆盖率不足(仅52%)是缺陷逃逸主因,推动团队将测试覆盖率标准提升至75%,后续版本线上缺陷数下降42%。