负责公司电商核心业务系统(订单、支付、库存)的端到端DevOps体系建设,覆盖从代码提交到生产部署的全流程自动化,主导云原生架构落地、监控体系优化及大促场景下的稳定性保障,工作边界从需求协作阶段的流水线设计延伸至生产环境的故障根因分析与流程迭代。
- 主导设计了基于GitLab CI/CD(Kubernetes Executor)与Argo CD的应用级双流水线体系——针对电商大促“部署质量滞后导致回滚频繁”的痛点,整合SonarQube代码质量门禁(设置代码覆盖率≥85%、OWASP漏洞等级≤Medium的准入规则)与JMeter性能测试插件(模拟1.2万并发请求验证接口响应),将部署前置检查从“人工跑脚本”改为“流水线自动拦截”;同时优化Argo CD同步策略,引入“灰度发布+流量切分”机制(先切10%流量验证,无异常再全量),解决了传统蓝绿部署回滚耗时问题。最终将前置检查耗时从45分钟缩短至12分钟,生产回滚成功率从78%提升至95%,支撑2024年618大促12万+ QPS稳定运行,较2023年同期故障时长减少70%。
- 核心推动Kubernetes混合云集群迁移项目——采用Terraform进行阿里云与腾讯云跨资源编排,结合Calico实现多集群网络打通,同时引入Prometheus+Grafana构建跨集群监控看板(涵盖CPU利用率、Pod重启率、接口延迟等20+指标)。迁移过程中通过“滚动更新+服务发现同步”策略保证零 downtime,迁移后集群资源利用率从35%提升至62%,故障定位时间从平均2小时缩短至15分钟。
- 重点优化配置管理流程——通过Ansible Tower实现IaC版本化管控,针对数据库连接池泄漏问题开发自定义Metric采集器(基于Prometheus Client),联动Alertmanager设置“连接利用率≥80%持续5分钟”的阈值告警。上线后配置漂移导致的故障从每月3次降至0,数据库连接利用率提升28%,支撑双11期间订单系统QPS峰值达15万。
- 牵头搭建混沌工程平台——基于Chaos Mesh注入网络延迟(模拟500ms丢包)、节点宕机、Redis缓存击穿等场景,验证核心订单系统的容错能力;输出《混沌实验报告》并推动开发修复3个分布式事务一致性问题(如订单创建后库存未扣减)。系统可用性从99.9%提升至99.99%,全年故障时长减少85%。