负责公司公有云(阿里云、腾讯云)与私有云(OpenStack)混合架构全生命周期运维,主导自动化运维体系搭建、容量规划及99.99% SLA保障,支撑电商大促、金融交易等核心业务稳定运行。
- 主导设计混合云资源管理平台,基于Terraform实现IaC(基础设施即代码)标准化,结合Ansible完成2000+云资源(ECS、CLB、RDS)的自动化编排与配置校验,解决多环境(开发/测试/生产)配置漂移问题,资源交付周期从48小时压缩至2小时,资源利用率从42%提升至77%(通过云厂商账单分析与资源水位监控验证)。
- 搭建Prometheus+Grafana全链路监控体系,集成云厂商API、Kubernetes Metrics Server及自定义业务指标(如订单成功率、支付耗时),设计分级告警规则(P0-P4)并对接企业微信/电话告警,Q2季度故障定位时间从25分钟缩短至8分钟,全年因云平台问题导致的P0级故障次数同比下降60%(对比2023年同期数据)。
- 推动Kubernetes集群性能优化,针对双11流量峰值(较日常5倍)场景,调整调度策略(引入节点亲和性、污点容忍度)并启用Cluster Autoscaler动态扩缩容,配合HPA基于QPS自动调整Pod副本数,集群CPU平均利用率从35%提升至68%,支撑单日1.2亿订单交易无超时报错,稳定性达99.995%。
- 牵头容量规划项目,通过分析近12个月业务增长曲线(DAU月均增15%)与云资源消耗模型,预测2024年Q4需扩容300台ECS实例及50TB块存储,提前协调云厂商预留资源并优化采购策略(混合使用按需实例与抢占式实例),较原预算节省28%(约450万元)。