主导公司混合云平台(AWS+阿里云+自研私有云)的稳定性建设、成本精细化管控及自动化运维体系迭代,覆盖从基础设施编排到应用层容灾的全链路运维,对核心业务(电商交易、会员系统)的云平台可用性负责
- 针对核心交易链路跨AWS与阿里云调用延迟高(120ms)的问题,主导使用AWS CloudWatch全链路追踪与阿里云ARMS应用监控联动,结合自研拓扑分析工具定位到跨云VPC peering路由策略不合理导致的丢包,通过调整BGP Anycast节点部署与路由优先级,将跨云延迟降至40ms以内;同步优化云厂商间的 peering 连接带宽(从1Gbps扩容至2Gbps),全年核心链路故障时长从11小时压缩至1.5小时,支撑双11大促期间交易成功率提升至99.98%
- 牵头梳理全公司云资源 inventory(覆盖AWS EC2/S3/RDS、阿里云ECS/OSS/RDS、私有云OpenStack节点),使用Python开发自动化资源回收脚本(集成AWS Lambda与阿里云函数计算),结合“30天未使用”标签策略,每月自动回收闲置EC2实例(月均15台)、未释放EBS卷(月均8TB)及空闲OSS Bucket(月均3个),年云资源成本降低28%(约120万元)
- 推动私有云平台自动化能力升级,采用Terraform实现OpenStack节点(计算/存储/网络)的Infrastructure as Code(IaC)编排,将新节点部署时间从4小时缩短至30分钟;引入Argo CD搭建应用配置漂移检测体系,关联GitLab CI/CD pipeline,实现配置变更实时校验与回滚,配置变更成功率从92%提升至99.5%,减少因配置错误导致的业务中断事件80%
- 设计跨云双活容灾架构(AWS北京 region + 阿里云杭州 region),针对核心MySQL数据库采用AWS DMS与阿里云DTS实现双向数据同步(延迟<1秒),结合自研故障切换脚本(基于Shell+API调用),实现RTO<3分钟、RPO<10秒;通过年度灾备演练(模拟AWS北京region电源中断),验证容灾切换流程有效性,满足金融级容灾合规要求