负责公司核心增值业务数据中心全生命周期运维,涵盖服务器集群、分布式存储、智能动环及网络基础设施的一体化监控、容量规划与故障根因分析,保障增值业务系统99.99%可用性目标达成。
- 主导华东区B级数据中心年度健康度评估与三年容量规划,基于Prometheus+Grafana构建多维资源监控看板,分析近三年业务峰值负载(日均请求量从800万次增至1500万次)与设备老化曲线,精准预测服务器CPU/内存/存储扩展需求,调整冷热通道功率分配策略,将机架利用率从68%提升至85%,延缓IDC托管扩容支出18个月,年节约成本约150万元。
- 牵头解决动环监控系统误报率高痛点,采集温湿度、UPS状态、空调运行等200+维度传感器数据,使用Python开发数据清洗脚本剔除环境干扰项(如空调启停导致的瞬时温感波动),结合Scikit-learn随机森林模型训练异常检测算法,将无效告警占比从22%压降至5%,关键设备(如列头柜配电单元)故障预警提前时长从30分钟延长至2小时,支撑运维团队将平均故障修复时间(MTTR)从42分钟压缩至19分钟。
- 主导完成金融类增值业务双活数据中心灾备切换演练,依据ITIL 4框架设计「市电中断+精密空调故障」复合故障场景,验证主备中心存储异步复制(采用Veritas Volume Replicator)、负载均衡器会话保持(F5 BIG-IP)的协同有效性,将业务中断恢复时间(RTO)从110分钟优化至43分钟,数据丢失量(RPO)从12分钟缩短至4分钟,助力公司通过工信部增值电信业务灾备能力三级认证。
- 推动自动化运维体系落地,基于Ansible Tower搭建标准化操作库,覆盖服务器固件升级(HPE iLO批量执行)、存储卷扩容(NetApp ONTAP CLI)、网络设备配置核查(Cisco DNA Center API对接)等8类高频操作,开发Zabbix自定义监控模板15个(含服务器风扇转速异常、存储IO延迟突增等场景),实现90%常规运维任务自动触发与闭环,团队人均单日处理工单量从25单提升至42单,人为配置失误率下降70%。