负责公司核心电商交易链路全生命周期SRE保障,涵盖SLO体系搭建、故障根因分析、K8s集群自治及跨团队可靠性工程实践落地
- 主导电商交易核心服务(日请求量超10亿次)的SLO体系设计,基于ITU-T Y.1540标准定义99.99%可用性、P99≤200ms延迟等关键指标,通过Prometheus Alertmanager定制分级告警规则(区分P0-P3级),将误报率从18%降至3%,支撑双11大促期间0级故障响应时间缩短至5分钟内,保障交易链路零中断
- 核心参与混沌工程实践,使用Chaos Mesh对订单支付链路注入节点宕机、网络分区、第三方接口超时等故障,识别出3个单点依赖组件(如库存服务同步接口),推动研发重构为“分布式缓存+Kafka异步队列”方案,全年该链路故障次数从12次降至2次,MTTR从45分钟缩短至12分钟
- 负责500节点K8s集群自治运维,编写Python脚本集成Cluster API与自定义控制器,实现“CPU持续5分钟>85%”“内存泄漏率>10%/小时”等条件触发节点自动置换,将集群运维人力投入从每周12人时降至3人时,节点可用率提升至99.95%
- 牵头跨研发、产品、测试团队落地容量规划流程,使用Gatling模拟峰值QPS 15万的场景压测,结合历史流量30%同比增长预测资源需求,优化EC2 Auto Scaling策略,大促期间服务器成本降低15%,未出现性能瓶颈