当前模板已根据「SRE运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
责任心不是口号,而是渗透在每个工作细节中的行动准则。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
SRE运维工程师
天津
薪资面谈
到岗时间另议
工作经历
2023.03 - 至今
小楷云科技有限公司
SRE架构师
  • 作为SRE体系的技术负责人,主导定义了公司核心业务的“服务质量目标(SLO)与错误预算(Error Budget)”体系,并将其深度集成至CI/CD流程与发布决策中。该体系覆盖100+ 个关键服务,使稳定性管理从被动救火变为可量化、可预期的科学实践,历史性地消除了因稳定性问题引发的团队摩擦。
  • 设计并实施了“全球多活异地容灾”方案,攻克了数据一致性、跨地域流量调度、单元化部署等核心技术难题,实现了业务在单个地域完全失效时“分钟级”自动切换与恢复,将系统可用性从99.9%提升至99.99%,年避免潜在损失超亿元。
  • 构建了“故障自愈”智能系统,通过实时分析监控指标(如延迟尖刺、错误率上升),可自动触发预设的恢复预案(如重启实例、流量切换、扩容),实现了对30%的常见线上故障的无人干预处理,极大减轻了On-Call负担。
  • 建立的“容量模型与成本效益分析”框架,将业务指标(如GMV、DAU)精准转化为IT资源需求,并推动资源优化项目(如混部、弹性伸缩),年节省基础设施成本超两千万元。
2021.07 - 2023.02
小楷云科技有限公司
高级SRE工程师
  • 负责公司“全链路压测”平台的研发与常态化运营,成功组织了多次超大规模生产环境压测,精准定位了数百个性能瓶颈与容量隐患,为历年双十一、618大促的零重大故障提供了最关键的技术保障。
  • 深度治理了部门Toil,通过开发自动化工具替代了80% 的人工重复操作(如账号权限申请、证书管理、配置检查),将团队精力更多地投入到高价值的工程项目中。
  • 实现的“统一可观测性”平台,整合了Metrics, Logs, Traces,并提供了强大的分析能力,将故障平均定位时间(MTTD)缩短了70%。
项目经验
2022.07 - 2024.03
星途互动科技有限公司
资深运维开发工程师

电商大促高可用保障体系全链路升级项目

  • 项目背景:公司核心电商平台面临逐年攀升的大促流量压力——2021年双11峰值QPS达80万时,曾因数据库连接池耗尽、缓存击穿导致页面响应超时率达12%,故障 downtime 超过30分钟,严重影响用户体验与GMV转化。核心目标是通过全链路技术升级,支撑2024年双11120万QPS峰值,将故障 downtime 控制在5分钟内,同时降低日常运维人力投入。
  • 关键难题:①现有监控体系碎片化,仅覆盖服务CPU/内存,未穿透至数据库慢查询、缓存命中率、下游接口延迟等业务链路关键节点;②流量调度依赖人工经验,无法快速适配突发峰值;③容灾演练流于“脚本执行”,故障切换时间长且易遗漏边缘场景。
  • 核心行动:1. 主导设计“三层全链路监控体系”:应用层用Prometheus+Grafana定制指标(如MySQL连接池利用率、Redis热点key命中率),中间件层通过ELK关联服务日志与数据库慢查询日志,用户层接入New Relic监控前端接口成功率与首屏加载时间,实现“从用户点击到数据库操作”的全链路可观测;2. 开发智能流量调度引擎:基于Python+TensorFlow训练流量预测模型(准确率达92%),联动Nginx Plus与CDN厂商API,实时调整节点权重与流量分发策略,支撑峰值流量自动削峰填谷;3. 推动混沌工程标准化:用Chaos Mesh模拟数据库宕机、缓存击穿、下游服务熔断等12类场景,重构故障切换脚本(将Redis主从切换从依赖VIP漂移改为直接连接哨兵),并通过GitOps实现演练脚本版本化管理。
  • 项目成果:成功支撑2023年618(峰值QPS115万)与2024年双11(峰值QPS132万),全程零 downtime;故障排查时间从40分钟缩短至8分钟,日常运维人力投入减少40%;监控覆盖率从65%提升至98%,提前预警并解决潜在风险17起。本人主导了体系设计与核心模块开发,推动跨团队(研发、测试、产品)达成“全链路可观测”共识,成为公司大促保障的标准技术方案。
2020.05 - 2022.06
云帆科技有限公司
运维开发工程师

容器化平台自动化运维工具链研发项目

  • 项目背景:公司推进容器化战略,K8s集群规模从50个服务扩展至200个服务,但运维工具分散(依赖kubectl命令、Jenkins Pipeline拼接、手动修改ConfigMap),导致部署失败率达每月10次,单次部署耗时超2小时,严重拖慢迭代节奏。核心目标是构建统一的自动化工具链,将部署时间压缩至30分钟内,配置错误率降至0.1%以下。
  • 关键难题:①K8s原生API复杂度高,开发自定义功能门槛大;②不同业务线的部署需求差异大(如电商服务需滚动更新,金融类服务需蓝绿部署);③缺乏统一的配置模板,各服务YAML文件冗余且易冲突。
  • 核心行动:1. 基于K8s Operator框架开发“自定义部署控制器”,封装滚动更新、蓝绿部署、金丝雀发布三种通用模式,提供REST API供研发团队调用,隐藏底层K8s细节;2. 设计“服务配置模板中心”:用YAML Schema定义通用字段(如镜像版本、副本数、资源 limits),研发人员仅需填写业务参数即可生成合规YAML,避免配置冲突;3. 集成CI/CD流水线:将Jenkins Pipeline与工具链对接,实现“代码提交→镜像构建→自动化测试→部署到预发环境→全链路验证→生产部署”的全流程自动化,同时嵌入配置校验插件(用Schema Registry检查YAML合法性)。
  • 项目成果:工具链上线后,单次部署时间从125分钟缩短至28分钟,配置错误率从10次/月降至0;支撑公司3个核心业务(电商、社交、金融)完成容器化迁移,运维人力成本降低30%;工具被纳入公司技术中台,成为所有研发团队的标准运维入口。本人主导了需求调研与架构设计,完成了Operator控制器的核心逻辑开发,推动跨团队达成“配置标准化”与“流程自动化”的共识。
技能特长
沟通能力
执行能力
热情坦诚
文案能力
奖项荣誉
  • 信息系统运维管理工程师(高级)
  • 2022年度公司优秀员工
  • 2023年公司SRE项目攻坚奖
  • 2023年Q4服务之星
自我评价
  • 聚焦互联网业务稳定性核心,擅长从分布式系统全链路视角构建风险防控体系,推动被动响应向主动预防的机制落地。
  • 以自动化为效能引擎,将运维痛点转化为可复用工具链,通过代码优化降低人工依赖,助力团队转向策略型保障。
  • 具备业务与技术双向同理心,能平衡迭代速度与稳定性要求,推动跨团队共识,确保方案落地不脱节。
  • 习惯数据量化运维价值,通过故障复盘反哺架构优化,持续迭代SLO体系,支撑业务决策的可用性与成本洞察。
报考信息
填写报考学校
填写报考专业
科目1
分数1
科目2
分数2
科目3
分数3
科目4
分数4
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明