当前模板已根据「SRE运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲的照片
28岁
3年工作经验
13800138000
DB@zjengine.com
求职意向
SRE运维工程师
天津
薪资面谈
三个月内到岗
技能特长
沟通能力
执行能力
热情坦诚
文案能力
兴趣爱好
摄影
看书
阅读
跑步
陆明哲
责任心不是口号,而是渗透在每个工作细节中的行动准则。
工作经历
2024.07 - 至今
小楷数科
资深SRE工程师

负责公司亿级用户电商平台全链路稳定性保障,主导微服务架构下的SRE体系建设,推动跨团队DevOps协作与技术风险管控。

  • 主导设计基于SLO的稳定性管理体系,针对商品详情、订单支付核心链路制定三级SLO指标(可用性99.99%、延迟P99≤200ms、错误率≤0.01%),通过Error Budget算法动态评估发布窗口,将重大故障次数从Q2的3次降至Q4的0次,支撑双11大促期间系统零宕机。
  • 牵头落地混沌工程常态化机制,基于Chaos Mesh构建覆盖网络中断、节点宕机、数据库主从切换的场景库,每月对支付核心集群执行故障注入演练,发现并修复分布式事务超时、缓存击穿等潜在风险点17个,系统MTTR(平均修复时间)从28分钟缩短至9分钟。
  • 优化云原生资源利用率,通过Prometheus+Thanos构建全局资源观测平台,结合K8s HPA与自定义扩缩容策略,针对大促流量波峰动态调整Pod副本数,Q4大促期间服务器成本较去年同期下降25%,同时保障业务响应延迟稳定在150ms以内。
  • 推动SRE技术中台建设,抽象日志采集、指标聚合、告警收敛通用组件,封装为内部SRE Toolkit供10+业务线复用,将新业务接入稳定性保障的平均周期从2周缩短至3天,团队人均故障处理效率提升40%。
2022.07 - 2024.06
小楷互联
高级SRE工程师

承担金融支付系统中台的高可用运维,负责K8s集群全生命周期管理,推动自动化运维工具链与DevOps流程融合。

  • 主导完成生产环境K8s集群从1.18到1.24版本的平滑升级,制定分批次滚动更新策略,同步解决etcd性能瓶颈(QPS从8000提升至15000)与CNI插件兼容性问题,升级期间业务中断时间控制在5分钟内,集群资源利用率从58%提升至72%。
  • 设计基于Argo Rollouts的渐进式发布体系,结合蓝绿部署与金丝雀发布模式,将支付接口版本迭代的上线风险降低60%;同步接入OpenTelemetry实现全链路追踪,定位到第三方支付渠道回调超时问题,推动合作方优化后接口成功率从99.2%提升至99.95%。
  • 构建智能告警治理平台,通过机器学习算法对Prometheus告警规则进行聚类分析,合并重复告警项43个,将有效告警占比从32%提升至89%;结合企业微信机器人实现分级告警自动派单,故障响应时长从平均12分钟缩短至4分钟。
  • 主导数据库高可用改造,将MySQL主从架构升级为MGR(组复制)+ProxySQL读写分离方案,通过自研脚本监控复制延迟与节点健康状态,Q3成功拦截因网络抖动导致的3次主从同步中断,数据库可用性从99.9%提升至99.99%。
2020.07 - 2022.06
小楷云智
SRE工程师(初级)

负责公司内部OA与客户管理系统的基础运维,支撑研发团队日常发布与故障排查,逐步搭建自动化运维能力。

  • 独立搭建基于Prometheus+Grafana的监控告警体系,覆盖服务器CPU/内存、MySQL慢查询、Nginx访问状态等20+核心指标,通过自定义Alertmanager路由规则实现告警分级(紧急/重要/提示),上线后故障发现时效从30分钟缩短至2分钟,误报率从45%降至8%。
  • 开发Python自动化部署脚本,集成Jenkins实现代码提交→测试→打包→部署全流程自动化,将单体应用发布耗时从40分钟缩短至8分钟,日均支持10+次发布任务,发布失败率从15%降至2%。
  • 主导解决Redis缓存雪崩问题,通过分析访问日志发现热点key集中失效现象,引入随机过期时间+本地缓存二级策略,配合Redis Cluster分片扩容,将缓存命中率从78%提升至95%,QPS承载能力从5000提升至12000。
  • 编写《运维故障处理手册》与《常见操作SOP》,梳理服务器扩容、数据库备份恢复等8类高频操作流程,新人上手周期从1个月缩短至1周,团队整体运维效率提升30%。
项目经验
2022.07 - 2024.03
星途互动科技有限公司
资深运维开发工程师

电商大促高可用保障体系全链路升级项目

  • 项目背景:公司核心电商平台面临逐年攀升的大促流量压力——2021年双11峰值QPS达80万时,曾因数据库连接池耗尽、缓存击穿导致页面响应超时率达12%,故障 downtime 超过30分钟,严重影响用户体验与GMV转化。核心目标是通过全链路技术升级,支撑2024年双11120万QPS峰值,将故障 downtime 控制在5分钟内,同时降低日常运维人力投入。
  • 关键难题:①现有监控体系碎片化,仅覆盖服务CPU/内存,未穿透至数据库慢查询、缓存命中率、下游接口延迟等业务链路关键节点;②流量调度依赖人工经验,无法快速适配突发峰值;③容灾演练流于“脚本执行”,故障切换时间长且易遗漏边缘场景。
  • 核心行动:1. 主导设计“三层全链路监控体系”:应用层用Prometheus+Grafana定制指标(如MySQL连接池利用率、Redis热点key命中率),中间件层通过ELK关联服务日志与数据库慢查询日志,用户层接入New Relic监控前端接口成功率与首屏加载时间,实现“从用户点击到数据库操作”的全链路可观测;2. 开发智能流量调度引擎:基于Python+TensorFlow训练流量预测模型(准确率达92%),联动Nginx Plus与CDN厂商API,实时调整节点权重与流量分发策略,支撑峰值流量自动削峰填谷;3. 推动混沌工程标准化:用Chaos Mesh模拟数据库宕机、缓存击穿、下游服务熔断等12类场景,重构故障切换脚本(将Redis主从切换从依赖VIP漂移改为直接连接哨兵),并通过GitOps实现演练脚本版本化管理。
  • 项目成果:成功支撑2023年618(峰值QPS115万)与2024年双11(峰值QPS132万),全程零 downtime;故障排查时间从40分钟缩短至8分钟,日常运维人力投入减少40%;监控覆盖率从65%提升至98%,提前预警并解决潜在风险17起。本人主导了体系设计与核心模块开发,推动跨团队(研发、测试、产品)达成“全链路可观测”共识,成为公司大促保障的标准技术方案。
2020.05 - 2022.06
云帆科技有限公司
运维开发工程师

容器化平台自动化运维工具链研发项目

  • 项目背景:公司推进容器化战略,K8s集群规模从50个服务扩展至200个服务,但运维工具分散(依赖kubectl命令、Jenkins Pipeline拼接、手动修改ConfigMap),导致部署失败率达每月10次,单次部署耗时超2小时,严重拖慢迭代节奏。核心目标是构建统一的自动化工具链,将部署时间压缩至30分钟内,配置错误率降至0.1%以下。
  • 关键难题:①K8s原生API复杂度高,开发自定义功能门槛大;②不同业务线的部署需求差异大(如电商服务需滚动更新,金融类服务需蓝绿部署);③缺乏统一的配置模板,各服务YAML文件冗余且易冲突。
  • 核心行动:1. 基于K8s Operator框架开发“自定义部署控制器”,封装滚动更新、蓝绿部署、金丝雀发布三种通用模式,提供REST API供研发团队调用,隐藏底层K8s细节;2. 设计“服务配置模板中心”:用YAML Schema定义通用字段(如镜像版本、副本数、资源 limits),研发人员仅需填写业务参数即可生成合规YAML,避免配置冲突;3. 集成CI/CD流水线:将Jenkins Pipeline与工具链对接,实现“代码提交→镜像构建→自动化测试→部署到预发环境→全链路验证→生产部署”的全流程自动化,同时嵌入配置校验插件(用Schema Registry检查YAML合法性)。
  • 项目成果:工具链上线后,单次部署时间从125分钟缩短至28分钟,配置错误率从10次/月降至0;支撑公司3个核心业务(电商、社交、金融)完成容器化迁移,运维人力成本降低30%;工具被纳入公司技术中台,成为所有研发团队的标准运维入口。本人主导了需求调研与架构设计,完成了Operator控制器的核心逻辑开发,推动跨团队达成“配置标准化”与“流程自动化”的共识。
教育背景
2013.09 - 2016.06
XX市第一中学
理科重点班
通过系统化的数理课程训练(物理/数学竞赛班),培养了严密的逻辑思维能力和复杂问题拆解方法论;担任校科技社副社长期间,主导“简易机器人编程”项目,锻炼了技术方案落地的执行力,获省级创新大赛三等奖。
2016.09 - 2020.06
XX理工大学
计算机科学与技术(本科)
主修数据结构、算法设计等核心课程(GPA 3.7/4.0),构建系统性技术知识框架;通过校企合作项目“智慧校园小程序开发”(担任后端组长),将理论转化为高并发场景下的解决方案,服务3所高校超2万用户。获校级“技术创新标兵”(Top 5%)。
奖项荣誉
  • 信息系统运行维护员(高级)
  • 2022年度公司项目攻坚奖
  • 2023年部门优秀SRE工程师
自我评价
  • 聚焦互联网业务稳定性核心,擅长从分布式系统全链路视角构建风险防控体系,推动被动响应向主动预防的机制落地。
  • 以自动化为效能引擎,将运维痛点转化为可复用工具链,通过代码优化降低人工依赖,助力团队转向策略型保障。
  • 具备业务与技术双向同理心,能平衡迭代速度与稳定性要求,推动跨团队共识,确保方案落地不脱节。
  • 习惯数据量化运维价值,通过故障复盘反哺架构优化,持续迭代SLO体系,支撑业务决策的可用性与成本洞察。
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明