当前模板已根据「SRE运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲的照片
陆明哲
在平凡的岗位上创造不平凡的价值,这是我的职业信仰。
28岁
3年工作经验
13800138000
DB@zjengine.com
求职意向
SRE运维工程师
天津
薪资面谈
三个月内到岗
工作经历
2023.03 - 至今
小楷云科技有限公司
SRE架构师
  • 作为SRE体系的技术负责人,主导定义了公司核心业务的“服务质量目标(SLO)与错误预算(Error Budget)”体系,并将其深度集成至CI/CD流程与发布决策中。该体系覆盖100+ 个关键服务,使稳定性管理从被动救火变为可量化、可预期的科学实践,历史性地消除了因稳定性问题引发的团队摩擦。
  • 设计并实施了“全球多活异地容灾”方案,攻克了数据一致性、跨地域流量调度、单元化部署等核心技术难题,实现了业务在单个地域完全失效时“分钟级”自动切换与恢复,将系统可用性从99.9%提升至99.99%,年避免潜在损失超亿元。
  • 构建了“故障自愈”智能系统,通过实时分析监控指标(如延迟尖刺、错误率上升),可自动触发预设的恢复预案(如重启实例、流量切换、扩容),实现了对30%的常见线上故障的无人干预处理,极大减轻了On-Call负担。
  • 建立的“容量模型与成本效益分析”框架,将业务指标(如GMV、DAU)精准转化为IT资源需求,并推动资源优化项目(如混部、弹性伸缩),年节省基础设施成本超两千万元。
2021.07 - 2023.02
小楷云科技有限公司
高级SRE工程师
  • 负责公司“全链路压测”平台的研发与常态化运营,成功组织了多次超大规模生产环境压测,精准定位了数百个性能瓶颈与容量隐患,为历年双十一、618大促的零重大故障提供了最关键的技术保障。
  • 深度治理了部门Toil,通过开发自动化工具替代了80% 的人工重复操作(如账号权限申请、证书管理、配置检查),将团队精力更多地投入到高价值的工程项目中。
  • 实现的“统一可观测性”平台,整合了Metrics, Logs, Traces,并提供了强大的分析能力,将故障平均定位时间(MTTD)缩短了70%。
项目经验
2022.07 - 2023.12
星途互动科技有限公司
运维开发工程师(资深)

泛娱乐直播平台高可用运维中台研发与落地

  • 星途互动作为泛娱乐直播赛道头部玩家,业务峰值日活超500万,但原有运维体系依赖分散脚本与单点工具,存在故障MTTR长(35分钟+)、弹性扩缩容滞后(手动操作需15分钟以上)、混合云环境运维不一致等痛点。我的核心职责是主导高可用运维中台的架构设计与关键模块开发,目标实现故障自愈、智能扩缩容、全链路监控的统一支撑。
  • 项目面临三大技术挑战:1)混合云(公有云+私有云)资源模型异构,传统脚本无法跨环境复用;2)直播场景故障关联度高(涉及CDN、源站、数据库、消息队列),传统孤立监控难以快速定位根因;3)流量峰值波动大(如主播连麦、活动直播),现有扩缩容策略无法满足秒级响应需求。我选择以“抽象资源模型+拓扑感知AIOps+预测式调度”为核心思路破局。
  • 针对混合云兼容问题,我基于Terraform的Cloud Provider抽象层封装了统一资源操作接口,适配阿里云、腾讯云及公司私有云的API差异,实现“一次定义、多环境执行”的资源管理;针对故障根因定位,我主导构建了服务依赖拓扑图谱——用Neo4j存储微服务、中间件、基础设施的关联关系,结合Prometheus全链路metrics与ELK日志,开发图算法模型实时分析故障传播路径,将根因定位准确率从65%提升至92%;针对弹性扩缩容,我设计了“历史流量预测+实时指标联动”的调度算法,基于Prometheus的7天流量历史数据训练ARIMA模型,提前10分钟预判峰值并触发K8s HPA扩容,同时自定义Metrics(如直播间在线人数增长率)优化扩缩容阈值。
  • 项目上线后,核心指标显著提升:故障MTTR从35分钟降至8分钟,弹性扩缩容成功率从82%提升至99.5%,支撑了双11、跨年直播等峰值日活800万+的场景(无重大故障)。我个人贡献了中台核心模块(故障自愈引擎、弹性调度组件)的设计与开发,推动运维从“被动救火”转向“主动预防”,成为公司直播业务的稳定性基石。
2020.03 - 2022.06
星途互动科技有限公司
运维开发工程师(中级)

短视频分发系统自动化运维体系搭建

  • 公司短视频业务高速增长(日活从200万增至1000万),分发节点从100个扩展至500+,但原有运维依赖人工配置与手动部署,存在配置不一致(曾因节点配置错误导致5%用户无法加载视频)、部署效率低(单批次部署需2小时)、故障排查慢(需逐节点查日志,平均耗时40分钟)等问题。我的职责是搭建覆盖配置管理、批量部署、故障排查的自动化运维体系,提升运维效率与系统稳定性。
  • 项目初期遇到两大难点:1)大规模节点(500+)的配置一致性难以保证,手动修改易出错;2)传统部署方式(SCP传包+逐节点启动)效率极低,无法匹配业务迭代速度。我通过对比Ansible与SaltStack,选择Ansible作为核心工具——其轻量级、无Agent的特性更适合分布式分发节点的场景。
  • 针对配置一致性,我用Ansible Role封装不同环境(测试/预发/生产)的配置模板,结合Inventory分组管理节点,实现“一处修改、全局同步”,并通过Ansible Vault加密存储数据库密码、API Token等敏感信息;针对批量部署,我将应用打包为Docker镜像,上传至私有Registry,用Ansible Playbook实现“镜像拉取-启动-健康检查”一键部署,将单批次部署时间从2小时缩短至15分钟;针对故障排查,我开发了Ansible自定义模块,定期收集节点的CPU、内存、磁盘IO及应用日志,推送至Grafana监控平台,设置阈值触发自动报警,并关联日志上下文,将故障排查时间从40分钟降至10分钟。
  • 项目落地后,运维效率大幅提升:配置不一致问题减少95%,发布频率从每周2次提升至每日5次(支撑业务快速迭代),故障影响范围缩小80%。我主导了自动化工具的选型与落地,优化了团队运维流程,成为后续中台项目的运维流程基础。
奖项荣誉
  • 信息系统运维管理师(中级)
  • 2023年度公司优秀员工
  • 2024年部门项目攻坚奖
技能特长
沟通能力
执行能力
热情坦诚
文案能力
自我评价
  • 深耕互联网SRE领域,秉持“预防型运维”思维,擅长用容量规划与混沌工程前置消解系统风险,主导构建的多层级容灾机制提升故障应对韧性。
  • 聚焦运维效率升级,习惯从流程卡点倒推自动化方案,搭建的工具链将高频重复操作耗时压缩至原有1/5,释放团队创新精力。
  • 故障处理坚持“根因追溯+流程沉淀”双路径,既快速止损又输出可复用排查框架,推动同类问题复发率显著下降。
  • 跨团队协作擅长用“技术逻辑+业务影响”对齐目标,带动研发、产品共担运维优化,形成全链路责任协同模式。
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明