当前模板已根据「SRE运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
个人简历 RESUME
陆明哲
在平凡的岗位上创造不平凡的价值,这是我的职业信仰。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
SRE运维工程师
天津
薪资面谈
随时到岗
工作经历
2022.07 - 2024.06
小楷电商
高级SRE运维工程师

负责电商平台核心交易链路的全生命周期稳定性管理,主导容量规划、故障根因分析及自动化工具链建设,平衡业务迭代速度与系统可靠性,覆盖从日常运维到双十一大促的全场景保障。

  • 主导核心交易链路(商品下单-支付-履约)SLO体系重构,基于Google SRE方法论定义8项关键SLI(如接口成功率≥99.99%、订单创建耗时P95≤200ms),通过Go语言开发动态阈值告警引擎,联动Prometheus+Grafana实现秒级指标采集与多维度聚合,故障发现时间从15分钟压缩至3分钟内,SLO达成率从98.7%提升至99.95%。
  • 设计并落地混沌工程常态化机制,基于Chaos Mesh搭建故障注入平台,针对数据库主从延迟、Redis缓存击穿、RPC服务降级等12类高风险场景设计实验剧本,季度演练覆盖率从60%提升至95%;结合故障复盘优化熔断策略,年度P1级系统故障次数从7次降至2次,MTTR(平均修复时间)从45分钟缩短至18分钟。
  • 牵头大促容量规划项目,通过历史流量建模+实时压测(使用JMeter分布式集群模拟20万QPS)预测资源需求,结合K8s HPA与云厂商弹性伸缩策略,实现计算资源利用率从65%提升至82%;同步优化CDN节点分布,将核心静态资源加载耗时P90从800ms降至350ms,支撑双十一峰值58万订单/秒的稳定处理。
  • 推动运维工具链自动化升级,主导开发故障自愈系统(集成Python+Ansible),覆盖服务器宕机重启、日志异常切割、慢SQL自动优化等18类高频操作,日均节省人工干预时间4小时,关键操作自动化率从55%提升至88%。
2020.05 - 2022.06
小楷科技
SRE运维工程师(中级)

聚焦用户增长业务线的稳定性运维,负责微服务架构下的服务治理、监控体系优化及跨团队协作,支撑业务从日均10万UV到500万UV的快速迭代。

  • 优化全链路监控体系,针对用户注册-登录-信息修改流程,通过OpenTelemetry实现跨语言(Java/Go)链路追踪,定位到3个隐藏的慢调用节点(如第三方风控接口耗时占比35%),推动开发侧优化后整体流程耗时下降40%,用户转化率提升2.3%。
  • 建立服务健康度评分模型,基于CPU/内存使用率、GC频率、接口错误率等12项指标,通过机器学习算法动态评估服务状态,提前72小时预警2次数据库连接池泄漏风险,避免P2级故障演变为P1级事故,相关模型被纳入公司SRE标准工具库。
  • 主导容器化迁移项目,将传统部署的200+微服务迁移至K8s集群,设计滚动更新策略与资源配额限制,迁移期间业务可用性保持99.98%;同步优化HPA触发条件,将扩缩容响应时间从5分钟缩短至1分钟,资源成本降低25%。
  • 负责跨团队故障协作流程优化,制定《故障响应SLA手册》,明确开发/测试/运维的责任边界与沟通节点,故障处理会议时长减少60%,跨团队投诉率下降75%。
2018.03 - 2020.04
小楷互联
运维工程师(初级)

承担公司内部管理系统(OA/CRM)及部分业务系统的日常运维,负责服务器管理、版本发布支持及基础故障排查,为向SRE转型积累全栈运维经验。

  • 搭建私有云监控平台(基于Zabbix+ELK),实现200+物理机/虚拟机的CPU、磁盘、网络指标采集与可视化,自定义告警规则50+条,关键系统故障预警准确率从70%提升至90%,获部门“运维效率之星”奖项。
  • 主导MySQL主从集群优化,通过调整binlog格式、优化慢查询(累计优化120+条)、引入读写分离中间件,将主库QPS上限从800提升至1500,支撑CRM系统用户量翻倍增长。
  • 负责版本发布全流程支持,编写自动化部署脚本(Shell+Python)替代人工操作,将单次发布耗时从2小时缩短至20分钟,发布失败率从15%降至3%,获开发团队“最佳协作奖”。
项目经验
2022.05 - 2023.10
星途互娱科技有限公司
运维开发负责人

全球游戏服务端高可用智能运维平台研发

  • 项目背景:公司为拓展东南亚、欧美市场,部署了5个区域的游戏服务端,但原有运维体系依赖人工巡检与单区域脚本,存在跨区域状态同步延迟、故障定位慢、自愈能力弱的痛点,导致MTTR高达45分钟,影响全球用户体验。我的目标是主导构建一套覆盖全区域、支持自动故障感知与修复的智能运维平台,支撑业务的全球化稳定运行。
  • 关键难题:1)跨区域服务状态同步存在秒级延迟,无法实时感知全局异常;2)故障自愈依赖固定规则,对复杂链路问题(如跨区域数据库主从切换引发的缓存雪崩)识别准确率仅60%;3)不同云厂商(AWS、阿里云海外版、腾讯云国际站)的资源编排语法差异大,自动化部署效率低。
  • 核心行动:1)技术选型上,基于Prometheus+Jaeger构建全链路监控体系,自定义12类跨区域聚合指标(如全球请求成功率、区域间延迟分位数),并通过Kafka实现状态数据的秒级同步;2)针对复杂故障,引入XGBoost机器学习模型,基于历史故障日志训练“异常模式识别器”,将故障定位准确率提升至92%;3)采用Terraform+Ansible混合编排框架,抽象出“云无关”的资源模板,实现跨厂商资源的统一部署与变更。
  • 项目成果:平台上线后,支撑了全球120+游戏服务实例的运维,MTTR降至8分钟以内,复杂故障定位时间从2小时缩短至15分钟;资源编排效率提升50%,跨区域部署时间从4小时压缩至1小时内。该平台成为公司全球化运维的核心工具,每年节省运维人力成本约200万元,我个人主导了平台的核心模块(自愈引擎、跨区域监控)设计与落地,输出了3篇运维自动化最佳实践文档。
2020.08 - 2022.03
星途互娱科技有限公司
高级运维开发工程师

游戏大型活动弹性扩缩容系统升级

  • 项目背景:公司年度游戏周年庆活动期间,峰值并发量可达150万QPS,原有手动扩缩容方式依赖运维人员经验判断,常出现“扩早了浪费资源、扩晚了服务宕机”的问题,且不同服务(游戏逻辑服、缓存服、数据库代理)的扩缩容策略不统一。我的目标是重构弹性扩缩容系统,实现活动期间“精准预测、自动调整、策略适配”的目标,保障活动稳定性。
  • 关键难题:1)活动流量具有强突发性(如抽奖环节瞬间峰值),传统阈值触发(如CPU超过80%)滞后10-15分钟;2)不同服务类型的扩缩容指标差异大(如缓存服看命中率,数据库代理看连接数),缺乏统一的策略配置框架;3)扩缩容后需人工验证服务健康度,耗时约30分钟,影响迭代速度。
  • 核心行动:1)数据层:收集近3年活动流量数据,训练LSTM时间序列预测模型,提前10分钟预测流量峰值,准确率达92%;2)策略层:开发“服务类型-指标”映射模板,支持为不同服务配置个性化扩缩容规则(如游戏逻辑服用“在线用户数+消息队列长度”双指标,缓存服用“命中率+内存使用率”);3)流程层:整合Jenkins与Postman,扩缩容后自动触发接口健康检查与压力测试,将验证时间从30分钟缩短至5分钟内。
  • 项目成果:活动期间手动操作量减少80%,服务可用性从99.5%提升至99.95%,未出现因扩缩容不及时导致的宕机;资源利用率提升25%,单场活动节省云服务器成本约80万元。该系统成为公司大型活动的标准运维工具,我个人负责了模型调优与服务策略模板的开发,推动团队从“被动救火”转向“主动预防”。
技能特长
沟通能力
执行能力
热情坦诚
文案能力
兴趣爱好
摄影
看书
阅读
跑步
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明