当前模板已根据「DevOps工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
用系统化的思维解决问题,用温度化的方式交付成果,这是我的工作准则。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
DevOps工程师
宁波
薪资面谈
一周内到岗
工作经历
2023.07 - 2025.06
小楷电商科技有限公司
DevOps工程师

负责电商平台核心交易链路(商品下单→支付→履约)的全生命周期DevOps体系建设,联动开发、测试团队推动流程自动化与高可用优化,支撑双11等大促场景的稳定交付与故障快速恢复,边界覆盖从需求提测到线上运维的全流程闭环。

  • 主导设计基于GitLab CI+Argo CD的双流水线交付体系,针对大促期间“构建慢、发布易失败”的痛点,拆分Spring Boot应用的基础镜像预编译(Dockerfile分层优化,缓存Maven依赖至Nexus私有仓库)与代码增量打包环节,将全量构建时间从45分钟压缩至12分钟;通过Argo CD ApplicationSet实现多环境(测试/预发/生产)的滚动发布,引入蓝绿部署策略降低流量切换风险,发布失败率从8%降至1.5%,支撑双11期间200+次紧急迭代需求,保障交易链路零发布事故。
  • 搭建基于Prometheus+Grafana+Jaeger的全链路可观测体系,整合订单、支付、库存服务的Metrics(QPS、延迟、错误率)、Logs(业务异常栈)与Traces(调用链路),自定义告警规则(如下单接口QPS下跌30%触发钉钉+短信双渠道告警);结合混沌工程工具Chaos Mesh模拟数据库主节点宕机、Redis缓存击穿场景,验证告警有效性并将故障定位时间从40分钟缩短至10分钟内,双11期间未发生因监控漏报导致的线上故障。
  • 推动核心交易服务从传统虚拟机向Kubernetes(Rancher管理)容器化迁移,基于服务SLA设计资源配额(如订单服务CPU Limits设为4核、Memory设为8Gi),结合HPA实现基于CPU利用率的自动扩缩容;大促期间交易实例数从固定20台动态扩展至80台,资源利用率从35%提升至65%,年节省云服务器成本约20万元。
  • 建立DevOps文化落地机制,每周组织跨团队交付复盘会,推动“左移测试”实践——开发阶段集成SonarQube代码扫描(阻断圈复杂度>10的代码合并),测试阶段接入自动化冒烟测试(基于Selenium编写核心流程用例);将代码缺陷率从每千行12个降至5个,测试环境准备时间从3天缩短至8小时,团队交付效率提升40%。
2021.03 - 2023.06
小楷互联网服务有限公司
DevOps工程师

负责公司内部管理系统(OA、CRM)的DevOps流程搭建,推动自动化部署与监控覆盖,解决多环境配置不一致、故障定位慢等问题,保障系统稳定支撑2000+员工的日常办公需求。

  • 核心参与搭建基于Jenkins+Ansible的自动化部署体系,针对CRM系统“手动部署易出错”的问题,编写参数化Pipeline脚本集成单元测试(JUnit)与代码扫描(SonarQube),通过Ansible Tower动态注入不同环境的配置文件(如数据库连接串),将部署流程从“拉代码→改配置→传服务器→重启”转变为全自动化,单次部署时间从2小时缩短至15分钟,人工错误率从10%降至1%,全年减少部署故障12次。
  • 设计基于ELK Stack的日志分析系统,收集OA系统用户行为日志(如表单提交路径)与应用日志(如Spring事务异常),通过Logstash解析关键字段并在Kibana搭建可视化Dashboard;曾快速定位“用户提交报销单失败”问题——根源是Redis缓存过期导致会话丢失,将问题解决时间从2小时缩短至30分钟,提升员工办公体验。
  • 优化MySQL数据库备份策略,采用Percona XtraBackup进行物理全量备份,结合Rsync同步至异地机房,制定“每日全量+每小时增量”备份计划;将RTO(恢复时间目标)从4小时缩短至1.5小时,RPO(恢复点目标)从15分钟缩短至5分钟,全年未发生数据丢失事故。
  • 推动团队采用IaC实践,用Terraform管理测试环境的阿里云资源(EC2实例、VPC、安全组),编写模块化配置文件实现环境一键创建/销毁;测试环境搭建时间从1天缩短至2小时,降低环境管理复杂度,支撑开发团队并行测试需求。
2019.07 - 2021.02
小楷软件技术有限公司
系统运维工程师

负责公司官网与内部文档系统的日常运维,保障系统可用性与性能,逐步引入自动化工具替代重复劳动,为后续DevOps转型奠定基础。

  • 负责官网运维时,针对“访问延迟高、故障定位慢”问题,用MTR工具分析网络链路,发现是CDN节点缓存失效导致静态资源加载慢;推动静态资源从服务器迁移至阿里云OSS,结合CDN全球节点加速,静态资源平均加载时间从2.5秒降至0.8秒,页面首屏打开速度提升68%,SEO自然流量增长8%,用户留存率提高5%。
  • 编写Shell脚本实现日志定期归档——每天凌晨将前一天访问日志上传至OSS,删除30天前的旧日志,将服务器磁盘空间占用从80%降至40%,避免因磁盘满导致的系统崩溃,全年减少运维报警次数20+次。
  • 参与官网重构项目,负责后端服务从传统IDC迁移至阿里云ECS;编写迁移方案,通过mysqldump同步数据库、验证接口连通性与数据一致性,确保迁移过程业务无中断,迁移成功率100%,支撑官网从PHP向Java的技术栈升级。
  • 搭建基础监控体系,用UptimeRobot监控官网可用性(每5分钟探测一次),设置阈值告警(如响应时间超过2秒触发邮件);将网站故障发现时间从30分钟缩短至5分钟,保障用户访问体验。
项目经验
2022.03 - 2023.10
星途互动科技有限公司
运维开发工程师(资深)

分布式链路追踪系统深度优化与全链路成本管控项目

  • 项目背景:随着公司直播电商业务日活突破500万,原有基于Elasticsearch的链路追踪系统出现严重性能瓶颈——全链路查询延迟超8秒,月存储成本高达120万元,且因数据冗余导致故障定位成功率仅65%。我的核心目标是重构系统性能底座,建立科学的数据生命周期管理机制,支撑业务侧“秒级排障”的需求。
  • 关键难题与技术:1)原有ES集群因无序写入和索引膨胀导致查询慢,传统分库分表无法解决海量时序数据的检索效率问题;2)数据保留策略一刀切(全存30天),无效数据占比达40%;3)多业务线标签体系混乱(如“用户ID”“商品ID”命名不统一),导致过滤条件命中率低。我选择ClickHouse作为冷热数据存储引擎(适配链路数据的列式存储与批量查询特性),结合Flink实现实时数据路由,同时引入“业务优先级+流量特征”的动态标签标准化方案。
  • 核心行动与创新:1)主导设计“热数据(7天)存ClickHouse、冷数据(30天+)存OSS”的分层架构,用Flink根据请求频率(QPS≥1000的接口)和错误率(≥5%的链路)自动打标,将高价值数据留存热层,低价值数据归档冷层;2)优化ClickHouse索引策略,针对“traceID”“serviceName”“userId”等高频查询字段建立跳数索引,同时合并冗余的tag字段(如将“appVersion”“clientId”整合为“clientInfo”复合标签);3)推动研发侧统一标签规范,新增“businessPriority”(业务优先级)标签,支持动态过滤低优先级链路(如测试环境的灰度请求)。
  • 项目成果与价值:1)链路查询延迟从8秒降至1.2秒,故障定位成功率提升至92%;2)月存储成本从120万元降至42万元(降低65%);3)支撑双11大促期间10万+并发链路的实时排查,未发生因追踪系统延迟导致的客诉;4)输出《分布式链路追踪系统数据管理规范》,成为公司全产品线的标准方案,我个人也因此晋升为运维开发组技术负责人。
2020.06 - 2022.02
星途互动科技有限公司
高级运维开发工程师

容器化微服务集群全自动化运维平台研发项目

  • 项目背景:公司从传统虚拟机部署全面转向Kubernetes,但初期依赖脚本和零散工具(如kubectl、Helm),存在“部署靠人工核对配置”“故障需手动排查”“扩容响应慢”等问题——单次微服务部署耗时超2小时,故障恢复平均30分钟,支撑不了业务快速迭代的需求。我的目标是构建“部署-监控-自愈”一体化的自动化平台,将运维从“救火”转向“预防”。
  • 关键难题与技术:1)多环境(开发/测试/预发/生产)的配置差异大,容易出现“测试通过、生产报错”的问题;2)故障自愈依赖固定规则(如CPU≥80%重启Pod),无法处理复杂场景(如数据库连接池泄漏导致的偶发错误);3)需与现有监控系统(Prometheus)、日志系统(ELK)打通,实现告警事件的自动流转。我选择K8s CRD(自定义资源定义)扩展平台能力,结合Ansible做配置管理,用随机森林算法训练故障预测模型。
  • 核心行动与创新:1)设计“业务应用”CRD,封装部署所需的镜像、资源配置、环境变量等信息,通过模板引擎动态渲染多环境配置(如生产环境副本数是开发的2倍),实现“一次定义、多环境部署”;2)搭建故障知识库,收集过去1年的故障案例(如“MySQL慢查询导致API超时”“Redis缓存击穿”),提取特征(如QPS波动、错误日志关键词)训练随机森林模型,提前15分钟预警潜在故障;3)与监控团队合作,打通Prometheus Alertmanager,将告警事件映射为平台自愈动作(如“CPU高”触发扩容、“错误率超5%”触发Pod重启),并通过Webhook通知研发侧。
  • 项目成果与价值:1)微服务部署效率提升70%(单次部署≤20分钟),配置错误率从15%降至2%;2)故障恢复时间从30分钟缩短至5分钟内,全年减少因运维延迟导致的营收损失约200万元;3)平台支持500+个微服务实例的自动化运维,运维人力投入降低30%(从8人减至5人);4、平台成为公司核心运维工具,我也因此获得当年“公司技术创新奖”。
自我评价
  • 深耕互联网DevOps领域,专注交付链路全流程优化,习惯从业务视角预判发布瓶颈,推动流程重组缩短关键路径周期。
  • 擅长跨研发、运维、测试团队目标对齐,通过技术文档+轻量工作坊翻译“技术语言”为“业务语言”,提升共识落地效率。
  • 主导CI/CD工具链定制化落地,不盲从通用方案,始终以“匹配业务迭代节奏”为核心选型优化,支撑多线快速试错。
  • 稳定性保障从被动响应转向主动预防,通过可观测性数据建模识别风险,推动建立前置化容量与故障演练机制。
兴趣爱好
摄影
看书
阅读
跑步
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明