当前模板已根据「云平台运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
在平凡的岗位上创造不平凡的价值,这是我的职业信仰。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
云平台运维工程师
北京
薪资面谈
三个月内到岗
工作经历
2023.07 - 2025.06
小楷智云
云平台运维工程师

负责公司公有云(阿里云、腾讯云)与私有云(OpenStack)混合架构全生命周期运维,主导自动化运维体系搭建、容量规划及99.99% SLA保障,支撑电商大促、金融交易等核心业务稳定运行。

  • 主导设计混合云资源管理平台,基于Terraform实现IaC(基础设施即代码)标准化,结合Ansible完成2000+云资源(ECS、CLB、RDS)的自动化编排与配置校验,解决多环境(开发/测试/生产)配置漂移问题,资源交付周期从48小时压缩至2小时,资源利用率从42%提升至77%(通过云厂商账单分析与资源水位监控验证)。
  • 搭建Prometheus+Grafana全链路监控体系,集成云厂商API、Kubernetes Metrics Server及自定义业务指标(如订单成功率、支付耗时),设计分级告警规则(P0-P4)并对接企业微信/电话告警,Q2季度故障定位时间从25分钟缩短至8分钟,全年因云平台问题导致的P0级故障次数同比下降60%(对比2023年同期数据)。
  • 推动Kubernetes集群性能优化,针对双11流量峰值(较日常5倍)场景,调整调度策略(引入节点亲和性、污点容忍度)并启用Cluster Autoscaler动态扩缩容,配合HPA基于QPS自动调整Pod副本数,集群CPU平均利用率从35%提升至68%,支撑单日1.2亿订单交易无超时报错,稳定性达99.995%。
  • 牵头容量规划项目,通过分析近12个月业务增长曲线(DAU月均增15%)与云资源消耗模型,预测2024年Q4需扩容300台ECS实例及50TB块存储,提前协调云厂商预留资源并优化采购策略(混合使用按需实例与抢占式实例),较原预算节省28%(约450万元)。
2021.08 - 2023.06
小楷互联
高级云平台运维工程师

负责公司核心业务云平台(AWS、华为云)高可用架构设计与运维,主导跨云容灾方案落地及年度成本优化,保障金融级业务99.99%可用性与成本可控。

  • 主导AWS中国区向华为云迁移项目,采用CloudEndure实现200+业务实例(含MySQL、Redis)的增量同步,结合自定义Python脚本完成网络配置(VPC peering、安全组规则)迁移,迁移窗口期业务中断时间控制在15分钟内,迁移后资源成本降低22%(月均节省120万元),SLA从99.9%提升至99.95%(通过第三方拨测验证)。
  • 构建FinOps成本管控体系,基于AWS Cost Explorer与自研账单分析工具(Go语言开发),识别冗余EC2实例(占比18%)与S3冷数据(占比30%),推动开发团队优化Docker镜像(平均体积从2GB缩减至1.2GB)及调整存储类型(高频数据转低频访问),年度云成本节省180万元,成本优化率15%(写入公司年度降本报告)。
  • 优化云安全防护体系,部署阿里云WAF+威胁情报平台,定制120条安全规则拦截SQL注入、XSS攻击,结合云防火墙封禁恶意IP段(日均阻断攻击尝试5万+次),全年未发生因云安全漏洞导致的业务中断,安全事件数量同比下降75%(对比2021年)。
  • 设计跨云容灾方案,通过华为云DRS实现MySQL主从实时同步,定期执行故障切换演练(季度级),验证RPO≤5分钟、RTO≤30分钟,满足金融行业监管要求(通过等保三级测评)。
2019.07 - 2021.07
小楷在线
云平台运维工程师

负责公司初期云平台(阿里云)基础运维,保障测试/生产环境稳定,参与自动化工具链搭建,支撑电商业务从0到1落地。

  • 搭建阿里云ECS+RDS+OSS基础架构,编写Shell脚本实现每日数据库全量+增量备份(保留7天)及OSS日志自动转冷(30天后转归档存储),全年数据丢失风险为0,存储成本降低30%(对比人工管理时期)。
  • 推动测试环境容器化改造,基于Docker Compose+Jenkins实现测试环境快速创建(4小时内完成从0到N套环境部署),替代传统虚拟机(单环境创建需1天),团队研发迭代效率提升25%(PMO统计)。
  • 建立云平台操作规范,制定《云资源申请审批SOP》(含资源命名、标签规范)与《云故障应急手册》(覆盖ECS宕机、RDS主备切换等场景),组织季度应急演练,人为操作失误导致的故障次数从每月3次降至0.5次以内。
  • 优化日志分析流程,部署ELK Stack(Elasticsearch+Logstash+Kibana)收集应用日志与云审计日志,通过Kibana仪表盘监控接口错误率(目标<0.1%),Q4季度接口异常发现时效从2小时缩短至5分钟,助力业务故障修复效率提升40%。
项目经验
2022.03 - 2023.08
星途互娱科技有限公司
运维开发负责人

混合云环境下智能运维平台重构项目

  • 项目背景:随着公司游戏业务全球化扩张,混合云(阿里云、腾讯云、AWS)资源规模突破10万+实例,原有运维平台存在跨云资源割裂、故障定位依赖人工、操作效率低等问题,导致核心游戏版本发布耗时超24小时,故障MTTR(平均修复时间)达45分钟。我的核心目标是主导重构平台,实现跨云资源统一管控与智能故障诊断,支撑业务快速迭代与稳定性保障。
  • 解决的关键难题与技术:一是跨云资源统一建模——不同云厂商API协议、资源属性差异大,数据同步延迟高;二是智能故障诊断——原有规则引擎仅覆盖30%常见故障,误报率达35%,无法识别复杂链路问题。针对前者,我设计了“抽象资源模型+云原生适配器”方案,将EC2、CVM、ECS等资源映射为统一的“计算/存储/网络”维度模型,通过自研云API网关实现协议转换(RESTful→gRPC),结合Kafka异步队列解决数据同步一致性问题;针对后者,我推动引入AIOps能力,收集metrics(Prometheus)、logs(ELK)、traces(Jaeger)多维度数据,训练“XGBoost+LSTM”混合模型,实现故障根因定位(RCA)与异常预测。
  • 核心行动与创新:牵头组建5人跨团队小组(云原生、算法、前端),历时6个月完成平台架构升级——底层采用微服务架构(Spring Cloud Alibaba),中间层封装跨云操作原子能力,上层提供“可视化管控+智能诊断”界面。创新点在于:1)轻量级机器学习推理框架集成,将模型推理延迟从1.2秒降至200ms,适配运维实时性要求;2)基于拓扑关系的故障传播链可视化,帮助运维人员快速理解故障影响范围。此外,我主导制定了《混合云运维操作规范》,将平台使用纳入团队SOP。
  • 项目成果与价值:平台上线后,跨云资源操作效率提升60%(单实例创建耗时从5分钟降至2分钟),故障MTTR缩短至8分钟,版本发布耗时压缩至12小时内。支撑了《星途纪元》全球多区域同步上线(覆盖15个国家和地区),期间未发生因运维问题导致的宕机。该平台成为公司混合云运维核心系统,节省年度运维人力成本约30%(约120万元)。我个人也因此晋升为运维开发团队负责人,负责后续平台迭代。
2020.06 - 2022.02
星途互娱科技有限公司
运维开发工程师

直播业务边缘节点自动化运维工具链研发项目

  • 项目背景:公司直播业务峰值并发超100万,边缘节点(覆盖全国31省CDN节点)从500个扩展至2000个,原有手动运维方式导致部署失败率高(75%)、故障处理滞后(30分钟内响应)。我的目标是构建边缘节点自动化运维工具链,实现“部署-监控-自愈”全流程闭环,保障直播低延迟与稳定性。
  • 解决的关键难题与技术:一是边缘节点网络不稳定,自动化部署成功率低;二是监控数据量大(单节点日均产生5GB日志),实时分析能力不足。针对前者,我基于Ansible Tower优化部署流程,开发自定义模块实现“断点续传+三次重试”机制,解决弱网环境下的包丢失问题;针对后者,采用Prometheus联邦采集边缘metrics,结合EdgeX Foundry搭建边缘数据 gateway,用Flink实现实时流处理(窗口聚合、异常检测),将数据处理延迟从10分钟降至1分钟。
  • 核心行动与创新:独立负责工具链需求调研与架构设计,梳理出“部署-配置-监控-故障处理”四大核心模块。创新点在于:1)轻量化边缘监控agent(体积<50MB),支持低资源环境运行;2)基于规则引擎+机器学习的故障自愈策略——常见故障(如进程重启、配置更新)自动处理,复杂故障触发告警并推送至移动端。此外,我编写了《边缘节点运维手册》,培训10名运维人员掌握工具使用。
  • 项目成果与价值:工具链上线后,边缘节点部署成功率提升至98%,故障处理时间缩短至5分钟内,直播卡顿率从8%降至2%。支撑了公司直播业务全年无重大故障,节省边缘运维人力成本约25%(约80万元)。该项目让我从“执行型运维”转向“方案设计型运维”,积累了边缘计算运维的核心经验,为后续混合云项目奠定了基础。
技能特长
沟通能力
执行能力
热情坦诚
文案能力
奖项荣誉
  • 信息系统运维管理工程师(高级)
  • 2023年度公司云平台项目攻坚奖
  • 2024年第一季度运维服务质量之星
自我评价
  • 以业务链路为核心构建云运维体系,从用户端到基础设施全链路预判风险,而非被动救火,保障核心服务99.99%可用。
  • 擅长从资源效能、架构冗余切入降本,曾重构实例规格与调度策略,助力云成本下降20%,支撑业务高速扩张。
  • 适配互联网敏捷需求,搭建自动化故障排查与回滚流程,将关键故障MTTR压至15分钟内,匹配研发迭代节奏。
  • 习惯用业务语言翻译运维要求,比如将“数据库QPS上限”转为“大促订单提交成功率保障”,推动跨团队目标对齐。
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明