当前模板已根据「云平台运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
昨天的经验是今天的基石,而今天的突破将成为明天的标准。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
云平台运维工程师
北京
薪资面谈
三个月内到岗
工作经历
2023.07 - 至今
小楷云链科技有限公司
云平台运维工程师

主导公有云(阿里云+腾讯云混合部署)平台稳定性运营、资源效能优化及自动化运维体系落地,对接电商、金融两条业务线的云服务需求,保障核心交易链路99.99%可用性

  • 大促期间主导核心交易链路稳定性保障:针对电商业务双11流量洪峰(预估QPS峰值12万),提前30天用阿里云ARMS、腾讯云CLB做全链路压测,发现某核心订单服务因RDS MySQL连接池参数不合理导致偶发耗尽——通过分析慢查询日志(pt-query-digest工具),调整`wait_timeout`至300秒并新增联合索引,同时用Chaos Mesh注入“数据库连接超时”故障演练,验证熔断机制有效性;大促期间该服务响应时间从200ms降至120ms,零故障支撑1.2亿订单量。
  • 资源利用率优化项目:针对闲置ECS实例(月均闲置率15%)和冗余OSS存储(冷数据占比20%),开发Python脚本结合阿里云成本管家、腾讯云费用中心做资源画像,分类标注“连续7天CPU利用率<10%”的实例,推动业务团队迁移至弹性伸缩组(AS)并绑定Spot实例;最终年度云成本下降18%,闲置资源率降至3%,释放成本约240万元。
  • 自动化资源编排体系搭建:替代手动创建云资源的低效流程,基于Terraform+Ansible构建“环境-资源”联动编排框架——用Terraform Workspaces管理开发/测试/生产环境变量,Ansible Vault加密敏感信息(如AK/SK),并将资源创建流程嵌入Jenkins Pipeline;实现EC2实例、RDS数据库、SLB负载均衡的全自动化交付,资源交付时间从4小时缩短至15分钟,人为配置错误率从8%降至0.5%。
  • 云原生迁移推动:主导 legacy 电商库存系统从虚拟机迁移至阿里云ACK容器集群——解决应用依赖特定Linux内核模块(`kernel-headers-3.10.0`)的兼容性问题,协同研发重构镜像为多阶段构建(Multi-stage Build),移除冗余依赖;迁移后部署密度提升3倍(单节点承载Pod从5个到15个),资源利用率从40%升至65%,发布频率从每周1次提升至每日3次。
2021.03 - 2023.06
小楷互联科技有限公司
高级云运维工程师

负责私有云(OpenStack)与公有云(华为云)混合云平台运维,支撑短视频业务的存储、计算及内容分发需求,保障视频上传-转码-播放全流程99.995%可用性

  • 混合云网络性能优化:针对跨云(华为云OBS存储→阿里云CDN分发)的视频转码任务延迟高问题(原500ms),用iperf3测试链路带宽,发现VPC peering路由策略冗余——调整路由表将转码流量定向至华为云高速通道,同时开启BGP Anycast优化;最终跨云API调用延迟降至150ms,单条视频转码完成时间缩短25%,支撑日均1000万条视频处理。
  • OpenStack存储稳定性修复:解决Cinder卷挂载失败问题(月均3次),分析GlusterFS后端日志发现副本同步超时——升级GlusterFS至v10.8,调整副本数从2到3并启用`gluster volume heal`自动修复,同时用Prometheus+Grafana搭建存储监控看板(采集`gluster_volume_status`等指标),设置“卷挂载失败率>0.1%”告警;后续卷挂载失败率降至0,存储可用性提升至99.995%。
  • 自动化故障诊断工具开发:针对OpenStack实例启动失败(常见原因:镜像损坏、资源配额不足),用Python+OpenStack SDK开发工具,整合ELK Stack日志收集与Ceilometer指标分析——自动提取“ImageNotFound”“QuotaExceeded”等关键字,输出故障根因报告;故障排查时间从1小时缩短至15分钟,运维效率提升70%。
  • 公有云存储成本管控:针对华为云OBS冗余数据问题(冷视频缩略图占比18%),启用OBS生命周期管理(Lifecycle Management),将30天以上数据自动归档至低频存储(Infrequent Access),并协同研发优化缩略图生成策略(从“每日全量生成”改为“用户请求时按需生成”);最终OBS存储成本下降22%,年节省约80万元。
2019.07 - 2021.02
小楷在线科技有限公司
云运维工程师

负责电商业务公有云(AWS)平台日常运维,支撑商品详情页、购物车等核心系统7x24小时运行,保障大促期间系统吞吐量满足业务增长需求

  • 大促故障应急处理:某次AWS us-east-1区域EC2实例大规模重启(因底层主机硬件故障),快速触发Auto Scaling Group自动替换实例,同时通过Route53将流量切换至us-west-2备用区域;配合研发团队切换缓存集群(从Memcached到ElastiCache),故障恢复时间控制在30分钟内,未影响用户访问,订单成功率保持在99.9%以上。
  • 监控体系从0到1搭建:基于CloudWatch+X-Ray构建核心系统监控体系——采集CPU、内存、磁盘IO及接口响应时间(如商品详情页`GET /item/{id}`)等20+指标,设置“CPU利用率>80%”触发ASG扩容、“接口延迟>500ms”触发告警;系统预警准确率提升至95%,提前发现并解决3起因数据库慢查询导致的性能瓶颈。
  • 自动化备份脚本开发:替代人工RDS备份流程,编写Shell脚本结合AWS S3做增量备份——利用`mysqldump`导出逻辑备份,上传至S3并设置“7天滚动删除”策略;备份成功率从90%升至100%,恢复时间从2小时缩短至30分钟,满足RPO<15分钟的业务要求。
  • 大促容量规划与优化:支撑618大促上线,用AWS Compute Optimizer分析历史负载,将通用型实例(t3.large)替换为计算优化型(c5.large),提升单实例QPS 40%;同时开启RDS只读副本分担读流量,大促期间系统吞吐量提升40%,商品详情页响应时间稳定在300ms以内。
项目经验
2022.05 - 2023.10
星途互娱
运维开发负责人

文娱业务低延迟高可用运维平台研发及规模化落地

  • 项目背景:公司文娱业务(直播、长视频、会员系统)用户量年增长40%,现有运维体系存在工具碎片化(分散的监控、配置、自动化工具)、故障排查耗时(平均45分钟/次)、资源成本超支(年度服务器成本占比营收18%)等痛点。核心目标是构建统一运维平台,实现“高可用保障、低延迟监控、自动化运维”,支撑业务快速迭代。我作为运维开发负责人,主导平台整体设计、跨团队需求对齐及落地推进。
  • 关键难题与技术方案:a) 多环境配置一致性难——传统手动配置易出错;b) 直播流低延迟监控缺失——传统Prometheus 60秒采集间隔无法满足端到端≤500ms延迟的实时追踪;c) 故障自愈覆盖不足——高频问题(如Pod重启、数据库连接池耗尽)仍需人工干预。针对性方案:采用Terraform+Ansible组合实现配置代码化;自研直播流延迟Exporter,整合CDN日志、应用埋点及网络探针数据,将采集间隔缩短至10秒;基于Python开发20+高频故障自愈剧本,联动告警系统自动修复。
  • 核心行动与创新:牵头组织研发、产品、运营3轮痛点调研,输出《运维痛点清单》及需求文档;设计“配置管理-监控告警-自动化运维-成本分析”微服务架构(Spring Cloud);带领5人团队完成Exporter开发、Terraform模板编写及自愈剧本调试;推动预发环境1个月灰度验证,再逐步推广至生产核心业务。
  • 项目成果与价值:平台上线6个月覆盖80%核心业务,故障排查时间降至8分钟内,自动化率从35%提升至75%;年度服务器成本降低22%(约节省1200万元),支撑“暑期直播季”零重大故障,用户观看延迟降低15%。我个人主导的平台架构获公司“年度技术创新奖”,成为新业务运维标准底座。
2020.08 - 2022.03
星途互娱
运维开发核心成员

短视频核心服务容器化迁移与弹性伸缩体系搭建

  • 项目背景:公司短视频业务爆发(月活从1亿增至3亿),传统虚拟机部署存在资源利用率低(30%)、扩容慢(15分钟/次)、交付周期长(每周2个服务)等问题。核心目标是将feed流、视频上传等核心服务迁移至Kubernetes,构建弹性伸缩体系。我作为运维开发核心成员,负责容器化适配、弹性策略设计及迁移落地。
  • 关键难题与技术方案:a) 老服务(Spring Boot 1.x)依赖本地文件系统及固定IP,迁移后服务发现失败、日志丢失;b) 流量波动大(热点事件QPS暴涨5倍),传统CPU指标HPA无法满足快速扩容;c) 迁移需保障业务连续性。解决方案:用Helm打包服务,定制化NFS解决文件依赖,通过Istio实现服务发现;构建多维度弹性指标(QPS+延迟+错误率+CPU),自定义HPA策略将扩容阈值从“CPU≥70%”调整为“QPS≥1万且延迟≥2秒”;制定“灰度迁移+回滚预案”,开发迁移状态监控面板。
  • 核心行动与创新:对12个核心服务做容器化评估,输出《迁移可行性报告》及“先易后难”路线图;开发自动化工具将虚拟机配置转为K8s YAML,减少人工错误;压测验证伸缩效果,调整指标权重;推动研发优化代码(增加缓存、减少DB连接)提升容器性能。
  • 项目成果与价值:3个月完成12个服务迁移,资源利用率从30%升至65%,扩容时间降至2分钟内;支撑峰值QPS从5万提至20万,无扩容故障;运维人力成本降低40%(原3人部署现1人自动化完成)。该弹性体系成为公司K8s集群标准配置,后续新服务默认采用。
技能特长
沟通能力
执行能力
热情坦诚
文案能力
自我评价
  • 深耕互联网云运维,以业务连续性为核心搭高可用体系,习惯从用户端体验反推策略,提前布局容灾弹性,避免被动救火。
  • 擅长数据驱动资源优化,从利用率到成本形成闭环,锚定业务增长平衡性能投入,让云资源支撑更多核心场景。
  • 故障处理不止恢复,更沉淀根因分析与流程改进机制,推动跨团队建故障预防共识,把单点问题转组织能力迭代。
  • 跨团队用业务语言解码技术约束,让产品开发快速理解运维边界,共定支撑业务目标的方案,降沟通成本。
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明