当前模板已根据「云平台运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
用系统化的思维解决问题,用温度化的方式交付成果,这是我的工作准则。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
云平台运维工程师
北京
薪资面谈
到岗时间另议
工作经历
2023.07 - 至今
小楷云链科技有限公司
云平台运维工程师

主导公有云(阿里云+腾讯云混合部署)平台稳定性运营、资源效能优化及自动化运维体系落地,对接电商、金融两条业务线的云服务需求,保障核心交易链路99.99%可用性

  • 大促期间主导核心交易链路稳定性保障:针对电商业务双11流量洪峰(预估QPS峰值12万),提前30天用阿里云ARMS、腾讯云CLB做全链路压测,发现某核心订单服务因RDS MySQL连接池参数不合理导致偶发耗尽——通过分析慢查询日志(pt-query-digest工具),调整`wait_timeout`至300秒并新增联合索引,同时用Chaos Mesh注入“数据库连接超时”故障演练,验证熔断机制有效性;大促期间该服务响应时间从200ms降至120ms,零故障支撑1.2亿订单量。
  • 资源利用率优化项目:针对闲置ECS实例(月均闲置率15%)和冗余OSS存储(冷数据占比20%),开发Python脚本结合阿里云成本管家、腾讯云费用中心做资源画像,分类标注“连续7天CPU利用率<10%”的实例,推动业务团队迁移至弹性伸缩组(AS)并绑定Spot实例;最终年度云成本下降18%,闲置资源率降至3%,释放成本约240万元。
  • 自动化资源编排体系搭建:替代手动创建云资源的低效流程,基于Terraform+Ansible构建“环境-资源”联动编排框架——用Terraform Workspaces管理开发/测试/生产环境变量,Ansible Vault加密敏感信息(如AK/SK),并将资源创建流程嵌入Jenkins Pipeline;实现EC2实例、RDS数据库、SLB负载均衡的全自动化交付,资源交付时间从4小时缩短至15分钟,人为配置错误率从8%降至0.5%。
  • 云原生迁移推动:主导 legacy 电商库存系统从虚拟机迁移至阿里云ACK容器集群——解决应用依赖特定Linux内核模块(`kernel-headers-3.10.0`)的兼容性问题,协同研发重构镜像为多阶段构建(Multi-stage Build),移除冗余依赖;迁移后部署密度提升3倍(单节点承载Pod从5个到15个),资源利用率从40%升至65%,发布频率从每周1次提升至每日3次。
2021.03 - 2023.06
小楷互联科技有限公司
高级云运维工程师

负责私有云(OpenStack)与公有云(华为云)混合云平台运维,支撑短视频业务的存储、计算及内容分发需求,保障视频上传-转码-播放全流程99.995%可用性

  • 混合云网络性能优化:针对跨云(华为云OBS存储→阿里云CDN分发)的视频转码任务延迟高问题(原500ms),用iperf3测试链路带宽,发现VPC peering路由策略冗余——调整路由表将转码流量定向至华为云高速通道,同时开启BGP Anycast优化;最终跨云API调用延迟降至150ms,单条视频转码完成时间缩短25%,支撑日均1000万条视频处理。
  • OpenStack存储稳定性修复:解决Cinder卷挂载失败问题(月均3次),分析GlusterFS后端日志发现副本同步超时——升级GlusterFS至v10.8,调整副本数从2到3并启用`gluster volume heal`自动修复,同时用Prometheus+Grafana搭建存储监控看板(采集`gluster_volume_status`等指标),设置“卷挂载失败率>0.1%”告警;后续卷挂载失败率降至0,存储可用性提升至99.995%。
  • 自动化故障诊断工具开发:针对OpenStack实例启动失败(常见原因:镜像损坏、资源配额不足),用Python+OpenStack SDK开发工具,整合ELK Stack日志收集与Ceilometer指标分析——自动提取“ImageNotFound”“QuotaExceeded”等关键字,输出故障根因报告;故障排查时间从1小时缩短至15分钟,运维效率提升70%。
  • 公有云存储成本管控:针对华为云OBS冗余数据问题(冷视频缩略图占比18%),启用OBS生命周期管理(Lifecycle Management),将30天以上数据自动归档至低频存储(Infrequent Access),并协同研发优化缩略图生成策略(从“每日全量生成”改为“用户请求时按需生成”);最终OBS存储成本下降22%,年节省约80万元。
2019.07 - 2021.02
小楷在线科技有限公司
云运维工程师

负责电商业务公有云(AWS)平台日常运维,支撑商品详情页、购物车等核心系统7x24小时运行,保障大促期间系统吞吐量满足业务增长需求

  • 大促故障应急处理:某次AWS us-east-1区域EC2实例大规模重启(因底层主机硬件故障),快速触发Auto Scaling Group自动替换实例,同时通过Route53将流量切换至us-west-2备用区域;配合研发团队切换缓存集群(从Memcached到ElastiCache),故障恢复时间控制在30分钟内,未影响用户访问,订单成功率保持在99.9%以上。
  • 监控体系从0到1搭建:基于CloudWatch+X-Ray构建核心系统监控体系——采集CPU、内存、磁盘IO及接口响应时间(如商品详情页`GET /item/{id}`)等20+指标,设置“CPU利用率>80%”触发ASG扩容、“接口延迟>500ms”触发告警;系统预警准确率提升至95%,提前发现并解决3起因数据库慢查询导致的性能瓶颈。
  • 自动化备份脚本开发:替代人工RDS备份流程,编写Shell脚本结合AWS S3做增量备份——利用`mysqldump`导出逻辑备份,上传至S3并设置“7天滚动删除”策略;备份成功率从90%升至100%,恢复时间从2小时缩短至30分钟,满足RPO<15分钟的业务要求。
  • 大促容量规划与优化:支撑618大促上线,用AWS Compute Optimizer分析历史负载,将通用型实例(t3.large)替换为计算优化型(c5.large),提升单实例QPS 40%;同时开启RDS只读副本分担读流量,大促期间系统吞吐量提升40%,商品详情页响应时间稳定在300ms以内。
项目经验
2022.03 - 2023.10
星途互娱(专注互联网文娱场景的直播与互动内容平台)
运维开发负责人

星途直播平台全链路可观测体系重构与智能化升级项目

  • 星途直播作为公司核心业务,承载1.2亿月活用户,原可观测体系存在“分散化”痛点——Metrics用Prometheus但无统一规范、Logs依赖ELK检索慢、Traces未打通跨服务链路,导致故障MTTR平均12分钟,严重影响用户体验。我的核心目标是主导重构覆盖Metrics、Logs、Traces的全链路可观测体系,将MTTR降低至5分钟内,同时支撑业务快速排查问题。
  • 项目遇到三大关键挑战:1)跨50+微服务的链路追踪一致性差,TraceID传递无统一协议导致链路断裂;2)高Cardinality指标(如用户ID、直播间ID)导致Prometheus存储成本月均增长25%;3)Logs与Traces/Metrics无关联,排查时需手动匹配多系统数据,效率极低。我选择基于OpenTelemetry构建统一观测底座,用Thanos解决长期存储与查询性能,用Loki替代ELK实现日志标签化索引。
  • 我的核心行动包括:1)牵头成立“可观测专项组”,联合研发、产品制定《OpenTelemetry接入规范》,改造12个核心服务SDK,强制注入TraceID并打通跨系统传递,解决链路断裂问题;2)设计“指标分层体系”——将指标分为基础资源、服务性能、业务转化三层,对高基数指标采用“哈希降维+定期聚合”策略,配合Thanos压缩存储,将Prometheus存储成本降低40%;3)整合Grafana搭建“故障排查一站式Dashboard”,联动Traces拓扑、Metrics趋势、带TraceID的Logs详情,实现“点击链路节点即可看关联日志与指标”。
  • 项目成果显著:1)MTTR从12分钟降至2分40秒,故障定位效率提升76%;2)可观测覆盖度从60%提升至95%,所有核心服务、数据库、中间件均纳入监控;3)存储成本年降约35万元,同时支撑了“暑期直播节”等大型活动0级故障;4)业务侧直播卡顿率下降15%——通过可观测体系快速定位到转码服务CPU瓶颈,优化集群资源分配后支撑了单直播间100万并发观看。我个人也沉淀了《互联网直播场景可观测体系设计手册》,成为公司后续项目的参考标准。
2020.07 - 2022.02
星途互娱
运维开发工程师

星途直播弹幕系统高可用改造与弹性伸缩优化项目

  • 星途直播弹幕系统承担着每场直播的实时互动需求,但在“年度盛典”“热门剧综直播”等场景下,常因并发量突增(峰值超10万QPS)出现延迟、节点宕机,导致用户互动率下降20%。我的目标是重构弹幕系统的高可用架构,实现“弹性伸缩+零感知扩容”,支撑百万级并发弹幕。
  • 项目难点在于:1)弹幕服务虽无状态,但依赖用户在线状态服务(同步延迟达30秒),扩容时需等待状态同步,导致新节点无法立即承载流量;2)传统轮询负载均衡策略导致热点直播间节点压力过大,常触发熔断;3)K8s HPA的默认伸缩指标(CPU利用率)不准确,要么过度扩容浪费资源,要么扩容不及时导致故障。
  • 我的解决路径:1)主导“状态剥离”改造——将用户在线状态从弹幕服务迁移至Redis Cluster,实现服务无状态化,扩容时仅需增加节点无需同步状态;2)改用Nginx Plus的“一致性哈希负载均衡”,基于直播间ID哈希分配请求,减少热点节点的压力;3)开发“自定义Metrics Adapter”——将“弹幕发送速率”“消息队列长度”等复合指标暴露给K8s HPA,实现“基于业务场景的精准伸缩”。
  • 项目落地后效果明显:1)弹幕系统QPS从5万提升至20万,并发能力增长300%;2)扩容响应时间从5分钟缩短至1分钟,支撑了“年度盛典”直播的120万并发弹幕;3)弹幕延迟从2秒降至500毫秒以内,用户互动率提升22%;4)资源利用率提升35%——精准伸缩避免了30%的闲置节点成本。这个项目让我从“被动运维”转向“主动设计高可用架构”,也积累了处理“无状态服务状态依赖”的关键经验。
技能特长
沟通能力
执行能力
热情坦诚
文案能力
奖项荣誉
  • 阿里云ACP云计算工程师认证
  • AWS Certified SysOps Administrator - Associate
  • 2023年度公司技术攻坚奖
自我评价
  • 深耕互联网云运维7年,聚焦高可用架构与故障根因分析,习惯从业务链路预判云资源瓶颈,把稳定性刻进平台基因。
  • 擅长用云原生工具优化资源利用率,将冗余成本转化为业务迭代空间,始终守牢SLA99.99%的底线。
  • 不被动救火,通过日志与指标趋势建故障预警闭环,让平台“少出问题”成为核心能力。
  • 作为云运维与研产的衔接枢纽,用技术语言翻译业务需求,推动云能力下沉场景,支撑快速上线与弹性扩缩容。
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明