当前模板已根据「云平台运维工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
责任心不是口号,而是渗透在每个工作细节中的行动准则。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
云平台运维工程师
北京
薪资面谈
随时到岗
工作经历
2021.12 - 2023.07
小楷闪购科技有限公司
云原生可观测性工程师
  • 主导构建了公司新一代“基于eBPF的可观测性平台”,通过eBPF技术无侵入地采集应用网络流量、系统调用等指标,实现了代码零修改的全链路网络性能分析,精准定位了多个微服务间的网络性能瓶颈,将平均网络延迟优化了15%。
  • 利用eBPF开发了“持续性能剖析”工具,以极低的开销(<1%)持续采集生产环境应用的CPU、内存火焰图,帮助开发团队发现并优化了多个深层次的代码性能问题,使核心服务P99延迟降低20%。
  • 通过设计“智能根因分析”算法,能自动关联metrics, logs, traces和eBPF网络数据,在发生故障时快速定位问题是出在应用代码、网络、中间件还是资源层面,将平均故障定位时间(MTTR)缩短了60%。
  • 将该平台以“可观测性即代码”的方式提供给所有开发团队,通过简单的注解即可开启深度监控,极大地降低了使用门槛,提升了整个研发体系的可观测性水平。
2020.03 - 2021.11
小楷闪购科技有限公司
运维开发工程师
  • 维护和优化基于Prometheus的监控告警体系,处理了海量指标带来的存储和查询性能挑战,保障了系统的稳定性。
  • 深入学习了eBPF技术,并尝试编写了一些简单的工具用于网络抓包和性能分析,为后续的重大项目做好了技术储备。
  • 积极参与on-call轮值,处理线上故障,培养了敏锐的风险意识和应急处理能力。
项目经验
2022.03 - 2023.10
星途互娱(专注互联网文娱场景的直播与互动内容平台)
运维开发负责人

星途直播平台全链路可观测体系重构与智能化升级项目

  • 星途直播作为公司核心业务,承载1.2亿月活用户,原可观测体系存在“分散化”痛点——Metrics用Prometheus但无统一规范、Logs依赖ELK检索慢、Traces未打通跨服务链路,导致故障MTTR平均12分钟,严重影响用户体验。我的核心目标是主导重构覆盖Metrics、Logs、Traces的全链路可观测体系,将MTTR降低至5分钟内,同时支撑业务快速排查问题。
  • 项目遇到三大关键挑战:1)跨50+微服务的链路追踪一致性差,TraceID传递无统一协议导致链路断裂;2)高Cardinality指标(如用户ID、直播间ID)导致Prometheus存储成本月均增长25%;3)Logs与Traces/Metrics无关联,排查时需手动匹配多系统数据,效率极低。我选择基于OpenTelemetry构建统一观测底座,用Thanos解决长期存储与查询性能,用Loki替代ELK实现日志标签化索引。
  • 我的核心行动包括:1)牵头成立“可观测专项组”,联合研发、产品制定《OpenTelemetry接入规范》,改造12个核心服务SDK,强制注入TraceID并打通跨系统传递,解决链路断裂问题;2)设计“指标分层体系”——将指标分为基础资源、服务性能、业务转化三层,对高基数指标采用“哈希降维+定期聚合”策略,配合Thanos压缩存储,将Prometheus存储成本降低40%;3)整合Grafana搭建“故障排查一站式Dashboard”,联动Traces拓扑、Metrics趋势、带TraceID的Logs详情,实现“点击链路节点即可看关联日志与指标”。
  • 项目成果显著:1)MTTR从12分钟降至2分40秒,故障定位效率提升76%;2)可观测覆盖度从60%提升至95%,所有核心服务、数据库、中间件均纳入监控;3)存储成本年降约35万元,同时支撑了“暑期直播节”等大型活动0级故障;4)业务侧直播卡顿率下降15%——通过可观测体系快速定位到转码服务CPU瓶颈,优化集群资源分配后支撑了单直播间100万并发观看。我个人也沉淀了《互联网直播场景可观测体系设计手册》,成为公司后续项目的参考标准。
2020.07 - 2022.02
星途互娱
运维开发工程师

星途直播弹幕系统高可用改造与弹性伸缩优化项目

  • 星途直播弹幕系统承担着每场直播的实时互动需求,但在“年度盛典”“热门剧综直播”等场景下,常因并发量突增(峰值超10万QPS)出现延迟、节点宕机,导致用户互动率下降20%。我的目标是重构弹幕系统的高可用架构,实现“弹性伸缩+零感知扩容”,支撑百万级并发弹幕。
  • 项目难点在于:1)弹幕服务虽无状态,但依赖用户在线状态服务(同步延迟达30秒),扩容时需等待状态同步,导致新节点无法立即承载流量;2)传统轮询负载均衡策略导致热点直播间节点压力过大,常触发熔断;3)K8s HPA的默认伸缩指标(CPU利用率)不准确,要么过度扩容浪费资源,要么扩容不及时导致故障。
  • 我的解决路径:1)主导“状态剥离”改造——将用户在线状态从弹幕服务迁移至Redis Cluster,实现服务无状态化,扩容时仅需增加节点无需同步状态;2)改用Nginx Plus的“一致性哈希负载均衡”,基于直播间ID哈希分配请求,减少热点节点的压力;3)开发“自定义Metrics Adapter”——将“弹幕发送速率”“消息队列长度”等复合指标暴露给K8s HPA,实现“基于业务场景的精准伸缩”。
  • 项目落地后效果明显:1)弹幕系统QPS从5万提升至20万,并发能力增长300%;2)扩容响应时间从5分钟缩短至1分钟,支撑了“年度盛典”直播的120万并发弹幕;3)弹幕延迟从2秒降至500毫秒以内,用户互动率提升22%;4)资源利用率提升35%——精准伸缩避免了30%的闲置节点成本。这个项目让我从“被动运维”转向“主动设计高可用架构”,也积累了处理“无状态服务状态依赖”的关键经验。
自我评价
  • 深耕互联网云平台运维,以「全链路风险预控」为核心,搭建资源-性能-故障传导的预警体系,习惯从业务影响倒推策略,替代被动救火。
  • 主导运维工具链从脚本到平台迭代,聚焦「减重复劳动、提响应速度」,坚信技术驱动是支撑业务高速迭代的基础。
  • 对云成本高度敏感,通过容量规划、闲置回收、实例适配降TCO,同时守住业务SLA,将每分云投入转化为业务价值。
  • 作为运维枢纽,能与研发、产品同频——懂业务痛点也讲清约束,推动问题从「各自解决」转向「共同预防」。
兴趣爱好
摄影
看书
阅读
跑步
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明