当前模板已根据「数据治理工程师」岗位深度优化
选择其他岗位
开始编辑模板后,您可以进一步自定义包括:工作履历、工作内容、信息模块、颜色配置等
内置经深度优化的履历,将为你撰写个人简历带来更多灵感。
陆明哲
昨天的经验是今天的基石,而今天的突破将成为明天的标准。
28岁
3年工作经验
13800138000
DB@zjengine.com
陆明哲的照片
求职意向
数据治理工程师
东莞
薪资面谈
三个月内到岗
工作经历
2024.03 - 至今
小楷科技有限公司
数据治理平台架构师
  • 作为技术负责人,从0到1主导设计并实现了公司「一体化智能数据治理平台」。该平台深度融合元数据管理、数据质量、数据安全、数据血缘四大核心能力,提供从数据发现、评估、使用到运营的全生命周期管理,成为公司200+数据开发者和分析师日常工作的统一入口,数据需求响应效率提升300%。
  • 设计主动式元数据管理体系,通过解析10万+离线/实时作业、2万+张数据表,自动构建了覆盖“数据产生->加工->服务->消费”的端到端血缘图谱,并将血缘准确性从60%提升至98%,实现了影响分析的分钟级响应。
  • 攻克智能数据质量核查难题,基于历史数据和机器学习算法,自动为不同特征的数据智能推荐监控规则(如值域、波动率、唯一性),并实现动态阈值调整,将数据质量问题的发现时间从“天”缩短至“小时”,问题发现率提升85%。
  • 建立“数据资产健康度”综合评估模型,从“质量、热度、价值、成本”四个维度对数据资产进行量化评分与排名,并推动业务部门对低效数据进行治理或归档,年节省存储与计算成本超千万元。
2023.02 - 2024.03
小楷科技有限公司
高级数据治理工程师
  • 负责公司“数据标准”体系的落地,主导定义了“用户、商品、交易”等核心域的500+项标准,并通过开发平台工具,将标准固化到数据建模与开发流程中,从源头保障数据的一致性,数据标准覆盖率从20%提升至90%。
  • 实现“数据地图”核心搜索与推荐功能,支持基于数据标签、血缘、热度进行智能检索,数据资产可发现性提升200%,成为数据消费的首要入口。
  • 深入业务,推动“数据Owner”制度的建立与落地,明确了每一份数据的责任方,彻底解决了数据问题无人负责的困境。
项目经验
2023.03 - 2024.02
星途互动科技有限公司
大数据开发负责人

星途社区实时用户行为分析平台升级项目

  • 星途社区作为千万级DAU的UGC内容平台,原有实时用户行为分析链路依赖传统Kafka+Flink架构,存在消费瓶颈(峰值延迟超5秒)、状态故障频发(日均3次)等问题,无法支撑运营团队对热点话题、用户互动的实时决策需求。我作为大数据开发负责人,主导整个平台的架构重构与落地,涵盖数据采集、传输、计算、存储全链路设计,对齐业务“实时洞察-快速干预”的核心诉求。
  • 面临两大技术挑战:一是原Kafka分区策略基于内容ID哈希,导致用户行为数据分散在不同分区,消费线程负载不均(部分线程利用率超90%,部分不足30%);二是Flink作业状态采用本地RocksDB存储,故障恢复时间长(平均15分钟),且状态膨胀(单作业状态达200GB+)引发频繁GC。针对前者,我通过用户行为数据特征分析(用户ID的访问频次占比70%),设计“用户ID+行为类型”的复合分区策略,结合Flink RebalanceListener实现动态分区扩容;针对后者,引入分层状态存储(近期状态存SSD,历史状态归档至HDFS),并优化checkpoint间隔(从1分钟调整为30秒)与并行度(从8并行提升至16并行),降低故障恢复成本。
  • 行动上,我先通过Jaeger链路追踪与JVM火焰图定位瓶颈点,输出《实时链路性能优化诊断报告》;然后牵头组织数据采集、算法、产品团队评审新架构方案,确认分区策略与状态管理的可行性;接着主导代码重构,实现复合分区逻辑与分层状态存储,并通过灰度发布(先切10%流量)验证稳定性,修复了3个因分区不均导致的消费延迟问题;最后优化监控体系,新增分区负载、状态大小、checkpoint成功率等5个预警指标,实现问题提前感知。
  • 项目上线后,实时链路延迟降至800ms以内(峰值),故障次数下降85%,支撑运营团队在大促期间对“暑期热点话题”进行实时流量倾斜(话题广场曝光量提升30%),带动社区整体互动率提升18%。我个人沉淀的《高并发场景下Flink状态管理与分区优化手册》成为团队技术规范,推动后续3个实时项目复用该方案。
2021.08 - 2022.12
星途互动科技有限公司
大数据核心开发

星途短视频内容标签实时计算系统搭建项目

  • 星途短视频业务原有内容标签以离线T+1计算为主,无法满足推荐系统对用户兴趣实时捕捉的需求——用户刚发布的视频标签未及时同步,导致推荐准确率低(点击率仅3.2%)。我作为核心开发,负责实时标签系统的多源数据融合、标签引擎设计与落地,目标是实现标签分钟级更新,支撑推荐算法的实时迭代。
  • 项目难点在于两点:一是多源数据(用户基础信息、视频行为、社交关系)的实时同步与一致性保障——MySQL用户表更新后,需1分钟内同步至标签系统;二是标签规则(如“热门创作者”“兴趣偏好”)需支持运营动态更新,传统硬编码方式无法满足灵活变更需求。针对前者,我用Canal捕获MySQL binlog同步用户元数据,Kafka传输用户行为数据,通过Flink的Watermark与Exactly-Once语义保证数据一致性;针对后者,设计基于Groovy脚本的规则引擎,将标签规则存储在Apollo配置中心,支持热更新无需重启作业。
  • 我主导设计了“数据接入-清洗-标签计算-存储”的实时pipeline:数据层用Kafka统一传输,计算层用Flink实现多源数据关联(用户基础信息+行为特征),标签层用规则引擎动态计算标签值;同时优化数据shuffle效率,采用广播变量传递规则(减少网络开销80%),并引入滑动窗口(1分钟)计算用户近期行为特征(如“近5分钟点赞的视频类别”)。此外,为解决标签时效性,我将标签存储从HBase迁移至Redis,支持毫秒级查询。
  • 系统上线后,标签更新延迟从6小时降至5分钟内,推荐系统点击率提升至3.6%(增长12%),离线标签计算资源成本节省40%(从12台机器降至7台)。项目支撑了短视频推荐团队的A/B测试,验证实时标签对用户留存的提升(7日留存率从28%升至33%)。我个人在这个项目中掌握了多源实时数据融合技术,提升了复杂规则引擎的设计能力,为后续实时数仓建设打下基础。
自我评价
  • 深耕互联网数据治理,以业务价值为核心搭建“质量-安全-元数据”三位一体体系,从业务痛点锚定治理优先级。
  • 擅长用业务语言拆解技术需求,联动跨部门对齐目标,推动治理共识高效落地。
  • 深谙数据全生命周期合规与可用逻辑,能快速识别业务场景风险并输出可执行方案。
  • 主动迭代治理框架适配业务增长,确保数据资产持续赋能业务决策与产品优化。
兴趣爱好
摄影
看书
阅读
跑步
试一下,换个颜色
选择配色
使用此模板创建简历
  • 支持电脑端、微信小程序编辑简历
  • 支持一键更换模板,自由调整字距行距
  • 支持微信分享简历给好友查看
  • 支持简历封面、自荐信、自定义简历模块
  • 支持导出为PDF、图片、在线打印、云端保存
该简历模板已内置
  • 个人名称
  • 头像
  • 基本信息
  • 求职意向
  • 工作经历
  • 项目经验
  • 实习经验
  • 作品展示
  • 奖项荣誉
  • 校园经历
  • 教育背景
  • 兴趣爱好
  • 技能特长
  • 语言能力
  • 自我评价
  • 报考信息
  • 简历封面
  • 自荐信
对话框
提示
说明