负责公司核心零售与本地生活融合业务的数据仓库架构设计与全生命周期管理,支撑营销、用户增长、供应链三大业务线的决策分析与智能化应用
- 主导设计「零售+本地生活」融合场景下的分层数据仓库架构(ODS→DWD→DWS→ADS),基于Apache Hive 3.x与Spark 3.3构建离线数仓,结合Flink 1.17实现小时级准实时数据同步;针对业务线指标口径不一致问题,牵头制定《跨域指标字典规范》,统一200+核心指标定义(如「跨渠道新增用户」「融合订单履约率」),将指标歧义导致的分析耗时从平均3天缩短至4小时
- 核心参与供应链成本优化项目,负责搭建供应商履约成本数据集市:通过Kafka Connect同步ERP系统的采购、库存、物流数据,使用Hive UDF实现「履约时效波动系数」「供应商异常订单率」等自定义指标计算;优化数据分区策略(从按天分区改为按小时+业务线复合分区),将供应链报表查询耗时降低65%,支撑采购团队识别出3个高成本供应商,年节省成本超800万元
- 解决跨业务数据融合难题:针对营销活动与本地生活订单的用户行为数据割裂问题,使用DataX 3.0完成用户中心MySQL数据到数仓的增量同步,通过Spark SQL构建用户标签体系(如「跨场景消费频次」「场景偏好度」),支撑用户增长团队开展精准营销活动,活动转化率提升22%,新增付费用户环比增长18%
- 推动数仓自动化运维:基于Airflow 2.4搭建数仓任务调度系统,编写Python脚本实现任务失败自动重试(指数退避策略)、数据质量校验(基于Great Expectations定义150+数据质量规则覆盖完整性、准确性、一致性);将数仓任务故障恢复时间从平均2小时缩短至15分钟,月度任务成功率从92%提升至99.3%