负责公司级数据中台平台核心模块(数据接入、元数据管理、自助分析)的架构设计与迭代,支撑营销、供应链等8条业务线的实时与离线数据需求,保障平台稳定性、扩展性及业务响应效率
- 主导数据平台「湖仓一体」架构升级,基于Apache Iceberg替换原有Hive存储层,结合Flink CDC实现MySQL、Oracle等业务库的实时增量同步(覆盖120+张业务表),解决原有T+1延迟痛点;通过Iceberg分区剪枝、谓词下推及Z-order索引优化,核心业务数据查询 latency 从6小时压缩至15分钟内,查询性能提升40%,支撑大促期间实时用户画像与库存预警场景的需求
- 核心重构企业级元数据管理系统,基于Apache Atlas搭建元数据中台,整合数据平台内2000+张表、100+个数据源(含业务库、埋点、第三方API)的元数据;设计「业务术语-技术元数据-指标」三层映射模型,实现元数据自动采集、血缘追踪(覆盖95%以上ETL链路)与影响分析;上线后业务人员查找目标数据时间从2天缩短至1小时内,数据团队元数据维护成本降低35%
- 负责自助分析模块深度迭代,基于Superset二次开发集成公司用户标签系统与商品维度库,新增「自定义指标计算引擎」(支持SQL-like语法+可视化拖拽配置),满足运营人员对「新客首单转化率」「老客跨品类复购率」等个性化指标需求;迭代后自助分析工具使用率从30%提升至75%,运营活动策略调整周期从1天缩短至4小时
- 牵头平台性能优化与容量规划,通过Prometheus+Grafana搭建实时监控体系,定位大促期间Flink任务状态后端延迟、HDFS热点文件读写等瓶颈;优化Flink Checkpoint策略(从固定间隔改为基于吞吐量自适应调整)、HDFS数据分桶规则(按用户ID哈希+时间维度),大促期间平台CPU利用率从85%降至60%,数据处理吞吐量提升50%,未出现因平台问题导致的业务延迟