统筹数据平台从离线向实时化、湖仓一体架构转型,支撑全公司数据驱动决策,覆盖用户增长、智能营销、风险控制等核心场景。
- 主导湖仓一体平台落地,整合Iceberg数据湖(存储原始明细数据)与ClickHouse实时数仓(支撑聚合查询),通过Flink CDC同步业务库变更,实现ETL流程节点减少60%,复杂指标查询性能提升3倍(从分钟级到秒级),已支撑用户分群、漏斗分析等10+AI模型训练需求。
- 推动自动化运维体系建设,基于Prometheus+Grafana搭建全链路监控(覆盖Hadoop/Spark/Flink/Kafka等20+组件),自定义告警规则150+条(如Shuffle失败率>5%、Flink TaskManager内存使用率>80%),故障平均修复时间(MTTR)从2小时缩短至12分钟,年度P0级故障次数从7次降至0次。
- 牵头制定《数据平台开发规范V3.0》,包含代码质量(SonarQube覆盖率≥80%)、性能压测(核心任务QPS需达业务峰值1.5倍)、灰度发布(先跑10%流量验证)等12项标准,上线后生产环境事故率同比下降82%,新功能上线周期缩短30%。
- 支撑AI场景数据需求,开发特征工程平台(集成Feast特征存储与MLflow实验管理),提供数据清洗、特征计算、在线推理全流程能力,将算法团队取数耗时从周级降至小时级,模型迭代频率从每月1次提升至每周2次,推动用户流失预测模型AUC从0.78提升至0.85。