负责公司大数据基础平台核心模块(元数据管理、实时计算链路、资源调度)的架构设计与迭代,聚焦平台稳定性、性能优化及对电商营销、用户运营等上层业务的支撑能力提升
- 主导设计并落地基于Apache Doris的统一元数据管理系统,针对原有元数据分散在Hive、ClickHouse、Kafka的痛点,采用Apache Atlas对接各数据源,结合自研Java+Canal元数据同步工具,实现跨源元数据实时采集与一致性校验;通过Atlas图数据库模型优化元数据关联查询逻辑,将元数据检索耗时从平均12s降至2s内,支撑数据治理团队对10万+张表的快速定位与血缘分析,元数据管理效率提升80%
- 核心参与双11大促实时计算链路扩容,针对实时订单流处理延迟从500ms攀升至2s的问题,定位到Flink作业并行度不足与RocksDB状态后端性能瓶颈;采用Flink Adaptive Scheduler动态调整并行度,替换为Apache Pravega高吞吐状态存储,同步调整batch size至5000减少IO开销;最终大促期间实时订单处理延迟稳定在300ms内,支撑营销活动实时用户行为分析与优惠券精准推送,活动转化率提升18%
- 负责YARN集群资源调度模块优化,针对资源利用率仅45%的问题,引入Capacity Scheduler自定义队列策略(按营销活动、日常报表划分优先级),结合Prometheus监控的CPU/内存使用率实现资源弹性伸缩;同时优化任务调度算法,将长任务(如月度报表)与短任务(如实时监控)分时段调度,资源利用率提升至72%,年节省云服务器成本约350万元
- 推动平台易用性提升,针对数据开发人员SQL调试效率低的反馈,开发基于Vue.js的前端SQL调试工具,集成Apache Calcite实现语法校验与执行计划预览,对接元数据系统实现字段级血缘可视化;工具上线后,SQL调试平均时间从45分钟缩短至15分钟,数据开发团队满意度提升至92%