负责电商平台数据中台核心组件(数据接入、计算调度、元数据服务)的架构设计与迭代,支撑营销、供应链、客服等10+业务线的实时与离线数据需求,保障平台SLA达99.9%
- 主导数据湖仓一体平台升级,基于Apache Hudi与Flink构建用户行为数据增量处理链路,替代传统Hive T+1同步方案;通过优化Hudi的COW表合并策略与Flink的Checkpoint间隔,解决亿级数据实时更新的性能瓶颈,数据处理时效性从T+1提升至5分钟内,支撑推荐系统的实时特征生产,推荐点击率较之前提升8%
- 设计并落地实时计算任务智能调度系统,基于Airflow扩展自研引擎,引入任务依赖动态解析(支持嵌套依赖与跨任务参数传递)与资源弹性扩缩容机制(基于YARN队列负载自动调整TaskManager数量);将任务失败率从5%降至0.8%,大促期间计算资源利用率提升30%,避免了因资源不足导致的任务积压
- 重构元数据服务平台,采用Neo4j图数据库存储数据血缘关系(覆盖表-字段-任务-指标全链路),结合Redis分布式缓存(设置15分钟过期策略)优化查询性能;元数据查询响应时间从2秒缩短至200毫秒,支持100+并发查询,帮助业务分析师快速定位数据来源,数据问题排查时间减少75%
- 落地数据平台多活容灾方案,基于阿里云杭州与上海双可用区部署,实现计算节点(Flink TaskManager)与存储节点(HDFS DataNode、Hudi表)的跨区域异步同步;通过Flink Checkpoint持久化到OSS与Hudi Timeline机制保障数据一致性,故障恢复时间从2小时缩短至15分钟,全年平台可用性达到99.95%