负责公司级数据中台的底层平台架构设计与全生命周期迭代,聚焦实时计算引擎优化、元数据智能治理及跨业务线资源调度协同,支撑营销、供应链、用户增长三大核心业务线的PB级数据处理需求,保障平台高可用(SLA≥99.99%)与成本可控。
- 主导Flink实时计算引擎从1.13版本向1.17版本的全链路升级,针对大促期间流量洪峰(峰值QPS达85万/秒)导致的任务延迟问题,通过重构状态后端存储策略(由RocksDB切换为增量Checkpoint+本地SSD缓存)、优化事件时间窗口聚合算子并行度,将任务端到端延迟从500ms压降至80ms以内,大促期间未发生因平台延迟导致的业务数据超时报错。
- 设计并落地元数据智能治理平台,基于Apache Atlas扩展自定义血缘解析规则,打通SQL解析引擎(Calcite)与任务调度系统(Airflow)的数据链路,实现数据表-任务-报表的全链路血缘自动追踪(覆盖95%以上ETL任务);同步上线血缘可视化看板与冗余表预警功能,推动业务线主动清理无效表3200+张,元数据查询耗时从平均3s缩短至200ms,数据团队定位问题效率提升70%。
- 优化平台资源调度机制,基于YARN队列动态扩缩容能力,结合业务峰谷特征(如凌晨低峰期资源利用率仅18%),开发智能资源预测模型(使用XGBoost算法训练历史负载数据),实现计算资源按需弹性分配;上线后集群整体CPU利用率从35%提升至62%,年服务器采购成本降低约350万元。
- 牵头设计跨AZ容灾方案,针对关键组件(HDFS NameNode、Flink JobManager)采用ZooKeeper实现主备选举,结合OSS跨区域复制能力保障元数据持久化;通过混沌工程模拟单AZ故障场景,验证平台故障切换时间从分钟级压缩至30秒内,全年重大故障停机时间≤2小时,满足金融级容灾标准。