负责公司级数据中台核心平台的架构设计与全链路迭代,覆盖数据采集-存储-计算-服务全生命周期,支撑营销、供应链、用户增长三大业务线的实时分析与智能决策需求,技术边界包含湖仓一体架构落地、高并发数据服务优化及跨团队技术协同。
- 主导设计并落地新一代分布式数据湖仓一体平台(基于Apache Iceberg 1.4 + Flink 1.17 + Trino 408),解决原有Hive+MySQL架构下实时写入延迟高(平均5分钟)、并发查询瓶颈(峰值500QPS)问题。通过优化Iceberg元数据分层存储策略(冷热数据分离至OSS),结合Flink Checkpoint与Iceberg Snapshot联动机制,将实时数据可见时延压缩至20秒内;同步开发Trino Catalog插件支持跨源联邦查询,覆盖80%业务方跨仓取数需求,平台月均查询量从300万次提升至1200万次。
- 针对大促期间数据服务层高并发痛点(如双11用户标签实时查询),基于Spring Cloud Alibaba重构API网关与服务路由模块,引入三级缓存策略(Redis集群+Guava LocalCache+本地堆缓存),并通过动态流量染色技术实现热点数据自动降级。优化后标签查询P99延迟从80ms降至18ms,支撑双11当天2.3亿次标签调用无超时报错。
- 推动平台自动化运维体系建设,开发任务调度监控中台(集成Apache Airflow 2.7 + Prometheus + Grafana),设计基于业务优先级的动态资源配额算法与异常检测模型(如Flink反压率>30%触发预警)。上线后故障发现时间从小时级缩短至4分钟内,平台年度可用性从99.5%提升至99.95%,运维人力投入减少40%。
- 主导跨团队技术攻坚,解决湖仓一体架构下数据一致性问题。通过设计基于Debezium的CDC捕获MySQL Binlog,结合Flink SQL CDC Connector实现业务库变更实时同步至Iceberg,配合事务性写入协议(Two-Phase Commit),将订单、支付等核心表的数据一致性误差从5分钟级消除至秒级,支撑财务结算场景的精准对账。