负责电商大促及日常场景下实时数据处理链路的设计、优化与稳定性保障,支撑GMV、用户转化、库存周转等核心指标的实时监控与业务决策,覆盖订单、支付、用户行为等多源数据的实时整合与计算。
- 主导设计电商大促期间千万级TPS的实时订单流处理链路,基于Flink 1.15搭建「ODS原始订单->DWD清洗订单->DWS用户订单行为」分层架构,整合Kafka中订单系统、支付网关、库存系统的多源数据;针对跨业务线事件时间乱序问题,自定义Watermark生成策略(结合业务ID哈希分区+时间戳偏移量校准),将数据处理延迟从8s压降至2s内,大促峰值期间支撑12万TPS流量,GMV实时看板准确性达99.99%,助力运营团队实时调整促销策略。
- 针对实时用户价值分(LTV预测)场景,优化Flink状态管理机制:采用RocksDB作为状态后端,调整Checkpoint间隔为3分钟并开启增量Checkpoint,同时通过State TTL清理过期用户行为状态;解决高并发下状态膨胀导致的作业重启问题,作业稳定性从95%提升至99.5%,用户行为标签更新延迟从5s优化到1.5s,支撑推荐系统的实时个性化推送,大促期间高价值用户转化率提升15%。
- 核心参与实时数仓DWS层建设,定义「用户实时行为宽表」模型(整合点击、浏览、加购、下单事件),通过Flink SQL实现窗口聚合(1分钟滚动窗口计算加购转化率)与维度关联(关联商品类目维度表);输出用户实时兴趣标签,为搜索团队提供实时 query 推荐能力,搜索结果点击率提升18%。
- 搭建实时计算全链路监控体系:结合Prometheus采集Flink作业的延迟、吞吐量、Checkpoint成功率,以及Kafka的partition负载、消息堆积指标;通过Grafana配置可视化 dashboard,并设计异常告警规则(如延迟超过5s或Checkpoint失败触发钉钉告警);将大促期间链路故障排查时间从30分钟缩短至5分钟内,整体可用率达99.9%。