负责公司电商核心场景(大促GMV实时看板、库存精准预警、营销活动实时触达)的实时数据处理链路设计、性能瓶颈突破及全链路稳定性保障,支撑日均10亿+事件数的低延迟、高准确处理
- 主导设计双11大促实时订单流处理架构,针对峰值时段(0点-1点订单量达50万TPS)引发的端到端延迟高(原5s+)问题,采用Flink动态并行度策略(基于Kafka分区负载自动扩缩算子至32并行度),结合RocksDB状态后端优化状态访问(将状态读写延迟从1ms降至0.2ms),并通过Side Output分流迟到数据补全,最终将订单处理延迟稳定控制在1s内,支撑GMV实时看板数据更新时效从3s提升至实时,大促期间未出现延迟超时故障
- 优化实时库存计算准确性,解决因多渠道订单(APP/小程序/第三方平台)数据乱序导致的超卖风险(原月均超卖投诉12起):基于Flink事件时间窗口+Watermark机制(设置15s最大乱序时间),联动侧输出流捕获迟到订单,补充校验库存余量,将库存数据准确率从99.2%提升至99.98%,超卖投诉降至0起
- 搭建实时数据链路可观测体系,整合Prometheus+Grafana监控Flink任务的吞吐量、延迟、背压及Checkpoint成功率,自定义告警规则(如背压超过70%触发钉钉预警),将故障排查时间从平均30分钟缩短至5分钟内,大促期间链路可用性达99.99%
- 核心参与营销活动实时用户触达项目,对接MySQL Binlog(通过Debezium捕获变更)与Kafka,优化数据同步链路:调整Debezium捕获频率至100ms级,结合Flink MapFunction过滤无效变更(如未生效的活动配置),将用户标签同步延迟从10s降至2s,支撑营销活动触达率提升15%