负责直播平台实时计算平台的迭代与核心链路开发,覆盖直播流量监控、订单风控、用户互动分析三大场景,保障毫秒级延迟下的数据处理准确性与系统稳定性
- 主导设计基于Flink 1.17的实时流量监控Pipeline,整合Kafka Cluster(300+分区)与Redis Cluster(热点弹幕缓存),解决原有Spark Streaming方案延迟高(5s→200ms)、状态丢失问题;通过自定义Watermark策略(基于Event Time的滑动窗口偏移量调整)与State TTL机制(设置1h过期),实现乱序推流、打赏数据的精准处理,监控数据准确率提升至99.98%,支撑运营实时调整直播流量分配策略
- 核心优化用户互动行为分析链路,将原有离线的用户弹幕情感分析迁移至Flink ML实时预测,集成BERT轻量化模型(通过TensorFlow Serving部署),实现对“负面弹幕”的实时识别与拦截;优化模型推理延迟(从200ms→50ms),日均处理弹幕1.2亿条,负面内容拦截率提升至95%,降低直播违规风险
- 解决大促期间实时订单支付链路的状态膨胀问题,通过Flink RocksDB状态后端调优(设置Block Cache大小为10GB、Write Buffer数量为4),将状态数据大小从150GB压缩至60GB,Checkpoint耗时从12分钟缩短至2.5分钟,保障双11期间订单支付成功率稳定在99.9%以上
- 主导搭建实时数仓与实时计算平台的联动机制,通过Flink SQL将ODS层的直播商品点击数据实时同步至DWD层的用户兴趣标签表,支撑算法团队实时训练推荐模型,使直播商品点击转化率提升18%