负责公司云原生大数据平台的架构升级、核心组件开发及全链路性能优化,支撑广告投放、用户增长、供应链决策等多业务线的高并发数据处理与实时分析需求,覆盖数据接入、存储计算、元数据管理及跨平台协同全生命周期。
- 主导设计并落地基于云原生架构的新一代数据平台,采用Kubernetes进行资源弹性编排,结合Alluxio构建跨可用区缓存层,解决原有Hadoop集群资源利用率低(不足40%)、跨集群计算延迟高的痛点。通过动态资源调度策略(基于YARN Capacity Scheduler扩展)与计算任务分片优化,平台日均处理数据量从500TB提升至1.2PB,任务平均执行耗时下降40%,集群成本降低25%。
- 核心开发实时数据接入网关系统,基于Flink SQL与自定义状态管理算子,支持日志(APP/Web)、埋点、业务DB(MySQL/PostgreSQL)等多源数据的统一接入与Schema动态校验。集成Prometheus+Grafana构建监控看板,实现接入延迟(P99<50ms)、数据丢失率(<0.001%)、背压率(<5%)的实时预警。上线后支撑双11大促期间单日200亿+事件数据的稳定处理,未发生数据积压或错漏。
- 重构元数据管理系统,基于Apache Atlas扩展自定义标签体系(含“数据敏感等级”“业务归属线”“计算成本标签”),结合Apache Ranger实现字段级权限控制。通过优化图数据库查询索引与血缘解析算法,元数据查询响应时间从秒级缩短至200ms内,支撑数据治理团队完成全平台80%数据的血缘梳理与GDPR合规审计,数据问题定位效率提升70%。
- 推动数据平台与机器学习平台深度集成,开发特征工程组件库(支持Spark MLlib、TensorFlow双引擎),封装用户行为序列特征(如30天点击频次)、时序统计特征(如7日GMV波动)等20+通用模板。通过标准化输入输出接口与缓存机制,算法团队特征开发周期从3天缩短至6小时,模型A/B测试迭代效率提升60%。