负责电商平台用户行为与交易全链路数据仓库建设,覆盖从需求拆解、分层设计到上线运维的全周期,边界包括打通APP/小程序/H5多端数据孤岛、保障数据质量及支撑营销/风控核心业务的实时分析需求
- 主导设计用户行为数据分层体系,基于Kimball维度建模理论划分ODS(原始行为日志)、DWD(清洗后事件事实表)、DWS(用户行为宽表)三层;针对多端日志分散问题,用Flink实现实时ETL整合(处理APP点击、小程序浏览等10+类事件),结合Hive离线校准时间戳与设备ID一致性,最终实现用户行为数据统一口径,查询响应时间从8秒降至4.8秒,直接支撑营销团队精准分群(将活动转化率从12%提升至18%)
- 优化交易数据仓库增量同步机制,原Sqoop每小时同步MySQL订单数据导致延迟高(峰值60分钟),改用Canal捕获binlog+Spark Streaming实时处理增量,同步延迟压缩至5分钟内;同时引入数据校验规则(订单金额与支付金额一致性、状态流转合法性),交易数据错误率从0.3%降至0.05%以下,支撑实时风控系统对可疑交易的秒级预警
- 推动数据质量体系落地,基于Apache Atlas搭建元数据管理平台,定义“完整性(字段非空率≥99.9%)、一致性(跨表用户ID匹配率≥99.5%)、时效性(核心指标T+1更新完成率100%)”三大类21条规则;每月数据质量问题工单从15单降至2.5单以内,业务方对数据准确性的满意度从72%提升至91%
- 主导跨部门数据协作项目,对接营销、产品、运营3个部门的20+需求,梳理“新客转化率”“老客复购间隔”等200+指标口径并录入指标字典;用Superset搭建自助分析看板,支持业务人员通过拖拽式操作取数,自主取数率从30%提升至70%,减少数据团队重复支持工作量约40%