负责在线教育业务线数据资产全生命周期治理,涵盖数据标准落地、质量规则制定及元数据梳理,支撑业务报表准确性与分析效率提升
- 主导设计在线教育业务线数据标准体系,结合课程排期、用户画像、订单交易核心场景梳理12类实体(如User、Course、Order)、36项属性标准,采用DCMM模型“数据模型”维度定义字段规范(如user_id统一为string类型、course_start_time为datetime),通过阿里云DataWorks数据标准模块完成规则下发与校验,解决跨系统字段不一致问题(如“用户性别”原存在“男/女”“M/F”两种写法),数据一致性从85%提升至98%
- 搭建数据质量监控体系,针对订单支付成功率、课程完课率等5个核心指标,用Python编写自定义校验规则(如order_amount>0、payment_time < order_create_time + 30分钟),接入DataWorks质量中心配置实时告警策略(错误率超0.5%触发钉钉机器人通知),将数据质量问题发现时间从T+1缩短至实时,月度数据错误率从3%降至0.1%
- 用Apache Atlas搭建元数据管理系统,通过JDBC爬取Hive、MySQL等数据源的元数据(累计梳理800+张表、1500+个字段),关联业务术语库(如定义“GMV”为“课程订单支付金额+会员续费金额”),输出《在线教育数据资产目录》,标注“高频使用”“需脱敏”等标签,业务人员查询目标数据的时间从平均2小时缩短至10分钟
- 针对等保2.0三级要求,梳理用户敏感数据(手机号、身份证号、支付银行卡号),制定“静态脱敏+动态脱敏”规则(如手机号显示为“138****1234”、身份证号显示为“440301********1234”),用Flink SQL实现实时脱敏管道替换原有离线Shell脚本,脱敏覆盖率从70%提升至100%,助力公司顺利通过年度等保测评