负责公司核心娱乐内容(短剧、综艺、PGC视频)用户兴趣推荐系统全生命周期迭代,覆盖召回、排序、重排全链路,平衡用户留存、观看时长、互动率等业务指标与算法效率,支撑千万级DAU的个性化内容分发
- 针对冷启动用户与垂类内容(如悬疑短剧、知识综艺)的召回瓶颈,主导设计「用户行为序列-内容多模态」异构图召回方案:用GraphSAGE建模用户点击/完播/点赞行为与内容的标题、封面、音频特征关联,通过边权设置(用户行为后30秒完播率作为边重要性)强化有效兴趣传递;基于PyTorch Geometric实现图神经网络,上线后冷启动用户30秒完播率提升22%,垂类内容召回率较传统协同过滤+标签召回提升18%
- 优化排序层模型泛化能力:将原LR模型升级为DeepFM,但面临人工特征工程效率低的痛点,引入H2O.ai AutoML框架自动完成特征交叉与超参数调优,同时整合实时特征(用户近10分钟行为序列通过Redis缓存实时入模);调整后模型AUC从0.78提升至0.82,用户人均单日观看时长增加11分钟,互动率(点赞/评论)提升8%
- 解决推荐多样性不足问题:主导重排层从「简单规则约束」转向「强化学习驱动」,基于PPO算法设计融合业务目标的奖励函数(观看时长×0.5 + 新创作者内容曝光×0.3 + 内容品类多样性×0.2),用Stable Baselines3实现策略网络;上线后新创作者内容曝光量提升35%,用户次日留存率较之前提升5%,未出现信息茧房导致的留存下滑
- 搭建高效AB测试与落地体系:基于AWS SageMaker构建多变量测试平台,支持按用户活跃度/兴趣标签分层分流,制定「核心指标(观看时长)优先、辅助指标(留存/互动)兜底」的上线标准;每季度推动2-3个算法迭代落地,全年核心业务指标复合增长15%,模型迭代周期从7天缩短至4天