负责公司内容电商平台的多模态内容理解与智能生产全链路算法设计,边界涵盖文本生成、语义检索、内容审核三大核心模块的模型迭代及业务赋能,目标是提升内容生产效率与用户体验。
- 主导构建电商垂类多意图文本生成模型,基于LLaMA-2-7B进行领域适配微调,融合商品知识库(含10万+SKU属性、50万+场景描述)的TransE图谱嵌入,解决生成内容偏离商品核心卖点的痛点——引入InfoNCE对比学习框架,将商品属性一致性作为约束信号,同时加入实体掩码策略(随机mask商品属性词后要求模型补全),最终生成内容与商品属性的匹配准确率从65%提升至90%;该模型支撑平台“商品详情页自动生成”功能落地,对应商品转化率较人工撰写版本提升18%,日均节省运营撰写时间40小时。
- 核心参与内容社区语义检索系统升级,针对长尾查询召回低的问题,基于BERT-base做领域适配,引入多任务学习融合语义相似度与用户兴趣embedding(通过协同过滤生成用户兴趣向量),并将商品类目、价格区间等结构化特征编码为辅助信号;优化后长尾查询召回率从62%提升至81%,用户日均使用检索功能时长增加25分钟,社区内容互动率提升12%。
- 重点优化内容审核模型的小样本学习能力,针对违规类型分布偏移(如新增“诱导私下交易”类别),采用Prompt Tuning适配新类别,结合主动学习框架(基于不确定性采样选择难例标注),将模型迭代周期从7天缩短至3天;同时通过知识蒸馏将大模型推理速度提升4倍,误判率下降22%,支撑平台日均1000万+条内容的实时审核。
- 推动大模型在内容生产辅助中的落地,设计基于LLM的文案润色工具,集成情感分析(基于RoBERTa-wwm-finance微调)与风格迁移模块(通过ControlNet约束输出语气),支持运营人员快速修改商品推广语;工具 adoption 率达75%,运营撰写一条优质推广语的时间从15分钟缩至5分钟,效率提升40%。