负责在线教育场景下NLP核心任务的端到端算法设计与落地,覆盖智能答疑、作文批改、个性化学习推荐等关键业务,从需求拆解、数据标注、模型迭代到生产部署全流程主导,支撑千万级学生用户的学习交互需求。
- 主导智能答疑系统的意图识别与槽位填充模型迭代,针对教育领域长文本歧义(如“三角函数导数”与“定义域”易混淆)问题,采用BERT+BiLSTM+CRF融合架构,引入课程知识图谱实体链接策略(将“函数”“几何”等知识点作为约束条件),解决了意图混淆率高的痛点——意图准确率从91%提升至96.5%,槽位填充F1值从87%升至92%,支撑日均10万+学生答疑请求的处理效率,响应延迟稳定在200ms内。
- 核心参与作文自动批改模块的语义理解与评分模型开发,基于中高考作文语料构建细粒度分析框架:用TextRank提取内容关键词匹配题目要求,BERT做情感倾向判断(积极/消极表达),Transformer-based模型评估逻辑连贯性(句子间指代、因果关系),设计了“内容相关性×40%+逻辑严谨性×30%+语言表达×30%”的多维度评分体系,将人工复评率从35%降至12%,批改响应时间从5秒缩短至1.2秒,覆盖小学到高中全学段语文作文题型。
- 重点优化个性化学习推荐的文本特征工程,针对学生提问、笔记、作业文本的稀疏性问题,采用Word2Vec+FastText词向量融合技术(捕捉一词多义),结合GraphSAGE构建学生知识图谱邻接矩阵(将“已掌握知识点”与“待提升知识点”关联),将文本特征转化为128维低维稠密向量输入协同过滤模型,使推荐准确率提升28%,学生日均使用时长增加40分钟,30日留存率提升15%。
- 负责NLP模型的生产化部署与监控,用TensorFlow Serving搭建集群(支持横向扩展至10节点),结合Prometheus+Grafana实现模型延迟、QPS、准确率的实时监控;针对高并发场景下的性能瓶颈,采用模型量化(FP32转INT8)与知识蒸馏技术(用小模型拟合大模型输出),将单条请求处理时间从200ms压缩至50ms,服务可用性保持在99.99%以上,全年未出现因模型服务故障导致的业务中断。