负责电信增值业务核心系统(智能语音平台、短信网关、彩信中心)的需求分析、研发迭代及性能优化,协同产品、测试团队保障系统稳定性与业务连续性,覆盖从分布式架构设计到生产环境故障根因解决的全生命周期。
- 主导设计并落地智能语音平台的分布式微服务架构升级,基于Spring Cloud Alibaba重构核心调度模块,将原有单体架构的同步Dubbo调用迁移至Feign+Sentinel的异步熔断机制,解决高并发场景(峰值QPS从8000提升至2.5万)下的响应延迟问题;通过JMeter压测验证接口平均响应时间从650ms降至180ms,年度系统 downtime 从12小时缩短至3.6小时,支撑了千万级用户的智能语音外呼业务。
- 针对短信网关系统的大规模消息积压故障,深入分析Kafka消费链路瓶颈,定位到分区分配策略不合理(原8分区无法匹配峰值流量)及消费者线程池配置不足(原16线程),通过调整分区数至16个、优化线程池大小为32线程,并引入Redis布隆过滤器过滤重复消息,将消息处理成功率从92%提升至99.95%,日均积压量从50万条降至不足1万条,避免了业务投诉率上升风险。
- 负责彩信中心内容审核模块的研发,基于Tesseract OCR+百度AI敏感词库实现图片/文本的自动化审核,结合Drools规则引擎配置动态审核策略(如政治敏感、广告违规),将人工审核比例从60%降至15%,审核效率提升4倍;通过灰度发布机制(先覆盖10%用户再全量)保障新功能上线零故障,支撑了1000万+用户的彩信发送场景。
- 搭建电信增值业务全链路监控体系,基于Prometheus+Grafana整合应用性能指标(JVM堆内存使用率、数据库连接池等待时间)及业务指标(短信发送成功率、彩信到达时长),设置30+条阈值告警规则(如成功率低于99.5%触发钉钉告警);通过Alertmanager实现告警分级推送,使得系统异常发现时间从30分钟缩短至2分钟,年度重大故障次数从4次降至1次。