负责内容分发平台核心链路(内容路由、权限管控、实时数据同步)的后端架构设计、功能迭代及性能优化,支撑千万级DAU的内容请求处理,保障系统99.99%高可用
- 主导设计基于Node.js + Redis Cluster的内容路由系统,针对原有哈希路由导致的节点负载不均问题,引入一致性哈希算法(Consistent Hashing)结合节点CPU/内存使用率的健康度权重,用Prometheus+Grafana搭建实时监控看板,将节点平均负载从75%降至58%,单节点QPS从1200提升至1680,支撑平台内容库从500万条扩容至1200万条的需求
- 核心参与用户权限系统重构,原有JWT鉴权存在令牌篡改风险且无法实现细粒度权限控制,采用OAuth2.0 Client Credentials模式 + RBAC模型重构鉴权链路,结合Casbin进行策略管理,用Mocha+Chai编写120+条测试用例覆盖角色继承、权限撤销等核心场景,将权限校验耗时从15ms降至3ms,全年未发生因权限漏洞导致的安全事件
- 重点优化实时内容热度统计模块,原有MySQL批量写入瓶颈导致数据延迟达10分钟,引入Kafka作为消息队列解耦生产消费,用Node.js的kafkajs库实现异步批量写入(每100条攒批),结合ClickHouse做实时聚合计算(预计算小时级热度),将热度更新延迟从10分钟缩短至58秒内,支撑首页实时推荐功能的点击转化率提升12%,该模块日均处理1.2亿条热度数据
- 推动团队落地Node.js全链路性能监控体系,针对原有New Relic无法覆盖业务层逻辑的问题,集成OpenTelemetry SDK采集链路追踪数据,用Jaeger做可视化分析,定位到“内容标签关联查询”“用户兴趣推荐”2个慢接口(平均响应超500ms),通过优化MySQL覆盖索引(新增`tag_id + create_time`联合索引)和减少Redis不必要的GET操作(合并3次GET为1次HGETALL),将接口平均响应时间降至180ms,系统整体错误率从0.2%降至0.05%