负责公司核心订单履约系统的全链路架构设计与迭代,覆盖从用户下单到骑手完成配送的关键环节,保障系统在高并发(日均150万单)场景下的稳定性与毫秒级响应,协同产品、算法团队优化履约效率与成本
- 主导订单处理模块的异步化重构:针对原同步处理逻辑导致的峰值延迟问题(订单积压超10万单/小时),采用Celery+Redis Cluster构建分布式任务队列,拆分「接单-分配骑手-确认取件」大任务为原子化子任务,引入任务分片与优先级队列机制,解决消费者处理瓶颈;最终订单全链路处理延迟从500ms降至150ms,峰值吞吐量提升3倍,支撑双11期间200万单/日的高峰流量
- 设计骑手实时轨迹同步系统:为解决弱网环境下轨迹更新丢失与延迟问题,基于WebSocket+MQTT协议搭建双向通信链路,结合Redis Pub/Sub实现状态缓存与离线消息重发;针对轨迹数据一致性痛点,设计幂等性校验(基于订单ID+时间戳哈希)与断点续传机制(记录最后成功同步的位置);上线后轨迹更新成功率从95%提升至99.9%,骑手端定位延迟降低至200ms以内,客诉率下降40%
- 推动数据库性能优化与成本管控:通过Py-Spy性能 profiling 定位到订单列表接口慢查询(响应时间800ms+)源于多表关联缺少复合索引,添加`(order_status, create_time, rider_id)`联合索引,同时将近7天热点订单缓存至Redis(采用LFU淘汰策略,TTL设置为10分钟);优化后接口响应时间降至120ms,数据库CPU利用率从75%降至30%,月度数据库成本减少25%
- 协同算法团队落地路径规划服务:将算法团队的Dijkstra优化算法输出(JSON格式路径坐标)转化为后端可调用的路线规划微服务,使用FastAPI搭建服务并定义OpenAPI 3.0契约,针对高并发场景(1万次/秒路径计算)调整Gunicorn配置(worker=16, worker_class=gevent),并通过Locust压测验证服务稳定性;服务上线后响应时间稳定在50ms以内,支撑日均100万单的路径计算需求