星途互娱核心游戏业务全链路可观测体系从0到1落地项目
- 项目背景:公司核心手游《星途纪元》用户量突破5000万后,故障排查平均耗时达45分钟,跨后端、网关、前端团队协作依赖口头传递日志,效率极低;同时业务侧无法快速关联“用户掉线”与“服务器CPU飙升”的因果关系。我的总体职责是主导平台架构设计、OpenTelemetry数据标准制定,以及推动业务团队接入与落地推广。
- 关键难题:1)多源观测数据(Prometheus Metrics、ELK Logs、Jaeger Traces)格式不兼容,实时查询延迟高达12秒;2)业务自定义指标(如“角色副本加载时长”)需手动配置Schema,接入周期平均3天;3)故障定位需在3个工具间跳转,缺乏业务上下文关联。
- 核心行动:1)牵头制定《星途互娱OpenTelemetry全链路埋点规范》,明确“服务-接口-业务事件”三级标签体系,推动12个业务团队完成40+微服务接入;2)基于ClickHouse设计“时序+日志+追踪”融合存储方案,通过“业务线ID+时间戳”双分区+ Bloom Filter索引,将查询延迟降至1.5秒内;3)开发Grafana定制插件,将业务标签(如游戏区服、角色ID)与观测数据关联,实现“用户投诉-链路追踪-服务器指标”的一键跳转。
- 项目成果:故障排查时间从45分钟降至8分钟内,跨团队协作成本降低60%;支持《星途纪元》《星途战纪》等3款核心手游的日常运维,自定义指标接入效率提升70%(从3天缩至4小时);平台成为公司级可观测标准,支撑暑期档活动0重大故障,用户7日留存率较去年同期提升2%,间接带来1500万流水增量。