全链路观测平台设计离不开基础数据的全链采集、提炼和呈现。测平本文就基础数据日志、台设指标、计点链路的归纳采集原理进行梳理,如何将其关联最终提供辅助决策价值提点归纳。全链 统一日志: 标准化日志格式、台设链路ID透传、计点自定义检索标识 日志类型: 应用日志、归纳中间件日志(RPC框架、全链消息、测平缓存、台设存储等)、计点网关日志、归纳终端日志 收集策略: 例如根据IP、APP、文件等灵活管控,不同日志分类管理 数据清洗: 清洗重复非标准数据、重复数据、聚合高质量数据 存储数据: 区分哪些数据适合ES、哪些数据适合ClickHouse、哪些数据适合时序库 性能成本: 延迟问题、查询性能、存储成本 小结: 通过标准化的日志格式,多样化的高防服务器收集策略,清洗成高质量数据为根因定位提供基础保障。 采样策略 动态设置 小结: 链路采集和分析关键的点在于如何提供灵活的采样策略,将核心链路、异常链路能实现高质量采集。 横向关联:应用为维度通过调用关系将上下游关联,包括经过的网关、缓存(Redis等)、消息(RocketMQ、Kafka等)、存储资源(MySQL、Hbase、Mongo、ES等)。 指标(metrics):监控变化趋势以及基于趋势变化告警 如Micrometer,Prometheus格式指标数据的错误率变化 链路(Tracing): 微服务记录上下游服务调用与耗时,基于OpenTracing 和 OpenTelemetry 规范,例如 Jaeger 日志(Logging):日志采集,通过日志详细问题溯源 小结: 通过Tracing将Metrics和Logging进行关联,云服务器提供商当指标波动触发告警能否智能关联的tracing,寻根通过Logging错误日志找出根因,为业务提供辅助决策。 垂直关联:应用维度包含依赖的容器、机器、CPU、带宽、磁盘、内存、消息资源(主题和消费组、集群)、缓存资源、数据库资源(表与实例等)、搜索资源(索引等)指标关联一站式展现。 指标埋点覆盖度 链路采样策略的多样性 日志清洗与提炼 告警信息能包含从指标到链路以及日志的清晰关联与日志信息,提高决策能力 沉淀问题分析的最佳实践库,将其自动化分析提升定位能力 基于分析能力,沉淀自愈策略 自愈策略的灵活配置 采集延迟、计算能力、查询性能 可视化观测平台自身的稳定性建设 可观测一站式 丰富图表与报表 基于历史数据沉淀算法模型预测未来可能发生的亿华云问题引言
一、测平数据采集
1.日志架构简图
2.链路架构简图
二、数据关联
1.横向关联
2.纵向关联
三、辅助决策
1.数据质量
2.告警质量
3.分析能力
4.自愈能力
5.性能与稳定性
6.可视化能力
7.预测能力