监控指标与告警

 

监控指标

更新时间 2023-09-06

ELK 提供集群服务和资源性能监控指标和告警信息。

  • 服务监控指标统计了集群和服务的健康状态信息,可用于定位分析服务的性能。
  • 资源监控指标统计了云服务器的资源信息,如 CPU 使用率、硬盘 IOPS 情况等,可用于查看系统性能是否到达瓶颈。

注意

ELK 集群只用于监控集群的服务和资源指标,不会收除集除监控指标外的其它数据。

支持的服务监控指标

监控项 监控周期 单位 指标含义
集群健康状态 5分钟 - 统计集群索引数据的健康状态。
  • green 表示健康。
  • yellow 表示告警,主分片正常,但副本分片不正常,但由于冗余配置,索引数据仍能访问,此时集群仍能正常提供读、写服务。
  • red 表示异常,有索引的主分片数据和副本分片数据都不可用,索引的部分数据不可访问。
  • 节点数 5分钟 counts 统计 Elasticsearch 数据节点和 Master 节点总数。
    以个为单位。说明:
    当节点故障不被识别时,elasticserach 集群会把故障节点踢出集群,当前活跃的集群数量将发生变化。
    当节点数量减少后,集群健康状态在波动后,可能仍然维持 green,需要同时关注集群健康状态和节点数两个指标,以判断当前集群的健康状况。
    集群索引数 5分钟 counts 统计集群中存放的索引数量。用于集群索引数量指示、估算索引增长速度,为节点规格选取与扩容提供依据。
    以次为单位。
    集群 JVM 堆内存使用百分比 5分钟 % 统计 JVM 堆内存使用的百分比。
    如果长期处于90%以上,则需考虑扩容,增加数据节点或者提高节点配置。
    以 % 为单位
    集群 JVM 线程数 5分钟 counts 统计在 JVM 中运行的线程数量。
    以个为单位。
    集群文档监控组 5分钟 counts 统计集群中的文档数量。
  • 集群文档数集群中正在运行的文档数量;
  • 集群已删除文档数集群中已被删除的文档数量。
    以个为单位。
  • 集群分片监控组 5分钟 counts 统计集群中的分片数量。
  • 集群主分片数
  • 集群副本分片数
  • 正在迁移的分片数
  • 初始化中的分片数
  • 未分配的分片数 说明:
    • 通常情况下,处于稳定状态的集群,正在迁移的分片数、初始化中的分片数、未分配的分片数均为0。
    • 当集群的健康状态是 yellow 或者 red 时,初始化中的分片数、为分配的分片数可能大于0。
    • 当集群增加或者减少节点时、节点磁盘空间不足时,正在迁移的分片数可能大于0。
    • 当用户在热、温、冷节点之间迁移索引时,正在迁移的分片数大于0。
    • 当正在迁移的分片数、初始化中的分片数、未分配的分片数不为0时,需要进一步观察并确认集群状态。

    以个为单位。
  • 等待中的任务数 5分钟 counts 统计还未执行的集群级的任务。
    以个为单位。
    执行中的 FETCH 数 5分钟 counts 统计还未完成的 FETCH 数。
    以个为单位。
    任务在队列中的最大等待时间 5分钟 ms 统计队列中未被执行的任务的最大等待时间。
    以毫秒为单位。
    活跃分片百分比 5分钟 % 统计队列中未被执行的任务的最大等待时间。
  • 初始化中的分片数
  • 未分配的分片数 说明:
    通常情况下值为 100%。
    • 当用户 close 索引后,该值小于 100%。
    • 当存在未分配的分片数时,该值小于 100%。
    • 当该值小于 100%时,需要进一步观察并确认集群状态。

    以%为单位。
  • 支持的资源监控指标

    监控项 监控周期 单位 指标含义
    CPU 5分钟 % 统计资源 CPU 使用率。
    以 % 为单位。
    内存 5分钟 % 统计资源内存使用率。
    以 % 为单位。
    硬盘使用率 5分钟 % 统计资源硬盘使用率。
    以 % 为单位。
    硬盘 IOPS 5分钟 counts/s 统计每秒资源硬盘 IOPS 读取或写入次数,可分别查看读取或写入监控指标。
    以次每秒为单位。
    硬盘吞吐量 5分钟 MByte/s 统计每秒资源硬盘读取或写入速率,可分表获取读取或写入速率。
    以 MByte 每秒为单位。
    这篇文档解决了您的问题吗?
    0
    0