监控与告警

本页目录

监控与告警

监控指标

下载编辑

更新时间 2023-09-06

OpenSearch 提供集群服务和资源性能监控指标和告警信息。

服务监控指标统计了集群和服务的健康状态信息，可用于定位分析服务的性能。
资源监控指标统计了云服务器的资源信息，如 CPU 使用率、硬盘 IOPS 情况等，可用于查看系统性能是否到达瓶颈。

注意

OpenSearch 集群只用于监控集群的服务和资源指标，不会收除集除监控指标外的其它数据。

支持的服务监控指标

监控项	监控周期	单位	指标含义
集群健康状态	5分钟	-	统计集群索引数据的健康状态。 `green` 表示健康。 `yellow` 表示告警，有索引的分片数据不可用，但由于冗余配置，索引数据仍能访问。 `red` 表示异常，有索引的主分片数据和副本分片数据都不可用，索引的部分数据不可访问。
节点数	5分钟	counts	统计 OpenSearch 数据节点和 Master 节点总数。以个为单位。
集群索引数	5分钟	counts	统计集群中存放的索引数量。以次为单位。
集群 JVM 堆内存使用百分比	5分钟	%	统计 JVM 堆内存使用的百分比。如果长期处于90%以上，则需考虑扩容，增加数据节点或者提高节点配置。以 % 为单位
集群 JVM 线程数	5分钟	counts	统计在 JVM 中运行的线程数量。以个为单位。
集群文档监控组	5分钟	counts	统计集群中的文档数量。 `cluster_docs_count`集群中正在运行的文档数量； `cluster_docs_deleted_count`集群中已被删除的文档数量。以个为单位。
集群分片监控组	5分钟	counts	统计集群中的分片数量。 `cluster_shards_primaries_count`集群中主分片数量； `cluster_shards_replication_count`集群中副本分片数量； `relocating_shards`集群中正在迁移的分片数量； `initializing_shards`集群中正在初始化的分片数量； `unassigned_shards`集群中还未分配存储空间分片数量。以个为单位。
等待中的任务数	5分钟	counts	统计还未执行的集群级的任务。以个为单位。
执行中的 FETCH 数	5分钟	counts	统计还未完成的 FETCH 数。以个为单位。
任务在队列中的最大等待时间	5分钟	ms	统计队列中未被执行的任务的最大等待时间。以毫秒为单位。
活跃分片百分比	5分钟	%	统计队列中未被执行的任务的最大等待时间。以%为单位。
索引压力	5分钟	MByte	统计索引操作消耗的 JVM 内存大小。 - `node_indexing_pr_coordinating` 表示 coordinating 操作消耗的 JVM 内存大小。 - `node_indexing_pr_primary` 表示 primary 操作消耗的 JVM 内存大小。 - `node_indexing_pr_replica` 表示 replica 操作消耗的 JVM 内存大小。 - `node_indexing_pr_all` 表示所有索引操作消耗的 JVM 内存大小。 - `node_indexing_pr_limit` 表示执行索引操作的 JVM 内存限制。
索引压力百分比	5分钟	%	统计索引操作消耗的 JVM 内存百分比。 - `索引压力百分比（coordinating, primary）`，表示 coordinating 与 primary 操作消耗 JVM 内存百分比（以“执行索引操作的 JVM 内存限制”为总量计算）。 - `索引压力百分比（all）`表示所有索引操作消耗 JVM 内存百分比（以“执行索引操作的jvm内存限制”为总量计算）。

支持的资源监控指标

监控项	监控周期	单位	指标含义
CPU	5分钟	%	统计资源 CPU 使用率。以 % 为单位。
内存	5分钟	%	统计资源内存使用率。以 % 为单位。
硬盘使用率	5分钟	%	统计资源硬盘使用率。以 % 为单位。
硬盘 IOPS	5分钟	counts/s	统计每秒资源硬盘 IOPS 读取或写入次数，可分别查看读取或写入监控指标。以次每秒为单位。
硬盘吞吐量	5分钟	MByte/s	统计每秒资源硬盘读取或写入速率，可分表获取读取或写入速率。以 MByte 每秒为单位。

下一页: 设置监控告警

这篇文档解决了您的问题吗？

0

0