监控与告警

 

设置监控告警

更新时间 2023-09-06

OpenSearch 监控告警是通过云监控告警服务为集群服务器的资源和服务提供监控管理。当集群监控项超过阈值时触发告警,并通过短信、邮件等形式发送告警通知。

  • 支持设置统一通知策略

  • 支持绑定指标告警策略,自定义告警规则和监控项,及时监控 OpenSearch 各项指标状态。

    • 可自定义监控项:CPU利用率内存使用率磁盘使用量集群健康状态节点服务状态节点数未分配的分片数正在迁移的分片数活跃分片百分比执行中的 FETCH 数等待中的任务数任务在队列中的最大等待时间集群 JVM 堆内存使用百分比集群 JVM 线程数索引压力百分比(all)索引压力百分比(coordinating、primary)
    • 可自定义监控周期:1分钟5分钟

前提条件

  • 已获取管理控制台登录账号和密码,且已获取集群操作权限。
  • 已创建 OpenSearch 集群,且集群状态为活跃

绑定指标告警策略

OpenSearch 支持对每个缓存节点配置指标告警策略。当业务发生异常时,会触发用户设定的告警阈值,并发送短信或邮件通知用户。

  1. 在集群管理页面,点击集群 ID,进入集群详情页面。

  2. 告警页签,选择节点,并点击列表上方绑定指标告警策略

  3. 在弹出的指标告警策略配置窗口,选择指标告警策略,并点击提交

    说明

    若无可选指标告警策略,请参考创建指标告警策略

  4. 返回告警页签,选中已绑定指标告警策略节点,可查看配置的指标和告警历史。

    查看通知策略

创建指标告警策略

  1. 在指标告警策略配置窗口,点击创建指标告警策略,弹出创建告警策略窗口。

  2. 配置告警基本参数。

    名称 :输入告警策略名称。

    对象范围 :默认为平台监控

    告警类型 :默认为指标告警,即对集群指标进行监控告警。

    资源类型 :默认为集群节点

    监控周期 :可选择1分钟5分钟。默认为5分钟,免费使用。

    配置告警行为
  3. 点击下一步,配置告警规则。

    点击添加规则,并可配置指标规则阈值和告警级别,一个策略可添加多条指标规则。

    说明

    有多条指标规则时,任何一条规则满足条件都会触发告警。

    配置告警行为
  4. 点击下一步,配置告警行为。

    发送通知 :选择是否发送告警通知,默认为

    触发条件 :选择告警触发条件,可选择资源变为告警时资源恢复正常时

    告警次数 :当资源持续处于告警状态时,连续发送通知的次数。最多为100次。

    通知列表 :选择告警通知列表。

    配置告警行为
  5. 确认配置无误后,点击提交,返回指标告警策略配置窗口,即可选择新创建的告警策略。

    说明

    更多告警策略管理说明,请参见云监控 CloudSat 告警服务

告警规则

告警项 推荐值 描述
CPU 利用率 90% 检测 CPU 使用率。若 CPU 过高会导致性能下降、崩溃等。
内存使用率 90% 检测内存使用率。若持续增高会导致节点不可用。
磁盘使用量 90% 检测硬盘使用率。若磁盘满会导致节点 数据无法落盘。
节点服务状态 异常 检测 Elasticsearch 节点服务是否可用。
告警提示异常时,可能该节点已崩溃。
节点数 - 检测正常服务 Elasticsearch 节点个数,一般设置低于该设定值将上报告警。
未分配的分片数 - 检测 Elasticsearch 节点未分配的分片个数,低于或高于该设定值将上报告警。
正在迁移的分片数 - 检测正在迁移的分片个数,一般设置高于该设定值将上报告警。
活跃分片百分比 90% 检测 Elasticsearch 节点活跃分片占总分片数的百分比。
执行中的 FETCH 数 - 检查 Elasticsearch 节点执行中的 FETCH 数,一般设置高于该设定值将上报告警。
等待中的任务数 - 检查 Elasticsearch 节点等待中的任务数,一般设置高于该设定值将上报告警。
任务在队列中的最大等待时间 90% 检查 Elasticsearch 节点等待中的任务的最长等待时间,单位为毫秒。一般设置高于该设定值将上报告警。
集群 JVM 堆内存使用百分比 90% 检查集群 JVM 堆内存使用百分比。一般设置高于该设定值将上报告警。
集群 JVM 线程数 90% 检查集群 JVM 线程数,一般设置高于该设定值将上报告警。
索引压力百分比(all ) 90% 检查 coordinating、primary、replica 操作消耗堆内存占索引压力 limit 堆内存的百分比。
索引压力百分比(coordinating、primary) 90% 检查 coordinating、primary 操作消耗堆内存占索引压力 limit 堆内存的百分比。

设置统一通知策略

节点绑定指标告警策略后,通过设置统一通知策略,可将告警通知统一发送至一个通知列表。

注意

设置统一通知策略后,节点绑定的指标告警策略所关联的通知列表,将无法收到告警通知,请注意运维业务分配情况。

  1. 在集群管理页面,点击集群 ID,进入集群详情页面。

  2. 告警页签,点击通知策略模块下设置

  3. 在弹出的通知策略配置窗口,选择通知策略,并点击提交

  4. 返回告警页签,查看配置的统一通知策略。

    查看通知策略
这篇文档解决了您的问题吗?
0
0