ELK 提供集群服务和资源性能监控指标和告警信息。

  • 服务监控指标统计了集群和服务的健康状态信息,可用于定位分析服务的性能。

  • 资源监控指标统计了云服务器的资源信息,如 CPU 使用率、硬盘 IOPS 情况等,可用于查看系统性能是否到达瓶颈。

注意

ELK 集群只用于监控集群的服务和资源指标,不会收除集除监控指标外的其它数据。

支持的服务监控指标

监控项 监控周期 单位 指标含义

集群健康状态

5分钟

-

统计集群索引数据的健康状态。

  • green 表示健康。

  • yellow 表示告警,有索引的分片数据不可用,但由于冗余配置,索引数据仍能访问。

  • red 表示异常,有索引的主分片数据和副本分片数据都不可用,索引的部分数据不可访问。

节点数

5分钟

counts

统计 Elasticsearch 数据节点和 Master 节点总数。
以个为单位。

集群索引数

5分钟

counts

统计集群中存放的索引数量。
以次为单位。

集群 JVM 堆内存使用百分比

5分钟

%

统计 JVM 堆内存使用的百分比。
如果长期处于90%以上,则需考虑扩容,增加数据节点或者提高节点配置。
以 % 为单位

集群 JVM 线程数

5分钟

counts

统计在 JVM 中运行的线程数量。
以个为单位。

集群文档监控组

5分钟

counts

统计集群中的文档数量。

  • 集群文档数集群中正在运行的文档数量。

  • 集群已删除文档数集群中已被删除的文档数量。

以个为单位。

集群分片监控组

5分钟

counts

统计集群中的分片数量。

  • 集群主分片数

  • 集群副本分片数

  • 正在迁移的分片数

  • 初始化中的分片数

  • 未分配的分片数

以个为单位。

等待中的任务数

5分钟

counts

统计还未执行的集群级的任务。
以个为单位。

执行中的 FETCH 数

5分钟

counts

统计还未完成的 FETCH 数。
以个为单位。

任务在队列中的最大等待时间

5分钟

ms

统计队列中未被执行的任务的最大等待时间。
以毫秒为单位。

活跃分片百分比

5分钟

%

统计队列中未被执行的任务的最大等待时间。
以%为单位。

支持的资源监控指标

监控项 监控周期 单位 指标含义

CPU

5分钟

%

统计资源 CPU 使用率。
以 % 为单位。

内存

5分钟

%

统计资源内存使用率。
以 % 为单位。

硬盘使用率

5分钟

%

统计资源硬盘使用率。
以 % 为单位。

硬盘 IOPS

5分钟

counts/s

统计每秒资源硬盘 IOPS 读取或写入次数,可分别查看读取或写入监控指标。
以次每秒为单位。

硬盘吞吐量

5分钟

MByte/s

统计每秒资源硬盘读取或写入速率,可分表获取读取或写入速率。
以 MByte 每秒为单位。