Amazon Elasticsearch Service 监控集成
AWS 的 Elasticsearch 即服务让您可以轻松部署和操作 Elasticsearch,以进行日志分析、数据搜索等。通过使用 Site24x7 监控 Amazon ES,您可以监督性能优化等运营方面。
设置和配置
- 如果您尚未这样做,请通过将 Site24x7 创建为 IAM 用户或通过在您的账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问。了解更多。
- 接下来,在集成AWS 账户页面中,请确保在Services to be found字段中选中 Elasticsearch 复选框。了解更多。
策略和权限
请确保分配给 Site24x7 实体的 IAM 策略中存在以下读取级别操作。了解更多。
- "es:DescribeElasticsearchDomain",
- "es:ListDomainNames",
- "es:ListTags",
- "logs:DescribeLogStreams",
- "logs:GetLogEvents",
- "es:DescribePackages"
轮询频率
Site24x7 根据轮询频率集(1 分钟到一天)查询 AWS 服务级别 API 和 CloudWatch API,以收集性能指标。了解更多。
支持的指标
属性 | 描述 | 数据类型 | 统计 |
集群状态 | 绿色 - 表示所有索引分片都分配给集群中的节点。 黄色 - 表示所有索引的主分片都分配给集群中的节点,但至少一个索引的副本分片没有。 红色 - 表示至少一个索引的主分片和副本分片未分配给集群中的节点。 |
状态 | 最低限度 |
CPU 利用率 | 用于集群中数据节点的 CPU 资源百分比。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
百分比 | 平均的 |
存储 | 集群中节点的可用空间和已用空间(以 GB 为单位)。 | GB | 总和,最大值 |
节点 | Amazon ES 集群中的节点数,包括专用主节点。 | 计数 | 最低限度 |
文件 | 可搜索文档 - 集群中所有索引的可搜索文档总数。 可编辑文档 - 集群中所有索引中标记为删除且未出现在搜索结果中的文档总数。 |
计数 | 最大 |
集群索引写入被阻止 | 集群阻止或接受传入请求。 0 - 集群正在接受请求,1 - 集群正在阻止请求。 |
状态 | 最大 |
JVM 内存压力 | 用于集群中所有数据节点的 Java 堆百分比。 | 百分比 | 最大 |
自动快照失败 | 集群的失败自动快照数。 | 计数 | 最大 |
CPU 点数余额 | 可用于集群中数据节点的剩余 CPU 点数。 | 计数 | 最低限度 |
Kibana 健康节点 | Kibana 的健康检查。
1- 正常行为,0- Kibana 不可访问。 |
状态 | 最低限度 |
KMS 密钥错误 | 用于加密静态数据的 KMS 客户主密钥已被禁用。 | 状态 | 最大 |
KMS 密钥无法访问 | 用于加密静态数据的 KMS 客户主密钥已被删除或撤销其对 Amazon ES 的授权。 | 状态 | 最大 |
无效的主机头请求 | 向 Elasticsearch 集群发出的包含无效(或缺失)主机标头的 HTTP 请求数。 | 计数 | 和 |
Elastcisearch 请求 | 向 Elasticsearch 集群发出的请求数。 | 计数 | 和 |
请求计数 | 对域的请求数和每个请求的 HTTP 响应代码(2xx、3xx、4xx、5xx)。 | 计数 | 和 |
EBS 卷指标
属性 | 描述 | 数据类型 | 统计 |
读取延迟 | EBS 卷上读取操作的延迟(以秒为单位)。 | 计数/秒 | 平均的 |
写入延迟 | EBS 卷上的写入操作的延迟(以秒为单位)。 | 计数/秒 | 平均的 |
读取吞吐量 | EBS 卷上读取操作的吞吐量(以每秒字节数为单位)。 | MB/秒 | 平均的 |
写入吞吐量 | EBS 卷上的写入操作的吞吐量(以每秒字节数为单位)。 | MB/秒 | 平均的 |
磁盘队列深度 | EBS 卷的待处理输入和输出 (I/O) 请求数。 | 计数 | 最大 |
读取 IOPS | EBS 卷上读取操作的每秒输入和输出 (I/O) 操作数。 | 计数/秒 | 平均的 |
写 IOPS | EBS 卷上每秒写入操作的输入和输出 (I/O) 操作数。 | 计数/秒 | 平均的 |
专用主节点指标
属性 | 描述 | 数据类型 | 统计 |
主 CPU 利用率 | 专用主节点使用的 CPU 资源的最大百分比。 | 百分比 | 平均的 |
掌握自由存储空间 | 主节点的可用存储空间。
可用作Elasticsearch 节点指标。 |
MB | 平均的 |
掌握 JVM 内存压力 | 用于集群中所有专用主节点的 Java 堆的最大百分比。 | 百分比 | 最大 |
主 CPU 点数余额 | 可用于集群中专用主节点的 CPU 点数。 | 计数 | 最低限度 |
可从节点访问的主节点 | MasterNotDiscovered 异常的健康检查。值 1 表示正常行为。值 0 表示集群健康状况失败。 | 计数 | 和 |
主系统内存利用率 | 正在使用的主节点内存的百分比。 | 百分比 | 最大 |
实例指标
属性 | 描述 | 数据类型 | 统计 |
索引延迟 | 分片完成索引操作所需的平均时间(以毫秒为单位)。
可用作Elasticsearch 节点指标。 |
毫秒 | 平均的 |
索引率 | 每分钟的索引操作数。对 _bulk API 的一次调用添加两个文档并更新两个算作四个操作,这些操作可能分布在一个或多个节点上。如果该索引有一个或多个副本,则集群中的其他节点也会记录总共四次索引操作。文档删除不计入此指标。
可用作Elasticsearch 节点指标。 |
操作/分钟 | 平均的 |
搜索延迟 | 数据节点上的分片完成搜索操作所需的平均时间(以毫秒为单位)。
可用作Elasticsearch 节点指标。 |
毫秒 | 平均的 |
搜索率 | 数据节点上所有分片每分钟的搜索请求总数。对 _search API 的一次调用可能会返回来自许多不同分片的结果。如果其中 5 个分片在一个节点上,则该节点将针对该指标报告 5,即使客户端仅发出一个请求。
可用作Elasticsearch 节点指标。 |
操作/分钟 | 平均的 |
系统内存利用率 | 正在使用的实例内存的百分比。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
百分比 | 最大 |
JVMGC 年轻收集计数 | “年轻一代”垃圾收集运行的次数。大量且不断增长的运行是集群操作的正常部分。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
JVMGC Young 收集时间 | 集群执行“年轻一代”垃圾收集所花费的时间量(以毫秒为单位)。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
毫秒 | 平均的 |
JVMGC 旧收集计数 | “老年代”垃圾回收运行的次数。在具有足够资源的集群中,这个数字应该保持很小并且不经常增长。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
JVMGC 旧回收时间 | 集群执行“老一代”垃圾回收所花费的时间(以毫秒为单位)。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
毫秒 | 平均的 |
线程池 Force_merge 队列 | 强制合并线程池中排队的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池 Force_merge 被拒绝 | 强制合并线程池中被拒绝的任务数。如果此数字持续增长,请考虑扩展您的集群。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池 Force_merge 线程 | 强制合并线程池的大小。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 平均的 |
线程池索引队列 | 索引线程池中排队的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池索引被拒绝 | 索引线程池中被拒绝的任务数。如果此数字持续增长,请考虑扩展您的集群。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池索引线程 | 搜索线程池中排队的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池搜索队列 | 搜索线程池中排队的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池搜索被拒绝 | 搜索线程池中被拒绝的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池搜索线程 | 搜索线程池中被拒绝的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 平均的 |
线程池批量队列 | 批量线程池中排队的任务数。如果队列大小一直很高,请考虑扩展您的集群。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池批量被拒绝 | 批量线程池中被拒绝的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池批量线程 | 搜索线程池中被拒绝的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 平均的 |
线程池写线程 | 写线程池的大小。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 平均的 |
线程池写入被拒绝 | 写入线程池中被拒绝的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
线程池写队列 | 写入线程池中排队的任务数。
可用作Elasticsearch 节点指标,相关统计数据为最大值。 |
计数 | 和 |
Ultra Warm指标
属性 | 描述 | 数据类型 | 统计 |
warm CPU 利用率 | 集群中 UltraWarm 节点的 CPU 使用百分比。 | 百分比 | 平均的 |
warm的可用存储空间 | 以 MB 为单位的可用warm存储空间量。 | MB | 平均的 |
warm的 JVM 内存压力 | 用于 UltraWarm 节点的 Java 堆的最大百分比。 | 百分比 | 最大限度 |
warm的可搜索文档 | 集群中所有暖索引的可搜索文档总数。 | 计数 | 和 |
warm搜索延迟 | UltraWarm 节点上的分片完成搜索操作所需的平均时间(以毫秒为单位)。 | 毫秒 | 平均的 |
warm搜索率 | UltraWarm 节点上所有分片的每分钟搜索请求总数。对 _search API 的一次调用可能会返回来自许多不同分片的结果。 | 操作/分钟 | 平均的 |
暖存储空间利用率 | 集群正在使用的warm存储空间总量。 | MB | 最大 |
warm存储空间利用率 | 集群正在使用的warm存储空间总量。 | MB | 最大 |
暖系统内存利用率 | 正在使用的暖节点内存的百分比。 | 百分比 | 最大 |
warm到warm迁移队列大小 | 当前等待从warm存储迁移到warm存储的索引数。 | 计数 | 最大 |
暖到warm迁移队列大小 | 当前等待从暖存储迁移到warm存储的索引数量。 | 计数 | 最大 |
warm到warm迁移失败计数 | warm迁移失败的总数。 | 计数 | 和 |
Hot to Warm 迁移成功计数 | 成功的warm迁移到warm迁移的总数。 | 计数 | 和 |
Elasticsearch 监控界面
概括
查看显示为时间序列图表的 Elastcisearch 服务的性能指标。
卷详细信息
EBS 卷指标的详细图表,例如读/写 IOPS、读/写延迟和读/写吞吐量。