Amazon Elastic Kubernetes 服务监控集成
Amazon Elastic Kubernetes Service (Amazon EKS) 使您能够使用 AWS 上的 Kubernetes 轻松部署、管理和扩展容器化应用程序。借助 Kubernetes,您可以大规模自动化容器化应用程序的部署、扩展和管理。
借助 Site24x7 的集成,在集群、节点和命名空间级别监控您的 Amazon EKS ,以实现对您的 Amazon EKS的全栈可见性。
设置和配置
1. 如果您还没有,请通过以下任一方式在您的 AWS 账户和 Site24x7 的 AWS 账户之间启用对 AWS 资源的访问:
- 以 IAM 用户身份创建 Site24x7。
- 创建跨账户 IAM 角色。了解更多
2. 在集成 AWS 账户页面上,选中Amazon EKS旁边的框。了解更多
先决条件
- 在 Amazon EKS 上安装 Container Insights。了解更多
策略和权限
Site24x7 使用各种 Amazon EKS API 来收集有关您的集群的信息。将 AWS 托管策略 ReadOnlyAccess分配给 Site24x7 实体(IAM 用户或 IAM 角色)以帮助 Site24x7 收集指标和元数据。如果要分配自定义策略,请确保策略 JSON 中存在以下读取级别操作。了解更多
- "eks:DescribeCluster",
- "eks:ListClusters",
- "cloudwatch:ListMetrics"
轮询频率
Site24x7 根据轮询频率集收集集群、命名空间和节点的指标数据,范围从一分钟到一天。了解更多
集群级指标
CloudWatch 指标 | 描述 | 统计 | 数据类型 |
---|---|---|---|
cluster_failed_node_count | 集群中的故障节点数 | 最大 | 节点 |
cluster_node_count | 集群中的节点总数 | 最大 | 节点 |
namespace_number_of_running_pods | 在命名空间中运行的 pod 数量 | 最大 | Pods |
service_number_of_running_pods | 服务中运行的 pod 数量 | 最大 | Pods |
node_number_of_running_pods | 节点中运行的 pod 数量 | 最大 | Pods |
node_number_of_running_containers | 节点中运行的容器数 | 最大 | 容器 |
node_cpu_usage_total | 所有节点使用的 CPU | 最大 | 单位 |
node_cpu_limit | 分配给节点的 CPU | 最大 | 单位 |
node_cpu_reserved_capacity | 为节点保留的 CPU | 平均的 | 百分比 |
node_cpu_utilization | 节点使用的 CPU | 平均的 | 百分比 |
node_filesystem_utilization | 节点上的文件系统容量 | 平均的 | 百分比 |
节点内存限制 | 分配给节点的内存 | 最大 | MB |
node_memory_working_set | 节点工作集中使用的内存 | 平均的 | MB |
node_memory_reserved_capacity | 为节点保留的内存 | 平均的 | 百分比 |
node_memory_utilization | 节点使用的内存 | 平均的 | 百分比 |
node_network_total_bytes | 节点中的总网络流量 | 和 | MB/秒 |
pod_cpu_reserved_capacity | 为 pod 保留的 CPU | 平均的 | 百分比 |
pod_cpu_utilization | pod 使用的 CPU | 平均的 | 百分比 |
pod_cpu_utilization_over_pod_limit | CPU 利用率超过 pod 限制 | 平均的 | 百分比 |
pod_memory_reserved_capacity | 为 pod 保留的内存 | 平均的 | 百分比 |
pod_memory_utilization | pod 使用的内存 | 平均的 | 百分比 |
pod_memory_utilization_over_pod_limit | 内存使用超过 pod 限制 | 平均的 | 百分比 |
pod_network_rx_bytes | pod 接收的总字节数 | 和 | MB/秒 |
pod_network_tx_bytes | pod 发送的总字节数 | 和 | MB/秒 |
节点级指标
CloudWatch 指标 | 描述 | 统计 | 数据类型 |
---|---|---|---|
node_number_of_running_pods | 节点中运行的 pod 数量 | 最大 | Pods |
node_number_of_running_containers | 节点中运行的容器数 | 最大 | 容器 |
node_cpu_reserved_capacity | 为节点保留的 CPU | 平均的 | 百分比 |
node_cpu_utilization | 节点使用的 CPU | 平均的 | 百分比 |
node_filesystem_utilization | 节点上的文件系统容量 | 平均的 | 百分比 |
node_memory_reserved_capacity | 为节点保留的内存 | 平均的 | 百分比 |
node_memory_utilization | 节点使用的内存 | 平均的 | 百分比 |
node_network_total_bytes | 节点中的总网络流量 | 和 | MB/秒 |
命名空间级别的指标
CloudWatch 指标 | 描述 | 统计 | 数据类型 |
---|---|---|---|
namespace_number_of_running_pods | 在命名空间中运行的 pod 数量 | 最大 | Pods |
pod_cpu_utilization | pod 使用的 CPU | 平均的 | 百分比 |
pod_cpu_utilization_over_pod_limit | CPU 利用率超过 pod 限制 | 平均的 | 百分比 |
pod_memory_utilization | pod 使用的内存 | 平均的 | 百分比 |
pod_memory_utilization_over_pod_limit | 内存使用超过 pod 限制 | 平均的 | 百分比 |
pod_network_rx_bytes | pod 接收的总字节数 | 和 | MB/秒 |
pod_network_tx_bytes | pod 发送的总字节数 | 和 | MB/秒 |
服务级别指标
CloudWatch 指标 | 描述 | 统计 | 数据类型 |
---|---|---|---|
service_number_of_running_pods | 服务中运行的 pod 数量 | 最大 | Pods |
pod_cpu_utilization | pod 使用的 CPU | 平均的 | 百分比 |
pod_cpu_utilization_over_pod_limit | CPU 利用率超过 pod 限制 | 平均的 | 百分比 |
pod_memory_utilization | pod 使用的内存 | 平均的 | 百分比 |
pod_memory_utilization_over_pod_limit | 内存使用超过 pod 限制 | 平均的 | 百分比 |
pod_network_rx_bytes | pod 接收的总字节数 | 和 | MB/秒 |
pod_network_tx_bytes | pod 发送的总字节数 | 和 | MB/秒 |
Pod 级别的指标
CloudWatch 指标 | 描述 | 统计 | 数据类型 |
---|---|---|---|
pod_cpu_reserved_capacity | 为 pod 保留的 CPU | 平均的 | 百分比 |
pod_cpu_utilization | pod 使用的 CPU | 平均的 | 百分比 |
pod_cpu_utilization_over_pod_limit | CPU 利用率超过 pod 限制 | 平均的 | 百分比 |
pod_memory_reserved_capacity | 为 pod 保留的内存 | 平均的 | 百分比 |
pod_memory_utilization | pod 使用的内存 | 平均的 | 百分比 |
pod_memory_utilization_over_pod_limit | 内存使用超过 pod 限制 | 平均的 | 百分比 |
pod_network_rx_bytes | pod 接收的总字节数 | 和 | MB/秒 |
pod_network_tx_bytes | pod 发送的总字节数 | 和 | MB/秒 |
pod_number_of_container_restarts | 容器重启次数 | 最大 | 容器 |
阈值配置
转到管理> 配置文件> Threshold and Availability (+)> 选择监视器类型为EKS Cluster/ EKS Node/ EKS Namespace。您可以为上述所有指标设置阈值。此外,对于EKS 命名空间和EKS 节点监视器,您可以将非活动命名空间和节点分别设置为阈值形式的维护。
Site24x7的EKS监控界面
概括
使用时间序列图了解每个资源中发生的不同事件。这些图表以百分比、发送或接收的总字节数、文件系统容量以及正在运行的容器和 pod 的数量提供有关 pod 和节点级别的 CPU 利用率和内存利用率的事件时间线。所有时间序列图表都列出了平均值、最小值和最大值。
节点和命名空间详细信息
在这里,您可以查看与您的 Elastic Kubernetes 环境关联的节点和命名空间列表。单击单个列表以查看与该资源关联的性能和资源使用统计信息。您还可以通过单击“操作”下的铅笔图标来设置阈值并在这些服务中的任何一个失败时收到通知。
日志
收集所选日志类型的 EKS 控制平面日志条目,从 CloudWatch 获取日志并在日志流名称下分类。
配置
此选项卡下提供了 EKS 的配置详细信息。本节提供有关资源名称、端点 URL、资源区域、资源状态、安全组、子网、VPC ID、公共访问/私有访问状态、安全组等的详细信息。