Amazon Elastic Kubernetes 服务监控集成

Amazon Elastic Kubernetes Service (Amazon EKS) 使您能够使用 AWS 上的 Kubernetes 轻松部署、管理和扩展容器化应用程序。借助 Kubernetes,您可以大规模自动化容器化应用程序的部署、扩展和管理。

借助 Site24x7 的集成,在集群、节点和命名空间级别监控您的 Amazon EKS  ,以实现对您的 Amazon EKS的全栈可见性。

设置和配置

1. 如果您还没有,请通过以下任一方式在您的 AWS 账户和 Site24x7 的 AWS 账户之间启用对 AWS 资源的访问:

  • 以 IAM 用户身份创建 Site24x7。
  • 创建跨账户 IAM 角色。了解更多

2. 在集成 AWS 账户页面上,选中Amazon EKS旁边的框。了解更多

先决条件

  • 在 Amazon EKS 上安装 Container Insights。了解更多

策略和权限

Site24x7 使用各种 Amazon EKS API 来收集有关您的集群的信息。将 AWS 托管策略 ReadOnlyAccess分配给 Site24x7 实体(IAM 用户或 IAM 角色)以帮助 Site24x7 收集指标和元数据。如果要分配自定义策略,请确保策略 JSON 中存在以下读取级别操作。了解更多

  • "eks:DescribeCluster",
  • "eks:ListClusters",
  • "cloudwatch:ListMetrics"

轮询频率

Site24x7 根据轮询频率集收集集群、命名空间和节点的指标数据,范围从一分钟到一天。了解更多

集群级指标

CloudWatch 指标 描述 统计 数据类型
cluster_failed_node_count 集群中的故障节点数 最大 节点
cluster_node_count 集群中的节点总数 最大 节点
namespace_number_of_running_pods 在命名空间中运行的 pod 数量 最大 Pods
service_number_of_running_pods 服务中运行的 pod 数量 最大 Pods
node_number_of_running_pods 节点中运行的 pod 数量 最大 Pods
node_number_of_running_containers 节点中运行的容器数 最大 容器
node_cpu_usage_total 所有节点使用的 CPU 最大 单位
node_cpu_limit 分配给节点的 CPU 最大 单位
node_cpu_reserved_capacity 为节点保留的 CPU 平均的 百分比
node_cpu_utilization 节点使用的 CPU 平均的 百分比
node_filesystem_utilization 节点上的文件系统容量 平均的 百分比
节点内存限制 分配给节点的内存 最大 MB
node_memory_working_set 节点工作集中使用的内存 平均的 MB
node_memory_reserved_capacity 为节点保留的内存 平均的 百分比
node_memory_utilization 节点使用的内存 平均的 百分比
node_network_total_bytes 节点中的总网络流量 MB/秒
pod_cpu_reserved_capacity 为 pod 保留的 CPU 平均的 百分比
pod_cpu_utilization pod 使用的 CPU 平均的 百分比
pod_cpu_utilization_over_pod_limit CPU 利用率超过 pod 限制 平均的 百分比
pod_memory_reserved_capacity 为 pod 保留的内存 平均的 百分比
pod_memory_utilization pod 使用的内存 平均的 百分比
pod_memory_utilization_over_pod_limit 内存使用超过 pod 限制 平均的 百分比
pod_network_rx_bytes pod 接收的总字节数 MB/秒
pod_network_tx_bytes pod 发送的总字节数 MB/秒

节点级指标

CloudWatch 指标 描述 统计 数据类型
node_number_of_running_pods 节点中运行的 pod 数量 最大 Pods
node_number_of_running_containers 节点中运行的容器数 最大 容器
node_cpu_reserved_capacity 为节点保留的 CPU 平均的 百分比
node_cpu_utilization 节点使用的 CPU 平均的 百分比
node_filesystem_utilization 节点上的文件系统容量 平均的 百分比
node_memory_reserved_capacity 为节点保留的内存 平均的 百分比
node_memory_utilization 节点使用的内存 平均的 百分比
node_network_total_bytes 节点中的总网络流量 MB/秒

命名空间级别的指标

CloudWatch 指标 描述 统计 数据类型
namespace_number_of_running_pods 在命名空间中运行的 pod 数量 最大 Pods
pod_cpu_utilization pod 使用的 CPU 平均的 百分比
pod_cpu_utilization_over_pod_limit CPU 利用率超过 pod 限制 平均的 百分比
pod_memory_utilization pod 使用的内存 平均的 百分比
pod_memory_utilization_over_pod_limit 内存使用超过 pod 限制 平均的 百分比
pod_network_rx_bytes pod 接收的总字节数 MB/秒
pod_network_tx_bytes pod 发送的总字节数 MB/秒

服务级别指标

CloudWatch 指标 描述 统计 数据类型
service_number_of_running_pods 服务中运行的 pod 数量 最大 Pods
pod_cpu_utilization pod 使用的 CPU 平均的 百分比
pod_cpu_utilization_over_pod_limit CPU 利用率超过 pod 限制 平均的 百分比
pod_memory_utilization pod 使用的内存 平均的 百分比
pod_memory_utilization_over_pod_limit 内存使用超过 pod 限制 平均的 百分比
pod_network_rx_bytes pod 接收的总字节数 MB/秒
pod_network_tx_bytes pod 发送的总字节数 MB/秒

Pod 级别的指标

CloudWatch 指标 描述 统计 数据类型
pod_cpu_reserved_capacity 为 pod 保留的 CPU 平均的 百分比
pod_cpu_utilization pod 使用的 CPU 平均的 百分比
pod_cpu_utilization_over_pod_limit CPU 利用率超过 pod 限制 平均的 百分比
pod_memory_reserved_capacity 为 pod 保留的内存 平均的 百分比
pod_memory_utilization pod 使用的内存 平均的 百分比
pod_memory_utilization_over_pod_limit 内存使用超过 pod 限制 平均的 百分比
pod_network_rx_bytes pod 接收的总字节数 MB/秒
pod_network_tx_bytes pod 发送的总字节数 MB/秒
pod_number_of_container_restarts 容器重启次数 最大 容器

阈值配置

转到管理配置文件Threshold and Availability (+)> 选择监视器类型为EKS ClusterEKS NodeEKS Namespace。您可以为上述所有指标设置阈值。此外,对于EKS 命名空间EKS 节点监视器,您可以将非活动命名空间和节点分别设置为阈值形式的维护。

Site24x7的EKS监控界面

概括

使用时间序列图了解每个资源中发生的不同事件。这些图表以百分比、发送或接收的总字节数、文件系统容量以及正在运行的容器和 pod 的数量提供有关 pod 和节点级别的 CPU 利用率和内存利用率的事件时间线。所有时间序列图表都列出了平均值、最小值和最大值。

节点和命名空间详细信息

这里,您可以查看与您的 Elastic Kubernetes 环境关联的节点和命名空间列表。单击单个列表以查看与该资源关联的性能和资源使用统计信息。您还可以通过单击“操作”下的铅笔图标来设置阈值并在这些服务中的任何一个失败时收到通知。

日志

收集所选日志类型的 EKS 控制平面日志条目,从 CloudWatch 获取日志并在日志流名称下分类。

配置

此选项卡下提供了 EKS 的配置详细信息。本节提供有关资源名称、端点 URL、资源区域、资源状态、安全组、子网、VPC ID、公共访问/私有访问状态、安全组等的详细信息。