AWS Step Functions 监控
AWS Step 函数使您能够通过将工作流表示为状态机和任务来协调各种分布式组件的工作。通过 Site24x7 的 AWS 集成,您可以监控执行时间等指标并发出告警,以了解您的状态机的行为。
设置和配置
- 如果您还没有这样做,请通过在您的 AWS 账户和 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用 Site24x7 访问您的 AWS 资源。您还可以将 Site24x7 创建为 IAM 用户并生成安全凭证。了解更多
- 在集成 AWS 账户页面中,选择要发现的服务部分中的步骤函数。了解更多。
策略和权限
将 AWS 托管策略 ReadOnlyAccess 分配给 Site24x7 实体(IAM 角色或 IAM 用户),以帮助 Site24x7 访问和收集有关您的状态机的信息。如果您要分配自定义策略,请确保策略 JSON 中存在以下读取级别操作。了解更多。
- "states:ListStateMachines",
- "states:DescribeStateMachine",
- "states:ListActivities",
- "states:DescribeExecution",
- "states:ListExecutions",
- "states:GetExecutionHistory",
- "states:ListTagsForResource"
轮询频率
Site24x7 根据轮询频率集(1 分钟到一天)收集有关阶跃函数执行的指标数据点。了解更多。
IT 自动化
您可以为 Site24x7 支持的 AWS 服务添加自动化。登录到 Site24x7 并转到管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化后,您可以计划它们一个接一个地执行。
您现在可以使用AWS Step 函数自动化启动状态机执行。
许可
每个步进函数都被认为是一个基本监视器。了解更多。
支持的指标
属性 | 描述 | 数据类型 | 统计数据 |
---|---|---|---|
执行时间处理时间 | 监测执行开始时间和结束时间之间的时间间隔。 | 秒 | 平均的 |
执行受限 | 监测状态输入事件和重试被限制的次数。 | 计数 | 和 |
执行中止 | 监测中止或终止的执行次数。 | 计数 | 和 |
执行失败 | 衡量他执行失败的次数。 | 计数 | 和 |
执行开始 | 监测开始执行的次数。 | 计数 | 和 |
执行成功 | 衡量成功完成执行的次数。 | 计数 | 和 |
执行超时 | 监测因任何原因超时的执行次数。 | 计数 | 和 |
查看数据
- 登录到 Site24x7 Web 控制台。在左侧导航窗格中,选择 AWS 并选择您监控的 AWS 账户。
- 在菜单下拉菜单中,选择 Step Functions。
- 从监控的状态机列表中,选择您要查看其指标的状态机。
AWS Step Functions 监控界面
概括
使用“摘要”选项卡可以深入了解您的步进函数执行情况。默认情况下,会显示所有状态机指标的时间序列图表。
工作流程图
显示状态机的颜色编码可视化工作流程。您可以将鼠标悬停在每个状态上以查看更多信息。例如,当您将鼠标悬停在失败状态时,您可以看到导致失败的运行时错误以及被调用资源的服务名称和资源的操作。
定义
显示了状态机的 Amazon 状态语言(基于 JSON 的结构化语言)定义。
执行
状态机执行历史按时间倒序显示。您可以选择特定的执行来查看该执行中发生的事件列表以及时间戳、JSON 数据输入、类型、状态详细信息等
资源
在您的状态机活动中引用的 AWS资源(DynamoDB 表、SNS 主题、Lambda、ECS 和 SQS 队列)连同它们的状态一起显示(注意:只有在 Site24x7 监控的情况下才会显示资源状态)。 您还可以通过单击“ 操作” 下 的铅笔图标来设置阈值并在这些服务中的任何一个失败时收到通知。