帮助手册 管理 阈值和可用性 SQL Server 的阈值和可用性

SQL Server 的阈值和可用性

将 SQL 服务器监视器成功添加到您的 Site24x7 帐户后,添加阈值和可用性配置文件以帮助告警引擎决定是否必须将特定资源声明为关键资源或停机。配置停机规则以减少错误告警。

提示:在设置阈值配置文件时,您还可以 将 IT 自动化映射到所需的属性。一旦超过阈值,将执行纠正自动化,无需人工干预即可修复问题。每个属性最多可以映射 五个校正自动化。

添加阈值配置文件

  1. 登录到 Site24x7。
  2. 转到管理>配置文件>阈值和可用性>添加阈值配置文件。您还可以通过服务器>服务器监视器>服务器> 单击服务器监视器 > 将鼠标悬停在显示名称旁边的三横杠图标上 >编辑>配置文件>阈值和可用性旁边的铅笔图标
  3. 指定以下详细信息: 
    • 监视器类型:从下拉列表中选择Microsoft SQL Server 。
    • 显示名称:为阈值和可用性配置文件指定适当的名称。
  4. 阈值类型:您可以在静态和基于 AI 的阈值之间进行选择。 有关可以设置阈值 的指标的完整列表,请参阅以下部分
    • 静态阈值:从下拉菜单中,选择需要配置阈值的所需指标。输入特定于单位的值,并为每个指标设置阈值条件(<、<=、=、> 或 >=)和监视器状态(通知为)。当违反这些阈值条件时,您会收到告警。 
    • 基于 AI 的阈值:基于 AI 的阈值将使用异常检测跟踪异常峰值,并将提供一个动态阈值,该阈值将相应更新。如果您选择基于 AI 的阈值,请选择相关的异常严重性和相应的状态。
      • 一般阈值:登录、批处理请求、SQL 编译、复制合并冲突
      • 内存阈值:目标服务器内存、总服务器内存、目标服务器内存、SQL 缓存内存、优化器内存、已授予的工作区内存、未决的内存授予
      • 缓冲区管理器阈值:检查点页面、延迟写入、页面读取、页面拆分、页面写入、完整扫描、错误数
      • 作业和计划阈值:计划缓存命中率、缓存页面、缓存对象、排队作业、失败作业
      • Lock and Latch Thresholds:锁请求、锁超时、死锁、平均锁等待时间 
  5. 高级阈值设置(策略):
    轮询计数用作验证阈值违规的默认策略。您可以通过对指定的阈值策略应用多个条件(>、<、=、>=、<=)来验证阈值违规。当应用于以下任何阈值策略的条件成立时,监视器的状态将更改为“故障”或“严重”:
    • 在轮询计数期间验证的阈值条件(轮询次数):当针对指定的“轮询计数”连续验证应用于阈值的条件时,监视器的状态变为故障或危急。
    • 轮询计数期间的平均值(轮询次数) :当属性值的平均值(对于配置的轮询次数)连续证明应用于阈值的条件时,监视器的状态变为故障或危急。
    • 在持续时间内验证的条件(以分钟为单位) :当连续验证应用于阈值的指定条件时,对于所有轮询,在配置的持续时间内,监视器的状态更改为故障或危急。
    • 持续时间内的平均值(以分钟为单位):当属性值的平均值在配置的持续时间内持续证明应用于阈值的条件时,监视器的状态变为故障或危急。

    默认情况下不会应用多轮询检查策略。在无法应用策略的情况下,将仅针对单个轮询验证阈值违规。
    为确保应用于阈值违规检测的策略“策略 3:持续时间或策略 4:持续时间期间的平均值”的条件按预期工作,您必须确保指定的持续时间至少是应用该监视器的轮询频率。
  6. 单击保存。为 SQL Server 监视器创建的阈值和可用性配置文件将与已创建的其他配置文件一起自动列在“ 阈值和可用性 ”屏幕中。

支持的指标列表

  • 常规阈值:
    • SQL 代理服务关闭时通知:当 SQL 代理服务关闭时发出通知。默认情况下,它设置为否。
    • SQL 浏览器服务关闭时通知:  SQL 浏览器服务关闭时通知。默认情况下,它设置为否。
    • 用户连接:当连接到系统的用户数量超过指定值时,收到故障或危急告警。
    • 登录:当每秒启动的登录总数超过指定值时,收到故障或危急告警。
    • 注销:当每秒启动的注销总数超过指定值时,收到故障或危急告警。
    • Batch Request:输入一个值,当服务器每秒接收的 SQL 批处理请求数满足指定条件时,将收到通知为“故障”或“严重”。
    • SQL Compilations:输入一个值,当每秒 SQL 编译的数量满足为 设置值指定的条件时,将得到通知为“故障”或“严重”。
    • SQL Re-Compilations:输入一个值,当每秒 SQL 重新编译的数量满足为 设置值指定的条件时,将得到通知为“故障”或“严重”。
    • Replication Merge Conflicts:指定一个值,当合并过程中每秒发生的冲突数满足为配置值指定的条件时,将得到通知为“故障”或“严重”。
    • 备份设备吞吐量:指定一个值,当备份设备每秒的读/写吞吐量满足为配置值指定的条件时,将收到通知为故障或危急。
    • Transaction Exceeds:当任何事务的最长运行时间(以秒为单位)满足为 指定值指定的条件时,收到故障或危急告警。
    • 错误数:当每秒的错误数满足为 指定值设置的条件时,收到故障或危急告警。
    • Page Splits: 指定一个值,当每秒的页面拆分数满足为 设置值指定的条件时,将得到通知为“故障”或“严重”。
    • 全面扫描:当每秒不受限制的全面扫描数量满足为配置值指定的条件时,收到故障或危急告警。
  • 内存阈值:
    • 目标服务器内存:当服务器愿意消耗的动态内存总量满足为配置值指定的条件时,收到故障或危急告警。
    • Total Server Memory :当服务器当前使用的动态内存总量满足为配置值指定的条件时,收到故障或危急告警。
    • SQL 缓存内存:当服务器用于动态 SQL 缓存的动态内存总量 满足为配置值指定的条件时,收到故障或危急告警。
    • 优化器内存:当服务器用于查询优化的动态内存总量 满足为配置值指定的条件时,收到故障或危急告警。
    • 连接内存:当服务器用于维护连接的动态内存总量 满足为配置值指定的条件时,收到故障或危急告警。
    • 锁定内存:当服务器用于锁定的动态内存总量 满足为配置值指定的条件时,收到故障或危急告警。
    • 授予的工作空间内存:当授予执行进程的内存总量 满足为配置值指定的条件时,收到故障或危急告警。
    • Pending Memory Grants :当当前等待工作区内存授予的进程数 满足为配置值指定的条件时,收到故障或危急告警。
  • 缓冲区管理器阈值:
    • Buffer Cache Hit Ratio <:当在缓冲池中找到而无需从磁盘读取的页面百分比低于配置值时,将收到告警为“故障”或“严重”。
    • 检查点页面:当检查点或其他需要刷新所有脏页的操作刷新的页面数 满足为配置值指定的条件时,收到故障或危急告警。
    • Lazy Writes :当缓冲区管理器的惰性写入器写入的缓冲区数量 为配置值时,收到故障或危急告警。
    • Page Life Expectancy:当页面在没有引用的情况下停留在缓冲池中的秒数满足为配置值指定的条件时,收到故障或危急告警。
    • 页面读取:当每秒发出的物理数据库页面读取数 满足为配置值指定的条件时,收到故障或危急告警。
    • Page Write :当每秒发出的物理数据库页面写入数 满足为配置值指定的条件时,收到故障或危急告警。
    • 总页数:当缓冲池中的页数 满足为配置值指定的条件时,收到故障或危急告警。
    • DB Pages :当缓冲池中包含数据库内容的页数满足为配置值指定的条件时,收到故障或危急告警。
    • 空闲页面:当所有空闲列表上的页面总数满足为配置值指定的条件时,收到故障或危急告警。
  • 锁定和闩锁阈值:
    • 锁请求:当锁管理器每秒请求的新锁和锁转换的数量满足为配置值指定的条件时,收到故障或危急告警。
    • 锁定超时:当 每秒超时的锁定请求数满足为配置值指定的条件时,收到故障或危急告警。
    • 锁等待 :当最后一秒内锁定的总等待时间(毫秒)  满足为配置值指定的条件时,收到故障或危急告警。
    • 死锁:当每秒导致死锁的锁请求数 满足为配置值指定的条件时,收到故障或危急告警。
    • 平均锁定等待时间:当导致等待的每个锁定请求的平均等待时间(毫秒)  满足为配置值指定的条件时,收到故障或危急告警。
    • 平均锁存等待时间:当必须等待的锁存请求的平均锁存等待时间(毫秒)  满足为配置值指定的条件时,收到故障或危急告警。
    • Latch Wait :当无法立即授予且必须在授予之前等待的闩锁请求  数满足为配置值指定的条件时,将收到故障或危急告警。
  • 工作和计划​​阈值:
    • 计划缓存命中率:当缓存命中和查找之间的比率满足为配置值指定的条件时,收到故障或危急告警。
    • 缓存页:当缓存对象使用的 8k 页面 数满足为配置值指定的条件时,收到故障或危急告警。
    • 缓存对象:当缓存中的缓存对象 数量满足为配置值指定的条件时,收到故障或危急告警。
    • 活动作业计数:当正在运行的作业数量 满足为配置值指定的条件时,收到故障或危急告警。
    • 作业成功率:当成功作业占已执行作业总数的百分比满足为配置值指定的条件时,收到故障或危急告警。
    • 排队作业:当排队的作业数量 满足为配置值指定的条件时,收到故障或危急告警。
    • 失败的作业:当失败的作业数量满足为配置值指定的条件时,收到故障或危急告警。

编辑阈值和可用性配置文件

  1. 单击要编辑的配置文件。
  2. 在添加阈值和可用性窗口中编辑需要更改的参数。
  3. 单击保存

删除阈值和可用性配置文件

  1. 单击需要删除的阈值和可用性屏幕中的配置文件。
  2. 这将导航到添加阈值和可用性窗口。
  3. 单击删除

相关文章

帮助手册 管理 阈值和可用性 阈值和可用性SQL Server