日志管理挑战和解决方案



阿瑟·柯南·道尔的《福尔摩斯探案集》有一句名言:“你看,但你不观察。详尽地收集应用程序日志和解释它们以支持业务目标是两回事。应用程序日志(也称为应用程序日志、事件日志和审核跟踪)是 IT 环境中自动生成的计算事件记录。



日志记录的好处:


应用程序日志记录关键事务以进行监控、安全性和合规性,并确保 IT 产品的整体有效性。应用程序日志还充当 DevOps 工程师的内存通道,提供重要的信息切片,帮助发现异常发生的地点和时间,并修复、保护甚至面向未来的 IT 基础架构。



日志可以全面了解 IT 基础架构的性能和运行状况,从而帮助改善运营并确保为客户提供最佳用户体验。在更大的上下文中,应用程序日志还有助于强制性的记录保存活动,这有助于公司遵守软件 SLA。有效的日志记录还可以帮助您了解系统如何运行和监视恶意活动。


以下是当今 IT 团队面临的主要日志管理挑战以及克服这些挑战的方法:


1:消除杂乱:


在混合云时代,日志记录要求更加重要;数据爆炸;微服务;以及协同工作以提供软件服务的分布式复杂基础架构层。日志数据越多并不总是越好。IT 团队需要上下文来克服日志的过剩。Era 软件的《2022 年可观察性状态和日志管理报告》指出,日志量呈爆炸式增长。百分之七十八的受访者表示,他们最终完全删除了日志以降低云存储成本,从而冒着在关键故障排除期间缺席的风险。



此外,日志混乱可能导致云存储费用飙升。当他们这样做时,许多IT团队可能会清除大量日志数据作为下意识的反应,这可能会清除重要的日志证据。非托管日志混乱还增加了实时监视挑战,并降低了运营效率。此外,日志混乱会导致聚合问题、缺乏清晰度和警报稀释。通过全面的日志管理解决方案,例如Site24x7的AppLogs,可以实现足够的日志存储,检索,处理和关联。


2:解决问题的挑战:


当出现性能问题时,如果日志没有得到有效管理,就不容易立即得出根本原因的结论。由于多个参数可能导致错误,因此第一步是确定是基础结构故障、跟踪错误还是事务错误导致了错误。



此外,强大的问题解决方法将涉及在粒度级别分析日志。例如,假设一个网站出现故障。在这种情况下,必须立即确定原因是应用程序服务器、数据库服务器还是 CPU、内存或磁盘利用率问题,以便准确找到根本原因。要使准确的日志分析能够归零根本原因,您应该研究服务映射以深入到其集群或端口级别的确切组件。需要一个端到端、易于操作的日志管理解决方案,以及经验丰富且训练有素的员工队伍,以确保根本原因分析的精确性和速度。


3:技术挑战:


日志管理中的技术挑战可以归入 3C 的类别:上下文、关联和云。首先是上下文,从广泛的日志集合中获取意义的挑战,这需要人为干预。 其次是相关性,即在日志之间建立联系以获取见解的能力。使用全面的日志分析工具可以实现正确的日志关联,该工具可以全面掌握系统事件并检测问题。此外,日志关联有助于避免误报,确定基于风险的警报的优先级,并更好地调查故障原因。 为了实现有效的日志关联,IT 团队必须在大约 30 天或更长时间的典型时间段内维护最佳日志,具体取决于业务的关键程度。只要需要,就需要对日志重新编制索引(也称为解除冻结)。重新编制索引是从存档存储中检索旧日志并重新编制索引以使其可用于搜索的过程。 第三是将日志存储在云中的成本挑战,这将在下一节中讨论。


4:云成本挑战:



由于需要处理各种日志源,如今的 IT 团队难以调整其日志存储需求的大小,这通常需要动态配置和取消配置。日志记录是一个需要大量存储的过程,一些大型组织会存储 PB 级的数据日志。而且,当您拥有过多的数据时,它还会增加复杂性,并使解决问题变得复杂两倍。这就是为什么应该使用具有分析功能的智能日志管理平台来帮助智能地观察大量数据,从而更快地发现异常。 使用基于云的集中式日志管理解决方案,例如Site24x7,而不是禁用日志,过早删除它们或一时兴起清除它们,这可能会在可观察性中烧掉一个洞。必要时,采用离线冷库和开源工具进行存储、处理和检索(再水合)。确保您拥有至少 30 天的可搜索、可立即访问的日志系统缓存,并具有强大的审计跟踪,并将其余部分存档。


5:可访问性挑战:



IT 团队应确保日志可自动发现,以便捕获日志并将其分类到日志管理平台中。若要实现更大的访问,必须确保日志的良好分类、正确的时间戳和索引。基于查询的搜索的集中可用性可帮助您筛选存储的日志。


6:运营挑战:



跨分布式系统的交叉链接数据可能包含丰富的上下文。动态组件(如容器)是离散环境,其中根据需要创建和销毁进程。复杂 IT 环境中数据生成的变化使得在一个位置管理所有日志变得具有挑战性。它还使得在故障排除期间更难发现特定日志,这可能会对 MTTR 指标产生级联效应。此外,在实时环境中收集日志更具挑战性。这就是为什么全面的日志管理解决方案至关重要的原因。


7: 自动化挑战:



并非所有自动化操作都可以在没有手动干预的情况下完全离开,尤其是在日志管理方面。虽然大部分日志积累已经发生在自动驾驶仪上,但您需要具有正确人类智能的上下文和辨别力,以深入研究日志并实现全面监控以建立自动修复。这就是为什么免提方法对自动化有害的原因。虽然具有讽刺意味,但日志自动化需要及时的专家干预和AIOps功能,以便系统更好地学习和执行,以避免错误警报并提高准确性水平。


总体而言,日志对于 IT 团队的成功至关重要。日志分析有助于缓解问题、改进流程,并为 IT 基础架构的性能和运行状况提供前所未有的可观察性。根据这些信息做出关键决策可以始终如一地改进您的产品和服务。IT 团队需要一个基于云的多合一日志管理平台,只需单击几下即可将可观察性的强大功能带入 IT 团队手中。