向更复杂和分布式应用程序的转移为组织的敏捷性和创新能力创造了奇迹,但它也对那些每天负责管理应用程序正常运行时间的穷人产生了一些流动效应。
许多不同的应用程序组件意味着许多新的潜在错误源,携带寻呼机以得到任何问题的警告的人会遭受越来越多的不合时宜的调用。
+也在网络世界:有个足球雷竞技app在数字时代,应用程序监控已成为一项重要任务+
来自应用监控供应商Datadog通过提供更灵活的报警方法来寻求改变这种模式。Datadog新的复合警报功能旨在减少DevOps和运营团队的警报噪音。这个想法是,这些从业者将有更少的呼吁,花时间在无关紧要的警报,将被提醒或主要的问题。在一种“喊狼来了的男孩”的比喻中,这应该会导致对重要问题的更好回应。
复合警报的工作原理
复合警报允许客户创建经常导致重大停机的可定制症状组合,将信号与噪声分离,并准确识别基础设施和应用程序中的主要问题。这背离了传统的方法,在传统方法中,警报是基于孤立的指标或事件的单一阈值,通常只代表潜在更大问题的症状。这些警报中有很大一部分可能是无关紧要的,需要高强度的体力劳动来确定是否有严重关切的理由。使用复合警报,DevOps团队可以通过首先限制导致警报触发的条件来避免不必要的警报。
在实践中,可以为任何性能指标组合设置复合警报,并可以为警报条件添加改变游戏规则的细微差别。例如,当消息队列增长太长时可能需要警报,但当服务重新启动时则不需要,这可能会导致临时队列增长并触发错误警报。在这种情况下,可以创建一个复合警报,该警报仅在队列长度超过阈值且服务的正常运行时间大于10分钟时触发。然后,团队可以禁用来自原始单一警报的通知,以减少他们收到的警报总数。
在对该版本的评论中,并将其与其他供应商采用的方法区分开来,Datadog是这样说的:
许多公司试图逆向解决这个问题。它们采用的方法是通过进行事件聚合和关联来管理所有已触发的警报,而不是制定关于何时触发警报的武断规则。这些方法在监视传统的遗留应用程序和基础设施方面可能有其地位,但在现代、动态的应用程序中,这些方法很难实现,由于非常高的变化和敏捷性,公司必须让整个团队参与打地鼠游戏。
复合警报似乎受到了测试客户的青睐。一个名为Segment的客户尤其看好分析API和客户数据平台。该公司表示,这种复合方法已经成为其运营团队工作方式的关键部分。
在这个竞争日益激烈的领域,Datadog需要找到差异化的途径。所有Datadog客户都可以立即获得复合警报,这将有助于它实现这一目标。